EP1388145A1 - Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen - Google Patents

Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen

Info

Publication number
EP1388145A1
EP1388145A1 EP02745267A EP02745267A EP1388145A1 EP 1388145 A1 EP1388145 A1 EP 1388145A1 EP 02745267 A EP02745267 A EP 02745267A EP 02745267 A EP02745267 A EP 02745267A EP 1388145 A1 EP1388145 A1 EP 1388145A1
Authority
EP
European Patent Office
Prior art keywords
rhythm information
signal
subband
raw
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP02745267A
Other languages
English (en)
French (fr)
Other versions
EP1388145B1 (de
Inventor
Jürgen HERRE
Jan Rohden
Christian Uhle
Markus Cremer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of EP1388145A1 publication Critical patent/EP1388145A1/de
Application granted granted Critical
Publication of EP1388145B1 publication Critical patent/EP1388145B1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/135Autocorrelation

Definitions

  • the present invention relates to signal processing concepts and, in particular, to the analysis of audio signals with regard to rhythm information.
  • semantically relevant features make it possible to model similarity relationships between pieces that come close to human perception.
  • the use of features that have semantic meaning also makes it possible, for example, to automatically propose pieces that are of interest to a particular user if his preferences are known.
  • the tempo is an important musical parameter that has semantic meaning.
  • the tempo is usually measured in "beats per minute” (BPM).
  • BPM beats per minute
  • the automatic extraction of the tempo as well as the beats of the "beat” or generally speaking the automatic extraction of rhythm information is an example of obtaining a semantically important feature of a piece of music.
  • beat tracking For the determination of the center of gravity and thus also the tempo, d. H.
  • rhythm information For the determination of rhythm information, the term "beat tracking" has also become established in the specialist circles. It is already known from the prior art to use beat tracking on the basis of a note-like or transcribed signal representation, for example in the midi The aim, however, is not to require such a meta representation, but to carry out an analysis directly with, for example, a PCM-coded or, generally speaking, digitally available audio signal.
  • the input signal is split into a series of subbands by means of a filter bank, for example into 6 subbands with crossover frequencies of 200 Hz> 400 Hz, 800 Hz, 1600 Hz and 3200 Hz.
  • Low pass filtering is carried out for the first subband.
  • Sub-band is high-pass filtered, band-pass filtering is described for the remaining sub-bands in between.
  • Each sub-band is processed as follows.
  • the sub-band signal is first rectified.
  • the absolute value of the samples is determined.
  • the resulting n values are then smoothed, for example with an averaging over a suitable window to egg n receive envelope signal.
  • the envelope signal can be subsampled to reduce the computational complexity.
  • the envelope signals are differentiated, ie Sudden changes in the signal amplitude are preferably passed on through the differentiation filter. The result is then limited to non-negative values.
  • Each envelope signal is then placed in a bank of resonant filters, ie oscillators, each containing a filter for each tempo range, so that the filter that matches the musical tempo is most strongly stimulated.
  • the energy of the output signal is calculated as a measure of the correspondence between the tempo of the input signal and the tempo associated with the filter.
  • the energies for each tempo are finally summed up over all subbands, the largest energy sum identifying the tempo supplied as the result, ie the rhythm information.
  • a major disadvantage of this method is the great computation and storage complexity, in particular for realizing the large number of parallel-oscillating “oscillators”, of which only one is ultimately selected. This makes efficient implementation, for example for real-time applications, almost impossible.
  • the known algorithm is shown in Fig. 3 as a block diagram.
  • the audio signal is input via an audio input 300 ner analysis filter bank 302 supplied.
  • the analysis filter bank generates a number n of channels, ie individual subband signals, from the audio input. Each subband signal contains a certain range of frequencies of the audio signal.
  • the filters of the analysis filter bank are selected so that they approximate the selection characteristics of the human inner ear.
  • Such an analysis filter bank is also referred to as a gamma-tone filter bank.
  • rhythm information of each subband signal is evaluated in the devices 304a to 304c.
  • an envelope-like output signal is first calculated (corresponding to a so-called “inner hair cell” processing in the ear) and subsampled.
  • An autocorrelation function is calculated from this result in order to determine the periodicity of the signal as a function of the delay, ie the " Lag ".
  • An autocorrelation function which represents aspects of the rhythm information of each subband signal, is then present at the output of the devices 304a to 304c for each subband signal.
  • the individual autocorrelation functions of the subband signals are then combined in a device 306 by summation in order to obtain a sum autocorrelation function (SAKF) which reproduces the rhythm information of the signal at the audio input 300.
  • SAKF sum autocorrelation function
  • This information can be output at a tempo output 308.
  • Large values in the total autocorrelation indicate that there is a high periodicity of the beginning of notes for a delay (lag) assigned to a peak of the SAKF. Therefore, for example, the greatest value of the sum auto-correlation function is sought within the musically sensible delays.
  • Musicly sensible delays include the tempo range between 60 bpm and 200 bpm.
  • Means 306 may also be arranged to convert a delay time into tempo information. For example, a peak of a one second delay corresponds to a rate of 60 beats per minute. Smaller delays indicate higher speeds, while larger delays indicate lower speeds than 60 bpm.
  • This method has an advantage over the first-mentioned method in that no oscillators need to be implemented with a large amount of computation and memory.
  • the concept is disadvantageous in that the quality of the results depends very much on the type of audio signal. If, for example, a dominant rhythm instrument can be heard from an audio signal, the concept described in FIG. 3 will work well. If, on the other hand, the voice is dominant, which will not provide particularly clear rhythm information, the rhythm determination will be ambiguous. In the audio signal there could also be a tape that only contains rhythm information, ie.z. B.
  • the sum autocorrelation function, obtained by means 306 is ambiguous.
  • the sum autocorrelation function at output 306 is ambiguous in that an autocorrelation function peak is generated even when a delay is multiplied. This is understandable from the fact that a sine component with a period of tO, if it is subjected to an auto-correlation function processing, generates maxi a at multiples of the delays, ie at 2t0, 3t0, etc., in addition to the desired maximum at tO.
  • the calculation model divides the signal into two channels, namely a channel below 1000 Hz and a channel above 1000 Hz. From this an autocorrelation of the lower channel and an autocorrelation of the envelope curve of the upper channel are calculated.
  • ESACF Enhanced Summary-Autocorrelation Function
  • the object of the present invention is to create a computing time-efficient and robust device and a computing time-efficient and robust method for analyzing an audio signal with regard to rhythm information. This object is achieved by a device for analyzing an audio signal according to claim 1 or by a method for analyzing an audio signal according to claim 11.
  • the present invention is based on the knowledge that in the individual frequency bands, i. H. the sub-bands, there are often different favorable conditions for finding rhythmic periodicities. While in pop music, for example, the signal is often dominated in the middle range, for example around 1 kHz, by vocals that do not correspond to the beat, percussion sounds are often present in the higher frequency ranges. B. the hi-hat of the drums, which allow a very good extraction of rhythmic regularities. In other words, depending on the audio signal, different frequency bands contain a different amount of rhythmic information or have a different quality or significance for the rhythm information of the audio signal.
  • the audio signal is therefore first broken down into subband signals. Any subband signal. is examined for its periodicity to obtain raw rhythm information for each subband signal. An evaluation of the quality of the periodicity of each subband signal is then carried out in accordance with the present invention in order to obtain a measure of significance for each subband signal. A high level of significance indicates that there is clear rhythm information in this subband signal, while a low level of significance indicates that there is less clear rhythm information in this subband signal.
  • a modified envelope curve of the subband signal is first calculated and then an autocorrelation function of the envelope curve is calculated.
  • the autocorrelation function of the envelope represents the raw rhythm information.
  • Clear rhythm information is available if the autocorrelation function has clear maxima, while less clear rhythm information is available if the autocorrelation function of the envelope of the subband signal has fewer pronounced signal peaks or no signal peaks at all.
  • An autocorrelation function that has significant signal peaks is therefore given a high level of significance, while an autocorrelation function that has a relatively flat profile is obtained a low level of significance.
  • the individual raw rhythm information of the individual subband signals are not simply combined “blindly”, but are used for each subband signal, taking into account the significance measure, in order to obtain the rhythm information of the audio signal. If a subband signal has a high significance measure, it becomes so when determining the rhythmin - - Formations preferred, while a ... sub-band signal that has a low degree of significance, ie that has a low quality with regard to the rhythm information, is hardly taken into account in the determination of the rhythm information of the audio signal or, in extreme cases, is not taken into account at all.
  • this weighting can result in all subband signals except the one subband signal receiving a weighting factor of 0, i.e. not at all when determining the rhythm information are taken into account, so that the rhythm information of the audio signal is determined only from a single subband signal.
  • the concept according to the invention is advantageous in that it enables the rhythm information to be determined robustly, since subband signals with no clear or even deviating rhythm information, ie if the vocals have a different rhythm than the actual beat of the piece, do not contain the rhythm information of the audio signal. water down "or” falsify ". They also become very intoxicating.
  • Subband signals,. wel ⁇ he__ .. provide a system autocorrelation function with a completely flat profile, do not deteriorate the signal / noise ratio when determining the rhythm information. Exactly this would occur, however, if, as in the prior art, all the autocorrelation functions of the subband signals were simply added up with the same weight.
  • Another advantage of the method according to the invention is that a significance measure can be determined with a small additional computing effort, and that the evaluation of the raw rhythm information with the significance measure and the subsequent summation can be carried out efficiently without a large amount of memory and computing time, which the concept according to the invention also recommends in particular for real-time applications.
  • FIG. 1 shows a block diagram of a device for analyzing an audio signal with a quality evaluation of the raw rhythm information
  • FIG. 2 shows a block diagram of a device for analyzing an audio signal using weighting factors on the basis of the significance measures
  • FIG. 3 shows a block diagram of a known device for analyzing an audio signal with regard to rhythm information
  • FIG. 4 shows a block diagram of a device for analyzing an audio signal with regard to rhythm information using an autocorrelation function with a subband-wise postprocessing of the rhythm raw information
  • FIG. 5 shows a detailed block diagram of the device for post-processing from FIG. 4.
  • FIG. 1 shows a block diagram of a device for analyzing an audio signal with regard to rhythm information.
  • the audio signal is transmitted via an input 100 to a device 102 for splitting the audio signal into at least two Subband signals 104a and 104b supplied.
  • Each subband signal 104a, 104b is fed into means 106a and 106b for examining it for periodicities in the subband signal to obtain raw rhythm information 108a and 108b for each subband signal.
  • the raw rhythm information is then fed to a device 110a or 110b for evaluating a quality of the periodicity of each of the at least two subband signals in order to obtain a significance measure 112a, 112b for each of the at least two subband signals.
  • Both the raw rhythm information 108a, 108b and the significance measures 112a, 112b are fed to a device 114 for determining the rhythm information of the audio signal.
  • the device 114 takes into account the significance measures 112a, 112b for the subband signals and the raw rhythm information 108a, 108b of at least one subband signal.
  • the device 110a for quality assessment has determined, for example, that there is no particular periodicity in the subband signal 104a, the significance measure 112a will be very small or equal to 0.
  • the device -114- for determining the rhythm information determines that the significance measure 112a is equal to zero, so that the raw rhythm information 108a of the subband signal 104a is no longer taken into account when determining the rhythm information of the audio signal Need to become.
  • the rhythm information of the audio signal is then determined solely and exclusively on the basis of the raw rhythm information 108b of the subband signal 104b.
  • FIG. 2 is discussed with regard to a special embodiment of the device from FIG. 1.
  • a device 102 for decomposing the audio signal a conventional before analysis filter bank are used, which delivers a user-selectable number of subband signals on the output side.
  • Each subband signal is then subjected to the processing of the devices 106a, 106b and 106c, whereupon the devices 110a to 110c then determine significance measures of each raw rhythm information.
  • the device 114 comprises a device 114a for calculating weighting factors for each subband signal on the basis of the significance measure for this subband signal and optionally also for the other subband signals.
  • a weighting of the raw rhythm information 108a to 108c then takes place in the device 114b with the weighting factor for this subband signal, whereupon, also in the device 114b, the weighted raw rhythm information is combined, e.g. B. summed up, in order to obtain the rhythm information of the audio signal at the tempo output 116.
  • the inventive concept turns' thus follows. After evaluating the rhythmic information of the individual bands which .stattfinden example, envelope shaping, smoothing, differentiating, limiting to positive values and making -the autocorrelation function., Can (Einrich- .. obligations 106a to 106c), an evaluation of the value or the quality of these intermediate results takes place in the devices 110a to 110c.This is achieved with the aid of an evaluation function which evaluates the reliability of the individual results with a significance measure. The significance measures of all subband signals become a weighting factor for each band for the extraction of the rhythm information The overall result of the rhythm extraction is then achieved in the device 114b by combining the band-wise individual results taking into account their respective weighting factors. As a result, an algorithm for rhythm analysis implemented in this way shows a good ability to reliably find rhythmic information in a signal even under unfavorable conditions. The concept according to the invention is therefore characterized by a high level of robustness.
  • the raw rhythm information 108a, 108b, 108c which represent the periodicity of the respective subband signal, is determined by means of an autocorrelation function.
  • the significance measure by dividing a maximum of the autocorrelation function by an average of the autocorrelation function and then subtracting the value 1. It should be noted that every autocorrelation function always delivers a local maximum at a delay of 0, which represents the energy of the signal. This maximum should be disregarded so that the quality determination is not falsified.
  • the autocorrelation function should only be considered in a special tempo range, ie from a maximum deceleration, .. which corresponds to the smallest, inter, e.ss., n, > tempo, to a minimum deceleration, which corresponds to the highest of interest Pace corresponds.
  • a typical tempo range is between 60 bpm and 200 bpm.
  • the ratio between the arithmetic mean value of the autocorrelation function in the tempo area of interest and the geometric mean value of the autocorrelation function in the tempo area of interest can be determined as a significance measure. It is known that if all values of the autocorrelation function are the same, ie if the autocorrelation function has a flat course, the geometric one The mean value of the autocorrelation function and the arithmetic mean value of the autocorrelation function are the same. In this case, the significance measure would have a value of 1, which means that the raw rhythm information is not significant.
  • the ratio of the arithmetic mean to the geometric mean would be greater than 1, which means that the auto-correlation function has good rhythm information.
  • the smaller the ratio between the arithmetic mean and the geometric mean the flatter the autocorrelation function and the fewer periodicities it contains, which in turn means that the rhythm information of this subband signal is less significant, i. H. have a lower quality, which will result in a low or a weighting factor of 0.
  • a relative weighting is preferred, such that all weighting factors of all subband signals add up to 1, i. H. that the weighting factor of a band,. «- is determined-.-,. ,,, as ,,, the significance value. « ... this, it.,tician. band divided by the sum of all significance values.
  • a relative weighting is carried out before the summation of the weighted raw rhythm information in order to obtain the rhythm information of the audio signal.
  • the audio signal is fed via the audio signal input 100 into the device 102 for splitting the audio signal into subband signals 104a and 104b.
  • Each subband signal is then examined in the device 106a or 106b, as has been carried out, using an autocorrelation function in order to determine the periodicity of the subband signal.
  • the raw rhythm information 108a, 108b is then available at the output of the device 106a or 106b. These are fed into a device 118a or 118b in order to postprocess the raw rhythm information output by the device 116a by means of the autocorrelation function.
  • the quality assessment can, however, also take place on the basis of the post-processed raw rhythm information, this latter possibility being preferred since the quality assessment on the basis of the post-processed rhythm Raw information ensures that the quality of information that is no longer ambiguous is assessed.
  • the determination of the rhythm information by means 114 then takes place on the basis of postprocessed rhythm information of a channel and preferably also on the basis of the significance measure for this channel.
  • a quality assessment is carried out on the basis of the raw rhythm information, i.e. the signal in front of the device 118a, this is advantageous in that if it is determined that the significance measure is equal to 0, i. H. that the autocorrelation function has a flat course, the postprocessing by means of the device 118a can be dispensed with entirely in order to save computing time resources.
  • FIG. 5 is discussed in order to show a more detailed structure of a device 118a or 118b for postprocessing the rhythm raw information.
  • the subband signal for example 104a
  • a spread auto-correlation function can be calculated by means of a device 121, the device 121 being arranged to calculate the spread auto-correlation function so that it is spread by an integral multiple of a delay .
  • Means 122 is arranged in this case to subtract the spread autocorrelation function from the original autocorrelation function, ie the raw rhythm information 108a.
  • an autocorrelation function spread by a factor of 3 is calculated in the device 121 and subtracted from the result of the previous subtraction, so that all ambiguities are gradually eliminated from the raw rhythm information.
  • the device 121 can be arranged to calculate an autocorrelation function compressed by an integer factor, which is then added by the device 122 to the rhythm raw information in order to also include components for delays t0 / 2, tO / 3, etc . to create.
  • the spread or compressed versions of the raw rhythm information 108a can be weighted before adding or subtracting, in order to achieve flexibility in the sense of a high level of robustness.
  • the periodicity "-.kan -So _a more Improvement .. he elt z. 1 J -W. are “,. ,, if. the. Properties of the autocorrelation function are included and the post-processing is carried out using the device 118a or 118b.
  • a periodic sequence of note starts with a distance tO not only generates an AKF peak with a delay tO but also at 2t0, 3t0, etc. This will lead to ambiguity in the tempo detection, i.e. the search for significant maxima in the autocorrelation function.
  • the ambiguities can be cleared if versions of the AKF that are spread by integer factors are subtracted from the initial value on a sub-band basis (weighted). Furthermore, there is the problem with the autocorrelation function that it does not provide any information at tO / 2, t0 / 3 ... etc., that is to say at twice, three times, etc. of the “basic tempo”, which can lead to incorrect results especially if Two instruments that are in different subbands together define the rhythm of the signal, which is taken into account by calculating versions of the auto-correlation function that are compressed by integer factors, and then adding or unweighting these to the raw rhythm information.
  • the AKF postprocessing thus takes place sub-band, whereby an autocorrelation function is calculated for at least one sub-band signal and this is combined with stretched or spread versions of this function.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

Eine Vorrichtung zum Analysieren eines Audiosignals hinsicht-lich von Rhythmusinformationen des Audiosignals umfassend eine Filterbank zum Zerlegen (102) des Audiosignals in zumindest zwei Teilbandsignale. Jedes Teilbandsignal wird hinsichtlich einer Periodizität des Teilbandsignals untersucht (106a, 106b), um Rhythmus-Rohinformationen jedes Teilbandsignals zu erhalten. Die Rhythmus-Rohinformationen werden einer Quali-tätsbeurteilung (110a, 110b) unterzogen, um ein Signifikanzmaß für jedes Teilbandsignal zu erhalten. Die Rhythmusinformatio-nen des Audiosignals werden schließlich unter Berücksichtigung des Signifikanzmaßes des Teilbandsignals und der Rhythmus-Rohinformationen ermittelt (114). Dies ermöglicht eine robu-stere Analyse des Audiosignals, da Teilbandsignale, in denen deutliche Rhythmusinformationen vorliegen, gegenüber Teilband-signalen, in denen weniger deutliche Rhythmusinformationen vorliegen, beim Ermitteln der Rhythmusinformationen bevorzugt werden.

Description

Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von RhythmusInformationen
Beschreibung
Die vorliegende Erfindung bezieht sich auf Signalverarbeitungskonzepte und insbesondere auf die Analyse von Audiosignalen hinsichtlich von RhythmusInformationen.
In den letzten Jahren ist die Verfügbarkeit multimedialen Datenmaterials, wie z. B. Audio- oder Video-Daten, stark gestiegen. Dies ist auf eine Reihe von technischen Faktoren zurückzuführen, welche sich insbesondere auf die breite Verfügbarkeit des Internets, von leistungsfähiger Rechnerhard- und Software sowie von leistungsfähigen Verfahren zur Datenkompression, d. h. Quellcodierung, von Audio- und Videoverfahren stützen.
Die riesigen Mengen audiovisueller Daten, die beispielsweise auf dem Internet weltweit verfügbar sind, verlangen nach Konzepten, die es ermöglichen, diese Daten nach inhaltlichen Kriterien beurteilen, katalogisieren usw. zu können. Es besteht der Wunsch, in der Lage zu sein, multimediale Daten gezielt durch Angabe sinnvoller Kriterien zu suchen und aufzufinden.
Dies erfordert sogenannte „inhaltsbasierter" Techniken, die aus den audiovisuellen Daten sogenannte Merkmale, die in Fachkreisen auch als „Features" bezeichnet werden, extrahieren, welche wichtige charakteristische Eigenschaften des Signals repräsentieren. Basierend auf solchen Merkmalen bzw. Kombinationen dieser Merkmale können Ähnlichkeitsbeziehungen bzw. Gemeinsamkeiten zwischen Audio- oder Videosignalen hergeleitet werden. Dieser Vorgang erfolgt durch Vergleich bzw. In- Beziehung-Setzen der extrahierten Merkmalswerte aus den verschiedenen Signalen, welche auch einfach als „Stücke" bezeichnet werden.
Von besonderem Interesse ist die Bestimmung bzw. Extraktion von Merkmalen, die nicht nur signaltheoretische, sondern möglichst unmittelbare semantische Bedeutung haben, d. h. vom Hörer unmittelbar empfundene Eigenschaften repräsentieren.
Dies ermöglicht es dem Benutzer, auf einfache und intuitive Weise Suchanfragen zu formulieren, um Stücke aus dem gesamten vorhandenen Datenbestand einer Audiosignal-Datenbank zu finden. Ebenso erlauben es semantisch relevante Merkmale, Ähnlichkeitsbeziehungen zwischen Stücken zu modellieren, die der menschlichen Empfindung nahe kommen. Die Verwendung von Merkmalen, die semantische Bedeutung haben, ermöglicht auch beispielsweise ein automatisches Vorschlagen von für einen bestimmten Benutzer interessanten Stücken, wenn seine Vorlieben bekannt sind.
Im Bereich der Musikanalyse ist das Tempo ein wichtiger musikalischer Parameter, der semantische Bedeutung hat. Das Tempo wird üblicherweise in „Beats per Minute" (BPM) gemessen. Die automatische Extraktion des Tempos sowie der Taktschwerpunkte des „Beats" bzw. allgemein gesagt die automatische Extraktion von Rhythmusinformationen, ist ein Beispiel für die Gewinnung eines semantisch wichtigen Merkmals eines Musikstückes.
Weiterhin besteht ein Wunsch dahingehend, dass die Merkmalsextraktion, d. h. das Extrahieren von RhythmusInformationen aus einem Audiosignal, robust und recheneffizient stattfinden kann. Robustheit bedeutet, dass es keine Rolle spielen darf, ob das Stück quellcodiert und wieder decodiert worden ist, ob das Stück über einen Lautsprecher abgespielt und von einem Mi- Mikrophon empfangen worden ist, ob es laut oder leise gespielt wird, oder ob es von einem Instrument oder einer Mehrzahl von Instrumenten gespielt wird.
Für die Bestimmung der Taktschwerpunkte und damit auch des Tempos, d. h. für die Bestimmung von Rhythmusinformationen, hat sich in den Fachkreisen auch der Begriff „Beat Tracking" etabliert. Aus dem Stand der Technik ist es bereits bekannt, ein Beat Tracking auf der Basis einer notenartigen bzw. transkribierten Signaldarstellung, z. B. im Midi-Format, durchzuführen. Ziel ist es jedoch, keine solchen Metadarstellungen zu benötigen, sondern eine Analyse direkt mit einem z. B. PCM- codierten oder allgemein gesagt digital vorliegenden Audiosignal vorzunehmen.
Die Fachveröffentlichung „Tempo and Beat Analysis of Acoustic Musical Signals" von Eric D. Scheirer, J. Acoust . Soc. Am. 103:1, (Jan 1998), Seiten 588 - 601, offenbart ein Verfahren zur automatischen Extraktion eines rhythmischen Pulses aus musikalischen Exzerpten. Das Eingangssignal wird mittels einer Filterbank in eine Reihe von Teilbändern aufgespalten, beispielsweise in 6 Teilbänder mit Übergangsfrequenzen von 200 Hz> 400 Hz, 800 Hz, 1600 Hz und 3200 Hz. Für das erste Teilband wird eine Tiefpassfilterung durchgeführt. Für das letzte Teilband wird eine Hochpassfilterung durchgeführt, für die restlichen, dazwischen liegenden Teilbände wird eine Bandpassfilterung beschrieben. Jedes Teilband wird folgendermaßen verarbeitet. Das Teilbandsignal wird zunächst gleichgerichtet. In anderen Worten ausgedrückt wird der Absolutbetrag der Abtastwerte bestimmt. Die resultierenden n Werte werden dann geglättet, beispielsweise mit einer Mittelung über ein geeignetes Fenster, um ein Hüllkurvensignal zu erhalten. Zur Senkung der Rechenkomplexität kann das Hüllkurvensignal unterabgetastet werden. Die Hüllkurvensignale werden differenziert, d. h. plötzliche Änderungen der Signalamplitude werden durch das Differenzierungsfilter bevorzugt weitergeleitet. Das Resultat wird dann auf nicht-negative Werte begrenzt. Jedes Hüllkurvensignal wird dann in eine Bank resonanter Filter, d. h. Oszillatoren, gegeben, die jeweils ein Filter für jeden Tempobereich enthalten, so dass das zum musikalischen Tempo passende Filter am stärksten angeregt wird. Für jedes Filter wird die Energie des Ausgangssignals als Maß für die Übereinstimmung des Tempos des Eingangssignals mit dem zum Filter gehörigen Tempo berechnet. Die Energien für jedes Tempo werden schließlich über alle Teilbänder aufsummiert, wobei die größte Energiesumme das als Resultat gelieferte Tempo, d. h. die Rhythmusinformationen, kennzeichnet.
Ein wesentlicher Nachteil dieses Verfahrens besteht in der großen Rechen- und Speicherkomplexität insbesondere zur Realisierung der großen Zahl von parallelschwingenden „Oszillatoren", von denen letztlich nur ein einziger ausgewählt wird. Dies macht eine effiziente Implementierung beispielsweise für EchtZeitanwendungen nahezu unmöglich.
Die Fachveröffentlichung „Pulse Tracking with a Pitch Tracker" von Eric D. Scheirer> Proc. 1997 Workshop on Applications of- Signal Processing to Audio and Acoustics, Mohonk, NY, Oct 1997, beschreibt einen Vergleich des oben beschriebenen „Oszillatorkonzeptes" mit einem Alternativkonzept, das auf der Verwendung von Autokorrelationsfunktionen zur Extraktion der Periodizität aus einem Audiosignal, d. h. der Rhythmusinformationen eines Signals, aufbaut. Ein Algorithmus zur Modulierung der menschlichen Tonhöhenwahrnehmung, d. h. des Pitch, wird für das „Beat Tracking" eingesetzt.
Der bekannte Algorithmus ist in Fig. 3 als Blockdiagramm dargestellt. Das Audiosignal wird über einen Audioeingang 300 ei- ner Analyse-Filterbank 302 zugeführt. Die Analyse-Filterbank erzeugt aus dem Audioeingang eine Anzahl n von Kanälen, d. h. von einzelnen Teilbandsignalen. Jedes Teilbandsignal enthält einen bestimmten Bereich an Frequenzen des Audiosignals. Die Filter der Analyse-Filterbank sind so ausgewählt, dass sie die Selektionscharakteristik des menschlichen Innenohrs annähern. Eine solche Analyse-Filterbank wird auch als Gamma-Ton- Filterbank bezeichnet.
In den Einrichtungen 304a bis 304c werden die Rhythmus- Informationen jedes Teilbandsignals ausgewertet. Für jedes Eingangssignal wird zunächst ein hüllkurvenartiges Ausgangssignal berechnet (entsprechend einer sogenannten „Inner Hair Cell"-Verarbeitung im Ohr) und unterabgetastet. Aus diesem Resultat wird eine Autokorrelationsfunktion (AKF) berechnet, um die Periodizität des Signals als Funktion der Verzögerung, d. h. des „Lag" zu erhalten.
Am Ausgang der Einrichtungen 304a bis 304c liegt dann für jedes Teilbandsignal eine Autokorrelationsfunktion vor, welche Aspekte der Rhythmus-Informationen jedes Teilbandsignals darstellt.
Die einzelnen Autokorrelationsfunktionen der Teilbandsignale werden dann in einer Einrichtung 306 durch Summation kombiniert, um eine Summenautokorrelationsfunktion (SAKF) zu erhalten, welche die Rhythmus-Informationen des Signals am Audio- Eingang 300 wiedergibt. Diese Informationen können an einem Tempo-Ausgang 308 ausgegeben werden. Große Werte in der Sum- menautokorrelation zeigen an, dass für eine einer Spitze der SAKF zugeordneten Verzögerung (Lag) eine hohe Periodizität der Notenanfänge .vorliegt. Daher wird beispielsweise der größte Wert der Summenautokorrelationsfunktion innerhalb der musikalisch sinnvollen Verzögerungen gesucht. Musikalisch sinnvolle Verzögerungen sind beispielsweise der Tempobereich zwischen 60 bpm und 200 bpm. Die Einrichtung 306 kann ferner angeordnet sein, um eine Verzögerungszeit in Tempoinformationen umzusetzen. So entspricht beispielsweise eine Spitze einer Verzögerung von einer Sekunde einem Tempo von 60 Schlägen pro Minute. Kleinere Verzögerungen deuten auf höhere Tempos hin, während größere Verzögerungen auf kleinere Tempos als 60 bpm hinweisen.
Dieses Verfahren hat gegenüber dem zuerst genannten Verfahren einen Vorteil dahingehend, dass keine Oszillatoren mit großem Rechen- und Speicheraufwand implementiert werden müssen. Andererseits ist das Konzept dahingehend nachteilhaft, dass die Qualität der Ergebnisse sehr stark von der Art des Audiosignals abhängt. Ist aus einem Audiosignal beispielsweise ein dominantes Rhythmusinstrument herauszuhören, so wird das in Fig. 3 beschriebene Konzept gut funktionieren. Ist dagegen die Stimme dominant, welche keine besonders eindeutigen Rhythmusinformationen liefern wird, so wird die Rhythmusbestimmung mehrdeutig sein. In dem Audiosignal könnte durchaus auch ein Band vorkommen, das lediglich Rhythmusinformationen enthält, ie.z. B. ein höheres Frequenzband, in dem beispielsweise ein Hihat eines Schlagzeugs positioniert ist, oder ein niedriges Frequenzband, in dem die große Trommel eines Schlagzeugs auf der Frequenzskala positioniert ist. Aufgrund der Kombination der Einzelinformationen werden jedoch die einigermaßen eindeutigen Informationen dieser speziellen Teilbänder von den mehrdeutigen Informationen der anderen Teilbänder überlagert bzw. „verwässert".
Ein weiteres Problem bei der Verwendung von Autokorrelationsfunktionen zum Extrahieren der Periodizität eines Teilbandsignals besteht darin, dass die Summen-Autokorrelationsfunktion, die durch die Einrichtung 306 gewonnen wird, mehrdeutig ist. Die Summen-Autokorrelationsfunktion am Ausgang 306 ist dahingehend mehrdeutig, dass auch beim Vielfachen einer Verzögerung eine Autokorrelationsfunktions-Spitze erzeugt wird. Dies ist daraus verständlich, dass eine Sinuskomponente mit einer Periode von tO, wenn sie einer Autokorrelationsfunktionverarbei- tung unterzogen wird, neben dem gewünschten Maximum bei tO auch Maxi a bei Vielfachen der Verzögerungen, d. h. bei 2t0, 3t0, usw. erzeugt.
Die Fachveröffentlichung „A Computationally Efficient Multi- pitch Analysis Model", von Tolonen und Karjalainen, IEEE Tran- sactions on Speech and Audio Processing, Band 8, Nr. 6, Nov. 2000, offenbart ein rechenzeiteffizientes Modell für eine Pe- riodizitätsanalyse von komplexen Audiosignalen. Das Rechenmodell teilt das Signal in zwei Kanäle auf, und zwar in einen Kanal unter 1000 Hz und einen Kanal über 1000 Hz. Hieraus wird eine Autokorrelation des unteren Kanals und eine Autokorrelation der Hüllkurve des oberen Kanals berechnet. Schließlich werden die beiden Autokorrelationsfunktionen summiert. Um die Mehrdeutigkeiten der Summenautokorrelationsfunktion zu eliminieren, wird die Summenautokorrelationsfunktion weiterverarbeitet, um eine sogenannte Enhanced Summary -Autocorrelation Function (ESACF) (Weiterentwickelte Summenautokorrelationsfunktion) zu erhalten. Diese Nachbearbeitung der Summenautokorrelationsfunktion beinhaltet ein wiederholtes Abziehen von mit ganzzahligen Faktoren gespreizten Versionen der Autokorrelationsfunktion von der Summenautokorrelationsfunktion mit nachfolgender Begrenzung auf nicht-negative Werte.
Die Aufgabe der vorliegenden Erfindung besteht darin, eine rechenzeiteffiziente und robuste Vorrichtung und ein rechenzeit- effizientes und robustes Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen zu schaffen. Diese Aufgabe wird durch eine Vorrichtung zum Analysieren eines Audiosignals nach Patentanspruch 1 oder durch ein Verfahren zum Analysieren eines Audiosignals nach Patentanspruch 11 gelöst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass in den einzelnen Frequenzbändern, d. h. den Teilbändern, oftmals unterschiedlich günstige Bedingungen für das Auffinden von rhythmischen Periodizitäten herrschen. Während beispielsweise bei Popmusik oftmals im Bereich der Mitte, beispielsweise um 1 kHz, das Signal von nicht mit dem Beat korrespondierenden Gesang dominiert wird, sind in den höheren Frequenzbereichen oftmals vor allem Perkussionsklänge präsent, wie z. B. das Hihat des Schlagzeugs, welche eine sehr gute Extraktion rhythmischer Regelmäßigkeiten erlauben. Anders ausgedrückt beinhalten unterschiedliche Frequenzbänder je nach Audiosignal eine unterschiedliche Menge an rhythmischer Information bzw. haben eine unterschiedliche Qualität oder Signifikanz für die Rhythmusinformationen des Audiosignals.
Erfindungsgemäß wird daher das Audiosignal zunächst in Teilbandsignale- zerlegt. Jedes Teilbandsignal . wird hinsichtlich seiner Periodizität untersucht, um Rhythmus-Rohinformationen für jedes Teilbandsignal zu erhalten. Hierauf wird gemäß der vorliegenden Erfindung eine Bewertung der Qualität der Periodizität jedes Teilbandsignals durchgeführt, um ein Signifikanzmaß für jedes Teilbandsignal zu erhalten. Ein hohes Signifikanzmaß deutet darauf hin, dass in diesem Teilbandsignal deutliche Rhythmusinformationen vorliegen, während ein niedriges Signifikanzmaß darauf hindeutet, dass in diesem Teilbandsignal weniger eindeutige Rhythmusinformationen vorliegen. Gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird bei der Untersuchung eines Teilbandsignals hinsichtlich seiner Periodizitäten zunächst eine modifizierte Hüllkurve des Teilbandsignals berechnet und dann eine Autokorrelationsfunktion der Hüllkurve berechnet. Die Autokorrelationsfunktion der Hüllkurve stellt die Rhythmus-Rohinformationen dar. Eindeutige Rhythmusinformationen liegen vor, wenn die Autokorrelationsfunktion deutliche Maxima aufweist, während weniger eindeutige Rhythmusinformationen vorliegen, wenn die Autokorrelationsfunktion der Hüllkurve des Teilbandsignals weniger ausgeprägte Signalspitzen oder überhaupt keine Signalspitzen hat. Eine Autokorrelationsfunktion, die deutliche Signalspitzen hat, wird daher ein hohes Signifikanzmaß erhalten, während eine Autokorrelationsfunktion, die einen relativ flachen Verlauf hat, ein niedriges Signifikanzmaß erhalten wird.
Erfindungsgemäß werden die einzelnen Rhythmus-Rohinformationen der einzelnen Teilbandsignale nicht einfach „blind" kombiniert, sondern unter Berücksichtigung des Signifikanzmaßes für jedes Teilbandsignal verwendet, um die Rhythmusinformationen des Audiosignals zu erhalten. Hat ein Teilbandsignal ein hohes Signifikanzmaß, so wird es bei der Ermittlung der Rhythmusin- - formationen bevorzugt, während , ein...Teilbandsignal, das ,ein niedriges Signifikanzmaß hat, d. h. das eine niedrige Qualität hinsichtlich der Rhythmusinformationen aufweist, bei der Ermittlung der Rhythmusinformationen des Audiosignals kaum oder im Extremfall überhaupt nicht berücksichtigt wird.
Dies kann rechenzeiteffizient gut durch einen Gewichtungsfaktor implementiert werden, der von dem Signifikanzmaß abhängt. Während ein Teilbandsignal, das eine gute Qualität für die Rhythmusinformationen hat, d. h. das ein hohes Signifikanzmaß hat, einen Gewichtungsfaktor von 1 erhalten könnte, wird ein anderes Teilbandsignal, das ein kleineres Signifikanzmaß hat, einen Gewichtungsfaktor kleiner als 1 erhalten. Im Extremfall wird ein Teilbandsignal, das eine vollkommen flache Autokorrelationsfunktion hat, einen Gewichtungsfaktor von 0 haben. Die gewichteten Autokorrelationsfunktionen, d. h. die gewichteten Rhythmus-Rohinformationen werden dann einfach aufsummiert. Wenn lediglich ein Teilbandsignal sämtlicher Teilbandsignale gute Rhythmusinformationen liefert, während die anderen Teilbandsignale Autokorrelationsfunktionen mit einem flachen Verlauf aufweisen, kann diese Gewichtung im Extremfall dazu führen, dass alle Teilbandsignale außer dem einen Teilbandsignal einen Gewichtungsfaktor von 0 erhalten, d. h. bei der Ermittlung der RhythmusInformationen überhaupt nicht berücksichtigt werden, so dass die RhythmusInformationen des Audiosignals lediglich aus einem einzigen Teilbandsignal ermittelt werden.
Das erfindungsgemäße Konzept ist dahingehend vorteilhaft, dass es eine robuste Bestimmung der Rhythmusinformationen ermöglicht, da Teilbandsignale mit keinen eindeutigen bzw. sogar abweichenden RhythmusInformationen, d. h. wenn der Gesang ei¬ nen anderen Rhythmus aufweist als der eigentliche Beat des Stücks, die RhythmusInformationen des Audiosignals nicht „verwässern" bzw. „verfälschen". Darüber hinaus werden sehr rauschartige . Teilbandsignale, . welςhe__ ..eine Systemautokorrelati- onsfunktion mit vollständig flachem Verlauf liefern, das Signal/Rausch-Verhältnis bei der Bestimmung der Rhythmusinformationen nicht verschlechtern. Genau dies würde jedoch auftreten, wenn, wie im Stand der Technik, einfach alle Autokorrelationsfunktionen der Teilbandsignale mit gleichem Gewicht aufsummiert werden.
Ein weiterer Vorteil des erfindungsgemäßen Verfahrens besteht darin, dass mit einem kleinen zusätzlichen Rechenaufwand ein Signifikanzmaß bestimmt werden kann, und dass die Bewertung der Rhythmus-Rohinformationen mit dem Signifikanzmaß und die anschließende Summierung ohne großen Speicher- und Rechenzeitaufwand effizient durchgeführt werden können, was das erfindungsgemäße Konzept insbesondere auch für Echtzeitanwendungen empfiehlt.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
Fig. 1 ein Blockschaltbild einer Vorrichtung zum Analysieren eines Audiosignals mit einer Qualitätsbewertung der Rhythmus-Rohinformationen;
Fig. 2 ein Blockschaltbild einer Vorrichtung zum Analysieren eines Audiosignals unter Verwendung von Gewichtungsfaktoren auf der Basis der Signifikanzmaße;
Fig. 3 ein Blockschaltbild einer bekannten Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen;
Fig. 4 ein Blockschaltbild einer Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen unter Verwendung einer Autokorrelationsfunktion mit einer teilbandweisen Nachbearbeitung der Rhythmus- Rohinformationen; und
Fig. 5 ein detailliertes Blockschaltbild der Einrichtung zum Nachbearbeiten von Fig. 4.
Fig. 1 zeigt ein Blockschaltbild einer Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen. Das Audiosignal wird über einen Eingang 100 einer Einrichtung 102 zum Zerlegen des Audiosignals in zumindest zwei Teilbandsignale 104a und 104b zugeführt. Jedes Teilbandsignal 104a, 104b wird in eine Einrichtung 106a bzw. 106b zum Untersuchen desselben hinsichtlich von Periodizitäten in dem Teilbandsignal zugeführt, um Rhythmus-Rohinformationen 108a bzw. 108b für jedes Teilbandsignal zu erhalten. Die Rhythmus- Rohinformationen werden dann einer Einrichtung 110a bzw. 110b zum Bewerten einer Qualität der Periodizität jedes der zumindest zwei Teilbandsignale zugeführt, um ein Signifikanzmaß 112a, 112b für jedes der zumindest zwei Teilbandsignale zu erhalten. Sowohl die Rhythmus-Rohinformationen 108a, 108b als auch die Signifikanzmaße 112a, 112b werden einer Einrichtung 114 zum Ermitteln der RhythmusInformationen des Audiosignals zugeführt. Die Einrichtung 114 berücksichtigt beim Ermitteln der Rhythmusinformationen des Audiosignals die Signifikanzmaße 112a, 112b für die Teilbandsignale sowie die Rhythmus- Rohinformationen 108a, 108b von zumindest einem Teilbandsignal.
Hat die Einrichtung 110a zur Qualitätsbewertung beispielsweise festgestellt, dass in dem Teilbandsignal 104a keine besondere Periodizität vorliegt, so wird das Signifikanzmaß 112a sehr klein, bzw. gleich 0 sein. In diesem Fall stellt die Einrichtung-.114- zum Ermitteln, der - Rhythmusinformationen,, fest, dass. das Signifikanzmaß 112a gleich Null ist, so dass die Rhythmus- Rohinformationen 108a des Teilbandsignals 104a bei der Ermittlung der RhythmusInformationen des Audiosignals überhaupt nicht mehr berücksichtigt werden müssen. Die RhythmusInformationen des Audiosignals werden dann allein und ausschließlich auf der Basis der Rhythmus-Rohinformationen 108b des Teilbandsignals 104b bestimmt.
Im nachfolgenden wird auf Fig. 2 hinsichtlich einer speziellen Ausführungsform der Vorrichtung von Fig. 1 eingegangen. Als Einrichtung 102 zum Zerlegen des Audiosignals kann eine übli- ehe Analyse-Filterbank verwendet werden, die ausgangsseitig eine von einem Benutzer wählbare Anzahl von Teilbandsignalen liefert. Jedes Teilbandsignal wird dann der Verarbeitung der Einrichtungen 106a, 106b bzw. 106c unterzogen, woraufhin dann durch die Einrichtungen 110a bis 110c von jeden Rhythmus- Rohinformationen Signifikanzmaße ermittelt werden. Die Einrichtung 114 umfaßt bei der in Fig. 2 dargestellten bevorzugten Ausführungsform eine Einrichtung 114a zum Berechnen von Gewichtungsfaktoren für jedes Teilbandsignal auf der Basis des Signifikanzmaßes für dieses Teilbandsignal und optional auch der anderen Teilbandsignale. In der Einrichtung 114b findet dann eine Gewichtung der Rhythmus-Rohinformationen 108a bis 108c mit dem Gewichtungsfaktor für dieses Teilbandsignal statt, woraufhin dann, ebenfalls in der Einrichtung 114b, die gewichteten Rhythmus-Rohinformationen kombiniert, z. B. auf- summiert, werden, um an dem Tempo-Ausgang 116 die Rhythmusinformationen des Audiosignals zu erhalten.
"Das erfindungsgemäße Konzept stellt sich 'somit folgendermaßen dar. Nach der Evaluierung der rhythmischen Informationen der Einzelbänder, welche beispielsweise durch Hüllkurvenbildung, Glättung, Differenzieren, Begrenzen auf positive Werte und Bilden -der Autokorrelationsfunktion .stattfinden., kann (Einrich-.. tungen 106a bis 106c) , findet eine Bewertung der Wertigkeit bzw. der Qualität dieser Zwischenergebnisse in den Einrichtungen 110a bis 110c statt. Dies wird mit Hilfe einer Bewertungsfunktion erreicht, welche die Verlässlichkeit der jeweiligen Einzelergebnisse mit einem Signifikanzmaß bewertet. Aus den Signifikanzmaßen aller Teilbandsignale wird ein Gewichtungsfaktor für jedes Band für die Extraktion der Rhythmus- Informationen hergeleitet. Das Gesamtergebnis der Rhythmusextraktion wird dann in der Einrichtung 114b durch Kombination der bandweisen Einzelergebnisse unter Berücksichtigung ihrer jeweiligen Gewichtungsfaktoren erreicht. Als Resultat zeigt ein solchermaßen implementierter Algorithmus zur Rhythmusanalyse eine gute Fähigkeit, rhythmische Informationen in einem Signal auch unter ungünstigen Bedingungen zuverlässig zu finden. Das erfindungsgemäße Konzept zeichnet sich daher durch eine hohe Robustheit aus.
Bei einer bevorzugten Ausführungsform werden die Rhythmus- Rohinformationen 108a, 108b, 108c, die die Periodizität des jeweiligen Teilbandsignals darstellen, mittels einer Autokorrelationsfunktion bestimmt. In diesem Fall wird es bevorzugt, das Signifikanzmaß zu bestimmen, indem ein Maximum der Autokorrelationsfunktion durch einen Mittelwert der Autokorrelationsfunktion geteilt wird, und dann der Wert 1 subtrahiert wird. Es sei darauf hingewiesen, daß jede Autokorrelationsfunktion immer bei einer Verzögerung von 0 ein lokales Maximum liefert, das die Energie des Signals repräsentiert. Dieses Maximum sollte unberücksichtigt bleiben, damit die Qualitätsbestimmung nicht verfälscht wird.
Ferner soll die Autokorrelationsfunktion lediglich in einem speziellen Tempobereich betrachtet werden, d. h. von einer maximalen Verzögerung., ..die dem kleinsten-, inter,e.ss.ierende,n,> Tempo, entspricht, zu einer minimalen Verzögerung, die dem höchsten interessierenden Tempo entspricht. Ein typischer Tempobereich liegt zwischen 60 bpm und 200 bpm.
Alternativ kann als Signifikanzmaß das Verhältnis zwischen dem arithmetischen Mittelwert der Autokorrelationsfunktion im interessierenden Tempobereich und dem geometrischen Mittelwert der Autokorrelationsfunktion im interessierenden Tempobereich bestimmt werden. Es ist bekannt, dass wenn alle Werte der Autokorrelationsfunktion gleich sind, d. h. wenn die Autokorrelationsfunktion einen flachen Verlauf hat, der geometrische Mittelwert der Autokorrelationsfunktion und der arithmetische Mittelwert der Autokorrelationsfunktion gleich sind. In diesem Fall hätte das Signifikanzmaß einen Wert gleich 1, was bedeutet, dass die Rhythmus-Rohinformationen nicht signifikant sind.
Im Falle einer Systemautokorrelationsfunktion mit starken Spitzen würde das Verhältnis aus arithmetischem Mittelwert zu geometrischem Mittelwert größer 1 sein, was bedeutet, dass die Autokorrelationsfunktion gute Rhythmusinformationen aufweist. Je kleiner jedoch das Verhältnis zwischen arithmetischem Mittelwert und geometrischem Mittelwert wird, desto flacher ist die Autokorrelationsfunktion und desto weniger Periodizitäten enthält sie, was wiederum bedeutet, dass die Rhythmusinformationen dieses Teilbandsignals weniger signifikant, d. h. eine geringere Qualität haben, was sich in einem geringen bzw. einem Gewichtungsfaktor von 0 äußern wird.
Bezüglich der Gewichtungsfaktoren existieren verschiedene Möglichkeiten. Bevorzugt wird eine relative Gewichtung, derart, dass sich alle Gewichtungsfaktoren sämtlicher Teilbandsignale zu 1 aufaddieren, d. h. dass der Gewichtungsfaktor eines Bandes, .«-bestimmt- .-wird,.,,als,,, der Signifikanzw.ert.«...dies,es.,„.Bandes geteilt durch die Summe aller Signifikanzwerte. In diesem Fall wird eine relative Gewichtung vor der Aufsummation der gewichteten Rhythmus-Rohinformationen durchgeführt, um die Rhythmus- Informationen des Audiosignals zu erhalten.
Wie bereits ausgeführt worden ist, wird es bevorzugt, die Auswertung der Rhythmus-Informationen unter Verwendung einer Autokorrelationsfunktion durchzuführen. Dieser Fall ist in Fig. 4 dargestellt. Das Audiosignal wird über den Audiosignaleingang 100 in die Einrichtung 102 zum Zerlegen des Audiosignals in Teilbandsignale 104a und 104b eingespeist. Jedes Teilband- signal wird dann in der Einrichtung 106a bzw. 106b, wie es ausgeführt worden ist, unter Verwendung einer Autokorrelationsfunktion untersucht, um die Periodizität des Teilbandsignals zu ermitteln. Am Ausgang der Einrichtung 106a bzw. 106b liegen dann die Rhythmus-Rohinformationen 108a, 108b vor. Diese werden in eine Einrichtung 118a bzw. 118b eingespeist, um die mittels der Autokorrelationsfunktion von der Einrichtung 116a ausgegebenen Rhythmus-Rohinformationen nachzubearbeiten. Damit wird u. a. sichergestellt, daß die Mehrdeutigkeiten der Autokorrelationsfunktion, d. h. daß bei ganzzahligen Vielfachen der Verzögerungen ebenfalls Signalspitzen auftreten, teilbandweise eliminiert werden, um nachbearbeitete Rhythmus- Rohinformationen 120a bzw. 120b zu erhalten.
Dies hat den Vorteil, dass die Mehrdeutigkeiten der Autokorrelationsfunktionen, d. h. der Rhythmus-Rohinformationen 108a, 108b, bereits teilbandweise eliminiert werden, und nicht erst, wie im Stand der Technik, nach der Summation der einzelnen Autokorrelationsfunktionen. Darüber hinaus ermöglicht die ein- zelbandweise Eliminierung der Mehrdeutigkeiten in den Autokorrelationsfunktionen durch die Einrichtungen 118a, 118b, dass die Rhythmus-Rohinformationen der Teilbandsignale unabhängig .voneinande ...gehandha-bt. -werden- -.können....Sie .können, beispielswei-- se einer Qualitätsbeurteilung mittels der Einrichtung 110a für die Rhythmus-Rohinformationen 108a oder mittels der Einrichtung 110b für die Rhythmus-Rohinformationen 108b unterzogen werden.
Wie es durch die gestrichelten Linien in Fig. 4 dargestellt ist, kann die Qualitätsbeurteilung jedoch auch anhand der nachbearbeiteten Rhythmus-Rohinformationen stattfinden, wobei diese letztere Möglichkeit bevorzugt wird, da die Qualitätsbeurteilung auf der Basis der nachbearbeiteten Rhythmus- Rohinformationen sicherstellt, dass die Qualität einer Information beurteilt wird, die nicht mehr vieldeutig ist.
Die Ermittlung der Rhythmus-Informationen durch die Einrichtung 114 findet dann auf der Basis von nachbearbeiteten Rhythmus-Informationen eines Kanals und vorzugsweise auch auf der Basis des Signifikanzmaßes für diesen Kanal statt.
Wenn eine Qualitätsbeurteilung auf der Basis der Rhythmus- Rohinformationen, also des Signals vor der Einrichtung 118a durchgeführt -wird, ist dies dahingehend vorteilhaft, dass, wenn bestimmt wird, dass das Signifikanzmaß gleich 0 ist, d. h. dass die Autokorrelationsfunktion einen flachen Verlauf hat, auf die Nachbearbeitung mittels der Einrichtung 118a gänzlich verzichtet werden kann, um Rechenzeitressourcen einzusparen.
Im nachfolgenden wird auf Fig. 5 eingegangen, um einen detaillierteren Aufbau einer Einrichtung 118a oder 118b zur Nachbearbeitung der Rhythmus-Rohinformationen darzustellen. Zunächst wird das Teilband-Signal beispielsweise 104a, in die Einrichtung 106a zur Untersuchung der Periodizität des Teilbandsignals,,^.mitt.els..,,„-einer=-5.Autokorrelationsfunkti.oι»«,..eingespeist.,^,,um. Rhythmus-Rohinformationen 108a zu erhalten. Um die Mehrdeutigkeiten teilbandweise zu eliminieren, kann genauso wie im Stand der Technik, eine gespreizte Autokorrelationsfunktion mittels einer Einrichtung 121 berechnet werden, wobei die Einrichtung 121 angeordnet ist, um die gespreizte Autokorrelationsfunktion so zu berechnen, dass sie um ein ganzzahliges Vielfaches einer Verzögerung gespreizt ist. Eine Einrichtung 122 ist in diesem Fall angeordnet, um die gespreizte Autokorrelationsfunktion von der ursprünglichen Autokorrelationsfunktion, d. h. den Rhythmus-Rohinformationen 108a zu subtrahieren. Insbesondere wird es bevorzugt, zunächst eine auf das Doppelte gespreizte Autokorrelationsfunktion in der Einrichtung 121 zu berechnen und dann von den Rhythmus-Rohinformationen 108a zu subtrahieren. Dann, in dem nächsten Schritt, wird eine um den Faktor 3 gespreizte Autokorrelationsfunktion in der Einrichtung 121 berechnet und von dem Ergebnis der vorherigen Subtraktion wieder abgezogen, so dass nach und nach sämtliche Mehrdeutigkeiten aus den Rhythmus-Rohinformationen eliminiert werden.
Alternativ oder zusätzlich kann die Einrichtung 121 angeordnet sein, um eine um einen ganzzahligen Faktor gestauchte Autokorrelationsfunktion zu berechnen, wobei diese dann von der Einrichtung 122 zu den Rhythmus-Rohinformationen hinzu addiert wird, um auch Anteile für Verzögerungen t0/2, tO/3 usw. zu erzeugen.
Darüber hinaus können die gespreizten bzw. gestauchten Versionen der Rhythmus-Rohinformationen 108a vor dem Addieren bzw. Subtrahieren gewichtet werden, um auch hier eine Flexibilität im Sinne einer hohen Robustheit zu erreichen.
Durch das Verfahren, die Periodizität eines Teilbandsignals auf der Basis einer Autokorrelationsfunktion zu untersuchen, „-.kan -also ,_eine weitere -Verbesserung..,er1z elt.J-W.erden„,.,,wenn . die. Eigenschaften der Autokorrelationsfunktion mit einbezogen werden und die Nachbearbeitung unter Verwendung der Einrichtung 118a oder 118b durchgeführt wird. So erzeugt eine periodische Folge von Notenanfängen mit einem Abstand tO nicht nur eine AKF-Spitze bei einer Verzögerung tO sondern auch bei 2t0, 3t0, etc. Dies wird zu einer Vieldeutigkeit in der Tempodetektion, d. h. dem Suchen signifikanter Maxima in der Autokorrelationsfunktion, führen. Die Mehrdeutigkeiten können dadurch eli i- nert werden, wenn um ganzzahlige Faktoren gespreizte Versionen der AKF vom Ausgangswert teilbandweise (gewichtet) abgezogen werden. Ferner besteht bei der Autokorrelationsfunktion das Problem, daß sie keine Informationen bei tO/2, t0/3 ... usw., also beim Doppelten, Dreifachen, etc. des „Grundtempos" liefert, was besonders dann zu falschen Ergebnissen führen kann, wenn zwei Instrumente, die in unterschiedlichen Teilbändern liegen, zusammen den Rhythmus des Signals definieren. Diese Sache wird dadurch berücksichtigt, dass um ganzzahlige Faktoren gestauchte Versionen der Autokorrelationsfunktion berechnet werden und diese dann zu den Rhythmus-Rohinformationen gewichtet oder un- gewichtet hinzuaddiert werden.
Die AKF-Nachverarbeitung findet somit teilbandweise statt, wobei für mindestens ein Teilbandsignal eine Autokorrelationsfunktion errechnet wird und diese mit gedehnten oder gespreizten Versionen dieser Funktion kombiniert wird.

Claims

Patentansprüche
1. Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals, mit folgenden Merkmalen:
einer Einrichtung (102) zum Zerlegen des Audiosignals in zumindest zwei Teilbandsignale (104a, 104b) ;
einer Einrichtung zum Untersuchen (106a, 106b) eines Teilbandsignals hinsichtlich einer Periodizität in dem Teilbandsignal, um Rhythmus-Rohinformationen (108a, 108b) für das Teilbandsignal zu erhalten;
einer Einrichtung zum Bewerten (110a, 110b) einer Qualität der Periodizität der Rhythmus-Rohinformationen (108a) des Teilbandsignals (104a) , um ein Signifikanzmaß (112a) für das Teilbandsignal zu erhalten; und
einer Einrichtung (114) zum Ermitteln der Rhythmusinfor atio- nenr.des rAμdiosignals . unter^ Berücksichtigung des. Signifikanzmaßes (112a) des Teilbandsignals und der Rhythmus- Rohinformationen (108a, 108b) von zumindest einem Teilbandsignal.
2. Vorrichtung nach Anspruch 1, bei der die Einrichtung zum Untersuchen (106a, 106b) ausgebildet ist, um eine Autokorrelationsfunktion für jedes der zumindest zwei Teilbandsignale zu berechnen.
3. Vorrichtung nach Anspruch 1 oder 2, bei die Einrichtung zum Untersuchen (106a, 106b) folgende Merkmale aufweist: eine Einrichtung zum Bilden einer Hüllkurve eines Teilbandsignals;
eine Einrichtung zum Glätten der Hüllkurve des Teilbandsignals, um eine geglättete Hüllkurve zu erhalten;
eine Einrichtung zum Differenzieren der geglätteten Hüllkurve, um eine differenzierte Hüllkurve zu erhalten;
eine Einrichtung zum Begrenzen der differenzierten Hüllkurve auf positive Werte, um eine begrenzte Hüllkurve zu erhalten; und
eine Einrichtung zum Bilden einer Autokorrelationsfunktion der begrenzten Hüllkurve, um die Rhythmus-Rohinformationen (108a, 108b) zu erhalten.
4. Vorrichtung '-'nach Anspruch 2 oder 3, bei der die Einrichtung zum Bewerten (110a, 110b) der Qualität ausgebildet ist, um als Signifikanzmaß ein Verhältnis eines Maximum der Autokorrelationsfunktion zu einem Mittelwert der Autokorrelationsfunktion zu verwenden.
5. Vorrichtung nach Anspruch 2 oder 3, bei der die Einrichtung zum Bewerten (110a, 110b) der Qualität ausgebildet ist, um als Signifikanzmaß ein Verhältnis aus einem arithmetischen Mittelwert der Rhythmus-Rohinformationen zu einem geometrischen Mittelwert der Rhythmus-Rohinformationen zu verwenden.
6. Vorrichtung nach Anspruch 4 oder 5,
bei der die Einrichtung zum Bewerten (110a, 110b) der Qualität ausgebildet ist, um die Autokorrelationsfunktion lediglich in- nerhalb eines Tempobereichs auszuwerten, der sich von einer minimalen Verzögerung, um ein maximales Tempo zu erhalten, zu einer maximalen Verzögerung, um ein minimales Tempo zu erhalten, erstreckt.
7. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung zum Ermitteln (114) folgende Merkmale aufweist:
eine Einrichtung (114a) zum Ableiten eines Gewichtungsfaktors für ein Teilband unter Verwendung des Signifikanzmaßes für das Teilband;
eine Einrichtung (114b) zum Gewichten der Rhythmus- Rohinformationen des Teilbands unter Verwendung des Gewichtungsfaktors für das Teilband, um gewichtete Rhythmus- Rohinformationen für das Teilband zu erhalten, und zum Zusammenfassen der gewichteten Rhythmus-Rohinformationen des Teilbands mit gewichteten oder ungewichteten Rhythmus- Rohinformationen des anderen Teilbands, um die Rhythmusinformationen des Audiosignals zu erhalten.
8. Vorrichtung nach Anspruch. 7,. bei der die Einrichtung (114a) zum Ableiten eines Gewichtungsfaktors angeordnet ist, um für jedes Teilbandsignal einen relativen Gewichtungsfaktor abzuleiten, wobei eine Summe aus den Gewichtungsfaktoren für alle Teilbandsignale 1 ergibt.
9. Vorrichtung nach Anspruch 8, bei der die Einrichtung (114a) zum Ableiten eines Gewichtungsfaktors angeordnet ist, um einen Gewichtungsfaktor als Verhältnis aus dem Signifikanzmaß eines Teilbandsignals zu der Summe der Signifikanzmaße aller Teilbandsignale abzuleiten.
10. Vorrichtung nach Anspruch 9, bei der die Einrichtung (106a, 106b) zum Untersuchen eines Teilbandsignals angeordnet ist, um ein Teilbandsignal zu untersuchen, dessen Länge größer als 10 Sekunden ist.
11. Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals, mit folgenden Schritten:
Zerlegen des Audiosignals in zumindest zwei Teilbandsignale (104a, 104b);
Untersuchen (106a, 106b) eines Teilbandsignals hinsichtlich einer Periodizität in dem Teilbandsignal, um Rhythmus- Rohinformationen (108a, 108b) für das Teilbandsignal zu erhalten;
Bewerten (110a, 110b) einer Qualität der Periodizität der Rhythmus-Rohinformationen (108a) des Teilbandsignals (104a), um ein Signifikanzmaß (112a) für das Teilbandsignal zu erhalten; und
Ermitteln der RhythmusInformationen des Audiosignals unter .Berücksichtigung des Signifikanzmaßes (112a) des Teilbandsignals und der Rhythmus-Rohinformationen (108a, 108b) von zumindest einem Teilbandsignal.
EP02745267A 2001-05-14 2002-04-25 Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen Expired - Lifetime EP1388145B1 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE10123366A DE10123366C1 (de) 2001-05-14 2001-05-14 Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen
DE10123366 2001-05-14
PCT/EP2002/004618 WO2002093557A1 (de) 2001-05-14 2002-04-25 Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen

Publications (2)

Publication Number Publication Date
EP1388145A1 true EP1388145A1 (de) 2004-02-11
EP1388145B1 EP1388145B1 (de) 2004-10-13

Family

ID=7684710

Family Applications (1)

Application Number Title Priority Date Filing Date
EP02745267A Expired - Lifetime EP1388145B1 (de) 2001-05-14 2002-04-25 Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen

Country Status (7)

Country Link
US (1) US20040068401A1 (de)
EP (1) EP1388145B1 (de)
JP (1) JP3914878B2 (de)
AT (1) ATE279769T1 (de)
DE (2) DE10123366C1 (de)
HK (1) HK1059959A1 (de)
WO (1) WO2002093557A1 (de)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8535236B2 (en) * 2004-03-19 2013-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for analyzing a sound signal using a physiological ear model
JP4979018B2 (ja) * 2005-07-01 2012-07-18 パイオニア株式会社 コンピュータプログラム、並びに情報再生装置及び方法
JP4940588B2 (ja) 2005-07-27 2012-05-30 ソニー株式会社 ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
JP4948118B2 (ja) * 2005-10-25 2012-06-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP4465626B2 (ja) * 2005-11-08 2010-05-19 ソニー株式会社 情報処理装置および方法、並びにプログラム
EP1959428A4 (de) 2005-12-09 2011-08-31 Sony Corp Musikeditiereinrichtung und musikeditierverfahren
JP4949687B2 (ja) 2006-01-25 2012-06-13 ソニー株式会社 ビート抽出装置及びビート抽出方法
JP5351373B2 (ja) * 2006-03-10 2013-11-27 任天堂株式会社 演奏装置および演奏制御プログラム
US8184712B2 (en) 2006-04-30 2012-05-22 Hewlett-Packard Development Company, L.P. Robust and efficient compression/decompression providing for adjustable division of computational complexity between encoding/compression and decoding/decompression
US7645929B2 (en) * 2006-09-11 2010-01-12 Hewlett-Packard Development Company, L.P. Computational music-tempo estimation
US8463615B2 (en) * 2007-07-30 2013-06-11 Google Inc. Low-delay audio coder
WO2009125489A1 (ja) * 2008-04-11 2009-10-15 パイオニア株式会社 テンポ検出装置及びテンポ検出プログラム
US8168876B2 (en) * 2009-04-10 2012-05-01 Cyberlink Corp. Method of displaying music information in multimedia playback and related electronic device
US8996538B1 (en) 2009-05-06 2015-03-31 Gracenote, Inc. Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects
US8071869B2 (en) * 2009-05-06 2011-12-06 Gracenote, Inc. Apparatus and method for determining a prominent tempo of an audio work
US8805854B2 (en) 2009-06-23 2014-08-12 Gracenote, Inc. Methods and apparatus for determining a mood profile associated with media data
US9646592B2 (en) 2013-02-28 2017-05-09 Nokia Technologies Oy Audio signal analysis
JP6759545B2 (ja) * 2015-09-15 2020-09-23 ヤマハ株式会社 評価装置およびプログラム
EP3576088A1 (de) 2018-05-30 2019-12-04 Fraunhofer Gesellschaft zur Förderung der Angewand Audioähnlichkeitsauswerter, audiokodierer, verfahren und computerprogramm
US10666475B2 (en) * 2018-10-29 2020-05-26 Bae Systems Information And Electronic Systems Integration Inc. Techniques for phase modulated signals having poor autocorrelation
CN111785237B (zh) * 2020-06-09 2024-04-19 Oppo广东移动通信有限公司 音频节奏确定方法、装置、存储介质和电子设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2207027B (en) * 1987-07-15 1992-01-08 Matsushita Electric Works Ltd Voice encoding and composing system
JP2591430B2 (ja) * 1993-06-30 1997-03-19 日本電気株式会社 ベクトル量子化装置
JP3840684B2 (ja) * 1996-02-01 2006-11-01 ソニー株式会社 ピッチ抽出装置及びピッチ抽出方法
JPH09293083A (ja) * 1996-04-26 1997-11-11 Toshiba Corp 楽曲検索装置および検索方法
KR100269216B1 (ko) * 1998-04-16 2000-10-16 윤종용 스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법
DE10123281C1 (de) * 2001-05-14 2002-10-10 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion
JP3859462B2 (ja) * 2001-05-18 2006-12-20 株式会社東芝 予測パラメータ分析装置および予測パラメータ分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO02093557A1 *

Also Published As

Publication number Publication date
HK1059959A1 (en) 2004-07-23
DE50201311D1 (de) 2004-11-18
DE10123366C1 (de) 2002-08-08
JP2004528596A (ja) 2004-09-16
JP3914878B2 (ja) 2007-05-16
EP1388145B1 (de) 2004-10-13
US20040068401A1 (en) 2004-04-08
ATE279769T1 (de) 2004-10-15
WO2002093557A1 (de) 2002-11-21

Similar Documents

Publication Publication Date Title
EP1371055B1 (de) Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion
EP1388145B1 (de) Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen
EP1407446B1 (de) Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals
DE69901606T2 (de) Breitbandsprachsynthese von schmalbandigen sprachsignalen
EP1523719B1 (de) Vorrichtung und verfahren zum charakterisieren eines informationssignals
DE69430082T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
EP1606798B1 (de) Vorrichtung und verfahren zum analysieren eines audio-informationssignals
EP2099024B1 (de) Verfahren zur klangobjektorientierten Analyse und zur notenobjektorientierten Bearbeitung polyphoner Klangaufnahmen
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
EP1368805B1 (de) Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals
DE69417445T2 (de) Verfahren und system zur detektion und erzeugung von übergangsbedingungen in tonsignalen
DE2659096C2 (de)
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
EP2351017B1 (de) Verfahren zur erkennung von notenmustern in musikstücken
WO2005122135A1 (de) Vorrichtung und verfahren zum umsetzen eines informationssignals in eine spektraldarstellung mit variabler auflösung
DE60031812T2 (de) Vorrichtung und Verfahren zur Klangsynthesierung
DE102004028693B4 (de) Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt
DE69025932T2 (de) Einrichtung und verfahren zum erzeugen von stabilisierten darstellungen von wellen
DE69815062T2 (de) Verfahren und gerät zur audiorepräsentation von nach dem lpc prinzip kodierter sprache durch hinzufügen von rauschsignalen
EP1377924B1 (de) VERFAHREN UND VORRICHTUNG ZUM EXTRAHIEREN EINER SIGNALKENNUNG, VERFAHREN UND VORRICHTUNG ZUM ERZEUGEN EINER DAZUGEHÖRIGEN DATABANK und Verfahren und Vorrichtung zum Referenzieren eines Such-Zeitsignals
DE102004033867B4 (de) Verfahren und Vorrichtung zur rhythmischen Aufbereitung von Audiosignalen
DE69525508T2 (de) System zur Schätzung der Grundfrequenz
EP1743324B1 (de) Vorrichtung und verfahren zum analysieren eines informationssignals
EP0689667B1 (de) Verfahren zum auswerten von schall
EP1381024A1 (de) Verfahren zum Auffinden einer Tonfolge

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20030528

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

RIN1 Information on inventor provided before grant (corrected)

Inventor name: UHLE, CHRISTIAN

Inventor name: CREMER, MARKUS

Inventor name: HERRE, JUERGEN

Inventor name: ROHDEN, JAN

RIC1 Information provided on ipc code assigned before grant

Ipc: 7G 10L 11/00 A

RBV Designated contracting states (corrected)

Designated state(s): AT CH DE FR GB LI

REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1059959

Country of ref document: HK

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT CH DE FR GB LI

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REF Corresponds to:

Ref document number: 50201311

Country of ref document: DE

Date of ref document: 20041118

Kind code of ref document: P

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1059959

Country of ref document: HK

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050425

ET Fr: translation filed
PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20050714

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20060430

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20060430

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

REG Reference to a national code

Ref country code: GB

Ref legal event code: 732E

Free format text: REGISTERED BETWEEN 20090409 AND 20090415

REG Reference to a national code

Ref country code: FR

Ref legal event code: TP

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20120427

Year of fee payment: 11

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20120425

Year of fee payment: 11

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 50201311

Country of ref document: DE

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20130425

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20130425

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20131101

REG Reference to a national code

Ref country code: DE

Ref legal event code: R079

Ref document number: 50201311

Country of ref document: DE

Free format text: PREVIOUS MAIN CLASS: G10L0011000000

Ipc: G10L0025060000

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 50201311

Country of ref document: DE

Effective date: 20131101

Ref country code: DE

Ref legal event code: R079

Ref document number: 50201311

Country of ref document: DE

Free format text: PREVIOUS MAIN CLASS: G10L0011000000

Ipc: G10L0025060000

Effective date: 20140929

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 15

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20160425

Year of fee payment: 15

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20171229

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170502