DE10123281C1 - Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion - Google Patents

Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion

Info

Publication number
DE10123281C1
DE10123281C1 DE10123281A DE10123281A DE10123281C1 DE 10123281 C1 DE10123281 C1 DE 10123281C1 DE 10123281 A DE10123281 A DE 10123281A DE 10123281 A DE10123281 A DE 10123281A DE 10123281 C1 DE10123281 C1 DE 10123281C1
Authority
DE
Germany
Prior art keywords
audio signal
signal
raw
information
rhythm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE10123281A
Other languages
English (en)
Inventor
Juergen Herre
Jan Rohden
Christian Uhle
Markus Cremer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to DE10123281A priority Critical patent/DE10123281C1/de
Priority to EP02742987A priority patent/EP1371055B1/de
Priority to DE50202914T priority patent/DE50202914D1/de
Priority to ES02742987T priority patent/ES2240762T3/es
Priority to AT02742987T priority patent/ATE294440T1/de
Priority to PCT/EP2002/005171 priority patent/WO2002093550A2/de
Application granted granted Critical
Publication of DE10123281C1 publication Critical patent/DE10123281C1/de
Priority to US10/713,691 priority patent/US7012183B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/135Autocorrelation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

Eine Vorrichtung und ein Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion umfaßt eine Filterbank zum Zerlegen des Audiosignals in zumindest zwei Teilbandsignale. Die Teilbandsignale werden hinsichtlich von Periodizitäten mittels einer Autokorrelationsfunktion untersucht, um Rhythmus-Rohinformationen für die zumindest zwei Teilbandsignale zu erhalten. Um die Mehrdeutigkeiten der Autokorrelationsfunktion für periodische Signale zu verringern oder zu eliminieren, werden die Rhythmus-Rohinformationen nachbearbeitet, um nachbearbeitete Rhythmus-Rohinformationen für das Teilbandsignal zu erhalten. Die Rhythmusinformationen des Audiosignals werden auf der Basis der nachbearbeiteten Rhythmus-Rohinformationen ermittelt. Durch die teilbandweise AKF-Nachverarbeitung werden AKF-Mehrdeutigkeiten bereits dort, wo sie entstehen, eliminiert bzw. werden Rhythmusanteile bei doppelten Tempi, die eine Autokorrelationsfunktionsverarbeitung normalerweise nicht liefert, hinzugefügt, so daß sich als Resultat eine robustere Bestimmung der Rhythmusinformationen des Audiosignals ergibt.

Description

Die vorliegende Erfindung bezieht sich auf Signalverarbeitungs­ konzepte und insbesondere auf die Analyse von Audiosignalen hin­ sichtlich von Rhythmusinformationen.
In den letzten Jahren ist die Verfügbarkeit multimedialen Daten­ materials, wie z. B. Audio- oder Video-Daten, stark gestiegen. Dies ist auf eine Reihe von technischen Faktoren zurückzuführen, welche sich insbesondere auf die breite Verfügbarkeit des Inter­ nets, von leistungsfähiger Rechnerhard- und Software sowie von leistungsfähigen Verfahren zur Datenkompression, d. h. Quellco­ dierung, von Audio- und Videoverfahren stützen.
Die riesigen Mengen audiovisueller Daten, die beispielsweise auf dem Internet weltweit verfügbar sind, verlangen nach Konzepten, die es ermöglichen, diese Daten nach inhaltlichen Kriterien be­ urteilen, katalogisieren usw. zu können. Es besteht der Wunsch, in der Lage zu sein, multimediale Daten gezielt durch Angabe sinnvoller Kriterien zu suchen und aufzufinden.
Dies erfordert sogenannte "inhaltsbasierter" Techniken, die aus den audiovisuellen Daten sogenannte Merkmale, die in Fachkreisen auch als "Features" bezeichnet werden, extrahieren, welche wich­ tige charakteristische Eigenschaften des Signals repräsentieren. Basierend auf solchen Merkmalen bzw. Kombinationen dieser Merk­ male können Ähnlichkeitsbeziehungen bzw. Gemeinsamkeiten zwi­ schen Audio- oder Videosignalen hergeleitet werden. Dieser Vor­ gang erfolgt durch Vergleich bzw. In-Beziehung-Setzen der extra­ hierten Merkmalswerte aus den verschiedenen Signalen, welche auch einfach als "Stücke" bezeichnet werden.
Von besonderem Interesse ist die Bestimmung bzw. Extraktion von Merkmalen, die nicht nur signaltheoretische, sondern möglichst unmittelbare semantische Bedeutung haben, d. h. vom Hörer un­ mittelbar empfundene Eigenschaften repräsentieren.
Dies ermöglicht es dem Benutzer, auf einfache und intuitive Wei­ se Suchanfragen zu formulieren, um Stücke aus dem gesamten vor­ handenen Datenbestand einer Audiosignal-Datenbank zu finden. Ebenso erlauben es semantisch relevante Merkmale, Ähnlichkeits­ beziehungen zwischen Stücken zu modellieren, die der menschli­ chen Empfindung nahe kommen. Die Verwendung von Merkmalen, die semantische Bedeutung haben, ermöglicht auch beispielsweise ein automatisches Vorschlagen von für einen bestimmten Benutzer in­ teressanten Stücken, wenn seine Vorlieben bekannt sind.
Im Bereich der Musikanalyse ist das Tempo ein wichtiger musika­ lischer Parameter, der semantische Bedeutung hat. Das Tempo wird üblicherweise in "Beats per Minute" (BPM) gemessen. Die automa­ tische Extraktion des Tempos sowie der Taktschwerpunkte des "Beats" bzw. allgemein gesagt die automatische Extraktion von Rhythmusinformationen, ist ein Beispiel für die Gewinnung eines semantisch wichtigen Merkmals eines Musikstücks.
Weiterhin besteht ein Wunsch dahingehend, dass die Merkmalsex­ traktion, d. h. das Extrahieren von Rhythmusinformationen aus einem Audiosignal, robust und recheneffizient stattfinden kann. Robustheit bedeutet, dass es keine Rolle spielen darf, ob das Stück quellcodiert und wieder decodiert worden ist, ob das Stück über einen Lautsprecher abgespielt und von einem Mikrophon emp­ fangen worden ist, oder ob es von einem Instrument oder einer Mehrzahl von Instrumenten gespielt wird.
Für die Bestimmung der Taktschwerpunkte und damit auch des Tem­ pos, d. h. für die Bestimmung von Rhythmusinformationen, hat sich in den Fachkreisen auch der Begriff "Beat Tracking" eta­ bliert. Aus dem Stand der Technik ist es bereits bekannt, ein Beat Tracking auf der Basis einer notenartigen bzw. transkri­ bierten Signaldarstellung, z. B. im Midi-Format, durchzuführen. Ziel ist es jedoch, keine solchen Metadarstellungen zu benöti­ gen, sondern eine Analyse direkt mit einem z. B. PCM-codierten oder allgemein gesagt digital vorliegenden Audiosignal vorzuneh­ men.
Die Fachveröffentlichung "Tempo and Beat Analysis of Acoustic Musical Signals" von Eric D. Scheirer, J. Acoust. Soc. Am. 103: 1, (Jan 1998), Seiten 588-601, offenbart ein Verfahren zur automatischen Extraktion eines rhythmischen Pulses aus musikali­ schen Exzerpten. Das Eingangssignal wird mittels einer Filter­ bank in eine Reihe von Teilbändern aufgespalten, beispielsweise in 6 Teilbänder mit Übergangsfrequenzen von 200 Hz, 400 Hz, 800 Hz, 1600 Hz und 3200 Hz. Für das erste Teilband wird eine Tief­ passfilterung durchgeführt. Für das letzte Teilband wird eine Hochpassfilterung durchgeführt, für die restlichen, dazwischen liegenden Teilbände wird eine Bandpassfilterung beschrieben. Je­ des Teilband wird folgendermaßen verarbeitet. Das Teilbandsignal wird zunächst gleichgerichtet. In anderen Worten ausgedrückt wird der Absolutbetrag der Abtastwerte bestimmt. Die resultie­ renden n Werte werden dann geglättet, beispielsweise mit einer Mittelung über ein geeignetes Fenster, um ein Hüllkurvensignal zu erhalten. Zur Senkung der Rechenkomplexität kann das Hüllkur­ vensignal unterabgetastet werden. Die Hüllkurvensignale werden differenziert, d. h. plötzliche Änderungen der Signalamplitude werden durch das Differenzierungsfilter bevorzugt weitergelei­ tet. Das Resultat wird dann auf nicht-negative Werte begrenzt. Jedes Hüllkurvensignal wird dann in eine Bank resonanter Filter, d. h. Oszillatoren, gegeben, die jeweils ein Filter für jeden Tempobereich enthalten, so dass das zum musikalischen Tempo pas­ sende Filter am stärksten angeregt wird. Für jedes Filter wird die Energie des Ausgangssignals als Maß für die Übereinstimmung des Tempos des Eingangssignals mit dem zum Filter gehörigen Tem­ po berechnet. Die Energien für jedes Tempo werden schließlich über alle Teilbänder aufsummiert, wobei die größte Energiesumme das als Resultat gelieferte Tempo, d. h. die Rhythmusinformatio­ nen, kennzeichnet. Im Gegensatz zu Autokorrelationsverfahren wird als vorteilhaft herausgestellt, daß die Oszillatorbank auch mit Ausgangssignalen bei dem doppelten, dreifachen, etc. des Tempos oder auch bei rationalen Vielfachen (z. B. 2/3, 4/3) des Tempos auf einen Stimulus reagiert. Eine Autokorrelationsfunkti­ on hat diese Eigenschaft nicht, sie liefert nur Ausgangssignale bei dem halbierten, gedrittelten, etc. Tempo.
Ein wesentlicher Nachteil dieses Verfahrens besteht in der gro­ ßen Rechen- und Speicherkomplexität insbesondere zur Realisie­ rung der großen Zahl von parallelschwingenden "Oszillatoren", von denen letztlich nur ein einziger ausgewählt wird. Dies macht eine effiziente Implementierung beispielsweise für Echtzeitan­ wendungen nahezu unmöglich.
Die Fachveröffentlichung "Pulse Tracking with a Pitch Tracker" von Eric D. Scheirer, Proc. 1997 Workshop on Applications of Si­ gnal Processing to Audio and Acoustics, Mohonk, NY, Oct 1997, beschreibt einen Vergleich des oben beschriebenen "Oszillator­ konzeptes" mit einem Alternativkonzept, das auf der Verwendung von Autokorrelationsfunktionen zur Extraktion der Periodizität aus einem Audiosignal, d. h. der Rhythmusinformationen eines Si­ gnals, aufbaut. Ein Algorithmus zur Modellierung der menschli­ chen Tonhöhenwahrnehmung, d. h. des Pitch, wird für das "Beat Tracking" eingesetzt.
Der bekannte Algorithmus ist in Fig. 3 als Blockdiagramm dargestellt. Das Audiosignal wird über einen Audioeingang 300 einer Analyse-Filterbank 302 zugeführt. Die Analyse-Filterbank erzeugt aus dem Audioeingang eine Anzahl n von Kanälen, d. h. von einzelnen Teilbandsignalen. Jedes Teilbandsignal enthält einen bestimmten Bereich an Frequenzen des Audiosignals. Die Filter der Analyse-Filterbank sind so ausgewählt, dass sie die Selektionscharakteristik des menschlichen Innenohrs annähern. Eine solche Analyse-Filterbank wird auch als Gamma-Ton- Filterbank bezeichnet.
In den Einrichtungen 304a bis 304c werden die Rhythmus- Informationen jedes Teilbandsignals ausgewertet. Für jedes Ein­ gangssignal wird zunächst ein hüllkurvenartiges Ausgangssignal berechnet (entsprechend einer sogenannten "Inner Hair Cell" - Verarbeitung im Ohr) und unterabgetastet. Aus diesem Resultat wird eine Autokorrelationsfunktion (AKF) berechnet, um die Peri­ odizität des Signals als Funktion der Verzögerung, d. h. des "Lag" zu erhalten.
Am Ausgang der Einrichtungen 304a bis 304c liegt dann für jedes Teilbandsignal eine Autokorrelationsfunktion vor, welche die Rhythmus-Informationen jedes Teilbandsignals darstellt.
Die einzelnen Autokorrelationsfunktionen der Teilbandsignale werden dann in einer Einrichtung 306 durch Summation kombiniert, um eine Summenautokorrelationsfunktion (SAKF) zu erhalten, wel­ che Aspekte der Rhythmus-Informationen des Signals am Audio- Eingang 300 wiedergibt. Diese Informationen können an einem Tem­ po-Ausgang 308 ausgegeben werden. Große Werte in der Summenauto­ korrelation zeigen an, dass für eine einer Spitze der SAKF zuge­ ordneten Verzögerung (Lag) eine hohe Periodizität der Notenan­ fänge vorliegt. Daher wird beispielsweise der größte Wert der Summenautokorrelationsfunktion innerhalb der musikalisch sinn­ vollen Verzögerungen gesucht.
Musikalisch sinnvolle Verzögerungen sind beispielsweise der Tem­ pobereich zwischen 60 bpm und 200 bpm. Die Einrichtung 306 kann ferner angeordnet sein, um eine Verzögerungszeit in Tempoinfor­ mationen umzusetzen. So entspricht beispielsweise eine Spitze einer Verzögerung von einer Sekunde einem Tempo von 60 Schlägen pro Minute. Kleinere Verzögerungen deuten auf höhere Tempos hin, während größere Verzögerungen auf kleinere Tempos als 60 bpm hinweisen.
Dieses Verfahren hat gegenüber dem zuerst genannten Verfahren einen Vorteil dahingehend, dass keine Oszillatoren mit großem Rechen- und Speicheraufwand implementiert werden müssen. Ande­ rerseits ist das Konzept dahingehend nachteilhaft, dass die Qua­ lität der Ergebnisse sehr stark von der Art des Audiosignals ab­ hängt. Ist aus einem Audiosignal beispielsweise ein dominantes Rhythmusinstrument herauszuhören, so wird das in Fig. 3 be­ schriebene Konzept gut funktionieren. Ist dagegen die Stimme do­ minant, welche keine besonders eindeutigen Rhythmusinformationen liefern wird, so wird die Rhythmusbestimmung mehrdeutig sein. In dem Audiosignal könnte durchaus auch ein Band vorkommen, das le­ diglich Rhythmusinformationen enthält, wie z. B. ein höheres Frequenzband, in dem beispielsweise ein Hihat eines Schlagzeugs positioniert ist, oder ein niedriges Frequenzband, in dem die große Trommel eines Schlagzeugs auf der Frequenzskala positio­ niert ist. Aufgrund der Kombination der Einzelinformationen wer­ den jedoch die einigermaßen eindeutigen Informationen dieser speziellen Teilbänder von den mehrdeutigen Informationen der an­ deren Teilbänder überlagert bzw. "verwässert".
Ein weiteres Problem bei der Verwendung von Autokorrelations­ funktionen zum Extrahieren der Periodizität eines Teilbandsi­ gnals besteht darin, dass die Summen-Autokorrelationsfunktion, die durch die Einrichtung 306 gewonnen wird, mehrdeutig ist. Die Summen-Autokorrelationsfunktion am Ausgang 306 ist dahingehend mehrdeutig, dass auch beim Vielfachen einer Verzögerung eine Au­ tokorrelationsfunktions-Spitze erzeugt wird. Dies ist daraus verständlich, dass eine Sinuskomponente mit einer Periode von t0, wenn sie einer Autokorrelationsfunktionverarbeitung unterzogen wird, neben dem gewünschten Maximum bei t0 auch Maxima bei Vielfachen der Verzögerungen, d. h. bei 2t0, 3t0, usw. erzeugt.
Die Fachveröffentlichung "A Computationally Efficient Multipitch Analysis Model", von Tolonen und Karjalainen, IEEE Transactions an Speech and Audio Processing, Band 8, Nr. 6, Nov. 2000, offen­ bart ein rechenzeiteffizientes Modell für eine Periodizitätsana­ lyse von komplexen Audiosignalen. Das Rechenmodell teilt das Si­ gnal in zwei Kanäle auf, und zwar in einen Kanal unter 1000 Hz und einen Kanal über 1000 Hz. Hieraus wird eine Autokorrelation des unteren Kanals und eine Autokorrelation der Hüllkurve des oberen Kanals berechnet. Schließlich werden die beiden Autokor­ relationsfunktionen summiert. Um die Mehrdeutigkeiten der Sum­ menautokorrelationsfunktion zu eliminieren, wird die Summenauto­ korrelationsfunktion weiterverarbeitet, um eine sogenannte En­ hanced Summary Autocorrelation Function (ESACF) (Weiterentwic­ kelte Summenautokorrelationsfunktion) zu erhalten. Diese Nachbe­ arbeitung der Summenautokorrelationsfunktion beinhaltet ein wie­ derholtes Abziehen von mit ganzzahligen Faktoren gespreizten Versionen der Autokorrelationsfunktion von der Summenautokorre­ lationsfunktion mit nachfolgender Begrenzung auf nicht-negative Werte.
Nachteilig an diesem Konzept ist die Tatsache, dass die durch die Autokorrelationsfunktionen in den Teilbändern pro Teilband erhaltenen Mehrdeutigkeiten erst in der Summenautokorrelations­ funktion eliminiert werden, jedoch nicht unmittelbar dort, wo sie auftreten, nämlich in den einzelnen Teilbändern.
Ein weiterer Nachteil dieses Konzepts ist die Tatsache, daß die Autokorrelationsfunktion an sich keinen Hinweis auf das doppel­ te, dreifache, . . . des Tempos liefert, dem eine Autokorrelati­ onsspitze zugeordnet ist.
Das U.S.-Patent Nr. 5,918,223 offenbart ein Verfahren und eine Vorrichtung zum Herstellen einer inhaltsbasierten Analyse, Speicherung, Wiedergewinnung und Segmentierung von Audioinfor­ mationen. Ein gesamtes Audiostück, das als Folge von zeitdis­ kreten Abtastwerten vorliegt, wird zunächst in eine Aufeinan­ derfolge von Frames zerlegt, wobei jeder Frame eine bestimmte Anzahl von Abtastwerten des Audiosignals aufweist. Hierauf wird für jeden Frame ein akustisches Merkmal bestimmt, das die Laut­ heit (loudness), die Tonhöhe (pitch), die Helligkeit (bright­ ness), die Bandbreite (bandwidth) und die MFCC-Koeffizienten des entsprechenden Frames sein kann. Hierauf werden Merkmals- Trajektorien für jedes Merkmal gebildet, in dem die für die aufeinanderfolgenden Frames bestimmten Merkmale einer Merkmals­ klasse aneinandergefügt werden. Daraufhin wird ein Maß für jede Merkmalstrajektorie bestimmt, wobei das Maß der Merkmalstrajek­ torie der Mittelwert, die Standardabweichung eine Autokorrela­ tion und eine erste Ableitung der Merkmalstrajektorie sein kann, um aus Maßen für alle Merkmale einen Merkmalsvektor zu bilden, der in einer Merkmalsdatei gespeichert wird, die dem Audiostück zugeordnet ist. Diese Merkmalsdatei kann zur in­ haltsbasierten Suche in einer Datenbank verwendet werden.
Die Aufgabe der vorliegenden Erfindung besteht darin, eine Vorrichtung und ein Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen unter Verwendung einer Autokorrelationsfunktion zu schaffen, das robust und rechenzeiteffizient ist.
Diese Aufgabe wird durch eine Vorrichtung zum Analysieren eines Audiosignals nach Patentanspruch 1, 8 oder 9, oder durch ein Verfahren zum Analysieren eines Audiosignals nach Patentanspruch 7, 10, 11 gelöst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß eine Nachbearbeitung einer Autokorrelationsfunktion teilbandwei­ se durchgeführt werden kann, um die Mehrdeutigkeiten der Auto­ korrelationsfunktion für periodische Signale zu eliminieren bzw. Tempoinformationen, die eine Autokorrelationsverarbeitung nicht liefert, den durch eine Autokorrelationsfunktion erhaltenen In­ formationen hinzugefügt werden. Gemäß einem Aspekt der vorlie­ genden Erfindung wird eine Autokorrelationsfunktion-Nachbearbei­ tung der Teilbandsignale verwendet, um die Mehrdeutigkeiten be­ reits "an der Wurzel" zu beseitigen, bzw. "fehlende" Rhythmusin­ formationen hinzuzufügen.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird eine Nachbearbeitung der Summenautokorrelationsfunktion durchgeführt, um nachbearbeitete Rhythmus-Rohinformationen für das Audiosignal zu erhalten, so daß in den nachbearbeiteten Rhythmus- Rohinformationen ein Signalanteil bei einem ganzzahligen Bruch­ teil einer Verzögerung, der eine Autokorrelationsfunktionsspitze zugeordnet ist, hinzugefügt ist. Hierdurch ist es möglich, die durch eine Autokorrelationsfunktion nicht erhaltenen Rhythmusin­ formationen bei doppelten, dreifachen etc. Tempi bzw. bei ratio­ nalen Vielfachen durch Berechnen von um einen ganzzahligen Fak­ tor oder um einen rationalen Faktor gestauchten Versionen der Autokorrelationsfunktion und durch Addieren dieser Versionen zur ursprünglichen Autokorrelationsfunktion zu erzeugen. Im Gegen­ satz zum Stand der Technik, bei dem hierzu eine aufwendige Os­ zillatorenbank benötigt wird, geschieht dies erfindungsgemäß mit einfach zu implementierenden Gewichtungs- und Additionsroutinen.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird die Summenautokorrelationsfunktion ferner nachbearbeitet, indem eine mit einem Faktor, der größer als Null und kleiner als Eins ist, gewichtete, um einen ganzzahligen Faktor größer als Eins ge­ spreizte Version der Rhythmus-Rohinformationen zu der Autokorre­ lationsfunktion subtrahiert wird. Dies hat den Vorteil einer Elimination der AKF-Mehrdeutigkeiten bei den ganzzahligen Viel­ fachen der Verzögerung, der eine Autokorrelationsspitze zugeord­ net ist. Während im Stand der Technik keine Gewichtung der ge­ spreizten Versionen der Autokorrelationsfunktion vor der Sub­ traktion durchgeführt wird, und eine Elimination der Mehrdeutig­ keiten somit nur im theoretisch optimalen Fall erreicht wird, bei dem der Rhythmus sich ideal zyklisch wiederholt, liefert die gewichtete Subtraktion die Möglichkeit, durch geeignete Wahl der Gewichtungsfaktoren, die beispielsweise empirisch erfolgen kann, Rhythmusinformationen, die sich nicht ideal zyklisch wiederho­ len, zu berücksichtigen.
Gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Er­ findung wird eine Autokorrelationsfunktion-Nachverarbeitung durchgeführt, indem die mittels einer Autokorrelationsfunktion bestimmten Rhythmus-Rohinformationen mit gestauchten und/oder gespreizten Versionen derselben kombiniert werden. Im Falle der Verwendung von gespreizten Versionen der Rhythmus- Rohinformationen werden die gespreizten Versionen von den Rhyth­ mus-Rohinformationen subtrahiert, während im Falle von um ganz­ zahlige Faktoren gestauchten Versionen der Autokorrelationsfunk­ tion diese gestauchten Versionen zu den Rhythmus- Rohinformationen hinzuaddiert werden.
Bei einem bevorzugten Ausführungsbeispiel der Erfindung wird die gestauchte/gespreizte Version vor dem Addieren bzw. Subtrahieren mit einem Faktor zwischen Null und Eins gewichtet.
Gemäß einem weiteren bevorzugten Ausführungsbeispiel der vor­ liegenden Erfindung wird eine Qualitätsbeurteilung der Rhythmus- Rohinformationen, um ein Signifikanzmaß zu erhalten, auf der Ba­ sis der nachverarbeiteten Rhythmus-Rohinformationen durchge­ führt, derart, daß die Qualitätsbeurteilung nicht mehr durch Au­ tokorrelationsfunktions-Artefakte beeinflußt wird. Damit wird eine sichere Qualitätsbeurteilung möglich, wodurch die Robust­ heit des Bestimmens von Rhythmusinformationen des Audiosignals weiter gesteigert werden kann.
Alternativ kann die Qualitätsbeurteilung bereits vor der AKF- Nachverarbeitung stattfinden. Dies hat den Vorteil, daß, wenn ein flacher Verlauf der Rhythmus-Rohinformationen festgestellt wird, d. h. keine ausgeprägten Rhythmusinformationen, auf die AKF-Nachverarbeitung für dieses Teilbandsignal verzichtet werden kann, da dieses Teilband aufgrund seiner wenig aussagekräftigen Rhythmus-Informationen beim Ermitteln der Rhythmusinformationen des Audiosignals ohnehin keine Rolle spielen wird. Auf diese Art und Weise kann der Rechen- und Speicheraufwand weiter reduziert werden.
In den einzelnen Frequenzbändern, d. h. den Teilbändern, liegen oftmals unterschiedlich günstige Bedingungen für das Auffinden von rhythmischen Periodizitäten vor. Während beispielsweise bei Popmusik oftmals im Bereich der Mitte, beispielsweise um 1 kHz, das Signal von nicht mit dem Beat korrespondierenden Gesang do­ miniert wird, sind in den höheren Frequenzbereichen oftmals vor allem Perkussionsklänge präsent, wie z. B. das Hihat des Schlag­ zeugs, welche eine sehr gute Extraktion rhythmischer Regelmäßig­ keiten erlauben. Anders ausgedrückt beinhalten unterschiedliche Frequenzbänder je nach Audiosignal eine unterschiedliche Menge an rhythmischer Information bzw. haben eine unterschiedliche Qualität oder Signifikanz für die Rhythmusinformationen des Au­ diosignals.
Das Audiosignal wird daher zunächst in Teilbandsignale zerlegt. Jedes Teilbandsignal wird hinsichtlich seiner Periodizität un­ tersucht, um Rhythmus-Rohinformationen für jedes Teilbandsignal zu erhalten. Hierauf wird gemäß einem bevorzugten Ausführungs­ beispiel der vorliegenden Erfindung eine Bewertung der Qualität der Periodizität jedes Teilbandsignals durchgeführt, um ein Si­ gnifikanzmaß für jedes Teilbandsignal zu erhalten. Ein hohes Si­ gnifikanzmaß deutet darauf hin, dass in diesem Teilbandsignal deutliche Rhythmusinformationen vorliegen, während ein niedriges Signifikanzmaß darauf hindeutet, dass in diesem Teilbandsignal weniger eindeutige Rhythmusinformationen vorliegen.
Gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Er­ findung wird bei der Untersuchung eines Teilbandsignals hin­ sichtlich seiner Periodizitäten zunächst eine modifizierte Hüll­ kurve des Teilbandsignals berechnet und dann eine Autokorrelati­ onsfunktion der Hüllkurve berechnet. Die Autokorrelationsfunkti­ on der Hüllkurve stellt die Rhythmus-Rohinformationen dar. Ein­ deutige Rhythmusinformationen liegen vor, wenn die Autokorrela­ tionsfunktion deutliche Maxima aufweist, während weniger eindeu­ tige Rhythmusinformationen vorliegen, wenn die Autokorrelations­ funktion der Hüllkurve des Teilbandsignals weniger ausgeprägte Signalspitzen oder überhaupt keine Signalspitzen hat. Eine Auto­ korrelationsfunktion, die deutliche Signalspitzen hat, wird da­ her ein hohes Signifikanzmaß erhalten, während eine Autokorrela­ tionsfunktion, die einen relativ flachen Verlauf hat, ein nied­ riges Signifikanzmaß erhalten wird. Die Artefakte der Autokorre­ lationsfunktionen werden, wie oben ausgeführt, erfindungsgemäß eliminiert.
Die einzelnen Rhythmus-Rohinformationen der einzelnen Teilband­ signale werden also nicht einfach "blind" kombiniert, sondern unter Berücksichtigung des Signifikanzmaßes für jedes Teilband­ signal verwendet, um die Rhythmusinformationen des Audiosignals zu erhalten. Hat ein Teilbandsignal ein hohes Signifikanzmaß, so wird es bei der Ermittlung der Rhythmusinformationen bevorzugt, während ein Teilbandsignal, das ein niedriges Signifikanzmaß hat, d. h. das eine niedrige Qualität hinsichtlich der Rhythmu­ sinformationen aufweist, bei der Ermittlung der Rhythmusinforma­ tionen des Audiosignals kaum oder im Extremfall überhaupt nicht berücksichtigt wird.
Dies kann rechenzeiteffizient gut durch einen Gewichtungsfaktor implementiert werden, der von dem Signifikanzmaß abhängt. Wäh­ rend ein Teilbandsignal, das eine gute Qualität für die Rhythmu­ sinformationen hat, d. h. das ein hohes Signifikanzmaß hat, ei­ nen Gewichtungsfaktor von 1 erhalten könnte, wird ein anderes Teilbandsignal, das ein kleineres Signifikanzmaß hat, einen Ge­ wichtungsfaktor kleiner als 1 erhalten. Im Extremfall wird ein Teilbandsignal, das eine vollkommen flache Autokorrelationsfunk­ tion hat, einen Gewichtungsfaktor von 0 haben. Die gewichteten Autokorrelationsfunktionen, d. h. die gewichteten Rhythmus- Rohinformationen werden dann einfach aufsummiert. Wenn lediglich ein Teilbandsignal sämtlicher Teilbandsignale gute Rhythmusin­ formationen liefert, während die anderen Teilbandsignale Auto­ korrelationsfunktionen mit einem flachen Verlauf aufweisen, kann diese Gewichtung im Extremfall dazu führen, dass alle Teilband­ signale außer dem einen Teilbandsignal einen Gewichtungsfaktor von 0 erhalten, d. h. bei der Ermittlung der Rhythmusinformatio­ nen überhaupt nicht berücksichtigt werden, so dass die Rhythmu­ sinformationen des Audiosignals lediglich aus einem einzigen Teilbandsignal ermittelt werden.
Das erfindungsgemäße Konzept ist dahingehend vorteilhaft, dass es eine robuste Bestimmung der Rhythmusinformationen ermöglicht, da Teilbandsignale mit keinen eindeutigen bzw. sogar abweichen­ den Rhythmusinformationen, d. h. wenn der Gesang einen anderen Rhythmus aufweist als der eigentliche Beat des Stücks, die Rhythmusinformationen des Audiosignals nicht "verwässern" bzw. "verfälschen". Darüber hinaus werden sehr rauschartige Teilband­ signale, welche eine Systemautokorrelationsfunktion mit voll­ ständig flachem Verlauf liefern, das Signal/Rausch-Verhältnis bei der Bestimmung der Rhythmusinformationen nicht verschlech­ tern. Genau dies würde jedoch auftreten, wenn, wie im Stand der Technik, einfach alle Autokorrelationsfunktionen der Teilbandsi­ gnale mit gleichem Gewicht aufsummiert werden.
Ein weiterer Vorteil des beschriebenen Verfahrens besteht darin, dass mit einem kleinen zusätzlichen Rechenaufwand ein Signifi­ kanzmaß bestimmt werden kann, und dass die Bewertung der Rhyth­ mus-Rohinformationen mit dem Signifikanzmaß und die anschließen­ de Summierung ohne großen Speicher- und Rechenzeitaufwand effi­ zient durchgeführt werden können, was das erfindungsgemäße Kon­ zept insbesondere auch für Echtzeitanwendungen empfiehlt.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung wer­ den nachfolgend bezugnehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
Fig. 1 ein Blockschaltbild einer Vorrichtung zum Analysieren eines Audiosignals mit einer Qualitätsbewertung der Rhythmus-Rohinformationen;
Fig. 2 ein Blockschaltbild einer Vorrichtung zum Analysieren eines Audiosignals unter Verwendung von Gewichtungsfak­ toren auf der Basis der Signifikanzmaße;
Fig. 3 ein Blockschaltbild einer bekannten Vorrichtung zum Ana­ lysieren eines Audiosignals hinsichtlich von Rhythmusin­ formationen;
Fig. 4 ein Blockschaltbild einer Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformatio­ nen unter Verwendung einer Autokorrelationsfunktion mit einer teilbandweisen Nachbearbeitung der Rhythmus- Rohinformationen; und
Fig. 5 ein detailliertes Blockschaltbild der Einrichtung zum Nachbearbeiten von Fig. 4.
Fig. 1 zeigt ein Blockschaltbild einer Vorrichtung zum Analysie­ ren eines Audiosignals hinsichtlich von Rhythmusinformationen. Das Audiosignal wird über einen Eingang 100 einer Einrichtung 102 zum Zerlegen des Audiosignals in zumindest zwei Teilbandsi­ gnale 104a und 104b zugeführt. Jedes Teilbandsignal 104a, 104b wird in eine Einrichtung 106a bzw. 106b zum Untersuchen dessel­ ben hinsichtlich von Periodizitäten in dem Teilbandsignal zuge­ führt, um Rhythmus-Rohinformationen 108a bzw. 108b für jedes Teilbandsignal zu erhalten. Die Rhythmus-Rohinformationen werden dann einer Einrichtung 110a bzw. 110b zum Bewerten einer Quali­ tät der Periodizität jedes der zumindest zwei Teilbandsignale zugeführt, um ein Signifikanzmaß 112a, 112b für jedes der zumin­ dest zwei Teilbandsignale zu erhalten. Sowohl die Rhythmus- Rohinformationen 108a, 108b als auch die Signifikanzmaße 112a, 112b werden einer Einrichtung 114 zum Ermitteln der Rhythmusin­ formationen des Audiosignals zugeführt. Die Einrichtung 114 be­ rücksichtigt beim Ermitteln der Rhythmusinformationen des Audio­ signals die Signifikanzmaße 112a, 112b für die Teilbandsignale sowie die Rhythmus-Rohinformationen 108a, 108b von zumindest ei­ nem Teilbandsignal.
Hat die Einrichtung 110a zur Qualitätsbewertung beispielsweise festgestellt, dass in dem Teilbandsignal 104a keine besondere Periodizität vorliegt, so wird das Signifikanzmaß 112a sehr klein, bzw. gleich 0 sein. In diesem Fall stellt die Einrichtung 114 zum Ermitteln der Rhythmusinformationen fest, dass das Si­ gnifikanzmaß 112a gleich Null ist, so dass die Rhythmus- Rohinformationen 108a des Teilbandsignals 104a bei der Ermitt­ lung der Rhythmusinformationen des Audiosignals überhaupt nicht mehr berücksichtigt werden müssen. Die Rhythmusinformationen des Audiosignals werden dann allein und ausschließlich auf der Basis der Rhythmus-Rohinformationen 108b des Teilbandsignals 104b be­ stimmt.
Im nachfolgenden wird auf Fig. 2 hinsichtlich einer speziellen Ausführungsform der Vorrichtung von Fig. 1 eingegangen. Als Ein­ richtung 102 zum Zerlegen des Audiosignals kann eine übliche Analyse-Filterbank verwendet werden, die ausgangsseitig eine von einem Benutzer wählbare Anzahl von Teilbandsignalen liefert. Je­ des Teilbandsignal wird dann der Verarbeitung der Einrichtungen 106a, 106b bzw. 106c unterzogen, woraufhin dann durch die Ein­ richtungen 110a bis 110c von jeden Rhythmus-Rohinformationen Si­ gnifikanzmaße ermittelt werden. Die Einrichtung 114 umfaßt bei der in Fig. 2 dargestellten bevorzugten Ausführungsform eine Einrichtung 114a zum Berechnen von Gewichtungsfaktoren für jedes Teilbandsignal auf der Basis des Signifikanzmaßes für dieses Teilbandsignal und optional auch der anderen Teilbandsignale. In der Einrichtung 114b findet dann eine Gewichtung der Rhythmus- Rohinformationen 108a bis 108c mit dem Gewichtungsfaktor für dieses Teilbandsignal statt, woraufhin dann, ebenfalls in der Einrichtung 114b, die gewichteten Rhythmus-Rohinformationen kom­ biniert, z. B. aufsummiert, werden, um an dem Tempo-Ausgang 116 die Rhythmusinformationen des Audiosignals zu erhalten.
Das erfindungsgemäße Konzept stellt sich somit folgendermaßen dar. Nach der Evaluierung der rhythmischen Informationen der Einzelbänder, welche beispielsweise durch Hüllkurvenbildung, Glättung, Differenzieren, Begrenzen auf positive Werte und Bil­ den der Autokorrelationsfunktion stattfinden kann (Einrichtungen 106a bis 106c), findet eine Bewertung der Wertigkeit bzw. der Qualität dieser Zwischenergebnisse in den Einrichtungen 110a bis 110c statt. Dies wird mit Hilfe einer Bewertungsfunktion er­ reicht, welche die Verlässlichkeit der jeweiligen Einzelergeb­ nisse mit einem Signifikanzmaß bewertet. Aus den Signifikanzma­ ßen aller Teilbandsignale wird ein Gewichtungsfaktor für jedes Band für die Extraktion der Rhythmus-Informationen hergeleitet. Das Gesamtergebnis der Rhythmusextraktion wird dann in der Ein­ richtung 114b durch Kombination der bandweisen Einzelergebnisse unter Berücksichtigung ihrer jeweiligen Gewichtungsfaktoren er­ reicht.
Als Resultat zeigt ein solchermaßen implementierter Algorithmus zur Rhythmusanalyse eine gute Fähigkeit, rhythmische Informatio­ nen in einem Signal auch unter ungünstigen Bedingungen zuverläs­ sig zu finden. Das erfindungsgemäße Konzept zeichnet sich daher durch eine hohe Robustheit aus.
Bei einer bevorzugten Ausführungsform werden die Rhythmus- Rohinformationen 108a, 108b, 108c, die die Periodizität des je­ weiligen Teilbandsignals darstellen, mittels einer Autokorrela­ tionsfunktion bestimmt. In diesem Fall wird es bevorzugt, das Signifikanzmaß zu bestimmen, indem ein Maximum der Autokorrela­ tionsfunktion durch einen Mittelwert der Autokorrelationsfunkti­ on geteilt wird, und dann der Wert 1 subtrahiert wird. Es sei darauf hingewiesen, daß jede Autokorrelationsfunktion immer bei einer Verzögerung von 0 ein lokales Maximum, d. h. eine Spitze, liefert, die die Energie des Signals repräsentiert. Dieses loka­ le Maximum sollte unberücksichtigt bleiben, damit die Qualitäts­ bestimmung nicht verfälscht wird.
Ferner soll die Autokorrelationsfunktion lediglich in einem spe­ ziellen Tempobereich betrachtet werden, d. h. von einer maxima­ len Verzögerung, die dem kleinsten interessierenden Tempo ent­ spricht, zu einer minimalen Verzögerung, die dem höchsten interessierenden Tempo entspricht. Ein typischer Tempobereich liegt zwischen 60 bpm und 200 bpm.
Alternativ kann als Signifikanzmaß das Verhältnis zwischen dem arithmetischen Mittelwert der Autokorrelationsfunktion im inter­ essierenden Tempobereich und dem geometrischen Mittelwert der Autokorrelationsfunktion im interessierenden Tempobereich be­ stimmt werden. Es ist bekannt, dass wenn alle Werte der Autokor­ relationsfunktion gleich sind, d. h. wenn die Autokorrelations­ funktion einen flachen Verlauf hat, der geometrische Mittelwert der Autokorrelationsfunktion und der arithmetische Mittelwert der Autokorrelationsfunktion gleich sind. In diesem Fall hätte das Signifikanzmaß einen Wert gleich 1, was bedeutet, dass die Rhythmus-Rohinformationen nicht signifikant sind.
Im Falle einer Systemautokorrelationsfunktion mit starken Spit­ zen würde das Verhältnis aus arithmetischem Mittelwert zu geome­ trischem Mittelwert größer 1 sein, was bedeutet, dass die Auto­ korrelationsfunktion gute Rhythmusinformationen aufweist. Je kleiner jedoch das Verhältnis zwischen arithmetischem Mittelwert und geometrischem Mittelwert wird, desto flacher ist die Auto­ korrelationsfunktion und desto weniger Periodizitäten enthält sie, was wiederum bedeutet, dass die Rhythmusinformationen die­ ses Teilbandsignals weniger signifikant, d. h. eine geringere Qualität haben, was sich in einem geringen bzw. einem Gewich­ tungsfaktor von 0 äußern wird.
Bezüglich der Gewichtungsfaktoren existieren verschiedene Mög­ lichkeiten. Bevorzugt wird eine relative Gewichtung, derart, dass sich alle Gewichtungsfaktoren sämtlicher Teilbandsignale zu 1 aufaddieren, d. h. dass der Gewichtungsfaktor eines Bandes be­ stimmt wird als der Signifikanzwert dieses Bandes geteilt durch die Summe aller Signifikanzwerte. In diesem Fall wird eine rela­ tive Gewichtung vor der Aufsummation der gewichteten Rhythmus- Rohinformationen durchgeführt, um die Rhythmus-Informationen des Audiosignals zu erhalten.
Wie bereits ausgeführt worden ist, wird es bevorzugt, die Aus­ wertung der Rhythmus-Informationen unter Verwendung einer Auto­ korrelationsfunktion durchzuführen. Dieser Fall ist in Fig. 4 dargestellt. Das Audiosignal wird über den Audiosignaleingang 100 in die Einrichtung 102 zum Zerlegen des Audiosignals in Teilbandsignale 104a und 104b eingespeist. Jedes Teilbandsignal wird dann in der Einrichtung 106a bzw. 106b, wie es ausgeführt worden ist, unter Verwendung einer Autokorrelationsfunktion un­ tersucht, um die Periodizität des Teilbandsignals zu ermitteln. Am Ausgang der Einrichtung 106a bzw. 106b liegen dann die Rhyth­ mus-Rohinformationen 108a, 108b vor. Diese werden in eine Ein­ richtung 118a bzw. 118b eingespeist, um die mittels der Autokor­ relationsfunktion von der Einrichtung 116a ausgegebenen Rhyth­ mus-Rohinformationen nachzubearbeiten. Damit wird u. a. sicher­ gestellt, daß die Mehrdeutigkeiten der Autokorrelationsfunktion, d. h. daß bei ganzzahligen Vielfachen der Verzögerungen eben­ falls Signalspitzen auftreten, teilbandweise eliminiert werden, um nachbearbeitete Rhythmus-Rohinformationen 120a bzw. 120b zu erhalten.
Dies hat den Vorteil, dass die Mehrdeutigkeiten der Autokorrela­ tionsfunktionen, d. h. der Rhythmus-Rohinformationen 108a, 108b, bereits teilbandweise eliminiert werden, und nicht erst, wie im Stand der Technik, nach der Summation der einzelnen Autokorrela­ tionsfunktionen. Darüber hinaus ermöglicht die einzelbandweise Eliminierung der Mehrdeutigkeiten in den Autokorrelationsfunk­ tionen durch die Einrichtungen 118a, 118b, dass die Rhythmus- Rohinformationen der Teilbandsignale unabhängig voneinander ge­ handhabt werden können. Sie können beispielsweise einer Quali­ tätsbeurteilung mittels der Einrichtung 110a für die Rhythmus- Rohinformationen 108a oder mittels der Einrichtung 110b für die Rhythmus-Rohinformationen 108b unterzogen werden.
Wie es durch die gestrichelten Linien in Fig. 4 dargestellt ist, kann die Qualitätsbeurteilung jedoch auch anhand der nachbear­ beiteten Rhythmus-Rohinformationen stattfinden, wobei diese letztere Möglichkeit bevorzugt wird, da die Qualitätsbeurteilung auf der Basis der nachbearbeiteten Rhythmus-Rohinformationen si­ cherstellt, dass die Qualität einer Information beurteilt wird, die nicht mehr vieldeutig ist.
Die Ermittlung der Rhythmus-Informationen durch die Einrichtung 114 findet dann auf der Basis von nachbearbeiteten Rhythmus- Informationen eines Kanals und vorzugsweise auch auf der Basis des Signifikanzmaßes für diesen Kanal statt.
Wenn eine Qualitätsbeurteilung auf der Basis der Rhythmus- Rohinformationen, also des Signals vor der Einrichtung 118a durchgeführt wird, ist dies dahingehend vorteilhaft, dass, wenn bestimmt wird, dass das Signifikanzmaß gleich 0 ist, d. h. dass die Autokorrelationsfunktion einen flachen Verlauf hat, auf die Nachbearbeitung mittels der Einrichtung 118a gänzlich verzichtet werden kann, um Rechenzeitressourcen einzusparen.
Im nachfolgenden wird auf Fig. 5 eingegangen, um einen detail­ lierteren Aufbau einer Einrichtung 118a oder 118b zur Nachbear­ beitung der Rhythmus-Rohinformationen darzustellen. Zunächst wird das Teilband-Signal beispielsweise 104a, in die Einrichtung 106a zur Untersuchung der Periodizität des Teilbandsignals mit­ tels einer Autokorrelationsfunktion eingespeist, um Rhythmus- Rohinformationen 108a zu erhalten. Um die Mehrdeutigkeiten teil­ bandweise zu eliminieren, kann genauso wie im Stand der Technik, eine gespreizte Autokorrelationsfunktion mittels einer Einrich­ tung 121 berechnet werden, wobei die Einrichtung 121 angeordnet ist, um die gespreizte Autokorrelationsfunktion so zu berechnen, dass sie um ein ganzzahliges Vielfaches gespreizt ist. Eine Ein­ richtung 122 ist in diesem Fall angeordnet, um die gespreizte Autokorrelationsfunktion von der ursprünglichen Autokorrelati­ onsfunktion, d. h. den Rhythmus-Rohinformationen 108a zu subtra­ hieren. Insbesondere wird es bevorzugt, zunächst eine auf das Doppelte gespreizte Autokorrelationsfunktion in der Einrichtung 121 zu berechnen und dann von den Rhythmus-Rohinformationen 108a zu subtrahieren. Dann, in dem nächsten Schritt, wird eine um den Faktor 3 gespreizte Autokorrelationsfunktion in der Einrichtung 121 berechnet und von dem Ergebnis der vorherigen Subtraktion wieder abgezogen, so dass nach und nach sämtliche Mehrdeutigkei­ ten aus den Rhythmus-Rohinformationen eliminiert werden.
Darüber hinaus können die gespreizten Versionen der Rhythmus- Rohinformationen 108a vor dem Subtrahieren gewichtet werden, um auch hier eine Flexibilität im Sinne einer hohen Robustheit zu erreichen.
Durch das Verfahren, die Periodizität eines Teilbandsignals auf der Basis einer Autokorrelationsfunktion zu untersuchen, kann also eine weitere Verbesserung erzielt werden, wenn die Eigen­ schaften der Autokorrelationsfunktion mit einbezogen werden und die Nachbearbeitung unter Verwendung der Einrichtung 118a oder 118b durchgeführt wird. So erzeugt eine periodische Folge von Notenanfängen mit einem Abstand t0 nicht nur eine AKF-Spitze bei einer Verzögerung t0 sondern auch bei 2t0, 3t0, etc. Dies wird zu einer Vieldeutigkeit in der Tempodetektion, d. h. dem Suchen signifikanter Maxima in der Autokorrelationsfunktion, führen. Die Mehrdeutigkeiten können dadurch eliminiert werden, wenn um ganzzahlige Faktoren gespreizte Versionen der AKF vom Ausgangs­ wert teilbandweise (gewichtet) abgezogen werden.
Darüber hinaus können die gestauchten Versionen der Rhythmus- Rohinformationen 108a vor dem Addieren mit einem Faktor ungleich Eins gewichtet werden, um auch hier eine Flexibilität im Sinne einer hohen Robustheit zu erreichen.
Ferner besteht bei der Autokorrelationsfunktion das Problem, daß sie keine Informationen bei t0/2, t0/3. . . usw., also beim Dop­ pelten, Dreifachen, etc. des "Grundtempos" liefert, was beson­ ders dann zu falschen Ergebnissen führen kann, wenn zwei Instru­ mente, die in unterschiedlichen Teilbändern liegen, zusammen den Rhythmus des Signals definieren. Diese Sache wird dadurch be­ rücksichtigt, dass um ganzzahlige Faktoren gestauchte Versionen der Autokorrelationsfunktion berechnet werden und diese dann zu den Rhythmus-Rohinformationen gewichtet oder ungewichtet hinzu­ addiert werden.
Die AKF-Nachverarbeitung findet somit teilbandweise statt, wobei für mindestens ein Teilbandsignal eine Autokorrelationsfunktion errechnet wird und diese mit gedehnten oder gespreizten Versio­ nen dieser Funktion kombiniert wird.
Gemäß einem anderen Aspekt der vorliegenden Erfindung wird zu­ nächst die Summenautokorrelationsfunktion der Teilbänder er­ zeugt, woraufhin um ganzzahligen Faktoren gestauchte Versionen der Summenautokorrelationsfunktion vorzugsweise gewichtet hinzu­ addiert werden, um die Unzulänglichkeiten der Autokorrelations­ funktion bei dem doppelten, dreifachen etc. Tempo auszuräumen.
Gemäß einem weiteren Aspekt wird die Nachbearbeitung der Summen­ autokorrelationsfunktion, um die Mehrdeutigkeiten bei dem hal­ ben, dem dritten Teil, dem vierten Teil etc. des Tempos zu eli­ minieren, durchgeführt, indem die um ganzzahlige Faktoren ge­ spreizten Versionen der Summenautokorrelationsfunktion nicht einfach subtrahiert werden, sondern vor der Subtraktion mit ei­ nem Faktor ungleich Eins und vorzugsweise kleiner als Eins und größer als Null gewichtet werden und dann erst subtrahiert wer­ den. Damit wird eine robustere Bestimmung der Rhythmusinforma­ tionen möglich, da das ungewichtete Subtrahieren lediglich für ideale sinusförmige Signale eine vollständige Elimination der AKF-Mehrdeutigkeiten liefert.

Claims (11)

1. Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung ei­ ner Autokorrelationsfunktion, mit folgenden Merkmalen:
einer Einrichtung (102) zum Zerlegen des Audiosignals in zumin­ dest zwei Teilbandsignale (104a, 104b);
einer Einrichtung zum Untersuchen (106a, 106b) zumindest eines Teilbandsignals hinsichtlich einer Periodizität in dem zumindest einen Teilbandsignal mittels einer Autokorrelationsfunktion, um Rhythmus-Rohinformationen (108a) für das Teilbandsignal zu er­ halten, wobei einer Spitze der Autokorrelationsfunktion eine Verzögerung zugeordnet ist;
einer Einrichtung (118a) zum Nachbearbeiten der mittels der Au­ tokorrelationsfunktion bestimmten Rhythmus-Rohinformationen (108a) für das Teilbandsignal (104a), um nachbearbeitete Rhyth­ mus-Rohinformationen (120a) für das Teilbandsignal zu erhalten, so daß in den nachbearbeiteten Rhythmus-Rohinformationen eine Mehrdeutigkeit bei einem ganzzahligen Vielfachen einer Verzöge­ rung, der eine Autokorrelationsfunktionsspitze zugeordnet ist, vermindert ist, oder ein Signalanteil bei einem ganzzahligen Bruchteil einer Verzögerung, der eine Autokorrelationsfunktions­ spitze zugeordnet ist, hinzugefügt ist; und
einer Einrichtung (114) zum Ermitteln der Rhythmusinformationen des Audiosignals unter Verwendung der nachbearbeiteten Rhythmus- Rohinformationen (120a) des Teilbandsignals und unter Verwendung eines weiteren Teilbandsignals der zumindest zwei Teil­ bandsignale.
2. Vorrichtung nach Anspruch 1, bei der die Einrichtung zum Nachbearbeiten (118a, 118b) folgende Merkmale aufweist:
eine Einrichtung (121) zum Berechnen einer um einen ganzzahligen Faktor gespreizten Version der Rhythmus-Rohinformationen (108a) eines Teilbandsignals; und
einer Einrichtung (122) zum Subtrahieren der um einen ganzzahli­ gen Faktor größer als Eins gespreizten Version der Rhythmus- Rohinformationen (108a) des Teilbandsignals oder eine von dieser Version abgeleitete Version von den Rhythmus-Rohinformationen (108a) des Teilbandsignals, um die nachbearbeiteten Rhythmus- Rohinformationen (120a) für das Teilbandsignal zu erhalten.
3. Vorrichtung nach Anspruch 2, bei der die Einrichtung (122) zum Subtrahieren angeordnet ist, um vor dem Subtrahieren eine Gewichtung der gespreizten Version mit einem Faktor zwischen Null und Eins durchzuführen, um die abgeleitete Version zu er­ zeugen.
4. Vorrichtung nach Anspruch 1, bei der die Einrichtung zum Nachbearbeiten (118a) folgende Merkmale aufweist:
eine Einrichtung (121) zum Berechnen einer um einen ganzzahligen Faktor größer als Eins gestauchten Version der Rhythmus- Rohinformationen (108a); und
eine Einrichtung (122) zum Addieren der gestauchten Version der Rhythmus-Rohinformationen des Teilbandsignals oder eine von die­ ser Version abgeleitete Version zu den Rhythmus-Rohinformationen (108a) des Teilbandsignals, um die nachbearbeiteten Rhythmus- Rohinformationen (120a) für das Teilbandsignal zu erhalten.
5. Vorrichtung nach Anspruch 4, bei der die Einrichtung (122) zum Addieren angeordnet ist, um vor der Addition eine Gewichtung der gestauchten Version der Rhythmus-Rohinformationen mittels eines Faktors zwischen Null und Eins durchzuführen, derart, daß eine gewichtete gestauchte Version der Rhythmus-Rohinformationen zu den Rhythmus-Rohinformationen des Teilbandsignals hinzuad­ diert wird, um die abgeleitete Version zu erzeugen.
6. Vorrichtung nach einem der vorhergehenden Ansprüche, die ferner folgendes Merkmal aufweist:
eine Einrichtung (110a, 110b) zum Bewerten einer Qualität der Periodizität der nachverarbeiteten Rhythmus-Rohinformationen (120a), um ein Signifikanzmaß für das Teilbandsignal zu erhal­ ten,
wobei die Einrichtung (114) zum Ermitteln ferner angeordnet ist, um die Rhythmusinformationen des Audiosignals unter Berücksich­ tigung des Signifikanzmaßes des Teilbandsignals zu ermitteln.
7. Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung ei­ ner Autokorrelationsfunktion, mit folgenden Schritten:
Zerlegen (102) des Audiosignals in zumindest zwei Teilbandsigna­ le (104a, 104b)
Untersuchen (106a, 106b) zumindest eines Teilbandsignals hin­ sichtlich einer Periodizität in dem zumindest einen Teilbandsi­ gnal mittels einer Autokorrelationsfunktion, um Rhythmus- Rohinformationen (108a) für das Teilbandsignal zu erhalten, wo­ bei einer Spitze der Autokorrelationsfunktion eine Verzögerung zugeordnet ist;
Nachbearbeiten (118a) der mittels der Autokorrelationsfunktion bestimmten Rhythmus-Rohinformationen (108a) für das Teilbandsi­ gnal (104a), um nachbearbeitete Rhythmus-Rohinformationen (120a) für das Teilbandsignal zu erhalten, so daß in den nachbearbeite­ ten Rhythmus-Rohinformationen eine Mehrdeutigkeit bei einem ganzzahligen Vielfachen einer Verzögerung, der eine Autokorrela­ tionsfunktionsspitze zugeordnet ist, vermindert ist, oder ein Signalanteil bei einem ganzzahligen Bruchteil einer Verzögerung, der eine Autokorrelationsfunktionsspitze zugeordnet ist, hinzu­ gefügt ist; und
Ermitteln (114) der Rhythmusinformationen des Audiosignals unter Verwendung der nachbearbeiteten Rhythmus-Rohinformationen (120a) des Teilbandsignals und unter Verwendung eines weiteren Teil­ bandsignals der zumindest zwei Teilbandsignale.
8. Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung ei­ ner Autokorrelationsfunktion, mit folgenden Merkmalen:
einer Einrichtung zum Untersuchen des Audiosignals hinsichtlich einer Periodizität in dem Audiosignal, um Rhythmus- Rohinformationen für das Audiosignal zu erhalten, wobei einer Spitze der Autokorrelationsfunktion eine Verzögerung zugeordnet ist;
einer Einrichtung zum Nachbearbeiten der mittels der Autokorre­ lationsfunktion bestimmten Rhythmus-Rohinformationen für das Au­ diosignal, um nachbearbeitete Rhythmus-Rohinformationen für das Audiosignal zu erhalten, so daß in den nachbearbeiteten Rhyth­ mus-Rohinformationen ein Signalanteil bei einem ganzzahligen Bruchteil einer Verzögerung, der eine Autokorrelationsfunktions­ spitze zugeordnet ist, hinzugefügt ist; und
einer Einrichtung zum Ermitteln der Rhythmusinformationen des Audiosignals unter Verwendung der nachbearbeiteten Rhythmus- Rohinformationen des Audiosignals.
9. Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung ei­ ner Autokorrelationsfunktion, mit folgenden Merkmalen:
einer Einrichtung zum Untersuchen des Audiosignals hinsichtlich einer Periodizität in dem Audiosignal, um Rhythmus- Rohinformationen für das Audiosignal zu erhalten, wobei einer Spitze der Autokorrelationsfunktion eine Verzögerung zugeordnet ist;
einer Einrichtung zum Nachbearbeiten der mittels der Autokorre­ lationsfunktion bestimmten Rhythmus-Rohinformationen für das Au­ diosignal, um nachbearbeitete Rhythmus-Rohinformationen für das Audiosignal zu erhalten, durch Subtrahieren einer mit einem Fak­ tor ungleich Eins gewichteten, um einen ganzzahligen Faktor grö­ ßer als Eins gespreizten Version der Rhythmus-Rohinformationen; und
einer Einrichtung zum Ermitteln der Rhythmusinformationen des Audiosignals unter Verwendung der nachbearbeiteten Rhythmus- Rohinformationen des Audiosignals.
10. Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung ei­ ner Autokorrelationsfunktion, mit folgenden Schritten:
Untersuchen des Audiosignals hinsichtlich einer Periodizität in dem Audiosignal, um Rhythmus-Rohinformationen für das Audiosi­ gnal zu erhalten, wobei einer Spitze der Autokorrelationsfunkti­ on eine Verzögerung zugeordnet ist;
Nachbearbeiten der mittels der Autokorrelationsfunktion bestimm­ ten Rhythmus-Rohinformationen für das Audiosignal, um nach­ bearbeitete Rhythmus-Rohinformationen für das Audiosignal zu er­ halten, so daß in den nachbearbeiteten Rhythmus-Rohinformationen ein Signalanteil bei einem ganzzahligen Bruchteil einer Verzöge­ rung, der eine Autokorrelationsfunktionsspitze zugeordnet ist, hinzugefügt ist; und
Ermitteln der Rhythmusinformationen des Audiosignals unter Ver­ wendung der nachbearbeiteten Rhythmus-Rohinformationen des Au­ diosignals.
11. Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung ei­ ner Autokorrelationsfunktion, mit folgenden Schritten:
Untersuchen des Audiosignals hinsichtlich einer Periodizität in dem Audiosignal, um Rhythmus-Rohinformationen für das Audiosi­ gnal zu erhalten, wobei einer Spitze der Autokorrelationsfunkti­ on eine Verzögerung zugeordnet ist;
Nachbearbeiten der mittels der Autokorrelationsfunktion bestimm­ ten Rhythmus-Rohinformationen für das Audiosignal, um nach­ bearbeitete Rhythmus-Rohinformationen für das Audiosignal zu er­ halten, durch Subtrahieren einer mit einem Faktor ungleich Eins gewichteten, um einen ganzzahligen Faktor größer als Eins ge­ spreizten Version der Rhythmus-Rohinformationen; und
Ermitteln der Rhythmusinformationen des Audiosignals unter Ver­ wendung der nachbearbeiteten Rhythmus-Rohinformationen des Au­ diosignals.
DE10123281A 2001-05-14 2001-05-14 Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion Expired - Fee Related DE10123281C1 (de)

Priority Applications (7)

Application Number Priority Date Filing Date Title
DE10123281A DE10123281C1 (de) 2001-05-14 2001-05-14 Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion
EP02742987A EP1371055B1 (de) 2001-05-14 2002-05-10 Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion
DE50202914T DE50202914D1 (de) 2001-05-14 2002-05-10 Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion
ES02742987T ES2240762T3 (es) 2001-05-14 2002-05-10 Dispositivo para analizar una señal de audio en relacion con la informacion de ritmo de la señal de audio mediante el uso de una funcion de autocorrelacion.
AT02742987T ATE294440T1 (de) 2001-05-14 2002-05-10 Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion
PCT/EP2002/005171 WO2002093550A2 (de) 2001-05-14 2002-05-10 Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen unter verwendung einer autokorrelationsfunktion
US10/713,691 US7012183B2 (en) 2001-05-14 2003-11-14 Apparatus for analyzing an audio signal with regard to rhythm information of the audio signal by using an autocorrelation function

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10123281A DE10123281C1 (de) 2001-05-14 2001-05-14 Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion

Publications (1)

Publication Number Publication Date
DE10123281C1 true DE10123281C1 (de) 2002-10-10

Family

ID=7684650

Family Applications (2)

Application Number Title Priority Date Filing Date
DE10123281A Expired - Fee Related DE10123281C1 (de) 2001-05-14 2001-05-14 Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion
DE50202914T Expired - Lifetime DE50202914D1 (de) 2001-05-14 2002-05-10 Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE50202914T Expired - Lifetime DE50202914D1 (de) 2001-05-14 2002-05-10 Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion

Country Status (6)

Country Link
US (1) US7012183B2 (de)
EP (1) EP1371055B1 (de)
AT (1) ATE294440T1 (de)
DE (2) DE10123281C1 (de)
ES (1) ES2240762T3 (de)
WO (1) WO2002093550A2 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10223735A1 (de) * 2002-05-28 2004-01-08 Red Chip Company Ltd. Verfahren und Vorrichtung zum Ermitteln von Rhythmuseinheiten in einem Musikstück
DE102005038876A1 (de) * 2005-08-17 2007-03-01 Andreas Merz Benutzereingabevorrichtung mit Benutzereingabebewertung und Verfahren
EP2061035A3 (de) * 2001-05-22 2009-07-15 Pioneer Corporation Informationswiedergabegerät

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10123366C1 (de) * 2001-05-14 2002-08-08 Fraunhofer Ges Forschung Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen
DE10232916B4 (de) * 2002-07-19 2008-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
US8918316B2 (en) * 2003-07-29 2014-12-23 Alcatel Lucent Content identification system
US20090019994A1 (en) * 2004-01-21 2009-01-22 Koninklijke Philips Electronic, N.V. Method and system for determining a measure of tempo ambiguity for a music input signal
US8535236B2 (en) * 2004-03-19 2013-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for analyzing a sound signal using a physiological ear model
US7626110B2 (en) * 2004-06-02 2009-12-01 Stmicroelectronics Asia Pacific Pte. Ltd. Energy-based audio pattern recognition
US7563971B2 (en) * 2004-06-02 2009-07-21 Stmicroelectronics Asia Pacific Pte. Ltd. Energy-based audio pattern recognition with weighting of energy matches
US7193148B2 (en) * 2004-10-08 2007-03-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating an encoded rhythmic pattern
WO2006037366A1 (en) * 2004-10-08 2006-04-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an encoded rhythmic pattern
JP4948118B2 (ja) * 2005-10-25 2012-06-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP4465626B2 (ja) * 2005-11-08 2010-05-19 ソニー株式会社 情報処理装置および方法、並びにプログラム
FI20065010A0 (fi) * 2006-01-09 2006-01-09 Nokia Corp Häiriönvaimennuksen yhdistäminen tietoliikennejärjestelmässä
JP5351373B2 (ja) * 2006-03-10 2013-11-27 任天堂株式会社 演奏装置および演奏制御プログラム
US7952012B2 (en) * 2009-07-20 2011-05-31 Apple Inc. Adjusting a variable tempo of an audio file independent of a global tempo using a digital audio workstation
US8121618B2 (en) 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
US8490131B2 (en) * 2009-11-05 2013-07-16 Sony Corporation Automatic capture of data for acquisition of metadata
US9484046B2 (en) 2010-11-04 2016-11-01 Digimarc Corporation Smartphone-based methods and systems
GB201109731D0 (en) 2011-06-10 2011-07-27 System Ltd X Method and system for analysing audio tracks
US8952233B1 (en) * 2012-08-16 2015-02-10 Simon B. Johnson System for calculating the tempo of music
US9357163B2 (en) * 2012-09-20 2016-05-31 Viavi Solutions Inc. Characterizing ingress noise
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
US9354778B2 (en) 2013-12-06 2016-05-31 Digimarc Corporation Smartphone-based methods and systems
JP2016177204A (ja) * 2015-03-20 2016-10-06 ヤマハ株式会社 サウンドマスキング装置
US9756281B2 (en) 2016-02-05 2017-09-05 Gopro, Inc. Apparatus and method for audio based video synchronization
CN105741835B (zh) * 2016-03-18 2019-04-16 腾讯科技(深圳)有限公司 一种音频信息处理方法及终端
US9697849B1 (en) 2016-07-25 2017-07-04 Gopro, Inc. Systems and methods for audio based synchronization using energy vectors
US9640159B1 (en) 2016-08-25 2017-05-02 Gopro, Inc. Systems and methods for audio based synchronization using sound harmonics
US9653095B1 (en) * 2016-08-30 2017-05-16 Gopro, Inc. Systems and methods for determining a repeatogram in a music composition using audio features
US9916822B1 (en) 2016-10-07 2018-03-13 Gopro, Inc. Systems and methods for audio remixing using repeated segments
JP2020106753A (ja) * 2018-12-28 2020-07-09 ローランド株式会社 情報処理装置および映像処理システム
CN111508457A (zh) * 2020-04-14 2020-08-07 上海影卓信息科技有限公司 音乐节拍检测方法和系统
US11107504B1 (en) * 2020-06-29 2021-08-31 Lightricks Ltd Systems and methods for synchronizing a video signal with an audio signal

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3999009A (en) * 1971-03-11 1976-12-21 U.S. Philips Corporation Apparatus for playing a transparent optically encoded multilayer information carrying disc
JPS61117746A (ja) * 1984-11-13 1986-06-05 Hitachi Ltd 光デイスク基板
JPS61177642A (ja) * 1985-01-31 1986-08-09 Olympus Optical Co Ltd 光学的情報記録再生装置
GB2207027B (en) 1987-07-15 1992-01-08 Matsushita Electric Works Ltd Voice encoding and composing system
US5255260A (en) * 1989-07-28 1993-10-19 Matsushita Electric Industrial Co., Ltd. Optical recording apparatus employing stacked recording media with spiral grooves and floating optical heads
US5392263A (en) * 1990-01-31 1995-02-21 Sony Corporation Magneto-optical disk system with specified thickness for protective layer on the disk relative to the numerical aperture of the objective lens
KR940002573B1 (ko) * 1991-05-11 1994-03-25 삼성전자 주식회사 광디스크기록재생장치에 있어서 연속재생장치 및 그 방법
US5255262A (en) * 1991-06-04 1993-10-19 International Business Machines Corporation Multiple data surface optical data storage system with transmissive data surfaces
US5470627A (en) * 1992-03-06 1995-11-28 Quantum Corporation Double-sided optical media for a disk storage device
WO1993024923A1 (en) * 1992-06-03 1993-12-09 Neil Philip Mcangus Todd Analysis and synthesis of rhythm
DE4311683C2 (de) * 1993-04-08 1996-05-02 Sonopress Prod Plattenförmiger optischer Speicher und Verfahren zu dessen Herstellung
EP1045377A3 (de) * 1993-06-08 2011-03-16 Panasonic Corporation Optische Platte sowie Vorrichtung zur Informationsaufnahme/wiedergabe
DE69422870T2 (de) * 1993-09-07 2000-10-05 Hitachi Ltd Informationsaufzeichnungsträger, optische Platten und Wiedergabesystem
US5518325A (en) * 1994-02-28 1996-05-21 Compulog Disk label printing
JP3210549B2 (ja) * 1995-05-17 2001-09-17 日本コロムビア株式会社 光情報記録媒体
US5729525A (en) * 1995-06-21 1998-03-17 Matsushita Electric Industrial Co., Ltd. Two-layer optical disk
JP3674092B2 (ja) * 1995-08-09 2005-07-20 ソニー株式会社 再生装置
JP2728057B2 (ja) * 1995-10-30 1998-03-18 日本電気株式会社 光ディスク用情報アクセス装置
JPH09161320A (ja) * 1995-12-08 1997-06-20 Nippon Columbia Co Ltd 貼り合わせ型光情報記録媒体
JPH09293083A (ja) 1996-04-26 1997-11-11 Toshiba Corp 楽曲検索装置および検索方法
TW350571U (en) * 1996-11-23 1999-01-11 Ind Tech Res Inst Optical grille form of optical read head in digital CD-ROM player
JPH10269611A (ja) * 1997-03-27 1998-10-09 Pioneer Electron Corp 光ピックアップ及びそれを用いた多層ディスク再生装置
US5949752A (en) * 1997-10-30 1999-09-07 Wea Manufacturing Inc. Recording media and methods for display of graphic data, text, and images
JP4043175B2 (ja) * 2000-06-09 2008-02-06 Tdk株式会社 光情報媒体およびその製造方法
US6657117B2 (en) * 2000-07-14 2003-12-02 Microsoft Corporation System and methods for providing automatic classification of media entities according to tempo properties

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2061035A3 (de) * 2001-05-22 2009-07-15 Pioneer Corporation Informationswiedergabegerät
DE10223735A1 (de) * 2002-05-28 2004-01-08 Red Chip Company Ltd. Verfahren und Vorrichtung zum Ermitteln von Rhythmuseinheiten in einem Musikstück
DE10223735B4 (de) * 2002-05-28 2005-05-25 Red Chip Company Ltd. Verfahren und Vorrichtung zum Ermitteln von Rhythmuseinheiten in einem Musikstück
DE102005038876A1 (de) * 2005-08-17 2007-03-01 Andreas Merz Benutzereingabevorrichtung mit Benutzereingabebewertung und Verfahren
DE102005038876B4 (de) * 2005-08-17 2013-03-14 Andreas Merz Benutzereingabevorrichtung mit Benutzereingabebewertung und Verfahren

Also Published As

Publication number Publication date
US7012183B2 (en) 2006-03-14
DE50202914D1 (de) 2005-06-02
WO2002093550A3 (de) 2003-02-27
US20040094019A1 (en) 2004-05-20
EP1371055A2 (de) 2003-12-17
WO2002093550A2 (de) 2002-11-21
ES2240762T3 (es) 2005-10-16
EP1371055B1 (de) 2005-04-27
ATE294440T1 (de) 2005-05-15

Similar Documents

Publication Publication Date Title
DE10123281C1 (de) Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion
DE10123366C1 (de) Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen
DE10232916B4 (de) Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
EP1407446B1 (de) Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals
EP1368805B1 (de) Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals
EP1606798B1 (de) Vorrichtung und verfahren zum analysieren eines audio-informationssignals
EP2351017B1 (de) Verfahren zur erkennung von notenmustern in musikstücken
DE102007034774A1 (de) Vorrichtung zur Bestimmung von Akkordnamen und Programm zur Bestimmung von Akkordnamen
DE2659096A1 (de) Verfahren und vorrichtung zur spracherkennung
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE60031812T2 (de) Vorrichtung und Verfahren zur Klangsynthesierung
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
DE102004028693B4 (de) Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt
WO2006005448A1 (de) Verfahren und vorrichtung zur rhythmischen aufbereitung von audiosignalen
EP1377924B1 (de) VERFAHREN UND VORRICHTUNG ZUM EXTRAHIEREN EINER SIGNALKENNUNG, VERFAHREN UND VORRICHTUNG ZUM ERZEUGEN EINER DAZUGEHÖRIGEN DATABANK und Verfahren und Vorrichtung zum Referenzieren eines Such-Zeitsignals
EP1671315B1 (de) Vorrichtung und verfahren zum charakterisieren eines tonsignals
EP1743324B1 (de) Vorrichtung und verfahren zum analysieren eines informationssignals
DE10253868B3 (de) Verfahren und Anordnung zur Synchronisation von Test- und Referenzmustern sowie ein entsprechendes Computerprogramm-Erzeugnis und ein entsprechendes computerlesbares Speichermedium

Legal Events

Date Code Title Description
8100 Publication of patent without earlier publication of application
D1 Grant (no unexamined application published) patent law 81
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee