DE10123366C1 - Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen - Google Patents

Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen

Info

Publication number
DE10123366C1
DE10123366C1 DE10123366A DE10123366A DE10123366C1 DE 10123366 C1 DE10123366 C1 DE 10123366C1 DE 10123366 A DE10123366 A DE 10123366A DE 10123366 A DE10123366 A DE 10123366A DE 10123366 C1 DE10123366 C1 DE 10123366C1
Authority
DE
Germany
Prior art keywords
subband
rhythm
information
signal
raw
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE10123366A
Other languages
English (en)
Inventor
Juergen Herre
Jan Rohden
Christian Uhle
Markus Cremer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to DE10123366A priority Critical patent/DE10123366C1/de
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to AT02745267T priority patent/ATE279769T1/de
Priority to EP02745267A priority patent/EP1388145B1/de
Priority to US10/467,704 priority patent/US20040068401A1/en
Priority to JP2002590149A priority patent/JP3914878B2/ja
Priority to DE2002501311 priority patent/DE50201311D1/de
Priority to PCT/EP2002/004618 priority patent/WO2002093557A1/de
Application granted granted Critical
Publication of DE10123366C1 publication Critical patent/DE10123366C1/de
Priority to HK04102850A priority patent/HK1059959A1/xx
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/135Autocorrelation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

Eine Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals, umfassend eine Filterbank zum Unterlegen des Audiosignals in zumindest zwei Teilbandsignale. Jedes Teilbandsignal wird hinsichtlich einer Periodizität des Teilbandsignals untersucht, um Rhythmus-Rohinformationen jedes Teilbandsignals zu erhalten. Die Rhythmus-Rohinformationen werden einer Qualitätsbeurteilung unterzogen, um ein Signifikanzmaß für jedes Teilbandsignal zu erhalten. Die Rhythmusinformationen des Audiosignals werden schließlich unter Berücksichtigung des Signifikanzmaßes des Teilbandsignals und der Rhythmus-Rohinformationen ermittelt. Dies ermöglicht eine robustere Analyse des Audiosignals, da Teilbandsignale, in denen deutliche Rhythmusinformationen vorliegen, gegenüber Teilbandsignalen, in denen weniger deutliche Rhythmusinformationen vorliegen, beim Ermitteln der Rhythmusinformationen bevorzugt werden.

Description

Die vorliegende Erfindung bezieht sich auf Signalverarbei­ tungskonzepte und insbesondere auf die Analyse von Audiosigna­ len hinsichtlich von Rhythmusinformationen.
In den letzten Jahren ist die Verfügbarkeit multimedialen Da­ tenmaterials, wie z. B. Audio- oder Video-Daten, stark gestie­ gen. Dies ist auf eine Reihe von technischen Faktoren zurück­ zuführen, welche sich insbesondere auf die breite Verfügbar­ keit des Internets, von leistungsfähiger Rechnerhard- und Software sowie von leistungsfähigen Verfahren zur Datenkom­ pression, d. h. Quellcodierung, von Audio- und Videoverfahren stützen.
Die riesigen Mengen audiovisueller Daten, die beispielsweise auf dem Internet weltweit verfügbar sind, verlangen nach Kon­ zepten, die es ermöglichen, diese Daten nach inhaltlichen Kri­ terien beurteilen, katalogisieren usw. zu können. Es besteht der Wunsch, in der Lage zu sein, multimediale Daten gezielt durch Angabe sinnvoller Kriterien zu suchen und aufzufinden.
Dies erfordert sogenannte "inhaltsbasierter" Techniken, die aus den audiovisuellen Daten sogenannte Merkmale, die in Fach­ kreisen auch als "Features" bezeichnet werden, extrahieren, welche wichtige charakteristische Eigenschaften des Signals repräsentieren. Basierend auf solchen Merkmalen bzw. Kombina­ tionen dieser Merkmale können Ähnlichkeitsbeziehungen bzw. Ge­ meinsamkeiten zwischen Audio- oder Videosignalen hergeleitet werden. Dieser Vorgang erfolgt durch Vergleich bzw. In- Beziehung-Setzen der extrahierten Merkmalswerte aus den ver­ schiedenen Signalen, welche auch einfach als "Stücke" bezeich­ net werden.
Von besonderem Interesse ist die Bestimmung bzw. Extraktion von Merkmalen, die nicht nur signaltheoretische, sondern mög­ lichst unmittelbare semantische Bedeutung haben, d. h. vom Hörer unmittelbar empfundene Eigenschaften repräsentieren.
Dies ermöglicht es dem Benutzer, auf einfache und intuitive Weise Suchanfragen zu formulieren, um Stücke aus dem gesamten vorhandenen Datenbestand einer Audiosignal-Datenbank zu fin­ den. Ebenso erlauben es semantisch relevante Merkmale, Ähn­ lichkeitsbeziehungen zwischen Stücken zu modellieren, die der menschlichen Empfindung nahe kommen. Die Verwendung von Merk­ malen, die semantische Bedeutung haben, ermöglicht auch bei­ spielsweise ein automatisches Vorschlagen von für einen be­ stimmten Benutzer interessanten Stücken, wenn seine Vorlieben bekannt sind.
Im Bereich der Musikanalyse ist das Tempo ein wichtiger musi­ kalischer Parameter, der semantische Bedeutung hat. Das Tempo wird üblicherweise in "Beats per Minute" (BPM) gemessen. Die automatische Extraktion des Tempos sowie der Taktschwerpunkte des "Beats" bzw. allgemein gesagt die automatische Extraktion von Rhythmusinformationen, ist ein Beispiel für die Gewinnung eines semantisch wichtigen Merkmals- eines Musikstückes.
Weiterhin besteht ein Wunsch dahingehend, dass die Merkmalsex­ traktion, d. h. das Extrahieren von Rhythmusinformationen aus einem Audiosignal, robust und recheneffizient stattfinden kann. Robustheit bedeutet, dass es keine Rolle spielen darf, ob das Stück quellcodiert und wieder decodiert worden ist, ob das Stück über einen Lautsprecher abgespielt und von einem Mikrophon empfangen worden ist, ob es laut oder leise gespielt wird, oder ob es von einem Instrument oder einer Mehrzahl von Instrumenten gespielt wird.
Für die Bestimmung der Taktschwerpunkte und damit auch des Tempos, d. h. für die Bestimmung von Rhythmusinformationen, hat sich in den Fachkreisen auch der Begriff "Beat Tracking" etabliert. Aus dem Stand der Technik ist es bereits bekannt, ein Beat Tracking auf der Basis einer notenartigen bzw. tran­ skribierten Signaldarstellung, z. B. im Midi-Format, durchzu­ führen. Ziel ist es jedoch, keine solchen Metadarstellungen zu benötigen, sondern eine Analyse direkt mit einem z. B. PCM- codierten oder allgemein gesagt digital vorliegenden Audiosi­ gnal vorzunehmen.
Die Fachveröffentlichung "Tempo and Beat Analysis of Acoustic Musical Signals" von Eric D. Scheirer, J. Acoust. Soc. Am. 103: 1, (Jan 1998), Seiten 588-601, offenbart ein Verfahren zur automatischen Extraktion eines rhythmischen Pulses aus mu­ sikalischen Exzerpten. Das Eingangssignal wird mittels einer Filterbank in eine Reihe von Teilbändern aufgespalten, bei­ spielsweise in 6 Teilbänder mit Übergangsfrequenzen von 200 Hz, 400 Hz, 800 Hz, 1600 Hz und 3200 Hz. Für das erste Teil­ band wird eine Tiefpassfilterung durchgeführt. Für das letzte Teilband wird eine Hochpassfilterung durchgeführt, für die restlichen, dazwischen liegenden Teilbände wird eine Bandpass­ filterung beschrieben. Jedes Teilband wird folgendermaßen ver­ arbeitet. Das Teilbandsignal wird zunächst gleichgerichtet. In anderen Worten ausgedrückt wird der Absolutbetrag der Ab­ tastwerte bestimmt. Die resultierenden n Werte werden dann ge­ glättet, beispielsweise mit einer Mittelung über ein geeigne­ tes Fenster, um ein Hüllkurvensignal zu erhalten. Zur Senkung der Rechenkomplexität kann das Hüllkurvensignal unterabgeta­ stet werden. Die Hüllkurvensignale werden differenziert, d. h. plötzliche Änderungen der Signalamplitude werden durch das Differenzierungsfilter bevorzugt weitergeleitet. Das Resultat wird dann auf nicht-negative Werte begrenzt. Jedes Hüllkurven­ signal wird dann in eine Bank resonanter Filter, d. h. Oszil­ latoren, gegeben, die jeweils ein Filter für jeden Tempobe­ reich enthalten, so dass das zum musikalischen Tempo passende Filter am stärksten angeregt wird. Für jedes Filter wird die Energie des Ausgangssignals als Maß für die Übereinstimmung des Tempos des Eingangssignals mit dem zum Filter gehörigen Tempo berechnet. Die Energien für jedes Tempo werden schließ­ lich über alle Teilbänder aufsummiert, wobei die größte Ener­ giesumme das als Resultat gelieferte Tempo, d. h. die Rhythmu­ sinformationen, kennzeichnet.
Ein wesentlicher Nachteil dieses Verfahrens besteht in der großen Rechen- und Speicherkomplexität insbesondere zur Reali­ sierung der großen Zahl von parallelschwingenden "Oszillato­ ren", von denen letztlich nur ein einziger ausgewählt wird. Dies macht eine effiziente Implementierung beispielsweise für Echtzeitanwendungen nahezu unmöglich.
Die Fachveröffentlichung "Pulse Tracking with a Pitch Tracker" von Eric D. Scheirer, Proc. 1997 Workshop on Applications of Signal Processing to Audio and Acoustics, Mohonk, NY, Oct 1997, beschreibt einen Vergleich des oben beschriebenen "Os­ zillatorkonzeptes" mit einem Alternativkonzept, das auf der Verwendung von Autokorrelationsfunktionen zur Extraktion der Periodizität aus einem Audiosignal, d. h. der Rhythmusinforma­ tionen eines Signals, aufbaut. Ein Algorithmus zur Modellierung der menschlichen Tonhöhenwahrnehmung, d. h. des Pitch, wird für das "Beat Tracking" eingesetzt.
Der bekannte Algorithmus ist in Fig. 3 als Blockdiagramm dar­ gestellt. Das Audiosignal wird über einen Audioeingang 300 einer Analyse-Filterbank 302 zugeführt. Die Analyse-Filterbank erzeugt aus dem Audioeingang eine Anzahl n von Kanälen, d. h. von einzelnen Teilbandsignalen. Jedes Teilbandsignal enthält einen bestimmten Bereich an Frequenzen des Audiosignals. Die Filter der Analyse-Filterbank sind so ausgewählt, dass sie die Selektionscharakteristik des menschlichen Innenohrs annähern. Eine solche Analyse-Filterbank wird auch als Gamma-Ton- Filterbank bezeichnet.
In den Einrichtungen 304a bis 304c werden die Rhythmus- Informationen jedes Teilbandsignals ausgewertet. Für jedes Eingangssignal wird zunächst ein hüllkurvenartiges Ausgangs­ signal berechnet (entsprechend einer sogenannten "Inner Hair Cell"-Verarbeitung im Ohr) und unterabgetastet. Aus diesem Re­ sultat wird eine Autokorrelationsfunktion (AKF) berechnet, um die Periodizität des Signals als Funktion der Verzögerung, d. h. des "Lag" zu erhalten.
Am Ausgang der Einrichtungen 304a bis 304c liegt dann für je­ des Teilbandsignal eine Autokorrelationsfunktion vor, welche Aspekte der Rhythmus-Informationen jedes Teilbandsignals dar­ stellt.
Die einzelnen Autokorrelationsfunktionen der Teilbandsignale werden dann in einer Einrichtung 306 durch Summation kombi­ niert, um eine Summenautokorrelationsfunktion (SAKF) zu erhal­ ten, welche die Rhythmus-Informationen des Signals am Audio- Eingang 300 wiedergibt. Diese Informationen können an einem Tempo-Ausgang 308 ausgegeben werden. Große Werte in der Sum­ menautokorrelation zeigen an, dass für eine einer Spitze der SAKF zugeordneten Verzögerung (Lag) eine hohe Periodizität der Notenanfänge vorliegt. Daher wird beispielsweise der größte Wert der Summenautokorrelationsfunktion innerhalb der musika­ lisch sinnvollen Verzögerungen gesucht.
Musikalisch sinnvolle Verzögerungen sind beispielsweise der Tempobereich zwischen 60 bpm und 200 bpm. Die Einrichtung 306 kann ferner angeordnet sein, um eine Verzögerungszeit in Tem­ poinformationen umzusetzen. So entspricht beispielsweise eine Spitze einer Verzögerung von einer Sekunde einem Tempo von 60 Schlägen pro Minute. Kleinere Verzögerungen deuten auf höhere Tempos hin, während größere Verzögerungen auf kleinere Tempos als 60 bpm hinweisen.
Dieses Verfahren hat gegenüber dem zuerst genannten Verfahren einen Vorteil dahingehend, dass keine Oszillatoren mit großem Rechen- und Speicheraufwand implementiert werden müssen. Ande­ rerseits ist das Konzept dahingehend nachteilhaft, dass die Qualität der Ergebnisse sehr stark von der Art des Audiosi­ gnals abhängt. Ist aus einem Audiosignal beispielsweise ein dominantes Rhythmusinstrument herauszuhören, so wird das in Fig. 3 beschriebene Konzept gut funktionieren. Ist dagegen die Stimme dominant, welche keine besonders eindeutigen Rhythmu­ sinformationen liefern wird, so wird die Rhythmusbestimmung mehrdeutig sein. In dem Audiosignal könnte durchaus auch ein Band vorkommen, das lediglich Rhythmusinformationen enthält, wie z. B. ein höheres Frequenzband, in dem beispielsweise ein Hihat eines Schlagzeugs positioniert ist, oder ein niedriges Frequenzband, in dem die große Trommel eines Schlagzeugs auf der Frequenzskala positioniert ist. Aufgrund der Kombination der Einzelinformationen werden jedoch die einigermaßen eindeu­ tigen Informationen dieser speziellen Teilbänder von den mehr­ deutigen Informationen der anderen Teilbänder überlagert bzw. "verwässert".
Ein weiteres Problem bei der Verwendung von Autokorrelations­ funktionen zum Extrahieren der Periodizität eines Teilbandsi­ gnals besteht darin, dass die Summen-Autokorrelationsfunktion, die durch die Einrichtung 306 gewonnen wird, mehrdeutig ist. Die Summen-Autokorrelationsfunktion am Ausgang 306 ist dahin­ gehend mehrdeutig, dass auch beim Vielfachen einer Verzögerung eine Autokorrelationsfunktions-Spitze erzeugt wird. Dies ist daraus verständlich, dass eine Sinuskomponente mit einer Peri­ ode von t0, wenn sie einer Autokorrelationsfunktionverarbei­ tung unterzogen wird, neben dem gewünschten Maximum bei t0 auch Maxima bei Vielfachen der Verzögerungen, d. h. bei 2t0, 3t0, usw. erzeugt.
Die Fachveröffentlichung "A Computationally Efficient Multi­ pitch Analysis Model", von Tolonen und Karjalainen, IEEE Tran­ sactions on Speech and Audio Processing, Band 8, Nr. 6, Nov. 2000, offenbart ein rechenzeiteffizientes Modell für eine Pe­ riodizitätsanalyse von komplexen Audiosignalen. Das Rechenmo­ dell teilt das Signal in zwei Kanäle auf, und zwar in einen Kanal unter 1000 Hz und einen Kanal über 1000 Hz. Hieraus wird eine Autokorrelation des unteren Kanals und eine Autokorrela­ tion der Hüllkurve des oberen Kanals berechnet. Schließlich werden die beiden Autokorrelationsfunktionen summiert. Um die Mehrdeutigkeiten der Summenautokorrelationsfunktion zu elimi­ nieren, wird die Summenautokorrelationsfunktion weiterverar­ beitet, um eine sogenannte Enhanced Summary Autocorrelation Function (ESACF) (Weiterentwickelte Summenautokorrelations­ funktion) zu erhalten. Diese Nachbearbeitung der Summenauto­ korrelationsfunktion beinhaltet ein wiederholtes Abziehen von mit ganzzahligen Faktoren gespreizten Versionen der Autokorre­ lationsfunktion von der Summenautokorrelationsfunktion mit nachfolgender Begrenzung auf nicht-negative Werte.
Die Aufgabe der vorliegenden Erfindung besteht darin, eine re­ chenzeiteffiziente und robuste Vorrichtung und ein rechenzei­ teffizientes und robustes Verfahren zum Analysieren eines Au­ diosignals hinsichtlich von Rhythmusinformationen zu schaffen.
Diese Aufgabe wird durch eine Vorrichtung zum Analysieren ei­ nes Audiosignals nach Patentanspruch 1 oder durch ein Verfah­ ren zum Analysieren eines Audiosignals nach Patentanspruch 11 gelöst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass in den einzelnen Frequenzbändern, d. h. den Teilbändern, oft­ mals unterschiedlich günstige Bedingungen für das Auffinden von rhythmischen Periodizitäten herrschen. Während beispiels­ weise bei Popmusik oftmals im Bereich der Mitte, beispielswei­ se um 1 kHz, das Signal von nicht mit dem Beat korrespondie­ renden Gesang dominiert wird, sind in den höheren Frequenzbe­ reichen oftmals vor allem Perkussionsklänge präsent, wie z. B. das Hihat des Schlagzeugs, welche eine sehr gute Extraktion rhythmischer Regelmäßigkeiten erlauben. Anders ausgedrückt be­ inhalten unterschiedliche Frequenzbänder je nach Audiosignal eine unterschiedliche Menge an rhythmischer Information bzw. haben eine unterschiedliche Qualität oder Signifikanz für die Rhythmusinformationen des Audiosignals.
Erfindungsgemäß wird daher das Audiosignal zunächst in Teil­ bandsignale zerlegt. Jedes Teilbandsignal wird hinsichtlich seiner Periodizität untersucht, um Rhythmus-Rohinformationen für jedes Teilbandsignal zu erhalten. Hierauf wird gemäß der vorliegenden Erfindung eine Bewertung der Qualität der Peri­ odizität jedes Teilbandsignals durchgeführt, um ein Signifi­ kanzmaß für jedes Teilbandsignal zu erhalten. Ein hohes Signi­ fikanzmaß deutet darauf hin, dass in diesem Teilbandsignal deutliche Rhythmusinformationen vorliegen, während ein niedri­ ges Signifikanzmaß darauf hindeutet, dass in diesem Teilband­ signal weniger eindeutige Rhythmusinformationen vorliegen.
Gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird bei der Untersuchung eines Teilbandsignals hin­ sichtlich seiner Periodizitäten zunächst eine modifizierte Hüllkurve des Teilbandsignals berechnet und dann eine Autokor­ relationsfunktion der Hüllkurve berechnet. Die Autokorrelati­ onsfunktion der Hüllkurve stellt die Rhythmus-Rohinformationen dar. Eindeutige Rhythmusinformationen liegen vor, wenn die Au­ tokorrelationsfunktion deutliche Maxima aufweist, während we­ niger eindeutige Rhythmusinformationen vorliegen, wenn die Au­ tokorrelationsfunktion der Hüllkurve des Teilbandsignals weni­ ger ausgeprägte Signalspitzen oder überhaupt keine Signalspit­ zen hat. Eine Autokorrelationsfunktion, die deutliche Signal­ spitzen hat, wird daher ein hohes Signifikanzmaß erhalten, während eine Autokorrelationsfunktion, die einen relativ fla­ chen Verlauf hat, ein niedriges Signifikanzmaß erhalten wird.
Erfindungsgemäß werden die einzelnen Rhythmus-Rohinformationen der einzelnen Teilbandsignale nicht einfach "blind" kombi­ niert, sondern unter Berücksichtigung des Signifikanzmaßes für jedes Teilbandsignal verwendet, um die Rhythmusinformationen des Audiosignals zu erhalten. Hat ein Teilbandsignal ein hohes Signifikanzmaß, so wird es bei der Ermittlung der Rhythmusin­ formationen bevorzugt, während ein Teilbandsignal, das ein niedriges Signifikanzmaß hat, d. h. das eine niedrige Qualität hinsichtlich der Rhythmusinformationen aufweist, bei der Er­ mittlung der Rhythmusinformationen des Audiosignals kaum oder im Extremfall überhaupt nicht berücksichtigt wird.
Dies kann rechenzeiteffizient gut durch einen Gewichtungsfak­ tor implementiert werden, der von dem Signifikanzmaß abhängt. Während ein Teilbandsignal, das eine gute Qualität für die Rhythmusinformationen hat, d. h. das ein hohes Signifikanzmaß hat, einen Gewichtungsfaktor von 1 erhalten könnte, wird ein anderes Teilbandsignal, das ein kleineres Signifikanzmaß hat, einen Gewichtungsfaktor kleiner als 1 erhalten. Im Extremfall wird ein Teilbandsignal, das eine vollkommen flache Autokorre­ lationsfunktion hat, einen Gewichtungsfaktor von 0 haben. Die gewichteten Autokorrelationsfunktionen, d. h. die gewichteten Rhythmus-Rohinformationen werden dann einfach aufsummiert. Wenn lediglich ein Teilbandsignal sämtlicher Teilbandsignale gute Rhythmusinformationen liefert, während die anderen Teil­ bandsignale Autokorrelationsfunktionen mit einem flachen Ver­ lauf aufweisen, kann diese Gewichtung im Extremfall dazu füh­ ren, dass alle Teilbandsignale außer dem einen Teilbandsignal einen Gewichtungsfaktor von 0 erhalten, d. h. bei der Ermitt­ lung der Rhythmusinformationen überhaupt nicht berücksichtigt werden, so dass die Rhythmusinformationen des Audiosignals le­ diglich aus einem einzigen Teilbandsignal ermittelt werden.
Das erfindungsgemäße Konzept ist dahingehend vorteilhaft, dass es eine robuste Bestimmung der Rhythmusinformationen ermög­ licht, da Teilbandsignale mit keinen eindeutigen bzw. sogar abweichenden Rhythmusinformationen, d. h. wenn der Gesang ei­ nen anderen Rhythmus aufweist als der eigentliche Beat des Stücks, die Rhythmusinformationen des Audiosignals nicht "ver­ wässern" bzw. "verfälschen". Darüber hinaus werden sehr rau­ schartige Teilbandsignale, welche eine Systemautokorrelations­ funktion mit vollständig flachem Verlauf liefern, das Si­ gnal/Rausch-Verhältnis bei der Bestimmung der Rhythmusinforma­ tionen nicht verschlechtern. Genau dies würde jedoch auftre­ ten, wenn, wie im Stand der Technik, einfach alle Autokorrela­ tionsfunktionen der Teilbandsignale mit gleichem Gewicht auf­ summiert werden.
Ein weiterer Vorteil des erfindungsgemäßen Verfahrens besteht darin, dass mit einem kleinen zusätzlichen Rechenaufwand ein Signifikanzmaß bestimmt werden kann, und dass die Bewertung der Rhythmus-Rohinformationen mit dem Signifikanzmaß und die anschließende Summierung ohne großen Speicher- und Rechenzeit­ aufwand effizient durchgeführt werden können, was das erfin­ dungsgemäße Konzept insbesondere auch für Echtzeitanwendungen empfiehlt.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die beiliegenden Zeichnun­ gen detailliert erläutert. Es zeigen:
Fig. 1 ein Blockschaltbild einer Vorrichtung zum Analysieren eines Audiosignals mit einer Qualitätsbewertung der Rhythmus-Rohinformationen;
Fig. 2 ein Blockschaltbild einer Vorrichtung zum Analysieren eines Audiosignals unter Verwendung von Gewichtungs­ faktoren auf der Basis der Signifikanzmaße;
Fig. 3 ein Blockschaltbild einer bekannten Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhyth­ musinformationen;
Fig. 4 ein Blockschaltbild einer Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinforma­ tionen unter Verwendung einer Autokorrelationsfunktion mit einer teilbandweisen Nachbearbeitung der Rhythmus- Rohinformationen; und
Fig. 5 ein detailliertes Blockschaltbild der Einrichtung zum Nachbearbeiten von Fig. 4.
Fig. 1 zeigt ein Blockschaltbild einer Vorrichtung zum Analy­ sieren eines Audiosignals hinsichtlich von Rhythmusinformatio­ nen. Das Audiosignal wird über einen Eingang 100 einer Ein­ richtung 102 zum Zerlegen des Audiosignals in zumindest zwei Teilbandsignale 104a und 104b zugeführt. Jedes Teilbandsignal 104a, 104b wird in eine Einrichtung 106a bzw. 106b zum Unter­ suchen desselben hinsichtlich von Periodizitäten in dem Teil­ bandsignal zugeführt, um Rhythmus-Rohinformationen 108a bzw. 108b für jedes Teilbandsignal zu erhalten. Die Rhythmus- Rohinformationen werden dann einer Einrichtung 110a bzw. 110b zum Bewerten einer Qualität der Periodizität jedes der zumin­ dest zwei Teilbandsignale zugeführt, um ein Signifikanzmaß 112a, 112b für jedes der zumindest zwei Teilbandsignale zu er­ halten. Sowohl die Rhythmus-Rohinformationen 108a, 108b als auch die Signifikanzmaße 112a, 112b werden einer Einrichtung 114 zum Ermitteln der Rhythmusinformationen des Audiosignals zugeführt. Die Einrichtung 114 berücksichtigt beim Ermitteln der Rhythmusinformationen des Audiosignals die Signifikanzmaße 112a, 112b für die Teilbandsignale sowie die Rhythmus- Rohinformationen 108a, 108b von zumindest einem Teilbandsi­ gnal.
Hat die Einrichtung 110a zur Qualitätsbewertung beispielsweise festgestellt, dass in dem Teilbandsignal 104a keine besondere Periodizität vorliegt, so wird das Signifikanzmaß 112a sehr klein, bzw. gleich 0 sein. In diesem Fall stellt die Einrich­ tung 114 zum Ermitteln der Rhythmusinformationen fest, dass das Signifikanzmaß 112a gleich Null ist, so dass die Rhythmus- Rohinformationen 108a des Teilbandsignals 104a bei der Ermitt­ lung der Rhythmusinformationen des Audiosignals überhaupt nicht mehr berücksichtigt werden müssen. Die Rhythmusinforma­ tionen des Audiosignals werden dann allein und ausschließlich auf der Basis der Rhythmus-Rohinformationen 108b des Teilband­ signals 104b bestimmt.
Im nachfolgenden wird auf Fig. 2 hinsichtlich einer speziellen Ausführungsform der Vorrichtung von Fig. 1 eingegangen. Als Einrichtung 102 zum Zerlegen des Audiosignals kann eine übliche Analyse-Filterbank verwendet werden, die ausgangsseitig eine von einem Benutzer wählbare Anzahl von Teilbandsignalen liefert. Jedes Teilbandsignal wird dann der Verarbeitung der Einrichtungen 106a, 106b bzw. 106c unterzogen, woraufhin dann durch die Einrichtungen 110a bis 110c von jeden Rhythmus- Rohinformationen Signifikanzmaße ermittelt werden. Die Ein­ richtung 114 umfaßt bei der in Fig. 2 dargestellten bevorzug­ ten Ausführungsform eine Einrichtung 114a zum Berechnen von Gewichtungsfaktoren für jedes Teilbandsignal auf der Basis des Signifikanzmaßes für dieses Teilbandsignal und optional auch der anderen Teilbandsignale. In der Einrichtung 114b findet dann eine Gewichtung der Rhythmus-Rohinformationen 108a bis 108c mit dem Gewichtungsfaktor für dieses Teilbandsignal statt, woraufhin dann, ebenfalls in der Einrichtung 114b, die gewichteten Rhythmus-Rohinformationen kombiniert, z. B. auf­ summiert, werden, um an dem Tempo-Ausgang 116 die Rhythmusin­ formationen des Audiosignals zu erhalten.
Das erfindungsgemäße Konzept stellt sich somit folgendermaßen dar. Nach der Evaluierung der rhythmischen Informationen der Einzelbänder, welche beispielsweise durch Hüllkurvenbildung, Glättung, Differenzieren, Begrenzen auf positive Werte und Bilden der Autokorrelationsfunktion stattfinden kann (Einrich­ tungen 106a bis 106c), findet eine Bewertung der Wertigkeit bzw. der Qualität dieser Zwischenergebnisse in den Einrichtun­ gen 110a bis 110c statt. Dies wird mit Hilfe einer Bewertungs­ funktion erreicht, welche die Verlässlichkeit der jeweiligen Einzelergebnisse mit einem Signifikanzmaß bewertet. Aus den Signifikanzmaßen aller Teilbandsignale wird ein Gewichtungs­ faktor für jedes Band für die Extraktion der Rhythmus- Informationen hergeleitet. Das Gesamtergebnis der Rhythmusex­ traktion wird dann in der Einrichtung 114b durch Kombination der bandweisen Einzelergebnisse unter Berücksichtigung ihrer jeweiligen Gewichtungsfaktoren erreicht.
Als Resultat zeigt ein solchermaßen implementierter Algorith­ mus zur Rhythmusanalyse eine gute Fähigkeit, rhythmische In­ formationen in einem Signal auch unter ungünstigen Bedingungen zuverlässig zu finden. Das erfindungsgemäße Konzept zeichnet sich daher durch eine hohe Robustheit aus.
Bei einer bevorzugten Ausführungsform werden die Rhythmus- Rohinformationen 108a, 108b, 108c, die die Periodizität des jeweiligen Teilbandsignals darstellen, mittels einer Autokor­ relationsfunktion bestimmt. In diesem Fall wird es bevorzugt, das Signifikanzmaß zu bestimmen, indem ein Maximum der Auto­ korrelationsfunktion durch einen Mittelwert der Autokorrelati­ onsfunktion geteilt wird, und dann der Wert 1 subtrahiert wird. Es sei darauf hingewiesen, daß jede Autokorrelations­ funktion immer bei einer Verzögerung von 0 ein lokales Maximum liefert, das die Energie des Signals repräsentiert. Dieses Ma­ ximum sollte unberücksichtigt bleiben, damit die Qualitätsbe­ stimmung nicht verfälscht wird.
Ferner soll die Autokorrelationsfunktion lediglich in einem speziellen Tempobereich betrachtet werden, d. h. von einer ma­ ximalen Verzögerung, die dem kleinsten interessierenden Tempo entspricht, zu einer minimalen Verzögerung, die dem höchsten interessierenden Tempo entspricht. Ein typischer Tempobereich liegt zwischen 60 bpm und 200 bpm.
Alternativ kann als Signifikanzmaß das Verhältnis zwischen dem arithmetischen Mittelwert der Autokorrelationsfunktion im in­ teressierenden Tempobereich und dem geometrischen Mittelwert der Autokorrelationsfunktion im interessierenden Tempobereich bestimmt werden. Es ist bekannt, dass wenn alle Werte der Au­ tokorrelationsfunktion gleich sind, d. h. wenn die Autokorre­ lationsfunktion einen flachen Verlauf hat, der geometrische Mittelwert der Autokorrelationsfunktion und der arithmetische Mittelwert der Autokorrelationsfunktion gleich sind. In diesem Fall hätte das Signifikanzmaß einen Wert gleich 1, was bedeu­ tet, dass die Rhythmus-Rohinformationen nicht signifikant sind.
Im Falle einer Systemautokorrelationsfunktion mit starken Spitzen würde das Verhältnis aus arithmetischem Mittelwert zu geometrischem Mittelwert größer 1 sein, was bedeutet, dass die Autokorrelationsfunktion gute Rhythmusinformationen aufweist. Je kleiner jedoch das Verhältnis zwischen arithmetischem Mit­ telwert und geometrischem Mittelwert wird, desto flacher ist die Autokorrelationsfunktion und desto weniger Periodizitäten enthält sie, was wiederum bedeutet, dass die Rhythmusinforma­ tionen dieses Teilbandsignals weniger signifikant, d. h. eine geringere Qualität haben, was sich in einem geringen bzw. ei­ nem Gewichtungsfaktor von 0 äußern wird.
Bezüglich der Gewichtungsfaktoren existieren verschiedene Mög­ lichkeiten. Bevorzugt wird eine relative Gewichtung, derart, dass sich alle Gewichtungsfaktoren sämtlicher Teilbandsignale zu 1 aufaddieren, d. h. dass der Gewichtungsfaktor eines Ban­ des bestimmt wird als der Signifikanzwert dieses Bandes ge­ teilt durch die Summe aller Signifikanzwerte. In diesem Fall wird eine relative Gewichtung vor der Aufsummation der gewich­ teten Rhythmus-Rohinformationen durchgeführt, um die Rhythmus- Informationen des Audiosignals zu erhalten.
Wie bereits ausgeführt worden ist, wird es bevorzugt, die Aus­ wertung der Rhythmus-Informationen unter Verwendung einer Au­ tokorrelationsfunktion durchzuführen. Dieser Fall ist in Fig. 4 dargestellt. Das Audiosignal wird über den Audiosignalein­ gang 100 in die Einrichtung 102 zum Zerlegen des Audiosignals in Teilbandsignale 104a und 104b eingespeist. Jedes Teilbandsignal wird dann in der Einrichtung 106a bzw. 106b, wie es ausgeführt worden ist, unter Verwendung einer Autokorrelati­ onsfunktion untersucht, um die Periodizität des Teilbandsi­ gnals zu ermitteln. Am Ausgang der Einrichtung 106a bzw. 106b liegen dann die Rhythmus-Rohinformationen 108a, 108b vor. Die­ se werden in eine Einrichtung 118a bzw. 118b eingespeist, um die mittels der Autokorrelationsfunktion von der Einrichtung 116a ausgegebenen Rhythmus-Rohinformationen nachzubearbeiten. Damit wird u. a. sichergestellt, daß die Mehrdeutigkeiten der Autokorrelationsfunktion, d. h. daß bei ganzzahligen Vielfa­ chen der Verzögerungen ebenfalls Signalspitzen auftreten, teilbandweise eliminiert werden, um nachbearbeitete Rhythmus- Rohinformationen 120a bzw. 120b zu erhalten.
Dies hat den Vorteil, dass die Mehrdeutigkeiten der Autokorre­ lationsfunktionen, d. h. der Rhythmus-Rohinformationen 108a, 108b, bereits teilbandweise eliminiert werden, und nicht erst, wie im Stand der Technik, nach der Summation der einzelnen Au­ tokorrelationsfunktionen. Darüber hinaus ermöglicht die ein­ zelbandweise Eliminierung der Mehrdeutigkeiten in den Autokor­ relationsfunktionen durch die Einrichtungen 118a, 118b, dass die Rhythmus-Rohinformationen der Teilbandsignale unabhängig voneinander gehandhabt werden können. Sie können beispielswei­ se einer Qualitätsbeurteilung mittels der Einrichtung 110a für die Rhythmus-Rohinformationen 108a oder mittels der Einrich­ tung 110b für die Rhythmus-Rohinformationen 108b unterzogen werden.
Wie es durch die gestrichelten Linien in Fig. 4 dargestellt ist, kann die Qualitätsbeurteilung jedoch auch anhand der nachbearbeiteten Rhythmus-Rohinformationen stattfinden, wobei diese letztere Möglichkeit bevorzugt wird, da die Qualitätsbe­ urteilung auf der Basis der nachbearbeiteten Rhythmus- Rohinformationen sicherstellt, dass die Qualität einer Infor­ mation beurteilt wird, die nicht mehr vieldeutig ist.
Die Ermittlung der Rhythmus-Informationen durch die Einrich­ tung 114 findet dann auf der Basis von nachbearbeiteten Rhyth­ mus-Informationen eines Kanals und vorzugsweise auch auf der Basis des Signifikanzmaßes für diesen Kanal statt.
Wenn eine Qualitätsbeurteilung auf der Basis der Rhythmus- Rohinformationen, also des Signals vor der Einrichtung 118a durchgeführt wird, ist dies dahingehend vorteilhaft, dass, wenn bestimmt wird, dass das Signifikanzmaß gleich 0 ist, d. h. dass die Autokorrelationsfunktion einen flachen Verlauf hat, auf die Nachbearbeitung mittels der Einrichtung 118a gänzlich verzichtet werden kann, um Rechenzeitressourcen ein­ zusparen.
Im nachfolgenden wird auf Fig. 5 eingegangen, um einen detail­ lierteren Aufbau einer Einrichtung 118a oder 118b zur Nachbe­ arbeitung der Rhythmus-Rohinformationen darzustellen. Zunächst wird das Teilband-Signal beispielsweise 104a, in die Einrich­ tung 106a zur Untersuchung der Periodizität des Teilbandsi­ gnals mittels einer Autokorrelationsfunktion eingespeist, um Rhythmus-Rohinformationen 108a zu erhalten. Um die Mehrdeutig­ keiten teilbandweise zu eliminieren, kann genauso wie im Stand der Technik, eine gespreizte Autokorrelationsfunktion mittels einer Einrichtung 121 berechnet werden, wobei die Einrichtung 121 angeordnet ist, um die gespreizte Autokorrelationsfunktion so zu berechnen, dass sie um ein ganzzahliges Vielfaches einer Verzögerung gespreizt ist. Eine Einrichtung 122 ist in diesem Fall angeordnet, um die gespreizte Autokorrelationsfunktion von der ursprünglichen Autokorrelationsfunktion, d. h. den Rhythmus-Rohinformationen 108a zu subtrahieren. Insbesondere wird es bevorzugt, zunächst eine auf das Doppelte gespreizte Autokorrelationsfunktion in der Einrichtung 121 zu berechnen und dann von den Rhythmus-Rohinformationen 108a zu subtrahie­ ren. Dann, in dem nächsten Schritt, wird eine um den Faktor 3 gespreizte Autokorrelationsfunktion in der Einrichtung 121 be­ rechnet und von dem Ergebnis der vorherigen Subtraktion wieder abgezogen, so dass nach und nach sämtliche Mehrdeutigkeiten aus den Rhythmus-Rohinformationen eliminiert werden.
Alternativ oder zusätzlich kann die Einrichtung 121 angeordnet sein, um eine um einen ganzzahligen Faktor gestauchte Autokor­ relationsfunktion zu berechnen, wobei diese dann von der Ein­ richtung 122 zu den Rhythmus-Rohinformationen hinzu addiert wird, um auch Anteile für Verzögerungen t0/2, t0/3 usw. zu er­ zeugen.
Darüber hinaus können die gespreizten bzw. gestauchten Versio­ nen der Rhythmus-Rohinformationen 108a vor dem Addieren bzw. Subtrahieren gewichtet werden, um auch hier eine Flexibilität im Sinne einer hohen Robustheit zu erreichen.
Durch das Verfahren, die Periodizität eines Teilbandsignals auf der Basis einer Autokorrelationsfunktion zu untersuchen, kann also eine weitere Verbesserung erzielt werden, wenn die Eigenschaften der Autokorrelationsfunktion mit einbezogen wer­ den und die Nachbearbeitung unter Verwendung der Einrichtung 118a oder 118b durchgeführt wird. So erzeugt eine periodische Folge von Notenanfängen mit einem Abstand t0 nicht nur eine AKF-Spitze bei einer Verzögerung t0 sondern auch bei 2t0, 3t0, etc. Dies wird zu einer Vieldeutigkeit in der Tempodetektion, d. h. dem Suchen signifikanter Maxima in der Autokorrelations­ funktion, führen. Die Mehrdeutigkeiten können dadurch elimi­ nert werden, wenn um ganzzahlige Faktoren gespreizte Versionen der AKF vom Ausgangswert teilbandweise (gewichtet) abgezogen werden.
Ferner besteht bei der Autokorrelationsfunktion das Problem, daß sie keine Informationen bei t0/2, t0/3 . . . usw., also beim Doppelten, Dreifachen, etc. des "Grundtempos" liefert, was be­ sonders dann zu falschen Ergebnissen führen kann, wenn zwei Instrumente, die in unterschiedlichen Teilbändern liegen, zu­ sammen den Rhythmus des Signals definieren. Diese Sache wird dadurch berücksichtigt, dass um ganzzahlige Faktoren gestauch­ te Versionen der Autokorrelationsfunktion berechnet werden und diese dann zu den Rhythmus-Rohinformationen gewichtet oder un­ gewichtet hinzuaddiert werden.
Die AKF-Nachverarbeitung findet somit teilbandweise statt, wo­ bei für mindestens ein Teilbandsignal eine Autokorrelations­ funktion errechnet wird und diese mit gedehnten oder gespreiz­ ten Versionen dieser Funktion kombiniert wird.

Claims (11)

1. Vorrichtung zum Analysieren eines Audiosignals hinsicht­ lich von Rhythmusinformationen des Audiosignals, mit folgenden Merkmalen:
einer Einrichtung (102) zum Zerlegen des Audiosignals in zu­ mindest zwei Teilbandsignale (104a, 104b);
einer Einrichtung zum Untersuchen (106a, 106b) eines Teilband­ signals hinsichtlich einer Periodizität in dem Teilbandsignal, um Rhythmus-Rohinformationen (108a, 108b) für das Teilbandsi­ gnal zu erhalten;
einer Einrichtung zum Bewerten (110a, 110b) einer Qualität der Periodizität der Rhythmus-Rohinformationen (108a) des Teil­ bandsignals (104a), um ein Signifikanzmaß (112a) für das Teil­ bandsignal zu erhalten; und
einer Einrichtung (114) zum Ermitteln der Rhythmusinformatio­ nen des Audiosignals unter Berücksichtigung des Signifikanzma­ ßes (112a) des Teilbandsignals und der Rhythmus- Rohinformationen (108a, 108b) von zumindest einem Teilbandsi­ gnal.
2. Vorrichtung nach Anspruch 1, bei der die Einrichtung zum Untersuchen (106a, 106b) ausgebildet ist, um eine Autokorrela­ tionsfunktion für jedes der zumindest zwei Teilbandsignale zu berechnen.
3. Vorrichtung nach Anspruch 1 oder 2, bei die Einrichtung zum Untersuchen (106a, 106b) folgende Merkmale aufweist:
eine Einrichtung zum Bilden einer Hüllkurve eines Teilbandsi­ gnals;
eine Einrichtung zum Glätten der Hüllkurve des Teilbandsi­ gnals, um eine geglättete Hüllkurve zu erhalten;
eine Einrichtung zum Differenzieren der geglätteten Hüllkurve, um eine differenzierte Hüllkurve zu erhalten;
eine Einrichtung zum Begrenzen der differenzierten Hüllkurve auf positive Werte, um eine begrenzte Hüllkurve zu erhalten; und
eine Einrichtung zum Bilden einer Autokorrelationsfunktion der begrenzten Hüllkurve, um die Rhythmus-Rohinformationen (108a, 108b) zu erhalten.
4. Vorrichtung nach Anspruch 2 oder 3, bei der die Einrich­ tung zum Bewerten (110a, 110b) der Qualität ausgebildet ist, um als Signifikanzmaß ein Verhältnis eines Maximum der Auto­ korrelationsfunktion zu einem Mittelwert der Autokorrelations­ funktion zu verwenden.
5. Vorrichtung nach Anspruch 2 oder 3, bei der die Einrich­ tung zum Bewerten (110a, 110b) der Qualität ausgebildet ist, um als Signifikanzmaß ein Verhältnis aus einem arithmetischen Mittelwert der Rhythmus-Rohinformationen zu einem geometri­ schen Mittelwert der Rhythmus-Rohinformationen zu verwenden.
6. Vorrichtung nach Anspruch 4 oder 5, bei der die Einrichtung zum Bewerten (110a, 110b) der Qualität ausgebildet ist, um die Autokorrelationsfunktion lediglich innerhalb eines Tempobereichs auszuwerten, der sich von einer minimalen Verzögerung, um ein maximales Tempo zu erhalten, zu einer maximalen Verzögerung, um ein minimales Tempo zu erhal­ ten, erstreckt.
7. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung zum Ermitteln (114) folgende Merkmale auf­ weist:
eine Einrichtung (114a) zum Ableiten eines Gewichtungsfaktors für ein Teilband unter Verwendung des Signifikanzmaßes für das Teilband;
eine Einrichtung (114b) zum Gewichten der Rhythmus- Rohinformationen des Teilbands unter Verwendung des Gewich­ tungsfaktors für das Teilband, um gewichtete Rhythmus- Rohinformationen für das Teilband zu erhalten, und zum Zusam­ menfassen der gewichteten Rhythmus-Rohinformationen des Teil­ bands mit gewichteten oder ungewichteten Rhythmus- Rohinformationen des anderen Teilbands, um die Rhythmusinfor­ mationen des Audiosignals zu erhalten.
8. Vorrichtung nach Anspruch 7, bei der die Einrichtung (114a) zum Ableiten eines Gewichtungsfaktors angeordnet ist, um für jedes Teilbandsignal einen relativen Gewichtungsfaktor abzuleiten, wobei eine Summe aus den Gewichtungsfaktoren für alle Teilbandsignale 1 ergibt.
9. Vorrichtung nach Anspruch 8, bei der die Einrichtung (114a) zum Ableiten eines Gewichtungsfaktors angeordnet ist, um einen Gewichtungsfaktor als Verhältnis aus dem Signifikanz­ maß eines Teilbandsignals zu der Summe der Signifikanzmaße al­ ler Teilbandsignale abzuleiten.
10. Vorrichtung nach Anspruch 9, bei der die Einrichtung (106a, 106b) zum Untersuchen eines Teilbandsignals angeordnet ist, um ein Teilbandsignal zu untersuchen, dessen Länge größer als 10 Sekunden ist.
11. Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals, mit folgenden Schritten:
Zerlegen des Audiosignals in zumindest zwei Teilbandsignale (104a, 104b);
Untersuchen (106a, 106b) eines Teilbandsignals hinsichtlich einer Periodizität in dem Teilbandsignal, um Rhythmus- Rohinformationen (108a, 108b) für das Teilbandsignal zu erhal­ ten;
Bewerten (110a, 110b) einer Qualität der Periodizität der Rhythmus-Rohinformationen (108a) des Teilbandsignals (104a), um ein Signifikanzmaß (112a) für das Teilbandsignal zu erhal­ ten; und
Ermitteln der Rhythmusinformationen des Audiosignals unter Be­ rücksichtigung des Signifikanzmaßes (112a) des Teilbandsignals und der Rhythmus-Rohinformationen (108a, 108b) von zumindest einem Teilbandsignal.
DE10123366A 2001-05-14 2001-05-14 Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen Expired - Fee Related DE10123366C1 (de)

Priority Applications (8)

Application Number Priority Date Filing Date Title
DE10123366A DE10123366C1 (de) 2001-05-14 2001-05-14 Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen
EP02745267A EP1388145B1 (de) 2001-05-14 2002-04-25 Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen
US10/467,704 US20040068401A1 (en) 2001-05-14 2002-04-25 Device and method for analysing an audio signal in view of obtaining rhythm information
JP2002590149A JP3914878B2 (ja) 2001-05-14 2002-04-25 リズム情報に関するオーディオ信号を解析するための装置及び方法
AT02745267T ATE279769T1 (de) 2001-05-14 2002-04-25 Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen
DE2002501311 DE50201311D1 (de) 2001-05-14 2002-04-25 Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen
PCT/EP2002/004618 WO2002093557A1 (de) 2001-05-14 2002-04-25 Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen
HK04102850A HK1059959A1 (en) 2001-05-14 2004-04-22 Device and method for analysing an audio signal inv view of obtaining rhythm information.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10123366A DE10123366C1 (de) 2001-05-14 2001-05-14 Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen

Publications (1)

Publication Number Publication Date
DE10123366C1 true DE10123366C1 (de) 2002-08-08

Family

ID=7684710

Family Applications (2)

Application Number Title Priority Date Filing Date
DE10123366A Expired - Fee Related DE10123366C1 (de) 2001-05-14 2001-05-14 Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen
DE2002501311 Expired - Lifetime DE50201311D1 (de) 2001-05-14 2002-04-25 Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE2002501311 Expired - Lifetime DE50201311D1 (de) 2001-05-14 2002-04-25 Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen

Country Status (7)

Country Link
US (1) US20040068401A1 (de)
EP (1) EP1388145B1 (de)
JP (1) JP3914878B2 (de)
AT (1) ATE279769T1 (de)
DE (2) DE10123366C1 (de)
HK (1) HK1059959A1 (de)
WO (1) WO2002093557A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8184712B2 (en) 2006-04-30 2012-05-22 Hewlett-Packard Development Company, L.P. Robust and efficient compression/decompression providing for adjustable division of computational complexity between encoding/compression and decoding/decompression
DE112007002014B4 (de) * 2006-09-11 2014-09-11 Hewlett-Packard Development Company, L.P. Verfahren zum rechentechnischen Schätzen des Tempos einer Musikauswahl und Temposchätzungssystem

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8535236B2 (en) * 2004-03-19 2013-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for analyzing a sound signal using a physiological ear model
US8180468B2 (en) * 2005-07-01 2012-05-15 Pioneer Corporation Computer program, information reproduction device, and method
JP4940588B2 (ja) * 2005-07-27 2012-05-30 ソニー株式会社 ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
JP4948118B2 (ja) * 2005-10-25 2012-06-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP4465626B2 (ja) * 2005-11-08 2010-05-19 ソニー株式会社 情報処理装置および方法、並びにプログラム
EP1959428A4 (de) 2005-12-09 2011-08-31 Sony Corp Musikeditiereinrichtung und musikeditierverfahren
JP4949687B2 (ja) 2006-01-25 2012-06-13 ソニー株式会社 ビート抽出装置及びビート抽出方法
JP5351373B2 (ja) * 2006-03-10 2013-11-27 任天堂株式会社 演奏装置および演奏制御プログラム
US8463615B2 (en) * 2007-07-30 2013-06-11 Google Inc. Low-delay audio coder
JP5008766B2 (ja) * 2008-04-11 2012-08-22 パイオニア株式会社 テンポ検出装置及びテンポ検出プログラム
US8168876B2 (en) * 2009-04-10 2012-05-01 Cyberlink Corp. Method of displaying music information in multimedia playback and related electronic device
US8071869B2 (en) * 2009-05-06 2011-12-06 Gracenote, Inc. Apparatus and method for determining a prominent tempo of an audio work
US8805854B2 (en) 2009-06-23 2014-08-12 Gracenote, Inc. Methods and apparatus for determining a mood profile associated with media data
US8996538B1 (en) 2009-05-06 2015-03-31 Gracenote, Inc. Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects
EP2962299B1 (de) 2013-02-28 2018-10-31 Nokia Technologies OY Audiosignalanalyse
JP6759545B2 (ja) * 2015-09-15 2020-09-23 ヤマハ株式会社 評価装置およびプログラム
US10666475B2 (en) * 2018-10-29 2020-05-26 Bae Systems Information And Electronic Systems Integration Inc. Techniques for phase modulated signals having poor autocorrelation
CN111785237B (zh) * 2020-06-09 2024-04-19 Oppo广东移动通信有限公司 音频节奏确定方法、装置、存储介质和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3823724A1 (de) * 1987-07-15 1989-02-02 Matsushita Electric Works Ltd Sprachcodierungs- und sprachsynthesesystem
JPH09293083A (ja) * 1996-04-26 1997-11-11 Toshiba Corp 楽曲検索装置および検索方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2591430B2 (ja) * 1993-06-30 1997-03-19 日本電気株式会社 ベクトル量子化装置
JP3840684B2 (ja) * 1996-02-01 2006-11-01 ソニー株式会社 ピッチ抽出装置及びピッチ抽出方法
KR100269216B1 (ko) * 1998-04-16 2000-10-16 윤종용 스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법
DE10123281C1 (de) * 2001-05-14 2002-10-10 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion
JP3859462B2 (ja) * 2001-05-18 2006-12-20 株式会社東芝 予測パラメータ分析装置および予測パラメータ分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3823724A1 (de) * 1987-07-15 1989-02-02 Matsushita Electric Works Ltd Sprachcodierungs- und sprachsynthesesystem
JPH09293083A (ja) * 1996-04-26 1997-11-11 Toshiba Corp 楽曲検索装置および検索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SCHEIRER, Eric D. "Pulse Tracking with a Pitch Tracher", In: Proc. 1997, Workshop on Applications of Signal Processing to Andio and Acoustics, Mohonk, NY, Oct. 1997 *
SCHREIER, Eric D.: "Tempo and Beat Analysis of Acoustic Musical Signals", In: Journal of the Acoustical Society of America, 103: 1. Jan. 1998, S. 588-601 *
TOLONEN, KARJALEINEN: "A Computationally Efficient Multipitch Analysis Model", In: IEEE Transactions on Speech and Audio Processing, Band 8, Nr. 6, Nov. 2000 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8184712B2 (en) 2006-04-30 2012-05-22 Hewlett-Packard Development Company, L.P. Robust and efficient compression/decompression providing for adjustable division of computational complexity between encoding/compression and decoding/decompression
DE112007002014B4 (de) * 2006-09-11 2014-09-11 Hewlett-Packard Development Company, L.P. Verfahren zum rechentechnischen Schätzen des Tempos einer Musikauswahl und Temposchätzungssystem

Also Published As

Publication number Publication date
DE50201311D1 (de) 2004-11-18
ATE279769T1 (de) 2004-10-15
EP1388145B1 (de) 2004-10-13
US20040068401A1 (en) 2004-04-08
EP1388145A1 (de) 2004-02-11
JP3914878B2 (ja) 2007-05-16
HK1059959A1 (en) 2004-07-23
JP2004528596A (ja) 2004-09-16
WO2002093557A1 (de) 2002-11-21

Similar Documents

Publication Publication Date Title
EP1371055B1 (de) Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion
DE10123366C1 (de) Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen
DE10232916B4 (de) Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
EP2099024B1 (de) Verfahren zur klangobjektorientierten Analyse und zur notenobjektorientierten Bearbeitung polyphoner Klangaufnahmen
EP1407446B1 (de) Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals
EP1606798B1 (de) Vorrichtung und verfahren zum analysieren eines audio-informationssignals
EP1368805B1 (de) Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals
EP2351017B1 (de) Verfahren zur erkennung von notenmustern in musikstücken
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE102007034774A1 (de) Vorrichtung zur Bestimmung von Akkordnamen und Programm zur Bestimmung von Akkordnamen
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
WO2005122135A1 (de) Vorrichtung und verfahren zum umsetzen eines informationssignals in eine spektraldarstellung mit variabler auflösung
EP1417676B1 (de) VERFAHREN UND VORRICHTUNG ZUM ERZEUGEN EINER KENNUNG FÜR EIN AUDIOSIGNAL, ZUM AUFBAUEN EINER INSTRUMENTENDATENBANK UND ZUM BESTIMMEN DER ART EINES MusikINSTRUMENTS
EP1794743A1 (de) Vorrichtung und verfahren zum gruppieren von zeitlichen segmenten eines musikstücks
DE102004028693B4 (de) Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt
WO2006005448A1 (de) Verfahren und vorrichtung zur rhythmischen aufbereitung von audiosignalen
EP1377924B1 (de) VERFAHREN UND VORRICHTUNG ZUM EXTRAHIEREN EINER SIGNALKENNUNG, VERFAHREN UND VORRICHTUNG ZUM ERZEUGEN EINER DAZUGEHÖRIGEN DATABANK und Verfahren und Vorrichtung zum Referenzieren eines Such-Zeitsignals
EP1671315B1 (de) Vorrichtung und verfahren zum charakterisieren eines tonsignals
EP1743324B1 (de) Vorrichtung und verfahren zum analysieren eines informationssignals
Krusche Visualization and auralization of features learned by neural networks for musical instrument recognition
EP1381024A1 (de) Verfahren zum Auffinden einer Tonfolge

Legal Events

Date Code Title Description
8100 Publication of patent without earlier publication of application
D1 Grant (no unexamined application published) patent law 81
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0011040000

Ipc: G10L0025000000

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0011040000

Ipc: G10L0025000000

Effective date: 20140527

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20131203