DE10123366C1 - Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen - Google Patents
Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von RhythmusinformationenInfo
- Publication number
- DE10123366C1 DE10123366C1 DE10123366A DE10123366A DE10123366C1 DE 10123366 C1 DE10123366 C1 DE 10123366C1 DE 10123366 A DE10123366 A DE 10123366A DE 10123366 A DE10123366 A DE 10123366A DE 10123366 C1 DE10123366 C1 DE 10123366C1
- Authority
- DE
- Germany
- Prior art keywords
- subband
- rhythm
- information
- signal
- raw
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000033764 rhythmic process Effects 0.000 title claims abstract description 115
- 230000005236 sound signal Effects 0.000 title claims abstract description 52
- 238000005311 autocorrelation function Methods 0.000 claims description 62
- 238000000034 method Methods 0.000 claims description 12
- 238000009499 grossing Methods 0.000 claims description 2
- 238000013441 quality evaluation Methods 0.000 abstract description 3
- 238000013432 robust analysis Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 10
- 238000000605 extraction Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000001934 delay Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012805 post-processing Methods 0.000 description 7
- 230000001020 rhythmical effect Effects 0.000 description 5
- 238000001303 quality assessment method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000005755 formation reaction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- VJBCNMFKFZIXHC-UHFFFAOYSA-N azanium;2-(4-methyl-5-oxo-4-propan-2-yl-1h-imidazol-2-yl)quinoline-3-carboxylate Chemical compound N.N1C(=O)C(C(C)C)(C)N=C1C1=NC2=CC=CC=C2C=C1C(O)=O VJBCNMFKFZIXHC-UHFFFAOYSA-N 0.000 description 1
- BBBFJLBPOGFECG-VJVYQDLKSA-N calcitonin Chemical compound N([C@H](C(=O)N[C@@H](CC(C)C)C(=O)NCC(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CO)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC=1NC=NC=1)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(=O)N1[C@@H](CCC1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)NCC(=O)N[C@@H](CO)C(=O)NCC(=O)N[C@@H]([C@@H](C)O)C(=O)N1[C@@H](CCC1)C(N)=O)C(C)C)C(=O)[C@@H]1CSSC[C@H](N)C(=O)N[C@@H](CO)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CO)C(=O)N[C@@H]([C@@H](C)O)C(=O)N1 BBBFJLBPOGFECG-VJVYQDLKSA-N 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 210000003027 ear inner Anatomy 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000000067 inner hair cell Anatomy 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000009131 signaling function Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/40—Rhythm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/076—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/135—Autocorrelation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Electrophonic Musical Instruments (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
Eine Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals, umfassend eine Filterbank zum Unterlegen des Audiosignals in zumindest zwei Teilbandsignale. Jedes Teilbandsignal wird hinsichtlich einer Periodizität des Teilbandsignals untersucht, um Rhythmus-Rohinformationen jedes Teilbandsignals zu erhalten. Die Rhythmus-Rohinformationen werden einer Qualitätsbeurteilung unterzogen, um ein Signifikanzmaß für jedes Teilbandsignal zu erhalten. Die Rhythmusinformationen des Audiosignals werden schließlich unter Berücksichtigung des Signifikanzmaßes des Teilbandsignals und der Rhythmus-Rohinformationen ermittelt. Dies ermöglicht eine robustere Analyse des Audiosignals, da Teilbandsignale, in denen deutliche Rhythmusinformationen vorliegen, gegenüber Teilbandsignalen, in denen weniger deutliche Rhythmusinformationen vorliegen, beim Ermitteln der Rhythmusinformationen bevorzugt werden.
Description
Die vorliegende Erfindung bezieht sich auf Signalverarbei
tungskonzepte und insbesondere auf die Analyse von Audiosigna
len hinsichtlich von Rhythmusinformationen.
In den letzten Jahren ist die Verfügbarkeit multimedialen Da
tenmaterials, wie z. B. Audio- oder Video-Daten, stark gestie
gen. Dies ist auf eine Reihe von technischen Faktoren zurück
zuführen, welche sich insbesondere auf die breite Verfügbar
keit des Internets, von leistungsfähiger Rechnerhard- und
Software sowie von leistungsfähigen Verfahren zur Datenkom
pression, d. h. Quellcodierung, von Audio- und Videoverfahren
stützen.
Die riesigen Mengen audiovisueller Daten, die beispielsweise
auf dem Internet weltweit verfügbar sind, verlangen nach Kon
zepten, die es ermöglichen, diese Daten nach inhaltlichen Kri
terien beurteilen, katalogisieren usw. zu können. Es besteht
der Wunsch, in der Lage zu sein, multimediale Daten gezielt
durch Angabe sinnvoller Kriterien zu suchen und aufzufinden.
Dies erfordert sogenannte "inhaltsbasierter" Techniken, die
aus den audiovisuellen Daten sogenannte Merkmale, die in Fach
kreisen auch als "Features" bezeichnet werden, extrahieren,
welche wichtige charakteristische Eigenschaften des Signals
repräsentieren. Basierend auf solchen Merkmalen bzw. Kombina
tionen dieser Merkmale können Ähnlichkeitsbeziehungen bzw. Ge
meinsamkeiten zwischen Audio- oder Videosignalen hergeleitet
werden. Dieser Vorgang erfolgt durch Vergleich bzw. In-
Beziehung-Setzen der extrahierten Merkmalswerte aus den ver
schiedenen Signalen, welche auch einfach als "Stücke" bezeich
net werden.
Von besonderem Interesse ist die Bestimmung bzw. Extraktion
von Merkmalen, die nicht nur signaltheoretische, sondern mög
lichst unmittelbare semantische Bedeutung haben, d. h. vom
Hörer unmittelbar empfundene Eigenschaften repräsentieren.
Dies ermöglicht es dem Benutzer, auf einfache und intuitive
Weise Suchanfragen zu formulieren, um Stücke aus dem gesamten
vorhandenen Datenbestand einer Audiosignal-Datenbank zu fin
den. Ebenso erlauben es semantisch relevante Merkmale, Ähn
lichkeitsbeziehungen zwischen Stücken zu modellieren, die der
menschlichen Empfindung nahe kommen. Die Verwendung von Merk
malen, die semantische Bedeutung haben, ermöglicht auch bei
spielsweise ein automatisches Vorschlagen von für einen be
stimmten Benutzer interessanten Stücken, wenn seine Vorlieben
bekannt sind.
Im Bereich der Musikanalyse ist das Tempo ein wichtiger musi
kalischer Parameter, der semantische Bedeutung hat. Das Tempo
wird üblicherweise in "Beats per Minute" (BPM) gemessen. Die
automatische Extraktion des Tempos sowie der Taktschwerpunkte
des "Beats" bzw. allgemein gesagt die automatische Extraktion
von Rhythmusinformationen, ist ein Beispiel für die Gewinnung
eines semantisch wichtigen Merkmals- eines Musikstückes.
Weiterhin besteht ein Wunsch dahingehend, dass die Merkmalsex
traktion, d. h. das Extrahieren von Rhythmusinformationen aus
einem Audiosignal, robust und recheneffizient stattfinden
kann. Robustheit bedeutet, dass es keine Rolle spielen darf,
ob das Stück quellcodiert und wieder decodiert worden ist, ob
das Stück über einen Lautsprecher abgespielt und von einem Mikrophon
empfangen worden ist, ob es laut oder leise gespielt
wird, oder ob es von einem Instrument oder einer Mehrzahl von
Instrumenten gespielt wird.
Für die Bestimmung der Taktschwerpunkte und damit auch des
Tempos, d. h. für die Bestimmung von Rhythmusinformationen,
hat sich in den Fachkreisen auch der Begriff "Beat Tracking"
etabliert. Aus dem Stand der Technik ist es bereits bekannt,
ein Beat Tracking auf der Basis einer notenartigen bzw. tran
skribierten Signaldarstellung, z. B. im Midi-Format, durchzu
führen. Ziel ist es jedoch, keine solchen Metadarstellungen zu
benötigen, sondern eine Analyse direkt mit einem z. B. PCM-
codierten oder allgemein gesagt digital vorliegenden Audiosi
gnal vorzunehmen.
Die Fachveröffentlichung "Tempo and Beat Analysis of Acoustic
Musical Signals" von Eric D. Scheirer, J. Acoust. Soc. Am.
103: 1, (Jan 1998), Seiten 588-601, offenbart ein Verfahren
zur automatischen Extraktion eines rhythmischen Pulses aus mu
sikalischen Exzerpten. Das Eingangssignal wird mittels einer
Filterbank in eine Reihe von Teilbändern aufgespalten, bei
spielsweise in 6 Teilbänder mit Übergangsfrequenzen von 200 Hz,
400 Hz, 800 Hz, 1600 Hz und 3200 Hz. Für das erste Teil
band wird eine Tiefpassfilterung durchgeführt. Für das letzte
Teilband wird eine Hochpassfilterung durchgeführt, für die
restlichen, dazwischen liegenden Teilbände wird eine Bandpass
filterung beschrieben. Jedes Teilband wird folgendermaßen ver
arbeitet. Das Teilbandsignal wird zunächst gleichgerichtet. In
anderen Worten ausgedrückt wird der Absolutbetrag der Ab
tastwerte bestimmt. Die resultierenden n Werte werden dann ge
glättet, beispielsweise mit einer Mittelung über ein geeigne
tes Fenster, um ein Hüllkurvensignal zu erhalten. Zur Senkung
der Rechenkomplexität kann das Hüllkurvensignal unterabgeta
stet werden. Die Hüllkurvensignale werden differenziert, d. h.
plötzliche Änderungen der Signalamplitude werden durch das
Differenzierungsfilter bevorzugt weitergeleitet. Das Resultat
wird dann auf nicht-negative Werte begrenzt. Jedes Hüllkurven
signal wird dann in eine Bank resonanter Filter, d. h. Oszil
latoren, gegeben, die jeweils ein Filter für jeden Tempobe
reich enthalten, so dass das zum musikalischen Tempo passende
Filter am stärksten angeregt wird. Für jedes Filter wird die
Energie des Ausgangssignals als Maß für die Übereinstimmung
des Tempos des Eingangssignals mit dem zum Filter gehörigen
Tempo berechnet. Die Energien für jedes Tempo werden schließ
lich über alle Teilbänder aufsummiert, wobei die größte Ener
giesumme das als Resultat gelieferte Tempo, d. h. die Rhythmu
sinformationen, kennzeichnet.
Ein wesentlicher Nachteil dieses Verfahrens besteht in der
großen Rechen- und Speicherkomplexität insbesondere zur Reali
sierung der großen Zahl von parallelschwingenden "Oszillato
ren", von denen letztlich nur ein einziger ausgewählt wird.
Dies macht eine effiziente Implementierung beispielsweise für
Echtzeitanwendungen nahezu unmöglich.
Die Fachveröffentlichung "Pulse Tracking with a Pitch Tracker"
von Eric D. Scheirer, Proc. 1997 Workshop on Applications of
Signal Processing to Audio and Acoustics, Mohonk, NY, Oct
1997, beschreibt einen Vergleich des oben beschriebenen "Os
zillatorkonzeptes" mit einem Alternativkonzept, das auf der
Verwendung von Autokorrelationsfunktionen zur Extraktion der
Periodizität aus einem Audiosignal, d. h. der Rhythmusinforma
tionen eines Signals, aufbaut. Ein Algorithmus zur Modellierung
der menschlichen Tonhöhenwahrnehmung, d. h. des Pitch, wird
für das "Beat Tracking" eingesetzt.
Der bekannte Algorithmus ist in Fig. 3 als Blockdiagramm dar
gestellt. Das Audiosignal wird über einen Audioeingang 300 einer
Analyse-Filterbank 302 zugeführt. Die Analyse-Filterbank
erzeugt aus dem Audioeingang eine Anzahl n von Kanälen, d. h.
von einzelnen Teilbandsignalen. Jedes Teilbandsignal enthält
einen bestimmten Bereich an Frequenzen des Audiosignals. Die
Filter der Analyse-Filterbank sind so ausgewählt, dass sie die
Selektionscharakteristik des menschlichen Innenohrs annähern.
Eine solche Analyse-Filterbank wird auch als Gamma-Ton-
Filterbank bezeichnet.
In den Einrichtungen 304a bis 304c werden die Rhythmus-
Informationen jedes Teilbandsignals ausgewertet. Für jedes
Eingangssignal wird zunächst ein hüllkurvenartiges Ausgangs
signal berechnet (entsprechend einer sogenannten "Inner Hair
Cell"-Verarbeitung im Ohr) und unterabgetastet. Aus diesem Re
sultat wird eine Autokorrelationsfunktion (AKF) berechnet, um
die Periodizität des Signals als Funktion der Verzögerung, d. h.
des "Lag" zu erhalten.
Am Ausgang der Einrichtungen 304a bis 304c liegt dann für je
des Teilbandsignal eine Autokorrelationsfunktion vor, welche
Aspekte der Rhythmus-Informationen jedes Teilbandsignals dar
stellt.
Die einzelnen Autokorrelationsfunktionen der Teilbandsignale
werden dann in einer Einrichtung 306 durch Summation kombi
niert, um eine Summenautokorrelationsfunktion (SAKF) zu erhal
ten, welche die Rhythmus-Informationen des Signals am Audio-
Eingang 300 wiedergibt. Diese Informationen können an einem
Tempo-Ausgang 308 ausgegeben werden. Große Werte in der Sum
menautokorrelation zeigen an, dass für eine einer Spitze der
SAKF zugeordneten Verzögerung (Lag) eine hohe Periodizität der
Notenanfänge vorliegt. Daher wird beispielsweise der größte
Wert der Summenautokorrelationsfunktion innerhalb der musika
lisch sinnvollen Verzögerungen gesucht.
Musikalisch sinnvolle Verzögerungen sind beispielsweise der
Tempobereich zwischen 60 bpm und 200 bpm. Die Einrichtung 306
kann ferner angeordnet sein, um eine Verzögerungszeit in Tem
poinformationen umzusetzen. So entspricht beispielsweise eine
Spitze einer Verzögerung von einer Sekunde einem Tempo von 60
Schlägen pro Minute. Kleinere Verzögerungen deuten auf höhere
Tempos hin, während größere Verzögerungen auf kleinere Tempos
als 60 bpm hinweisen.
Dieses Verfahren hat gegenüber dem zuerst genannten Verfahren
einen Vorteil dahingehend, dass keine Oszillatoren mit großem
Rechen- und Speicheraufwand implementiert werden müssen. Ande
rerseits ist das Konzept dahingehend nachteilhaft, dass die
Qualität der Ergebnisse sehr stark von der Art des Audiosi
gnals abhängt. Ist aus einem Audiosignal beispielsweise ein
dominantes Rhythmusinstrument herauszuhören, so wird das in
Fig. 3 beschriebene Konzept gut funktionieren. Ist dagegen die
Stimme dominant, welche keine besonders eindeutigen Rhythmu
sinformationen liefern wird, so wird die Rhythmusbestimmung
mehrdeutig sein. In dem Audiosignal könnte durchaus auch ein
Band vorkommen, das lediglich Rhythmusinformationen enthält,
wie z. B. ein höheres Frequenzband, in dem beispielsweise ein
Hihat eines Schlagzeugs positioniert ist, oder ein niedriges
Frequenzband, in dem die große Trommel eines Schlagzeugs auf
der Frequenzskala positioniert ist. Aufgrund der Kombination
der Einzelinformationen werden jedoch die einigermaßen eindeu
tigen Informationen dieser speziellen Teilbänder von den mehr
deutigen Informationen der anderen Teilbänder überlagert bzw.
"verwässert".
Ein weiteres Problem bei der Verwendung von Autokorrelations
funktionen zum Extrahieren der Periodizität eines Teilbandsi
gnals besteht darin, dass die Summen-Autokorrelationsfunktion,
die durch die Einrichtung 306 gewonnen wird, mehrdeutig ist.
Die Summen-Autokorrelationsfunktion am Ausgang 306 ist dahin
gehend mehrdeutig, dass auch beim Vielfachen einer Verzögerung
eine Autokorrelationsfunktions-Spitze erzeugt wird. Dies ist
daraus verständlich, dass eine Sinuskomponente mit einer Peri
ode von t0, wenn sie einer Autokorrelationsfunktionverarbei
tung unterzogen wird, neben dem gewünschten Maximum bei t0
auch Maxima bei Vielfachen der Verzögerungen, d. h. bei 2t0,
3t0, usw. erzeugt.
Die Fachveröffentlichung "A Computationally Efficient Multi
pitch Analysis Model", von Tolonen und Karjalainen, IEEE Tran
sactions on Speech and Audio Processing, Band 8, Nr. 6, Nov.
2000, offenbart ein rechenzeiteffizientes Modell für eine Pe
riodizitätsanalyse von komplexen Audiosignalen. Das Rechenmo
dell teilt das Signal in zwei Kanäle auf, und zwar in einen
Kanal unter 1000 Hz und einen Kanal über 1000 Hz. Hieraus wird
eine Autokorrelation des unteren Kanals und eine Autokorrela
tion der Hüllkurve des oberen Kanals berechnet. Schließlich
werden die beiden Autokorrelationsfunktionen summiert. Um die
Mehrdeutigkeiten der Summenautokorrelationsfunktion zu elimi
nieren, wird die Summenautokorrelationsfunktion weiterverar
beitet, um eine sogenannte Enhanced Summary Autocorrelation
Function (ESACF) (Weiterentwickelte Summenautokorrelations
funktion) zu erhalten. Diese Nachbearbeitung der Summenauto
korrelationsfunktion beinhaltet ein wiederholtes Abziehen von
mit ganzzahligen Faktoren gespreizten Versionen der Autokorre
lationsfunktion von der Summenautokorrelationsfunktion mit
nachfolgender Begrenzung auf nicht-negative Werte.
Die Aufgabe der vorliegenden Erfindung besteht darin, eine re
chenzeiteffiziente und robuste Vorrichtung und ein rechenzei
teffizientes und robustes Verfahren zum Analysieren eines Au
diosignals hinsichtlich von Rhythmusinformationen zu schaffen.
Diese Aufgabe wird durch eine Vorrichtung zum Analysieren ei
nes Audiosignals nach Patentanspruch 1 oder durch ein Verfah
ren zum Analysieren eines Audiosignals nach Patentanspruch 11
gelöst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass
in den einzelnen Frequenzbändern, d. h. den Teilbändern, oft
mals unterschiedlich günstige Bedingungen für das Auffinden
von rhythmischen Periodizitäten herrschen. Während beispiels
weise bei Popmusik oftmals im Bereich der Mitte, beispielswei
se um 1 kHz, das Signal von nicht mit dem Beat korrespondie
renden Gesang dominiert wird, sind in den höheren Frequenzbe
reichen oftmals vor allem Perkussionsklänge präsent, wie z. B.
das Hihat des Schlagzeugs, welche eine sehr gute Extraktion
rhythmischer Regelmäßigkeiten erlauben. Anders ausgedrückt be
inhalten unterschiedliche Frequenzbänder je nach Audiosignal
eine unterschiedliche Menge an rhythmischer Information bzw.
haben eine unterschiedliche Qualität oder Signifikanz für die
Rhythmusinformationen des Audiosignals.
Erfindungsgemäß wird daher das Audiosignal zunächst in Teil
bandsignale zerlegt. Jedes Teilbandsignal wird hinsichtlich
seiner Periodizität untersucht, um Rhythmus-Rohinformationen
für jedes Teilbandsignal zu erhalten. Hierauf wird gemäß der
vorliegenden Erfindung eine Bewertung der Qualität der Peri
odizität jedes Teilbandsignals durchgeführt, um ein Signifi
kanzmaß für jedes Teilbandsignal zu erhalten. Ein hohes Signi
fikanzmaß deutet darauf hin, dass in diesem Teilbandsignal
deutliche Rhythmusinformationen vorliegen, während ein niedri
ges Signifikanzmaß darauf hindeutet, dass in diesem Teilband
signal weniger eindeutige Rhythmusinformationen vorliegen.
Gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden
Erfindung wird bei der Untersuchung eines Teilbandsignals hin
sichtlich seiner Periodizitäten zunächst eine modifizierte
Hüllkurve des Teilbandsignals berechnet und dann eine Autokor
relationsfunktion der Hüllkurve berechnet. Die Autokorrelati
onsfunktion der Hüllkurve stellt die Rhythmus-Rohinformationen
dar. Eindeutige Rhythmusinformationen liegen vor, wenn die Au
tokorrelationsfunktion deutliche Maxima aufweist, während we
niger eindeutige Rhythmusinformationen vorliegen, wenn die Au
tokorrelationsfunktion der Hüllkurve des Teilbandsignals weni
ger ausgeprägte Signalspitzen oder überhaupt keine Signalspit
zen hat. Eine Autokorrelationsfunktion, die deutliche Signal
spitzen hat, wird daher ein hohes Signifikanzmaß erhalten,
während eine Autokorrelationsfunktion, die einen relativ fla
chen Verlauf hat, ein niedriges Signifikanzmaß erhalten wird.
Erfindungsgemäß werden die einzelnen Rhythmus-Rohinformationen
der einzelnen Teilbandsignale nicht einfach "blind" kombi
niert, sondern unter Berücksichtigung des Signifikanzmaßes für
jedes Teilbandsignal verwendet, um die Rhythmusinformationen
des Audiosignals zu erhalten. Hat ein Teilbandsignal ein hohes
Signifikanzmaß, so wird es bei der Ermittlung der Rhythmusin
formationen bevorzugt, während ein Teilbandsignal, das ein
niedriges Signifikanzmaß hat, d. h. das eine niedrige Qualität
hinsichtlich der Rhythmusinformationen aufweist, bei der Er
mittlung der Rhythmusinformationen des Audiosignals kaum oder
im Extremfall überhaupt nicht berücksichtigt wird.
Dies kann rechenzeiteffizient gut durch einen Gewichtungsfak
tor implementiert werden, der von dem Signifikanzmaß abhängt.
Während ein Teilbandsignal, das eine gute Qualität für die
Rhythmusinformationen hat, d. h. das ein hohes Signifikanzmaß
hat, einen Gewichtungsfaktor von 1 erhalten könnte, wird ein
anderes Teilbandsignal, das ein kleineres Signifikanzmaß hat,
einen Gewichtungsfaktor kleiner als 1 erhalten. Im Extremfall
wird ein Teilbandsignal, das eine vollkommen flache Autokorre
lationsfunktion hat, einen Gewichtungsfaktor von 0 haben. Die
gewichteten Autokorrelationsfunktionen, d. h. die gewichteten
Rhythmus-Rohinformationen werden dann einfach aufsummiert.
Wenn lediglich ein Teilbandsignal sämtlicher Teilbandsignale
gute Rhythmusinformationen liefert, während die anderen Teil
bandsignale Autokorrelationsfunktionen mit einem flachen Ver
lauf aufweisen, kann diese Gewichtung im Extremfall dazu füh
ren, dass alle Teilbandsignale außer dem einen Teilbandsignal
einen Gewichtungsfaktor von 0 erhalten, d. h. bei der Ermitt
lung der Rhythmusinformationen überhaupt nicht berücksichtigt
werden, so dass die Rhythmusinformationen des Audiosignals le
diglich aus einem einzigen Teilbandsignal ermittelt werden.
Das erfindungsgemäße Konzept ist dahingehend vorteilhaft, dass
es eine robuste Bestimmung der Rhythmusinformationen ermög
licht, da Teilbandsignale mit keinen eindeutigen bzw. sogar
abweichenden Rhythmusinformationen, d. h. wenn der Gesang ei
nen anderen Rhythmus aufweist als der eigentliche Beat des
Stücks, die Rhythmusinformationen des Audiosignals nicht "ver
wässern" bzw. "verfälschen". Darüber hinaus werden sehr rau
schartige Teilbandsignale, welche eine Systemautokorrelations
funktion mit vollständig flachem Verlauf liefern, das Si
gnal/Rausch-Verhältnis bei der Bestimmung der Rhythmusinforma
tionen nicht verschlechtern. Genau dies würde jedoch auftre
ten, wenn, wie im Stand der Technik, einfach alle Autokorrela
tionsfunktionen der Teilbandsignale mit gleichem Gewicht auf
summiert werden.
Ein weiterer Vorteil des erfindungsgemäßen Verfahrens besteht
darin, dass mit einem kleinen zusätzlichen Rechenaufwand ein
Signifikanzmaß bestimmt werden kann, und dass die Bewertung
der Rhythmus-Rohinformationen mit dem Signifikanzmaß und die
anschließende Summierung ohne großen Speicher- und Rechenzeit
aufwand effizient durchgeführt werden können, was das erfin
dungsgemäße Konzept insbesondere auch für Echtzeitanwendungen
empfiehlt.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung
werden nachfolgend bezugnehmend auf die beiliegenden Zeichnun
gen detailliert erläutert. Es zeigen:
Fig. 1 ein Blockschaltbild einer Vorrichtung zum Analysieren
eines Audiosignals mit einer Qualitätsbewertung der
Rhythmus-Rohinformationen;
Fig. 2 ein Blockschaltbild einer Vorrichtung zum Analysieren
eines Audiosignals unter Verwendung von Gewichtungs
faktoren auf der Basis der Signifikanzmaße;
Fig. 3 ein Blockschaltbild einer bekannten Vorrichtung zum
Analysieren eines Audiosignals hinsichtlich von Rhyth
musinformationen;
Fig. 4 ein Blockschaltbild einer Vorrichtung zum Analysieren
eines Audiosignals hinsichtlich von Rhythmusinforma
tionen unter Verwendung einer Autokorrelationsfunktion
mit einer teilbandweisen Nachbearbeitung der Rhythmus-
Rohinformationen; und
Fig. 5 ein detailliertes Blockschaltbild der Einrichtung zum
Nachbearbeiten von Fig. 4.
Fig. 1 zeigt ein Blockschaltbild einer Vorrichtung zum Analy
sieren eines Audiosignals hinsichtlich von Rhythmusinformatio
nen. Das Audiosignal wird über einen Eingang 100 einer Ein
richtung 102 zum Zerlegen des Audiosignals in zumindest zwei
Teilbandsignale 104a und 104b zugeführt. Jedes Teilbandsignal
104a, 104b wird in eine Einrichtung 106a bzw. 106b zum Unter
suchen desselben hinsichtlich von Periodizitäten in dem Teil
bandsignal zugeführt, um Rhythmus-Rohinformationen 108a bzw.
108b für jedes Teilbandsignal zu erhalten. Die Rhythmus-
Rohinformationen werden dann einer Einrichtung 110a bzw. 110b
zum Bewerten einer Qualität der Periodizität jedes der zumin
dest zwei Teilbandsignale zugeführt, um ein Signifikanzmaß
112a, 112b für jedes der zumindest zwei Teilbandsignale zu er
halten. Sowohl die Rhythmus-Rohinformationen 108a, 108b als
auch die Signifikanzmaße 112a, 112b werden einer Einrichtung
114 zum Ermitteln der Rhythmusinformationen des Audiosignals
zugeführt. Die Einrichtung 114 berücksichtigt beim Ermitteln
der Rhythmusinformationen des Audiosignals die Signifikanzmaße
112a, 112b für die Teilbandsignale sowie die Rhythmus-
Rohinformationen 108a, 108b von zumindest einem Teilbandsi
gnal.
Hat die Einrichtung 110a zur Qualitätsbewertung beispielsweise
festgestellt, dass in dem Teilbandsignal 104a keine besondere
Periodizität vorliegt, so wird das Signifikanzmaß 112a sehr
klein, bzw. gleich 0 sein. In diesem Fall stellt die Einrich
tung 114 zum Ermitteln der Rhythmusinformationen fest, dass
das Signifikanzmaß 112a gleich Null ist, so dass die Rhythmus-
Rohinformationen 108a des Teilbandsignals 104a bei der Ermitt
lung der Rhythmusinformationen des Audiosignals überhaupt
nicht mehr berücksichtigt werden müssen. Die Rhythmusinforma
tionen des Audiosignals werden dann allein und ausschließlich
auf der Basis der Rhythmus-Rohinformationen 108b des Teilband
signals 104b bestimmt.
Im nachfolgenden wird auf Fig. 2 hinsichtlich einer speziellen
Ausführungsform der Vorrichtung von Fig. 1 eingegangen. Als
Einrichtung 102 zum Zerlegen des Audiosignals kann eine übliche
Analyse-Filterbank verwendet werden, die ausgangsseitig
eine von einem Benutzer wählbare Anzahl von Teilbandsignalen
liefert. Jedes Teilbandsignal wird dann der Verarbeitung der
Einrichtungen 106a, 106b bzw. 106c unterzogen, woraufhin dann
durch die Einrichtungen 110a bis 110c von jeden Rhythmus-
Rohinformationen Signifikanzmaße ermittelt werden. Die Ein
richtung 114 umfaßt bei der in Fig. 2 dargestellten bevorzug
ten Ausführungsform eine Einrichtung 114a zum Berechnen von
Gewichtungsfaktoren für jedes Teilbandsignal auf der Basis des
Signifikanzmaßes für dieses Teilbandsignal und optional auch
der anderen Teilbandsignale. In der Einrichtung 114b findet
dann eine Gewichtung der Rhythmus-Rohinformationen 108a bis
108c mit dem Gewichtungsfaktor für dieses Teilbandsignal
statt, woraufhin dann, ebenfalls in der Einrichtung 114b, die
gewichteten Rhythmus-Rohinformationen kombiniert, z. B. auf
summiert, werden, um an dem Tempo-Ausgang 116 die Rhythmusin
formationen des Audiosignals zu erhalten.
Das erfindungsgemäße Konzept stellt sich somit folgendermaßen
dar. Nach der Evaluierung der rhythmischen Informationen der
Einzelbänder, welche beispielsweise durch Hüllkurvenbildung,
Glättung, Differenzieren, Begrenzen auf positive Werte und
Bilden der Autokorrelationsfunktion stattfinden kann (Einrich
tungen 106a bis 106c), findet eine Bewertung der Wertigkeit
bzw. der Qualität dieser Zwischenergebnisse in den Einrichtun
gen 110a bis 110c statt. Dies wird mit Hilfe einer Bewertungs
funktion erreicht, welche die Verlässlichkeit der jeweiligen
Einzelergebnisse mit einem Signifikanzmaß bewertet. Aus den
Signifikanzmaßen aller Teilbandsignale wird ein Gewichtungs
faktor für jedes Band für die Extraktion der Rhythmus-
Informationen hergeleitet. Das Gesamtergebnis der Rhythmusex
traktion wird dann in der Einrichtung 114b durch Kombination
der bandweisen Einzelergebnisse unter Berücksichtigung ihrer
jeweiligen Gewichtungsfaktoren erreicht.
Als Resultat zeigt ein solchermaßen implementierter Algorith
mus zur Rhythmusanalyse eine gute Fähigkeit, rhythmische In
formationen in einem Signal auch unter ungünstigen Bedingungen
zuverlässig zu finden. Das erfindungsgemäße Konzept zeichnet
sich daher durch eine hohe Robustheit aus.
Bei einer bevorzugten Ausführungsform werden die Rhythmus-
Rohinformationen 108a, 108b, 108c, die die Periodizität des
jeweiligen Teilbandsignals darstellen, mittels einer Autokor
relationsfunktion bestimmt. In diesem Fall wird es bevorzugt,
das Signifikanzmaß zu bestimmen, indem ein Maximum der Auto
korrelationsfunktion durch einen Mittelwert der Autokorrelati
onsfunktion geteilt wird, und dann der Wert 1 subtrahiert
wird. Es sei darauf hingewiesen, daß jede Autokorrelations
funktion immer bei einer Verzögerung von 0 ein lokales Maximum
liefert, das die Energie des Signals repräsentiert. Dieses Ma
ximum sollte unberücksichtigt bleiben, damit die Qualitätsbe
stimmung nicht verfälscht wird.
Ferner soll die Autokorrelationsfunktion lediglich in einem
speziellen Tempobereich betrachtet werden, d. h. von einer ma
ximalen Verzögerung, die dem kleinsten interessierenden Tempo
entspricht, zu einer minimalen Verzögerung, die dem höchsten
interessierenden Tempo entspricht. Ein typischer Tempobereich
liegt zwischen 60 bpm und 200 bpm.
Alternativ kann als Signifikanzmaß das Verhältnis zwischen dem
arithmetischen Mittelwert der Autokorrelationsfunktion im in
teressierenden Tempobereich und dem geometrischen Mittelwert
der Autokorrelationsfunktion im interessierenden Tempobereich
bestimmt werden. Es ist bekannt, dass wenn alle Werte der Au
tokorrelationsfunktion gleich sind, d. h. wenn die Autokorre
lationsfunktion einen flachen Verlauf hat, der geometrische
Mittelwert der Autokorrelationsfunktion und der arithmetische
Mittelwert der Autokorrelationsfunktion gleich sind. In diesem
Fall hätte das Signifikanzmaß einen Wert gleich 1, was bedeu
tet, dass die Rhythmus-Rohinformationen nicht signifikant
sind.
Im Falle einer Systemautokorrelationsfunktion mit starken
Spitzen würde das Verhältnis aus arithmetischem Mittelwert zu
geometrischem Mittelwert größer 1 sein, was bedeutet, dass die
Autokorrelationsfunktion gute Rhythmusinformationen aufweist.
Je kleiner jedoch das Verhältnis zwischen arithmetischem Mit
telwert und geometrischem Mittelwert wird, desto flacher ist
die Autokorrelationsfunktion und desto weniger Periodizitäten
enthält sie, was wiederum bedeutet, dass die Rhythmusinforma
tionen dieses Teilbandsignals weniger signifikant, d. h. eine
geringere Qualität haben, was sich in einem geringen bzw. ei
nem Gewichtungsfaktor von 0 äußern wird.
Bezüglich der Gewichtungsfaktoren existieren verschiedene Mög
lichkeiten. Bevorzugt wird eine relative Gewichtung, derart,
dass sich alle Gewichtungsfaktoren sämtlicher Teilbandsignale
zu 1 aufaddieren, d. h. dass der Gewichtungsfaktor eines Ban
des bestimmt wird als der Signifikanzwert dieses Bandes ge
teilt durch die Summe aller Signifikanzwerte. In diesem Fall
wird eine relative Gewichtung vor der Aufsummation der gewich
teten Rhythmus-Rohinformationen durchgeführt, um die Rhythmus-
Informationen des Audiosignals zu erhalten.
Wie bereits ausgeführt worden ist, wird es bevorzugt, die Aus
wertung der Rhythmus-Informationen unter Verwendung einer Au
tokorrelationsfunktion durchzuführen. Dieser Fall ist in Fig.
4 dargestellt. Das Audiosignal wird über den Audiosignalein
gang 100 in die Einrichtung 102 zum Zerlegen des Audiosignals
in Teilbandsignale 104a und 104b eingespeist. Jedes Teilbandsignal
wird dann in der Einrichtung 106a bzw. 106b, wie es
ausgeführt worden ist, unter Verwendung einer Autokorrelati
onsfunktion untersucht, um die Periodizität des Teilbandsi
gnals zu ermitteln. Am Ausgang der Einrichtung 106a bzw. 106b
liegen dann die Rhythmus-Rohinformationen 108a, 108b vor. Die
se werden in eine Einrichtung 118a bzw. 118b eingespeist, um
die mittels der Autokorrelationsfunktion von der Einrichtung
116a ausgegebenen Rhythmus-Rohinformationen nachzubearbeiten.
Damit wird u. a. sichergestellt, daß die Mehrdeutigkeiten der
Autokorrelationsfunktion, d. h. daß bei ganzzahligen Vielfa
chen der Verzögerungen ebenfalls Signalspitzen auftreten,
teilbandweise eliminiert werden, um nachbearbeitete Rhythmus-
Rohinformationen 120a bzw. 120b zu erhalten.
Dies hat den Vorteil, dass die Mehrdeutigkeiten der Autokorre
lationsfunktionen, d. h. der Rhythmus-Rohinformationen 108a,
108b, bereits teilbandweise eliminiert werden, und nicht erst,
wie im Stand der Technik, nach der Summation der einzelnen Au
tokorrelationsfunktionen. Darüber hinaus ermöglicht die ein
zelbandweise Eliminierung der Mehrdeutigkeiten in den Autokor
relationsfunktionen durch die Einrichtungen 118a, 118b, dass
die Rhythmus-Rohinformationen der Teilbandsignale unabhängig
voneinander gehandhabt werden können. Sie können beispielswei
se einer Qualitätsbeurteilung mittels der Einrichtung 110a für
die Rhythmus-Rohinformationen 108a oder mittels der Einrich
tung 110b für die Rhythmus-Rohinformationen 108b unterzogen
werden.
Wie es durch die gestrichelten Linien in Fig. 4 dargestellt
ist, kann die Qualitätsbeurteilung jedoch auch anhand der
nachbearbeiteten Rhythmus-Rohinformationen stattfinden, wobei
diese letztere Möglichkeit bevorzugt wird, da die Qualitätsbe
urteilung auf der Basis der nachbearbeiteten Rhythmus-
Rohinformationen sicherstellt, dass die Qualität einer Infor
mation beurteilt wird, die nicht mehr vieldeutig ist.
Die Ermittlung der Rhythmus-Informationen durch die Einrich
tung 114 findet dann auf der Basis von nachbearbeiteten Rhyth
mus-Informationen eines Kanals und vorzugsweise auch auf der
Basis des Signifikanzmaßes für diesen Kanal statt.
Wenn eine Qualitätsbeurteilung auf der Basis der Rhythmus-
Rohinformationen, also des Signals vor der Einrichtung 118a
durchgeführt wird, ist dies dahingehend vorteilhaft, dass,
wenn bestimmt wird, dass das Signifikanzmaß gleich 0 ist, d. h.
dass die Autokorrelationsfunktion einen flachen Verlauf
hat, auf die Nachbearbeitung mittels der Einrichtung 118a
gänzlich verzichtet werden kann, um Rechenzeitressourcen ein
zusparen.
Im nachfolgenden wird auf Fig. 5 eingegangen, um einen detail
lierteren Aufbau einer Einrichtung 118a oder 118b zur Nachbe
arbeitung der Rhythmus-Rohinformationen darzustellen. Zunächst
wird das Teilband-Signal beispielsweise 104a, in die Einrich
tung 106a zur Untersuchung der Periodizität des Teilbandsi
gnals mittels einer Autokorrelationsfunktion eingespeist, um
Rhythmus-Rohinformationen 108a zu erhalten. Um die Mehrdeutig
keiten teilbandweise zu eliminieren, kann genauso wie im Stand
der Technik, eine gespreizte Autokorrelationsfunktion mittels
einer Einrichtung 121 berechnet werden, wobei die Einrichtung
121 angeordnet ist, um die gespreizte Autokorrelationsfunktion
so zu berechnen, dass sie um ein ganzzahliges Vielfaches einer
Verzögerung gespreizt ist. Eine Einrichtung 122 ist in diesem
Fall angeordnet, um die gespreizte Autokorrelationsfunktion
von der ursprünglichen Autokorrelationsfunktion, d. h. den
Rhythmus-Rohinformationen 108a zu subtrahieren. Insbesondere
wird es bevorzugt, zunächst eine auf das Doppelte gespreizte
Autokorrelationsfunktion in der Einrichtung 121 zu berechnen
und dann von den Rhythmus-Rohinformationen 108a zu subtrahie
ren. Dann, in dem nächsten Schritt, wird eine um den Faktor 3
gespreizte Autokorrelationsfunktion in der Einrichtung 121 be
rechnet und von dem Ergebnis der vorherigen Subtraktion wieder
abgezogen, so dass nach und nach sämtliche Mehrdeutigkeiten
aus den Rhythmus-Rohinformationen eliminiert werden.
Alternativ oder zusätzlich kann die Einrichtung 121 angeordnet
sein, um eine um einen ganzzahligen Faktor gestauchte Autokor
relationsfunktion zu berechnen, wobei diese dann von der Ein
richtung 122 zu den Rhythmus-Rohinformationen hinzu addiert
wird, um auch Anteile für Verzögerungen t0/2, t0/3 usw. zu er
zeugen.
Darüber hinaus können die gespreizten bzw. gestauchten Versio
nen der Rhythmus-Rohinformationen 108a vor dem Addieren bzw.
Subtrahieren gewichtet werden, um auch hier eine Flexibilität
im Sinne einer hohen Robustheit zu erreichen.
Durch das Verfahren, die Periodizität eines Teilbandsignals
auf der Basis einer Autokorrelationsfunktion zu untersuchen,
kann also eine weitere Verbesserung erzielt werden, wenn die
Eigenschaften der Autokorrelationsfunktion mit einbezogen wer
den und die Nachbearbeitung unter Verwendung der Einrichtung
118a oder 118b durchgeführt wird. So erzeugt eine periodische
Folge von Notenanfängen mit einem Abstand t0 nicht nur eine
AKF-Spitze bei einer Verzögerung t0 sondern auch bei 2t0, 3t0,
etc. Dies wird zu einer Vieldeutigkeit in der Tempodetektion,
d. h. dem Suchen signifikanter Maxima in der Autokorrelations
funktion, führen. Die Mehrdeutigkeiten können dadurch elimi
nert werden, wenn um ganzzahlige Faktoren gespreizte Versionen
der AKF vom Ausgangswert teilbandweise (gewichtet) abgezogen
werden.
Ferner besteht bei der Autokorrelationsfunktion das Problem,
daß sie keine Informationen bei t0/2, t0/3 . . . usw., also beim
Doppelten, Dreifachen, etc. des "Grundtempos" liefert, was be
sonders dann zu falschen Ergebnissen führen kann, wenn zwei
Instrumente, die in unterschiedlichen Teilbändern liegen, zu
sammen den Rhythmus des Signals definieren. Diese Sache wird
dadurch berücksichtigt, dass um ganzzahlige Faktoren gestauch
te Versionen der Autokorrelationsfunktion berechnet werden und
diese dann zu den Rhythmus-Rohinformationen gewichtet oder un
gewichtet hinzuaddiert werden.
Die AKF-Nachverarbeitung findet somit teilbandweise statt, wo
bei für mindestens ein Teilbandsignal eine Autokorrelations
funktion errechnet wird und diese mit gedehnten oder gespreiz
ten Versionen dieser Funktion kombiniert wird.
Claims (11)
1. Vorrichtung zum Analysieren eines Audiosignals hinsicht
lich von Rhythmusinformationen des Audiosignals, mit folgenden
Merkmalen:
einer Einrichtung (102) zum Zerlegen des Audiosignals in zu mindest zwei Teilbandsignale (104a, 104b);
einer Einrichtung zum Untersuchen (106a, 106b) eines Teilband signals hinsichtlich einer Periodizität in dem Teilbandsignal, um Rhythmus-Rohinformationen (108a, 108b) für das Teilbandsi gnal zu erhalten;
einer Einrichtung zum Bewerten (110a, 110b) einer Qualität der Periodizität der Rhythmus-Rohinformationen (108a) des Teil bandsignals (104a), um ein Signifikanzmaß (112a) für das Teil bandsignal zu erhalten; und
einer Einrichtung (114) zum Ermitteln der Rhythmusinformatio nen des Audiosignals unter Berücksichtigung des Signifikanzma ßes (112a) des Teilbandsignals und der Rhythmus- Rohinformationen (108a, 108b) von zumindest einem Teilbandsi gnal.
einer Einrichtung (102) zum Zerlegen des Audiosignals in zu mindest zwei Teilbandsignale (104a, 104b);
einer Einrichtung zum Untersuchen (106a, 106b) eines Teilband signals hinsichtlich einer Periodizität in dem Teilbandsignal, um Rhythmus-Rohinformationen (108a, 108b) für das Teilbandsi gnal zu erhalten;
einer Einrichtung zum Bewerten (110a, 110b) einer Qualität der Periodizität der Rhythmus-Rohinformationen (108a) des Teil bandsignals (104a), um ein Signifikanzmaß (112a) für das Teil bandsignal zu erhalten; und
einer Einrichtung (114) zum Ermitteln der Rhythmusinformatio nen des Audiosignals unter Berücksichtigung des Signifikanzma ßes (112a) des Teilbandsignals und der Rhythmus- Rohinformationen (108a, 108b) von zumindest einem Teilbandsi gnal.
2. Vorrichtung nach Anspruch 1, bei der die Einrichtung zum
Untersuchen (106a, 106b) ausgebildet ist, um eine Autokorrela
tionsfunktion für jedes der zumindest zwei Teilbandsignale zu
berechnen.
3. Vorrichtung nach Anspruch 1 oder 2, bei die Einrichtung
zum Untersuchen (106a, 106b) folgende Merkmale aufweist:
eine Einrichtung zum Bilden einer Hüllkurve eines Teilbandsi gnals;
eine Einrichtung zum Glätten der Hüllkurve des Teilbandsi gnals, um eine geglättete Hüllkurve zu erhalten;
eine Einrichtung zum Differenzieren der geglätteten Hüllkurve, um eine differenzierte Hüllkurve zu erhalten;
eine Einrichtung zum Begrenzen der differenzierten Hüllkurve auf positive Werte, um eine begrenzte Hüllkurve zu erhalten; und
eine Einrichtung zum Bilden einer Autokorrelationsfunktion der begrenzten Hüllkurve, um die Rhythmus-Rohinformationen (108a, 108b) zu erhalten.
eine Einrichtung zum Bilden einer Hüllkurve eines Teilbandsi gnals;
eine Einrichtung zum Glätten der Hüllkurve des Teilbandsi gnals, um eine geglättete Hüllkurve zu erhalten;
eine Einrichtung zum Differenzieren der geglätteten Hüllkurve, um eine differenzierte Hüllkurve zu erhalten;
eine Einrichtung zum Begrenzen der differenzierten Hüllkurve auf positive Werte, um eine begrenzte Hüllkurve zu erhalten; und
eine Einrichtung zum Bilden einer Autokorrelationsfunktion der begrenzten Hüllkurve, um die Rhythmus-Rohinformationen (108a, 108b) zu erhalten.
4. Vorrichtung nach Anspruch 2 oder 3, bei der die Einrich
tung zum Bewerten (110a, 110b) der Qualität ausgebildet ist,
um als Signifikanzmaß ein Verhältnis eines Maximum der Auto
korrelationsfunktion zu einem Mittelwert der Autokorrelations
funktion zu verwenden.
5. Vorrichtung nach Anspruch 2 oder 3, bei der die Einrich
tung zum Bewerten (110a, 110b) der Qualität ausgebildet ist,
um als Signifikanzmaß ein Verhältnis aus einem arithmetischen
Mittelwert der Rhythmus-Rohinformationen zu einem geometri
schen Mittelwert der Rhythmus-Rohinformationen zu verwenden.
6. Vorrichtung nach Anspruch 4 oder 5,
bei der die Einrichtung zum Bewerten (110a, 110b) der Qualität
ausgebildet ist, um die Autokorrelationsfunktion lediglich innerhalb
eines Tempobereichs auszuwerten, der sich von einer
minimalen Verzögerung, um ein maximales Tempo zu erhalten, zu
einer maximalen Verzögerung, um ein minimales Tempo zu erhal
ten, erstreckt.
7. Vorrichtung nach einem der vorhergehenden Ansprüche, bei
der die Einrichtung zum Ermitteln (114) folgende Merkmale auf
weist:
eine Einrichtung (114a) zum Ableiten eines Gewichtungsfaktors für ein Teilband unter Verwendung des Signifikanzmaßes für das Teilband;
eine Einrichtung (114b) zum Gewichten der Rhythmus- Rohinformationen des Teilbands unter Verwendung des Gewich tungsfaktors für das Teilband, um gewichtete Rhythmus- Rohinformationen für das Teilband zu erhalten, und zum Zusam menfassen der gewichteten Rhythmus-Rohinformationen des Teil bands mit gewichteten oder ungewichteten Rhythmus- Rohinformationen des anderen Teilbands, um die Rhythmusinfor mationen des Audiosignals zu erhalten.
eine Einrichtung (114a) zum Ableiten eines Gewichtungsfaktors für ein Teilband unter Verwendung des Signifikanzmaßes für das Teilband;
eine Einrichtung (114b) zum Gewichten der Rhythmus- Rohinformationen des Teilbands unter Verwendung des Gewich tungsfaktors für das Teilband, um gewichtete Rhythmus- Rohinformationen für das Teilband zu erhalten, und zum Zusam menfassen der gewichteten Rhythmus-Rohinformationen des Teil bands mit gewichteten oder ungewichteten Rhythmus- Rohinformationen des anderen Teilbands, um die Rhythmusinfor mationen des Audiosignals zu erhalten.
8. Vorrichtung nach Anspruch 7, bei der die Einrichtung
(114a) zum Ableiten eines Gewichtungsfaktors angeordnet ist,
um für jedes Teilbandsignal einen relativen Gewichtungsfaktor
abzuleiten, wobei eine Summe aus den Gewichtungsfaktoren für
alle Teilbandsignale 1 ergibt.
9. Vorrichtung nach Anspruch 8, bei der die Einrichtung
(114a) zum Ableiten eines Gewichtungsfaktors angeordnet ist,
um einen Gewichtungsfaktor als Verhältnis aus dem Signifikanz
maß eines Teilbandsignals zu der Summe der Signifikanzmaße al
ler Teilbandsignale abzuleiten.
10. Vorrichtung nach Anspruch 9, bei der die Einrichtung
(106a, 106b) zum Untersuchen eines Teilbandsignals angeordnet
ist, um ein Teilbandsignal zu untersuchen, dessen Länge größer
als 10 Sekunden ist.
11. Verfahren zum Analysieren eines Audiosignals hinsichtlich
von Rhythmusinformationen des Audiosignals, mit folgenden
Schritten:
Zerlegen des Audiosignals in zumindest zwei Teilbandsignale (104a, 104b);
Untersuchen (106a, 106b) eines Teilbandsignals hinsichtlich einer Periodizität in dem Teilbandsignal, um Rhythmus- Rohinformationen (108a, 108b) für das Teilbandsignal zu erhal ten;
Bewerten (110a, 110b) einer Qualität der Periodizität der Rhythmus-Rohinformationen (108a) des Teilbandsignals (104a), um ein Signifikanzmaß (112a) für das Teilbandsignal zu erhal ten; und
Ermitteln der Rhythmusinformationen des Audiosignals unter Be rücksichtigung des Signifikanzmaßes (112a) des Teilbandsignals und der Rhythmus-Rohinformationen (108a, 108b) von zumindest einem Teilbandsignal.
Zerlegen des Audiosignals in zumindest zwei Teilbandsignale (104a, 104b);
Untersuchen (106a, 106b) eines Teilbandsignals hinsichtlich einer Periodizität in dem Teilbandsignal, um Rhythmus- Rohinformationen (108a, 108b) für das Teilbandsignal zu erhal ten;
Bewerten (110a, 110b) einer Qualität der Periodizität der Rhythmus-Rohinformationen (108a) des Teilbandsignals (104a), um ein Signifikanzmaß (112a) für das Teilbandsignal zu erhal ten; und
Ermitteln der Rhythmusinformationen des Audiosignals unter Be rücksichtigung des Signifikanzmaßes (112a) des Teilbandsignals und der Rhythmus-Rohinformationen (108a, 108b) von zumindest einem Teilbandsignal.
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10123366A DE10123366C1 (de) | 2001-05-14 | 2001-05-14 | Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen |
EP02745267A EP1388145B1 (de) | 2001-05-14 | 2002-04-25 | Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen |
US10/467,704 US20040068401A1 (en) | 2001-05-14 | 2002-04-25 | Device and method for analysing an audio signal in view of obtaining rhythm information |
JP2002590149A JP3914878B2 (ja) | 2001-05-14 | 2002-04-25 | リズム情報に関するオーディオ信号を解析するための装置及び方法 |
AT02745267T ATE279769T1 (de) | 2001-05-14 | 2002-04-25 | Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen |
DE2002501311 DE50201311D1 (de) | 2001-05-14 | 2002-04-25 | Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen |
PCT/EP2002/004618 WO2002093557A1 (de) | 2001-05-14 | 2002-04-25 | Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen |
HK04102850A HK1059959A1 (en) | 2001-05-14 | 2004-04-22 | Device and method for analysing an audio signal inv view of obtaining rhythm information. |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10123366A DE10123366C1 (de) | 2001-05-14 | 2001-05-14 | Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10123366C1 true DE10123366C1 (de) | 2002-08-08 |
Family
ID=7684710
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10123366A Expired - Fee Related DE10123366C1 (de) | 2001-05-14 | 2001-05-14 | Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen |
DE2002501311 Expired - Lifetime DE50201311D1 (de) | 2001-05-14 | 2002-04-25 | Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2002501311 Expired - Lifetime DE50201311D1 (de) | 2001-05-14 | 2002-04-25 | Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen |
Country Status (7)
Country | Link |
---|---|
US (1) | US20040068401A1 (de) |
EP (1) | EP1388145B1 (de) |
JP (1) | JP3914878B2 (de) |
AT (1) | ATE279769T1 (de) |
DE (2) | DE10123366C1 (de) |
HK (1) | HK1059959A1 (de) |
WO (1) | WO2002093557A1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8184712B2 (en) | 2006-04-30 | 2012-05-22 | Hewlett-Packard Development Company, L.P. | Robust and efficient compression/decompression providing for adjustable division of computational complexity between encoding/compression and decoding/decompression |
DE112007002014B4 (de) * | 2006-09-11 | 2014-09-11 | Hewlett-Packard Development Company, L.P. | Verfahren zum rechentechnischen Schätzen des Tempos einer Musikauswahl und Temposchätzungssystem |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8535236B2 (en) * | 2004-03-19 | 2013-09-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for analyzing a sound signal using a physiological ear model |
US8180468B2 (en) * | 2005-07-01 | 2012-05-15 | Pioneer Corporation | Computer program, information reproduction device, and method |
JP4940588B2 (ja) * | 2005-07-27 | 2012-05-30 | ソニー株式会社 | ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法 |
JP4948118B2 (ja) * | 2005-10-25 | 2012-06-06 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP4465626B2 (ja) * | 2005-11-08 | 2010-05-19 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
EP1959428A4 (de) | 2005-12-09 | 2011-08-31 | Sony Corp | Musikeditiereinrichtung und musikeditierverfahren |
JP4949687B2 (ja) | 2006-01-25 | 2012-06-13 | ソニー株式会社 | ビート抽出装置及びビート抽出方法 |
JP5351373B2 (ja) * | 2006-03-10 | 2013-11-27 | 任天堂株式会社 | 演奏装置および演奏制御プログラム |
US8463615B2 (en) * | 2007-07-30 | 2013-06-11 | Google Inc. | Low-delay audio coder |
JP5008766B2 (ja) * | 2008-04-11 | 2012-08-22 | パイオニア株式会社 | テンポ検出装置及びテンポ検出プログラム |
US8168876B2 (en) * | 2009-04-10 | 2012-05-01 | Cyberlink Corp. | Method of displaying music information in multimedia playback and related electronic device |
US8071869B2 (en) * | 2009-05-06 | 2011-12-06 | Gracenote, Inc. | Apparatus and method for determining a prominent tempo of an audio work |
US8805854B2 (en) | 2009-06-23 | 2014-08-12 | Gracenote, Inc. | Methods and apparatus for determining a mood profile associated with media data |
US8996538B1 (en) | 2009-05-06 | 2015-03-31 | Gracenote, Inc. | Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects |
EP2962299B1 (de) | 2013-02-28 | 2018-10-31 | Nokia Technologies OY | Audiosignalanalyse |
JP6759545B2 (ja) * | 2015-09-15 | 2020-09-23 | ヤマハ株式会社 | 評価装置およびプログラム |
US10666475B2 (en) * | 2018-10-29 | 2020-05-26 | Bae Systems Information And Electronic Systems Integration Inc. | Techniques for phase modulated signals having poor autocorrelation |
CN111785237B (zh) * | 2020-06-09 | 2024-04-19 | Oppo广东移动通信有限公司 | 音频节奏确定方法、装置、存储介质和电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3823724A1 (de) * | 1987-07-15 | 1989-02-02 | Matsushita Electric Works Ltd | Sprachcodierungs- und sprachsynthesesystem |
JPH09293083A (ja) * | 1996-04-26 | 1997-11-11 | Toshiba Corp | 楽曲検索装置および検索方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2591430B2 (ja) * | 1993-06-30 | 1997-03-19 | 日本電気株式会社 | ベクトル量子化装置 |
JP3840684B2 (ja) * | 1996-02-01 | 2006-11-01 | ソニー株式会社 | ピッチ抽出装置及びピッチ抽出方法 |
KR100269216B1 (ko) * | 1998-04-16 | 2000-10-16 | 윤종용 | 스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법 |
DE10123281C1 (de) * | 2001-05-14 | 2002-10-10 | Fraunhofer Ges Forschung | Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion |
JP3859462B2 (ja) * | 2001-05-18 | 2006-12-20 | 株式会社東芝 | 予測パラメータ分析装置および予測パラメータ分析方法 |
-
2001
- 2001-05-14 DE DE10123366A patent/DE10123366C1/de not_active Expired - Fee Related
-
2002
- 2002-04-25 US US10/467,704 patent/US20040068401A1/en not_active Abandoned
- 2002-04-25 AT AT02745267T patent/ATE279769T1/de not_active IP Right Cessation
- 2002-04-25 WO PCT/EP2002/004618 patent/WO2002093557A1/de active IP Right Grant
- 2002-04-25 JP JP2002590149A patent/JP3914878B2/ja not_active Expired - Lifetime
- 2002-04-25 DE DE2002501311 patent/DE50201311D1/de not_active Expired - Lifetime
- 2002-04-25 EP EP02745267A patent/EP1388145B1/de not_active Expired - Lifetime
-
2004
- 2004-04-22 HK HK04102850A patent/HK1059959A1/xx not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3823724A1 (de) * | 1987-07-15 | 1989-02-02 | Matsushita Electric Works Ltd | Sprachcodierungs- und sprachsynthesesystem |
JPH09293083A (ja) * | 1996-04-26 | 1997-11-11 | Toshiba Corp | 楽曲検索装置および検索方法 |
Non-Patent Citations (3)
Title |
---|
SCHEIRER, Eric D. "Pulse Tracking with a Pitch Tracher", In: Proc. 1997, Workshop on Applications of Signal Processing to Andio and Acoustics, Mohonk, NY, Oct. 1997 * |
SCHREIER, Eric D.: "Tempo and Beat Analysis of Acoustic Musical Signals", In: Journal of the Acoustical Society of America, 103: 1. Jan. 1998, S. 588-601 * |
TOLONEN, KARJALEINEN: "A Computationally Efficient Multipitch Analysis Model", In: IEEE Transactions on Speech and Audio Processing, Band 8, Nr. 6, Nov. 2000 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8184712B2 (en) | 2006-04-30 | 2012-05-22 | Hewlett-Packard Development Company, L.P. | Robust and efficient compression/decompression providing for adjustable division of computational complexity between encoding/compression and decoding/decompression |
DE112007002014B4 (de) * | 2006-09-11 | 2014-09-11 | Hewlett-Packard Development Company, L.P. | Verfahren zum rechentechnischen Schätzen des Tempos einer Musikauswahl und Temposchätzungssystem |
Also Published As
Publication number | Publication date |
---|---|
DE50201311D1 (de) | 2004-11-18 |
ATE279769T1 (de) | 2004-10-15 |
EP1388145B1 (de) | 2004-10-13 |
US20040068401A1 (en) | 2004-04-08 |
EP1388145A1 (de) | 2004-02-11 |
JP3914878B2 (ja) | 2007-05-16 |
HK1059959A1 (en) | 2004-07-23 |
JP2004528596A (ja) | 2004-09-16 |
WO2002093557A1 (de) | 2002-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1371055B1 (de) | Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion | |
DE10123366C1 (de) | Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen | |
DE10232916B4 (de) | Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals | |
EP2099024B1 (de) | Verfahren zur klangobjektorientierten Analyse und zur notenobjektorientierten Bearbeitung polyphoner Klangaufnahmen | |
EP1407446B1 (de) | Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals | |
EP1606798B1 (de) | Vorrichtung und verfahren zum analysieren eines audio-informationssignals | |
EP1368805B1 (de) | Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals | |
EP2351017B1 (de) | Verfahren zur erkennung von notenmustern in musikstücken | |
EP1280138A1 (de) | Verfahren zur Analyse von Audiosignalen | |
DE102007034774A1 (de) | Vorrichtung zur Bestimmung von Akkordnamen und Programm zur Bestimmung von Akkordnamen | |
DE2825110A1 (de) | Verfahren zur erkennung kontinuierlicher sprachsignale | |
WO2005122135A1 (de) | Vorrichtung und verfahren zum umsetzen eines informationssignals in eine spektraldarstellung mit variabler auflösung | |
EP1417676B1 (de) | VERFAHREN UND VORRICHTUNG ZUM ERZEUGEN EINER KENNUNG FÜR EIN AUDIOSIGNAL, ZUM AUFBAUEN EINER INSTRUMENTENDATENBANK UND ZUM BESTIMMEN DER ART EINES MusikINSTRUMENTS | |
EP1794743A1 (de) | Vorrichtung und verfahren zum gruppieren von zeitlichen segmenten eines musikstücks | |
DE102004028693B4 (de) | Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt | |
WO2006005448A1 (de) | Verfahren und vorrichtung zur rhythmischen aufbereitung von audiosignalen | |
EP1377924B1 (de) | VERFAHREN UND VORRICHTUNG ZUM EXTRAHIEREN EINER SIGNALKENNUNG, VERFAHREN UND VORRICHTUNG ZUM ERZEUGEN EINER DAZUGEHÖRIGEN DATABANK und Verfahren und Vorrichtung zum Referenzieren eines Such-Zeitsignals | |
EP1671315B1 (de) | Vorrichtung und verfahren zum charakterisieren eines tonsignals | |
EP1743324B1 (de) | Vorrichtung und verfahren zum analysieren eines informationssignals | |
Krusche | Visualization and auralization of features learned by neural networks for musical instrument recognition | |
EP1381024A1 (de) | Verfahren zum Auffinden einer Tonfolge |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8100 | Publication of patent without earlier publication of application | ||
D1 | Grant (no unexamined application published) patent law 81 | ||
8364 | No opposition during term of opposition | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G10L0011040000 Ipc: G10L0025000000 |
|
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G10L0011040000 Ipc: G10L0025000000 Effective date: 20140527 |
|
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |
Effective date: 20131203 |