DE10123281C1 - Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion - Google Patents
Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer AutokorrelationsfunktionInfo
- Publication number
- DE10123281C1 DE10123281C1 DE10123281A DE10123281A DE10123281C1 DE 10123281 C1 DE10123281 C1 DE 10123281C1 DE 10123281 A DE10123281 A DE 10123281A DE 10123281 A DE10123281 A DE 10123281A DE 10123281 C1 DE10123281 C1 DE 10123281C1
- Authority
- DE
- Germany
- Prior art keywords
- audio signal
- signal
- raw
- information
- rhythm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000033764 rhythmic process Effects 0.000 title claims abstract description 159
- 238000005311 autocorrelation function Methods 0.000 title claims abstract description 107
- 230000005236 sound signal Effects 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000012805 post-processing Methods 0.000 claims description 20
- 230000015556 catabolic process Effects 0.000 claims 1
- 238000004458 analytical method Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 10
- 238000001303 quality assessment method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 230000001934 delay Effects 0.000 description 6
- 238000005755 formation reaction Methods 0.000 description 6
- 230000001020 rhythmical effect Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000005314 correlation function Methods 0.000 description 4
- 230000008030 elimination Effects 0.000 description 4
- 238000003379 elimination reaction Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000004069 differentiation Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- REQCZEXYDRLIBE-UHFFFAOYSA-N procainamide Chemical compound CCN(CC)CCNC(=O)C1=CC=C(N)C=C1 REQCZEXYDRLIBE-UHFFFAOYSA-N 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101100400378 Mus musculus Marveld2 gene Proteins 0.000 description 1
- 235000010678 Paulownia tomentosa Nutrition 0.000 description 1
- 240000002834 Paulownia tomentosa Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002301 combined effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 210000003027 ear inner Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000000067 inner hair cell Anatomy 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 208000008918 voyeurism Diseases 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/40—Rhythm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/076—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/135—Autocorrelation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Abstract
Eine Vorrichtung und ein Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion umfaßt eine Filterbank zum Zerlegen des Audiosignals in zumindest zwei Teilbandsignale. Die Teilbandsignale werden hinsichtlich von Periodizitäten mittels einer Autokorrelationsfunktion untersucht, um Rhythmus-Rohinformationen für die zumindest zwei Teilbandsignale zu erhalten. Um die Mehrdeutigkeiten der Autokorrelationsfunktion für periodische Signale zu verringern oder zu eliminieren, werden die Rhythmus-Rohinformationen nachbearbeitet, um nachbearbeitete Rhythmus-Rohinformationen für das Teilbandsignal zu erhalten. Die Rhythmusinformationen des Audiosignals werden auf der Basis der nachbearbeiteten Rhythmus-Rohinformationen ermittelt. Durch die teilbandweise AKF-Nachverarbeitung werden AKF-Mehrdeutigkeiten bereits dort, wo sie entstehen, eliminiert bzw. werden Rhythmusanteile bei doppelten Tempi, die eine Autokorrelationsfunktionsverarbeitung normalerweise nicht liefert, hinzugefügt, so daß sich als Resultat eine robustere Bestimmung der Rhythmusinformationen des Audiosignals ergibt.
Description
Die vorliegende Erfindung bezieht sich auf Signalverarbeitungs
konzepte und insbesondere auf die Analyse von Audiosignalen hin
sichtlich von Rhythmusinformationen.
In den letzten Jahren ist die Verfügbarkeit multimedialen Daten
materials, wie z. B. Audio- oder Video-Daten, stark gestiegen.
Dies ist auf eine Reihe von technischen Faktoren zurückzuführen,
welche sich insbesondere auf die breite Verfügbarkeit des Inter
nets, von leistungsfähiger Rechnerhard- und Software sowie von
leistungsfähigen Verfahren zur Datenkompression, d. h. Quellco
dierung, von Audio- und Videoverfahren stützen.
Die riesigen Mengen audiovisueller Daten, die beispielsweise auf
dem Internet weltweit verfügbar sind, verlangen nach Konzepten,
die es ermöglichen, diese Daten nach inhaltlichen Kriterien be
urteilen, katalogisieren usw. zu können. Es besteht der Wunsch,
in der Lage zu sein, multimediale Daten gezielt durch Angabe
sinnvoller Kriterien zu suchen und aufzufinden.
Dies erfordert sogenannte "inhaltsbasierter" Techniken, die aus
den audiovisuellen Daten sogenannte Merkmale, die in Fachkreisen
auch als "Features" bezeichnet werden, extrahieren, welche wich
tige charakteristische Eigenschaften des Signals repräsentieren.
Basierend auf solchen Merkmalen bzw. Kombinationen dieser Merk
male können Ähnlichkeitsbeziehungen bzw. Gemeinsamkeiten zwi
schen Audio- oder Videosignalen hergeleitet werden. Dieser Vor
gang erfolgt durch Vergleich bzw. In-Beziehung-Setzen der extra
hierten Merkmalswerte aus den verschiedenen Signalen, welche
auch einfach als "Stücke" bezeichnet werden.
Von besonderem Interesse ist die Bestimmung bzw. Extraktion von
Merkmalen, die nicht nur signaltheoretische, sondern möglichst
unmittelbare semantische Bedeutung haben, d. h. vom Hörer un
mittelbar empfundene Eigenschaften repräsentieren.
Dies ermöglicht es dem Benutzer, auf einfache und intuitive Wei
se Suchanfragen zu formulieren, um Stücke aus dem gesamten vor
handenen Datenbestand einer Audiosignal-Datenbank zu finden.
Ebenso erlauben es semantisch relevante Merkmale, Ähnlichkeits
beziehungen zwischen Stücken zu modellieren, die der menschli
chen Empfindung nahe kommen. Die Verwendung von Merkmalen, die
semantische Bedeutung haben, ermöglicht auch beispielsweise ein
automatisches Vorschlagen von für einen bestimmten Benutzer in
teressanten Stücken, wenn seine Vorlieben bekannt sind.
Im Bereich der Musikanalyse ist das Tempo ein wichtiger musika
lischer Parameter, der semantische Bedeutung hat. Das Tempo wird
üblicherweise in "Beats per Minute" (BPM) gemessen. Die automa
tische Extraktion des Tempos sowie der Taktschwerpunkte des
"Beats" bzw. allgemein gesagt die automatische Extraktion von
Rhythmusinformationen, ist ein Beispiel für die Gewinnung eines
semantisch wichtigen Merkmals eines Musikstücks.
Weiterhin besteht ein Wunsch dahingehend, dass die Merkmalsex
traktion, d. h. das Extrahieren von Rhythmusinformationen aus
einem Audiosignal, robust und recheneffizient stattfinden kann.
Robustheit bedeutet, dass es keine Rolle spielen darf, ob das
Stück quellcodiert und wieder decodiert worden ist, ob das Stück
über einen Lautsprecher abgespielt und von einem Mikrophon emp
fangen worden ist, oder ob es von einem Instrument oder einer
Mehrzahl von Instrumenten gespielt wird.
Für die Bestimmung der Taktschwerpunkte und damit auch des Tem
pos, d. h. für die Bestimmung von Rhythmusinformationen, hat
sich in den Fachkreisen auch der Begriff "Beat Tracking" eta
bliert. Aus dem Stand der Technik ist es bereits bekannt, ein
Beat Tracking auf der Basis einer notenartigen bzw. transkri
bierten Signaldarstellung, z. B. im Midi-Format, durchzuführen.
Ziel ist es jedoch, keine solchen Metadarstellungen zu benöti
gen, sondern eine Analyse direkt mit einem z. B. PCM-codierten
oder allgemein gesagt digital vorliegenden Audiosignal vorzuneh
men.
Die Fachveröffentlichung "Tempo and Beat Analysis of Acoustic
Musical Signals" von Eric D. Scheirer, J. Acoust. Soc. Am.
103: 1, (Jan 1998), Seiten 588-601, offenbart ein Verfahren zur
automatischen Extraktion eines rhythmischen Pulses aus musikali
schen Exzerpten. Das Eingangssignal wird mittels einer Filter
bank in eine Reihe von Teilbändern aufgespalten, beispielsweise
in 6 Teilbänder mit Übergangsfrequenzen von 200 Hz, 400 Hz, 800 Hz,
1600 Hz und 3200 Hz. Für das erste Teilband wird eine Tief
passfilterung durchgeführt. Für das letzte Teilband wird eine
Hochpassfilterung durchgeführt, für die restlichen, dazwischen
liegenden Teilbände wird eine Bandpassfilterung beschrieben. Je
des Teilband wird folgendermaßen verarbeitet. Das Teilbandsignal
wird zunächst gleichgerichtet. In anderen Worten ausgedrückt
wird der Absolutbetrag der Abtastwerte bestimmt. Die resultie
renden n Werte werden dann geglättet, beispielsweise mit einer
Mittelung über ein geeignetes Fenster, um ein Hüllkurvensignal
zu erhalten. Zur Senkung der Rechenkomplexität kann das Hüllkur
vensignal unterabgetastet werden. Die Hüllkurvensignale werden
differenziert, d. h. plötzliche Änderungen der Signalamplitude
werden durch das Differenzierungsfilter bevorzugt weitergelei
tet. Das Resultat wird dann auf nicht-negative Werte begrenzt.
Jedes Hüllkurvensignal wird dann in eine Bank resonanter Filter,
d. h. Oszillatoren, gegeben, die jeweils ein Filter für jeden
Tempobereich enthalten, so dass das zum musikalischen Tempo pas
sende Filter am stärksten angeregt wird. Für jedes Filter wird
die Energie des Ausgangssignals als Maß für die Übereinstimmung
des Tempos des Eingangssignals mit dem zum Filter gehörigen Tem
po berechnet. Die Energien für jedes Tempo werden schließlich
über alle Teilbänder aufsummiert, wobei die größte Energiesumme
das als Resultat gelieferte Tempo, d. h. die Rhythmusinformatio
nen, kennzeichnet. Im Gegensatz zu Autokorrelationsverfahren
wird als vorteilhaft herausgestellt, daß die Oszillatorbank auch
mit Ausgangssignalen bei dem doppelten, dreifachen, etc. des
Tempos oder auch bei rationalen Vielfachen (z. B. 2/3, 4/3) des
Tempos auf einen Stimulus reagiert. Eine Autokorrelationsfunkti
on hat diese Eigenschaft nicht, sie liefert nur Ausgangssignale
bei dem halbierten, gedrittelten, etc. Tempo.
Ein wesentlicher Nachteil dieses Verfahrens besteht in der gro
ßen Rechen- und Speicherkomplexität insbesondere zur Realisie
rung der großen Zahl von parallelschwingenden "Oszillatoren",
von denen letztlich nur ein einziger ausgewählt wird. Dies macht
eine effiziente Implementierung beispielsweise für Echtzeitan
wendungen nahezu unmöglich.
Die Fachveröffentlichung "Pulse Tracking with a Pitch Tracker"
von Eric D. Scheirer, Proc. 1997 Workshop on Applications of Si
gnal Processing to Audio and Acoustics, Mohonk, NY, Oct 1997,
beschreibt einen Vergleich des oben beschriebenen "Oszillator
konzeptes" mit einem Alternativkonzept, das auf der Verwendung
von Autokorrelationsfunktionen zur Extraktion der Periodizität
aus einem Audiosignal, d. h. der Rhythmusinformationen eines Si
gnals, aufbaut. Ein Algorithmus zur Modellierung der menschli
chen Tonhöhenwahrnehmung, d. h. des Pitch, wird für das "Beat
Tracking" eingesetzt.
Der bekannte Algorithmus ist in Fig. 3 als Blockdiagramm
dargestellt. Das Audiosignal wird über einen Audioeingang 300
einer Analyse-Filterbank 302 zugeführt. Die Analyse-Filterbank
erzeugt aus dem Audioeingang eine Anzahl n von Kanälen, d. h.
von einzelnen Teilbandsignalen. Jedes Teilbandsignal enthält
einen bestimmten Bereich an Frequenzen des Audiosignals. Die
Filter der Analyse-Filterbank sind so ausgewählt, dass sie die
Selektionscharakteristik des menschlichen Innenohrs annähern.
Eine solche Analyse-Filterbank wird auch als Gamma-Ton-
Filterbank bezeichnet.
In den Einrichtungen 304a bis 304c werden die Rhythmus-
Informationen jedes Teilbandsignals ausgewertet. Für jedes Ein
gangssignal wird zunächst ein hüllkurvenartiges Ausgangssignal
berechnet (entsprechend einer sogenannten "Inner Hair Cell" -
Verarbeitung im Ohr) und unterabgetastet. Aus diesem Resultat
wird eine Autokorrelationsfunktion (AKF) berechnet, um die Peri
odizität des Signals als Funktion der Verzögerung, d. h. des
"Lag" zu erhalten.
Am Ausgang der Einrichtungen 304a bis 304c liegt dann für jedes
Teilbandsignal eine Autokorrelationsfunktion vor, welche die
Rhythmus-Informationen jedes Teilbandsignals darstellt.
Die einzelnen Autokorrelationsfunktionen der Teilbandsignale
werden dann in einer Einrichtung 306 durch Summation kombiniert,
um eine Summenautokorrelationsfunktion (SAKF) zu erhalten, wel
che Aspekte der Rhythmus-Informationen des Signals am Audio-
Eingang 300 wiedergibt. Diese Informationen können an einem Tem
po-Ausgang 308 ausgegeben werden. Große Werte in der Summenauto
korrelation zeigen an, dass für eine einer Spitze der SAKF zuge
ordneten Verzögerung (Lag) eine hohe Periodizität der Notenan
fänge vorliegt. Daher wird beispielsweise der größte Wert der
Summenautokorrelationsfunktion innerhalb der musikalisch sinn
vollen Verzögerungen gesucht.
Musikalisch sinnvolle Verzögerungen sind beispielsweise der Tem
pobereich zwischen 60 bpm und 200 bpm. Die Einrichtung 306 kann
ferner angeordnet sein, um eine Verzögerungszeit in Tempoinfor
mationen umzusetzen. So entspricht beispielsweise eine Spitze
einer Verzögerung von einer Sekunde einem Tempo von 60 Schlägen
pro Minute. Kleinere Verzögerungen deuten auf höhere Tempos hin,
während größere Verzögerungen auf kleinere Tempos als 60 bpm
hinweisen.
Dieses Verfahren hat gegenüber dem zuerst genannten Verfahren
einen Vorteil dahingehend, dass keine Oszillatoren mit großem
Rechen- und Speicheraufwand implementiert werden müssen. Ande
rerseits ist das Konzept dahingehend nachteilhaft, dass die Qua
lität der Ergebnisse sehr stark von der Art des Audiosignals ab
hängt. Ist aus einem Audiosignal beispielsweise ein dominantes
Rhythmusinstrument herauszuhören, so wird das in Fig. 3 be
schriebene Konzept gut funktionieren. Ist dagegen die Stimme do
minant, welche keine besonders eindeutigen Rhythmusinformationen
liefern wird, so wird die Rhythmusbestimmung mehrdeutig sein. In
dem Audiosignal könnte durchaus auch ein Band vorkommen, das le
diglich Rhythmusinformationen enthält, wie z. B. ein höheres
Frequenzband, in dem beispielsweise ein Hihat eines Schlagzeugs
positioniert ist, oder ein niedriges Frequenzband, in dem die
große Trommel eines Schlagzeugs auf der Frequenzskala positio
niert ist. Aufgrund der Kombination der Einzelinformationen wer
den jedoch die einigermaßen eindeutigen Informationen dieser
speziellen Teilbänder von den mehrdeutigen Informationen der an
deren Teilbänder überlagert bzw. "verwässert".
Ein weiteres Problem bei der Verwendung von Autokorrelations
funktionen zum Extrahieren der Periodizität eines Teilbandsi
gnals besteht darin, dass die Summen-Autokorrelationsfunktion,
die durch die Einrichtung 306 gewonnen wird, mehrdeutig ist. Die
Summen-Autokorrelationsfunktion am Ausgang 306 ist dahingehend
mehrdeutig, dass auch beim Vielfachen einer Verzögerung eine Au
tokorrelationsfunktions-Spitze erzeugt wird. Dies ist daraus
verständlich, dass eine Sinuskomponente mit einer Periode von
t0, wenn sie einer Autokorrelationsfunktionverarbeitung unterzogen
wird, neben dem gewünschten Maximum bei t0 auch Maxima bei
Vielfachen der Verzögerungen, d. h. bei 2t0, 3t0, usw. erzeugt.
Die Fachveröffentlichung "A Computationally Efficient Multipitch
Analysis Model", von Tolonen und Karjalainen, IEEE Transactions
an Speech and Audio Processing, Band 8, Nr. 6, Nov. 2000, offen
bart ein rechenzeiteffizientes Modell für eine Periodizitätsana
lyse von komplexen Audiosignalen. Das Rechenmodell teilt das Si
gnal in zwei Kanäle auf, und zwar in einen Kanal unter 1000 Hz
und einen Kanal über 1000 Hz. Hieraus wird eine Autokorrelation
des unteren Kanals und eine Autokorrelation der Hüllkurve des
oberen Kanals berechnet. Schließlich werden die beiden Autokor
relationsfunktionen summiert. Um die Mehrdeutigkeiten der Sum
menautokorrelationsfunktion zu eliminieren, wird die Summenauto
korrelationsfunktion weiterverarbeitet, um eine sogenannte En
hanced Summary Autocorrelation Function (ESACF) (Weiterentwic
kelte Summenautokorrelationsfunktion) zu erhalten. Diese Nachbe
arbeitung der Summenautokorrelationsfunktion beinhaltet ein wie
derholtes Abziehen von mit ganzzahligen Faktoren gespreizten
Versionen der Autokorrelationsfunktion von der Summenautokorre
lationsfunktion mit nachfolgender Begrenzung auf nicht-negative
Werte.
Nachteilig an diesem Konzept ist die Tatsache, dass die durch
die Autokorrelationsfunktionen in den Teilbändern pro Teilband
erhaltenen Mehrdeutigkeiten erst in der Summenautokorrelations
funktion eliminiert werden, jedoch nicht unmittelbar dort, wo
sie auftreten, nämlich in den einzelnen Teilbändern.
Ein weiterer Nachteil dieses Konzepts ist die Tatsache, daß die
Autokorrelationsfunktion an sich keinen Hinweis auf das doppel
te, dreifache, . . . des Tempos liefert, dem eine Autokorrelati
onsspitze zugeordnet ist.
Das U.S.-Patent Nr. 5,918,223 offenbart ein Verfahren und eine
Vorrichtung zum Herstellen einer inhaltsbasierten Analyse,
Speicherung, Wiedergewinnung und Segmentierung von Audioinfor
mationen. Ein gesamtes Audiostück, das als Folge von zeitdis
kreten Abtastwerten vorliegt, wird zunächst in eine Aufeinan
derfolge von Frames zerlegt, wobei jeder Frame eine bestimmte
Anzahl von Abtastwerten des Audiosignals aufweist. Hierauf wird
für jeden Frame ein akustisches Merkmal bestimmt, das die Laut
heit (loudness), die Tonhöhe (pitch), die Helligkeit (bright
ness), die Bandbreite (bandwidth) und die MFCC-Koeffizienten
des entsprechenden Frames sein kann. Hierauf werden Merkmals-
Trajektorien für jedes Merkmal gebildet, in dem die für die
aufeinanderfolgenden Frames bestimmten Merkmale einer Merkmals
klasse aneinandergefügt werden. Daraufhin wird ein Maß für jede
Merkmalstrajektorie bestimmt, wobei das Maß der Merkmalstrajek
torie der Mittelwert, die Standardabweichung eine Autokorrela
tion und eine erste Ableitung der Merkmalstrajektorie sein
kann, um aus Maßen für alle Merkmale einen Merkmalsvektor zu
bilden, der in einer Merkmalsdatei gespeichert wird, die dem
Audiostück zugeordnet ist. Diese Merkmalsdatei kann zur in
haltsbasierten Suche in einer Datenbank verwendet werden.
Die Aufgabe der vorliegenden Erfindung besteht darin, eine
Vorrichtung und ein Verfahren zum Analysieren eines Audiosignals
hinsichtlich von Rhythmusinformationen unter Verwendung einer
Autokorrelationsfunktion zu schaffen, das robust und
rechenzeiteffizient ist.
Diese Aufgabe wird durch eine Vorrichtung zum Analysieren eines
Audiosignals nach Patentanspruch 1, 8 oder 9, oder durch ein
Verfahren zum Analysieren eines Audiosignals nach Patentanspruch
7, 10, 11 gelöst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß
eine Nachbearbeitung einer Autokorrelationsfunktion teilbandwei
se durchgeführt werden kann, um die Mehrdeutigkeiten der Auto
korrelationsfunktion für periodische Signale zu eliminieren bzw.
Tempoinformationen, die eine Autokorrelationsverarbeitung nicht
liefert, den durch eine Autokorrelationsfunktion erhaltenen In
formationen hinzugefügt werden. Gemäß einem Aspekt der vorlie
genden Erfindung wird eine Autokorrelationsfunktion-Nachbearbei
tung der Teilbandsignale verwendet, um die Mehrdeutigkeiten be
reits "an der Wurzel" zu beseitigen, bzw. "fehlende" Rhythmusin
formationen hinzuzufügen.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird eine
Nachbearbeitung der Summenautokorrelationsfunktion durchgeführt,
um nachbearbeitete Rhythmus-Rohinformationen für das Audiosignal
zu erhalten, so daß in den nachbearbeiteten Rhythmus-
Rohinformationen ein Signalanteil bei einem ganzzahligen Bruch
teil einer Verzögerung, der eine Autokorrelationsfunktionsspitze
zugeordnet ist, hinzugefügt ist. Hierdurch ist es möglich, die
durch eine Autokorrelationsfunktion nicht erhaltenen Rhythmusin
formationen bei doppelten, dreifachen etc. Tempi bzw. bei ratio
nalen Vielfachen durch Berechnen von um einen ganzzahligen Fak
tor oder um einen rationalen Faktor gestauchten Versionen der
Autokorrelationsfunktion und durch Addieren dieser Versionen zur
ursprünglichen Autokorrelationsfunktion zu erzeugen. Im Gegen
satz zum Stand der Technik, bei dem hierzu eine aufwendige Os
zillatorenbank benötigt wird, geschieht dies erfindungsgemäß mit
einfach zu implementierenden Gewichtungs- und Additionsroutinen.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird die
Summenautokorrelationsfunktion ferner nachbearbeitet, indem eine
mit einem Faktor, der größer als Null und kleiner als Eins ist,
gewichtete, um einen ganzzahligen Faktor größer als Eins ge
spreizte Version der Rhythmus-Rohinformationen zu der Autokorre
lationsfunktion subtrahiert wird. Dies hat den Vorteil einer
Elimination der AKF-Mehrdeutigkeiten bei den ganzzahligen Viel
fachen der Verzögerung, der eine Autokorrelationsspitze zugeord
net ist. Während im Stand der Technik keine Gewichtung der ge
spreizten Versionen der Autokorrelationsfunktion vor der Sub
traktion durchgeführt wird, und eine Elimination der Mehrdeutig
keiten somit nur im theoretisch optimalen Fall erreicht wird,
bei dem der Rhythmus sich ideal zyklisch wiederholt, liefert die
gewichtete Subtraktion die Möglichkeit, durch geeignete Wahl der
Gewichtungsfaktoren, die beispielsweise empirisch erfolgen kann,
Rhythmusinformationen, die sich nicht ideal zyklisch wiederho
len, zu berücksichtigen.
Gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Er
findung wird eine Autokorrelationsfunktion-Nachverarbeitung
durchgeführt, indem die mittels einer Autokorrelationsfunktion
bestimmten Rhythmus-Rohinformationen mit gestauchten und/oder
gespreizten Versionen derselben kombiniert werden. Im Falle der
Verwendung von gespreizten Versionen der Rhythmus-
Rohinformationen werden die gespreizten Versionen von den Rhyth
mus-Rohinformationen subtrahiert, während im Falle von um ganz
zahlige Faktoren gestauchten Versionen der Autokorrelationsfunk
tion diese gestauchten Versionen zu den Rhythmus-
Rohinformationen hinzuaddiert werden.
Bei einem bevorzugten Ausführungsbeispiel der Erfindung wird die
gestauchte/gespreizte Version vor dem Addieren bzw. Subtrahieren
mit einem Faktor zwischen Null und Eins gewichtet.
Gemäß einem weiteren bevorzugten Ausführungsbeispiel der vor
liegenden Erfindung wird eine Qualitätsbeurteilung der Rhythmus-
Rohinformationen, um ein Signifikanzmaß zu erhalten, auf der Ba
sis der nachverarbeiteten Rhythmus-Rohinformationen durchge
führt, derart, daß die Qualitätsbeurteilung nicht mehr durch Au
tokorrelationsfunktions-Artefakte beeinflußt wird. Damit wird
eine sichere Qualitätsbeurteilung möglich, wodurch die Robust
heit des Bestimmens von Rhythmusinformationen des Audiosignals
weiter gesteigert werden kann.
Alternativ kann die Qualitätsbeurteilung bereits vor der AKF-
Nachverarbeitung stattfinden. Dies hat den Vorteil, daß, wenn
ein flacher Verlauf der Rhythmus-Rohinformationen festgestellt
wird, d. h. keine ausgeprägten Rhythmusinformationen, auf die
AKF-Nachverarbeitung für dieses Teilbandsignal verzichtet werden
kann, da dieses Teilband aufgrund seiner wenig aussagekräftigen
Rhythmus-Informationen beim Ermitteln der Rhythmusinformationen
des Audiosignals ohnehin keine Rolle spielen wird. Auf diese Art
und Weise kann der Rechen- und Speicheraufwand weiter reduziert
werden.
In den einzelnen Frequenzbändern, d. h. den Teilbändern, liegen
oftmals unterschiedlich günstige Bedingungen für das Auffinden
von rhythmischen Periodizitäten vor. Während beispielsweise bei
Popmusik oftmals im Bereich der Mitte, beispielsweise um 1 kHz,
das Signal von nicht mit dem Beat korrespondierenden Gesang do
miniert wird, sind in den höheren Frequenzbereichen oftmals vor
allem Perkussionsklänge präsent, wie z. B. das Hihat des Schlag
zeugs, welche eine sehr gute Extraktion rhythmischer Regelmäßig
keiten erlauben. Anders ausgedrückt beinhalten unterschiedliche
Frequenzbänder je nach Audiosignal eine unterschiedliche Menge
an rhythmischer Information bzw. haben eine unterschiedliche
Qualität oder Signifikanz für die Rhythmusinformationen des Au
diosignals.
Das Audiosignal wird daher zunächst in Teilbandsignale zerlegt.
Jedes Teilbandsignal wird hinsichtlich seiner Periodizität un
tersucht, um Rhythmus-Rohinformationen für jedes Teilbandsignal
zu erhalten. Hierauf wird gemäß einem bevorzugten Ausführungs
beispiel der vorliegenden Erfindung eine Bewertung der Qualität
der Periodizität jedes Teilbandsignals durchgeführt, um ein Si
gnifikanzmaß für jedes Teilbandsignal zu erhalten. Ein hohes Si
gnifikanzmaß deutet darauf hin, dass in diesem Teilbandsignal
deutliche Rhythmusinformationen vorliegen, während ein niedriges
Signifikanzmaß darauf hindeutet, dass in diesem Teilbandsignal
weniger eindeutige Rhythmusinformationen vorliegen.
Gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Er
findung wird bei der Untersuchung eines Teilbandsignals hin
sichtlich seiner Periodizitäten zunächst eine modifizierte Hüll
kurve des Teilbandsignals berechnet und dann eine Autokorrelati
onsfunktion der Hüllkurve berechnet. Die Autokorrelationsfunkti
on der Hüllkurve stellt die Rhythmus-Rohinformationen dar. Ein
deutige Rhythmusinformationen liegen vor, wenn die Autokorrela
tionsfunktion deutliche Maxima aufweist, während weniger eindeu
tige Rhythmusinformationen vorliegen, wenn die Autokorrelations
funktion der Hüllkurve des Teilbandsignals weniger ausgeprägte
Signalspitzen oder überhaupt keine Signalspitzen hat. Eine Auto
korrelationsfunktion, die deutliche Signalspitzen hat, wird da
her ein hohes Signifikanzmaß erhalten, während eine Autokorrela
tionsfunktion, die einen relativ flachen Verlauf hat, ein nied
riges Signifikanzmaß erhalten wird. Die Artefakte der Autokorre
lationsfunktionen werden, wie oben ausgeführt, erfindungsgemäß
eliminiert.
Die einzelnen Rhythmus-Rohinformationen der einzelnen Teilband
signale werden also nicht einfach "blind" kombiniert, sondern
unter Berücksichtigung des Signifikanzmaßes für jedes Teilband
signal verwendet, um die Rhythmusinformationen des Audiosignals
zu erhalten. Hat ein Teilbandsignal ein hohes Signifikanzmaß, so
wird es bei der Ermittlung der Rhythmusinformationen bevorzugt,
während ein Teilbandsignal, das ein niedriges Signifikanzmaß
hat, d. h. das eine niedrige Qualität hinsichtlich der Rhythmu
sinformationen aufweist, bei der Ermittlung der Rhythmusinforma
tionen des Audiosignals kaum oder im Extremfall überhaupt nicht
berücksichtigt wird.
Dies kann rechenzeiteffizient gut durch einen Gewichtungsfaktor
implementiert werden, der von dem Signifikanzmaß abhängt. Wäh
rend ein Teilbandsignal, das eine gute Qualität für die Rhythmu
sinformationen hat, d. h. das ein hohes Signifikanzmaß hat, ei
nen Gewichtungsfaktor von 1 erhalten könnte, wird ein anderes
Teilbandsignal, das ein kleineres Signifikanzmaß hat, einen Ge
wichtungsfaktor kleiner als 1 erhalten. Im Extremfall wird ein
Teilbandsignal, das eine vollkommen flache Autokorrelationsfunk
tion hat, einen Gewichtungsfaktor von 0 haben. Die gewichteten
Autokorrelationsfunktionen, d. h. die gewichteten Rhythmus-
Rohinformationen werden dann einfach aufsummiert. Wenn lediglich
ein Teilbandsignal sämtlicher Teilbandsignale gute Rhythmusin
formationen liefert, während die anderen Teilbandsignale Auto
korrelationsfunktionen mit einem flachen Verlauf aufweisen, kann
diese Gewichtung im Extremfall dazu führen, dass alle Teilband
signale außer dem einen Teilbandsignal einen Gewichtungsfaktor
von 0 erhalten, d. h. bei der Ermittlung der Rhythmusinformatio
nen überhaupt nicht berücksichtigt werden, so dass die Rhythmu
sinformationen des Audiosignals lediglich aus einem einzigen
Teilbandsignal ermittelt werden.
Das erfindungsgemäße Konzept ist dahingehend vorteilhaft, dass
es eine robuste Bestimmung der Rhythmusinformationen ermöglicht,
da Teilbandsignale mit keinen eindeutigen bzw. sogar abweichen
den Rhythmusinformationen, d. h. wenn der Gesang einen anderen
Rhythmus aufweist als der eigentliche Beat des Stücks, die
Rhythmusinformationen des Audiosignals nicht "verwässern" bzw.
"verfälschen". Darüber hinaus werden sehr rauschartige Teilband
signale, welche eine Systemautokorrelationsfunktion mit voll
ständig flachem Verlauf liefern, das Signal/Rausch-Verhältnis
bei der Bestimmung der Rhythmusinformationen nicht verschlech
tern. Genau dies würde jedoch auftreten, wenn, wie im Stand der
Technik, einfach alle Autokorrelationsfunktionen der Teilbandsi
gnale mit gleichem Gewicht aufsummiert werden.
Ein weiterer Vorteil des beschriebenen Verfahrens besteht darin,
dass mit einem kleinen zusätzlichen Rechenaufwand ein Signifi
kanzmaß bestimmt werden kann, und dass die Bewertung der Rhyth
mus-Rohinformationen mit dem Signifikanzmaß und die anschließen
de Summierung ohne großen Speicher- und Rechenzeitaufwand effi
zient durchgeführt werden können, was das erfindungsgemäße Kon
zept insbesondere auch für Echtzeitanwendungen empfiehlt.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung wer
den nachfolgend bezugnehmend auf die beiliegenden Zeichnungen
detailliert erläutert. Es zeigen:
Fig. 1 ein Blockschaltbild einer Vorrichtung zum Analysieren
eines Audiosignals mit einer Qualitätsbewertung der
Rhythmus-Rohinformationen;
Fig. 2 ein Blockschaltbild einer Vorrichtung zum Analysieren
eines Audiosignals unter Verwendung von Gewichtungsfak
toren auf der Basis der Signifikanzmaße;
Fig. 3 ein Blockschaltbild einer bekannten Vorrichtung zum Ana
lysieren eines Audiosignals hinsichtlich von Rhythmusin
formationen;
Fig. 4 ein Blockschaltbild einer Vorrichtung zum Analysieren
eines Audiosignals hinsichtlich von Rhythmusinformatio
nen unter Verwendung einer Autokorrelationsfunktion mit
einer teilbandweisen Nachbearbeitung der Rhythmus-
Rohinformationen; und
Fig. 5 ein detailliertes Blockschaltbild der Einrichtung zum
Nachbearbeiten von Fig. 4.
Fig. 1 zeigt ein Blockschaltbild einer Vorrichtung zum Analysie
ren eines Audiosignals hinsichtlich von Rhythmusinformationen.
Das Audiosignal wird über einen Eingang 100 einer Einrichtung
102 zum Zerlegen des Audiosignals in zumindest zwei Teilbandsi
gnale 104a und 104b zugeführt. Jedes Teilbandsignal 104a, 104b
wird in eine Einrichtung 106a bzw. 106b zum Untersuchen dessel
ben hinsichtlich von Periodizitäten in dem Teilbandsignal zuge
führt, um Rhythmus-Rohinformationen 108a bzw. 108b für jedes
Teilbandsignal zu erhalten. Die Rhythmus-Rohinformationen werden
dann einer Einrichtung 110a bzw. 110b zum Bewerten einer Quali
tät der Periodizität jedes der zumindest zwei Teilbandsignale
zugeführt, um ein Signifikanzmaß 112a, 112b für jedes der zumin
dest zwei Teilbandsignale zu erhalten. Sowohl die Rhythmus-
Rohinformationen 108a, 108b als auch die Signifikanzmaße 112a,
112b werden einer Einrichtung 114 zum Ermitteln der Rhythmusin
formationen des Audiosignals zugeführt. Die Einrichtung 114 be
rücksichtigt beim Ermitteln der Rhythmusinformationen des Audio
signals die Signifikanzmaße 112a, 112b für die Teilbandsignale
sowie die Rhythmus-Rohinformationen 108a, 108b von zumindest ei
nem Teilbandsignal.
Hat die Einrichtung 110a zur Qualitätsbewertung beispielsweise
festgestellt, dass in dem Teilbandsignal 104a keine besondere
Periodizität vorliegt, so wird das Signifikanzmaß 112a sehr
klein, bzw. gleich 0 sein. In diesem Fall stellt die Einrichtung
114 zum Ermitteln der Rhythmusinformationen fest, dass das Si
gnifikanzmaß 112a gleich Null ist, so dass die Rhythmus-
Rohinformationen 108a des Teilbandsignals 104a bei der Ermitt
lung der Rhythmusinformationen des Audiosignals überhaupt nicht
mehr berücksichtigt werden müssen. Die Rhythmusinformationen des
Audiosignals werden dann allein und ausschließlich auf der Basis
der Rhythmus-Rohinformationen 108b des Teilbandsignals 104b be
stimmt.
Im nachfolgenden wird auf Fig. 2 hinsichtlich einer speziellen
Ausführungsform der Vorrichtung von Fig. 1 eingegangen. Als Ein
richtung 102 zum Zerlegen des Audiosignals kann eine übliche
Analyse-Filterbank verwendet werden, die ausgangsseitig eine von
einem Benutzer wählbare Anzahl von Teilbandsignalen liefert. Je
des Teilbandsignal wird dann der Verarbeitung der Einrichtungen
106a, 106b bzw. 106c unterzogen, woraufhin dann durch die Ein
richtungen 110a bis 110c von jeden Rhythmus-Rohinformationen Si
gnifikanzmaße ermittelt werden. Die Einrichtung 114 umfaßt bei
der in Fig. 2 dargestellten bevorzugten Ausführungsform eine
Einrichtung 114a zum Berechnen von Gewichtungsfaktoren für jedes
Teilbandsignal auf der Basis des Signifikanzmaßes für dieses
Teilbandsignal und optional auch der anderen Teilbandsignale. In
der Einrichtung 114b findet dann eine Gewichtung der Rhythmus-
Rohinformationen 108a bis 108c mit dem Gewichtungsfaktor für
dieses Teilbandsignal statt, woraufhin dann, ebenfalls in der
Einrichtung 114b, die gewichteten Rhythmus-Rohinformationen kom
biniert, z. B. aufsummiert, werden, um an dem Tempo-Ausgang 116
die Rhythmusinformationen des Audiosignals zu erhalten.
Das erfindungsgemäße Konzept stellt sich somit folgendermaßen
dar. Nach der Evaluierung der rhythmischen Informationen der
Einzelbänder, welche beispielsweise durch Hüllkurvenbildung,
Glättung, Differenzieren, Begrenzen auf positive Werte und Bil
den der Autokorrelationsfunktion stattfinden kann (Einrichtungen
106a bis 106c), findet eine Bewertung der Wertigkeit bzw. der
Qualität dieser Zwischenergebnisse in den Einrichtungen 110a bis
110c statt. Dies wird mit Hilfe einer Bewertungsfunktion er
reicht, welche die Verlässlichkeit der jeweiligen Einzelergeb
nisse mit einem Signifikanzmaß bewertet. Aus den Signifikanzma
ßen aller Teilbandsignale wird ein Gewichtungsfaktor für jedes
Band für die Extraktion der Rhythmus-Informationen hergeleitet.
Das Gesamtergebnis der Rhythmusextraktion wird dann in der Ein
richtung 114b durch Kombination der bandweisen Einzelergebnisse
unter Berücksichtigung ihrer jeweiligen Gewichtungsfaktoren er
reicht.
Als Resultat zeigt ein solchermaßen implementierter Algorithmus
zur Rhythmusanalyse eine gute Fähigkeit, rhythmische Informatio
nen in einem Signal auch unter ungünstigen Bedingungen zuverläs
sig zu finden. Das erfindungsgemäße Konzept zeichnet sich daher
durch eine hohe Robustheit aus.
Bei einer bevorzugten Ausführungsform werden die Rhythmus-
Rohinformationen 108a, 108b, 108c, die die Periodizität des je
weiligen Teilbandsignals darstellen, mittels einer Autokorrela
tionsfunktion bestimmt. In diesem Fall wird es bevorzugt, das
Signifikanzmaß zu bestimmen, indem ein Maximum der Autokorrela
tionsfunktion durch einen Mittelwert der Autokorrelationsfunkti
on geteilt wird, und dann der Wert 1 subtrahiert wird. Es sei
darauf hingewiesen, daß jede Autokorrelationsfunktion immer bei
einer Verzögerung von 0 ein lokales Maximum, d. h. eine Spitze,
liefert, die die Energie des Signals repräsentiert. Dieses loka
le Maximum sollte unberücksichtigt bleiben, damit die Qualitäts
bestimmung nicht verfälscht wird.
Ferner soll die Autokorrelationsfunktion lediglich in einem spe
ziellen Tempobereich betrachtet werden, d. h. von einer maxima
len Verzögerung, die dem kleinsten interessierenden Tempo ent
spricht, zu einer minimalen Verzögerung, die dem höchsten interessierenden
Tempo entspricht. Ein typischer Tempobereich liegt
zwischen 60 bpm und 200 bpm.
Alternativ kann als Signifikanzmaß das Verhältnis zwischen dem
arithmetischen Mittelwert der Autokorrelationsfunktion im inter
essierenden Tempobereich und dem geometrischen Mittelwert der
Autokorrelationsfunktion im interessierenden Tempobereich be
stimmt werden. Es ist bekannt, dass wenn alle Werte der Autokor
relationsfunktion gleich sind, d. h. wenn die Autokorrelations
funktion einen flachen Verlauf hat, der geometrische Mittelwert
der Autokorrelationsfunktion und der arithmetische Mittelwert
der Autokorrelationsfunktion gleich sind. In diesem Fall hätte
das Signifikanzmaß einen Wert gleich 1, was bedeutet, dass die
Rhythmus-Rohinformationen nicht signifikant sind.
Im Falle einer Systemautokorrelationsfunktion mit starken Spit
zen würde das Verhältnis aus arithmetischem Mittelwert zu geome
trischem Mittelwert größer 1 sein, was bedeutet, dass die Auto
korrelationsfunktion gute Rhythmusinformationen aufweist. Je
kleiner jedoch das Verhältnis zwischen arithmetischem Mittelwert
und geometrischem Mittelwert wird, desto flacher ist die Auto
korrelationsfunktion und desto weniger Periodizitäten enthält
sie, was wiederum bedeutet, dass die Rhythmusinformationen die
ses Teilbandsignals weniger signifikant, d. h. eine geringere
Qualität haben, was sich in einem geringen bzw. einem Gewich
tungsfaktor von 0 äußern wird.
Bezüglich der Gewichtungsfaktoren existieren verschiedene Mög
lichkeiten. Bevorzugt wird eine relative Gewichtung, derart,
dass sich alle Gewichtungsfaktoren sämtlicher Teilbandsignale zu
1 aufaddieren, d. h. dass der Gewichtungsfaktor eines Bandes be
stimmt wird als der Signifikanzwert dieses Bandes geteilt durch
die Summe aller Signifikanzwerte. In diesem Fall wird eine rela
tive Gewichtung vor der Aufsummation der gewichteten Rhythmus-
Rohinformationen durchgeführt, um die Rhythmus-Informationen des
Audiosignals zu erhalten.
Wie bereits ausgeführt worden ist, wird es bevorzugt, die Aus
wertung der Rhythmus-Informationen unter Verwendung einer Auto
korrelationsfunktion durchzuführen. Dieser Fall ist in Fig. 4
dargestellt. Das Audiosignal wird über den Audiosignaleingang
100 in die Einrichtung 102 zum Zerlegen des Audiosignals in
Teilbandsignale 104a und 104b eingespeist. Jedes Teilbandsignal
wird dann in der Einrichtung 106a bzw. 106b, wie es ausgeführt
worden ist, unter Verwendung einer Autokorrelationsfunktion un
tersucht, um die Periodizität des Teilbandsignals zu ermitteln.
Am Ausgang der Einrichtung 106a bzw. 106b liegen dann die Rhyth
mus-Rohinformationen 108a, 108b vor. Diese werden in eine Ein
richtung 118a bzw. 118b eingespeist, um die mittels der Autokor
relationsfunktion von der Einrichtung 116a ausgegebenen Rhyth
mus-Rohinformationen nachzubearbeiten. Damit wird u. a. sicher
gestellt, daß die Mehrdeutigkeiten der Autokorrelationsfunktion,
d. h. daß bei ganzzahligen Vielfachen der Verzögerungen eben
falls Signalspitzen auftreten, teilbandweise eliminiert werden,
um nachbearbeitete Rhythmus-Rohinformationen 120a bzw. 120b zu
erhalten.
Dies hat den Vorteil, dass die Mehrdeutigkeiten der Autokorrela
tionsfunktionen, d. h. der Rhythmus-Rohinformationen 108a, 108b,
bereits teilbandweise eliminiert werden, und nicht erst, wie im
Stand der Technik, nach der Summation der einzelnen Autokorrela
tionsfunktionen. Darüber hinaus ermöglicht die einzelbandweise
Eliminierung der Mehrdeutigkeiten in den Autokorrelationsfunk
tionen durch die Einrichtungen 118a, 118b, dass die Rhythmus-
Rohinformationen der Teilbandsignale unabhängig voneinander ge
handhabt werden können. Sie können beispielsweise einer Quali
tätsbeurteilung mittels der Einrichtung 110a für die Rhythmus-
Rohinformationen 108a oder mittels der Einrichtung 110b für die
Rhythmus-Rohinformationen 108b unterzogen werden.
Wie es durch die gestrichelten Linien in Fig. 4 dargestellt ist,
kann die Qualitätsbeurteilung jedoch auch anhand der nachbear
beiteten Rhythmus-Rohinformationen stattfinden, wobei diese
letztere Möglichkeit bevorzugt wird, da die Qualitätsbeurteilung
auf der Basis der nachbearbeiteten Rhythmus-Rohinformationen si
cherstellt, dass die Qualität einer Information beurteilt wird,
die nicht mehr vieldeutig ist.
Die Ermittlung der Rhythmus-Informationen durch die Einrichtung
114 findet dann auf der Basis von nachbearbeiteten Rhythmus-
Informationen eines Kanals und vorzugsweise auch auf der Basis
des Signifikanzmaßes für diesen Kanal statt.
Wenn eine Qualitätsbeurteilung auf der Basis der Rhythmus-
Rohinformationen, also des Signals vor der Einrichtung 118a
durchgeführt wird, ist dies dahingehend vorteilhaft, dass, wenn
bestimmt wird, dass das Signifikanzmaß gleich 0 ist, d. h. dass
die Autokorrelationsfunktion einen flachen Verlauf hat, auf die
Nachbearbeitung mittels der Einrichtung 118a gänzlich verzichtet
werden kann, um Rechenzeitressourcen einzusparen.
Im nachfolgenden wird auf Fig. 5 eingegangen, um einen detail
lierteren Aufbau einer Einrichtung 118a oder 118b zur Nachbear
beitung der Rhythmus-Rohinformationen darzustellen. Zunächst
wird das Teilband-Signal beispielsweise 104a, in die Einrichtung
106a zur Untersuchung der Periodizität des Teilbandsignals mit
tels einer Autokorrelationsfunktion eingespeist, um Rhythmus-
Rohinformationen 108a zu erhalten. Um die Mehrdeutigkeiten teil
bandweise zu eliminieren, kann genauso wie im Stand der Technik,
eine gespreizte Autokorrelationsfunktion mittels einer Einrich
tung 121 berechnet werden, wobei die Einrichtung 121 angeordnet
ist, um die gespreizte Autokorrelationsfunktion so zu berechnen,
dass sie um ein ganzzahliges Vielfaches gespreizt ist. Eine Ein
richtung 122 ist in diesem Fall angeordnet, um die gespreizte
Autokorrelationsfunktion von der ursprünglichen Autokorrelati
onsfunktion, d. h. den Rhythmus-Rohinformationen 108a zu subtra
hieren. Insbesondere wird es bevorzugt, zunächst eine auf das
Doppelte gespreizte Autokorrelationsfunktion in der Einrichtung
121 zu berechnen und dann von den Rhythmus-Rohinformationen 108a
zu subtrahieren. Dann, in dem nächsten Schritt, wird eine um den
Faktor 3 gespreizte Autokorrelationsfunktion in der Einrichtung
121 berechnet und von dem Ergebnis der vorherigen Subtraktion
wieder abgezogen, so dass nach und nach sämtliche Mehrdeutigkei
ten aus den Rhythmus-Rohinformationen eliminiert werden.
Darüber hinaus können die gespreizten Versionen der Rhythmus-
Rohinformationen 108a vor dem Subtrahieren gewichtet werden, um
auch hier eine Flexibilität im Sinne einer hohen Robustheit zu
erreichen.
Durch das Verfahren, die Periodizität eines Teilbandsignals auf
der Basis einer Autokorrelationsfunktion zu untersuchen, kann
also eine weitere Verbesserung erzielt werden, wenn die Eigen
schaften der Autokorrelationsfunktion mit einbezogen werden und
die Nachbearbeitung unter Verwendung der Einrichtung 118a oder
118b durchgeführt wird. So erzeugt eine periodische Folge von
Notenanfängen mit einem Abstand t0 nicht nur eine AKF-Spitze bei
einer Verzögerung t0 sondern auch bei 2t0, 3t0, etc. Dies wird
zu einer Vieldeutigkeit in der Tempodetektion, d. h. dem Suchen
signifikanter Maxima in der Autokorrelationsfunktion, führen.
Die Mehrdeutigkeiten können dadurch eliminiert werden, wenn um
ganzzahlige Faktoren gespreizte Versionen der AKF vom Ausgangs
wert teilbandweise (gewichtet) abgezogen werden.
Darüber hinaus können die gestauchten Versionen der Rhythmus-
Rohinformationen 108a vor dem Addieren mit einem Faktor ungleich
Eins gewichtet werden, um auch hier eine Flexibilität im Sinne
einer hohen Robustheit zu erreichen.
Ferner besteht bei der Autokorrelationsfunktion das Problem, daß
sie keine Informationen bei t0/2, t0/3. . . usw., also beim Dop
pelten, Dreifachen, etc. des "Grundtempos" liefert, was beson
ders dann zu falschen Ergebnissen führen kann, wenn zwei Instru
mente, die in unterschiedlichen Teilbändern liegen, zusammen den
Rhythmus des Signals definieren. Diese Sache wird dadurch be
rücksichtigt, dass um ganzzahlige Faktoren gestauchte Versionen
der Autokorrelationsfunktion berechnet werden und diese dann zu
den Rhythmus-Rohinformationen gewichtet oder ungewichtet hinzu
addiert werden.
Die AKF-Nachverarbeitung findet somit teilbandweise statt, wobei
für mindestens ein Teilbandsignal eine Autokorrelationsfunktion
errechnet wird und diese mit gedehnten oder gespreizten Versio
nen dieser Funktion kombiniert wird.
Gemäß einem anderen Aspekt der vorliegenden Erfindung wird zu
nächst die Summenautokorrelationsfunktion der Teilbänder er
zeugt, woraufhin um ganzzahligen Faktoren gestauchte Versionen
der Summenautokorrelationsfunktion vorzugsweise gewichtet hinzu
addiert werden, um die Unzulänglichkeiten der Autokorrelations
funktion bei dem doppelten, dreifachen etc. Tempo auszuräumen.
Gemäß einem weiteren Aspekt wird die Nachbearbeitung der Summen
autokorrelationsfunktion, um die Mehrdeutigkeiten bei dem hal
ben, dem dritten Teil, dem vierten Teil etc. des Tempos zu eli
minieren, durchgeführt, indem die um ganzzahlige Faktoren ge
spreizten Versionen der Summenautokorrelationsfunktion nicht
einfach subtrahiert werden, sondern vor der Subtraktion mit ei
nem Faktor ungleich Eins und vorzugsweise kleiner als Eins und
größer als Null gewichtet werden und dann erst subtrahiert wer
den. Damit wird eine robustere Bestimmung der Rhythmusinforma
tionen möglich, da das ungewichtete Subtrahieren lediglich für
ideale sinusförmige Signale eine vollständige Elimination der
AKF-Mehrdeutigkeiten liefert.
Claims (11)
1. Vorrichtung zum Analysieren eines Audiosignals hinsichtlich
von Rhythmusinformationen des Audiosignals unter Verwendung ei
ner Autokorrelationsfunktion, mit folgenden Merkmalen:
einer Einrichtung (102) zum Zerlegen des Audiosignals in zumin dest zwei Teilbandsignale (104a, 104b);
einer Einrichtung zum Untersuchen (106a, 106b) zumindest eines Teilbandsignals hinsichtlich einer Periodizität in dem zumindest einen Teilbandsignal mittels einer Autokorrelationsfunktion, um Rhythmus-Rohinformationen (108a) für das Teilbandsignal zu er halten, wobei einer Spitze der Autokorrelationsfunktion eine Verzögerung zugeordnet ist;
einer Einrichtung (118a) zum Nachbearbeiten der mittels der Au tokorrelationsfunktion bestimmten Rhythmus-Rohinformationen (108a) für das Teilbandsignal (104a), um nachbearbeitete Rhyth mus-Rohinformationen (120a) für das Teilbandsignal zu erhalten, so daß in den nachbearbeiteten Rhythmus-Rohinformationen eine Mehrdeutigkeit bei einem ganzzahligen Vielfachen einer Verzöge rung, der eine Autokorrelationsfunktionsspitze zugeordnet ist, vermindert ist, oder ein Signalanteil bei einem ganzzahligen Bruchteil einer Verzögerung, der eine Autokorrelationsfunktions spitze zugeordnet ist, hinzugefügt ist; und
einer Einrichtung (114) zum Ermitteln der Rhythmusinformationen des Audiosignals unter Verwendung der nachbearbeiteten Rhythmus- Rohinformationen (120a) des Teilbandsignals und unter Verwendung eines weiteren Teilbandsignals der zumindest zwei Teil bandsignale.
einer Einrichtung (102) zum Zerlegen des Audiosignals in zumin dest zwei Teilbandsignale (104a, 104b);
einer Einrichtung zum Untersuchen (106a, 106b) zumindest eines Teilbandsignals hinsichtlich einer Periodizität in dem zumindest einen Teilbandsignal mittels einer Autokorrelationsfunktion, um Rhythmus-Rohinformationen (108a) für das Teilbandsignal zu er halten, wobei einer Spitze der Autokorrelationsfunktion eine Verzögerung zugeordnet ist;
einer Einrichtung (118a) zum Nachbearbeiten der mittels der Au tokorrelationsfunktion bestimmten Rhythmus-Rohinformationen (108a) für das Teilbandsignal (104a), um nachbearbeitete Rhyth mus-Rohinformationen (120a) für das Teilbandsignal zu erhalten, so daß in den nachbearbeiteten Rhythmus-Rohinformationen eine Mehrdeutigkeit bei einem ganzzahligen Vielfachen einer Verzöge rung, der eine Autokorrelationsfunktionsspitze zugeordnet ist, vermindert ist, oder ein Signalanteil bei einem ganzzahligen Bruchteil einer Verzögerung, der eine Autokorrelationsfunktions spitze zugeordnet ist, hinzugefügt ist; und
einer Einrichtung (114) zum Ermitteln der Rhythmusinformationen des Audiosignals unter Verwendung der nachbearbeiteten Rhythmus- Rohinformationen (120a) des Teilbandsignals und unter Verwendung eines weiteren Teilbandsignals der zumindest zwei Teil bandsignale.
2. Vorrichtung nach Anspruch 1,
bei der die Einrichtung zum Nachbearbeiten (118a, 118b) folgende
Merkmale aufweist:
eine Einrichtung (121) zum Berechnen einer um einen ganzzahligen Faktor gespreizten Version der Rhythmus-Rohinformationen (108a) eines Teilbandsignals; und
einer Einrichtung (122) zum Subtrahieren der um einen ganzzahli gen Faktor größer als Eins gespreizten Version der Rhythmus- Rohinformationen (108a) des Teilbandsignals oder eine von dieser Version abgeleitete Version von den Rhythmus-Rohinformationen (108a) des Teilbandsignals, um die nachbearbeiteten Rhythmus- Rohinformationen (120a) für das Teilbandsignal zu erhalten.
eine Einrichtung (121) zum Berechnen einer um einen ganzzahligen Faktor gespreizten Version der Rhythmus-Rohinformationen (108a) eines Teilbandsignals; und
einer Einrichtung (122) zum Subtrahieren der um einen ganzzahli gen Faktor größer als Eins gespreizten Version der Rhythmus- Rohinformationen (108a) des Teilbandsignals oder eine von dieser Version abgeleitete Version von den Rhythmus-Rohinformationen (108a) des Teilbandsignals, um die nachbearbeiteten Rhythmus- Rohinformationen (120a) für das Teilbandsignal zu erhalten.
3. Vorrichtung nach Anspruch 2, bei der die Einrichtung (122)
zum Subtrahieren angeordnet ist, um vor dem Subtrahieren eine
Gewichtung der gespreizten Version mit einem Faktor zwischen
Null und Eins durchzuführen, um die abgeleitete Version zu er
zeugen.
4. Vorrichtung nach Anspruch 1, bei der die Einrichtung zum
Nachbearbeiten (118a) folgende Merkmale aufweist:
eine Einrichtung (121) zum Berechnen einer um einen ganzzahligen Faktor größer als Eins gestauchten Version der Rhythmus- Rohinformationen (108a); und
eine Einrichtung (122) zum Addieren der gestauchten Version der Rhythmus-Rohinformationen des Teilbandsignals oder eine von die ser Version abgeleitete Version zu den Rhythmus-Rohinformationen (108a) des Teilbandsignals, um die nachbearbeiteten Rhythmus- Rohinformationen (120a) für das Teilbandsignal zu erhalten.
eine Einrichtung (121) zum Berechnen einer um einen ganzzahligen Faktor größer als Eins gestauchten Version der Rhythmus- Rohinformationen (108a); und
eine Einrichtung (122) zum Addieren der gestauchten Version der Rhythmus-Rohinformationen des Teilbandsignals oder eine von die ser Version abgeleitete Version zu den Rhythmus-Rohinformationen (108a) des Teilbandsignals, um die nachbearbeiteten Rhythmus- Rohinformationen (120a) für das Teilbandsignal zu erhalten.
5. Vorrichtung nach Anspruch 4, bei der die Einrichtung (122)
zum Addieren angeordnet ist, um vor der Addition eine Gewichtung
der gestauchten Version der Rhythmus-Rohinformationen mittels
eines Faktors zwischen Null und Eins durchzuführen, derart, daß
eine gewichtete gestauchte Version der Rhythmus-Rohinformationen
zu den Rhythmus-Rohinformationen des Teilbandsignals hinzuad
diert wird, um die abgeleitete Version zu erzeugen.
6. Vorrichtung nach einem der vorhergehenden Ansprüche, die
ferner folgendes Merkmal aufweist:
eine Einrichtung (110a, 110b) zum Bewerten einer Qualität der Periodizität der nachverarbeiteten Rhythmus-Rohinformationen (120a), um ein Signifikanzmaß für das Teilbandsignal zu erhal ten,
wobei die Einrichtung (114) zum Ermitteln ferner angeordnet ist, um die Rhythmusinformationen des Audiosignals unter Berücksich tigung des Signifikanzmaßes des Teilbandsignals zu ermitteln.
eine Einrichtung (110a, 110b) zum Bewerten einer Qualität der Periodizität der nachverarbeiteten Rhythmus-Rohinformationen (120a), um ein Signifikanzmaß für das Teilbandsignal zu erhal ten,
wobei die Einrichtung (114) zum Ermitteln ferner angeordnet ist, um die Rhythmusinformationen des Audiosignals unter Berücksich tigung des Signifikanzmaßes des Teilbandsignals zu ermitteln.
7. Verfahren zum Analysieren eines Audiosignals hinsichtlich
von Rhythmusinformationen des Audiosignals unter Verwendung ei
ner Autokorrelationsfunktion, mit folgenden Schritten:
Zerlegen (102) des Audiosignals in zumindest zwei Teilbandsigna le (104a, 104b)
Untersuchen (106a, 106b) zumindest eines Teilbandsignals hin sichtlich einer Periodizität in dem zumindest einen Teilbandsi gnal mittels einer Autokorrelationsfunktion, um Rhythmus- Rohinformationen (108a) für das Teilbandsignal zu erhalten, wo bei einer Spitze der Autokorrelationsfunktion eine Verzögerung zugeordnet ist;
Nachbearbeiten (118a) der mittels der Autokorrelationsfunktion bestimmten Rhythmus-Rohinformationen (108a) für das Teilbandsi gnal (104a), um nachbearbeitete Rhythmus-Rohinformationen (120a) für das Teilbandsignal zu erhalten, so daß in den nachbearbeite ten Rhythmus-Rohinformationen eine Mehrdeutigkeit bei einem ganzzahligen Vielfachen einer Verzögerung, der eine Autokorrela tionsfunktionsspitze zugeordnet ist, vermindert ist, oder ein Signalanteil bei einem ganzzahligen Bruchteil einer Verzögerung, der eine Autokorrelationsfunktionsspitze zugeordnet ist, hinzu gefügt ist; und
Ermitteln (114) der Rhythmusinformationen des Audiosignals unter Verwendung der nachbearbeiteten Rhythmus-Rohinformationen (120a) des Teilbandsignals und unter Verwendung eines weiteren Teil bandsignals der zumindest zwei Teilbandsignale.
Zerlegen (102) des Audiosignals in zumindest zwei Teilbandsigna le (104a, 104b)
Untersuchen (106a, 106b) zumindest eines Teilbandsignals hin sichtlich einer Periodizität in dem zumindest einen Teilbandsi gnal mittels einer Autokorrelationsfunktion, um Rhythmus- Rohinformationen (108a) für das Teilbandsignal zu erhalten, wo bei einer Spitze der Autokorrelationsfunktion eine Verzögerung zugeordnet ist;
Nachbearbeiten (118a) der mittels der Autokorrelationsfunktion bestimmten Rhythmus-Rohinformationen (108a) für das Teilbandsi gnal (104a), um nachbearbeitete Rhythmus-Rohinformationen (120a) für das Teilbandsignal zu erhalten, so daß in den nachbearbeite ten Rhythmus-Rohinformationen eine Mehrdeutigkeit bei einem ganzzahligen Vielfachen einer Verzögerung, der eine Autokorrela tionsfunktionsspitze zugeordnet ist, vermindert ist, oder ein Signalanteil bei einem ganzzahligen Bruchteil einer Verzögerung, der eine Autokorrelationsfunktionsspitze zugeordnet ist, hinzu gefügt ist; und
Ermitteln (114) der Rhythmusinformationen des Audiosignals unter Verwendung der nachbearbeiteten Rhythmus-Rohinformationen (120a) des Teilbandsignals und unter Verwendung eines weiteren Teil bandsignals der zumindest zwei Teilbandsignale.
8. Vorrichtung zum Analysieren eines Audiosignals hinsichtlich
von Rhythmusinformationen des Audiosignals unter Verwendung ei
ner Autokorrelationsfunktion, mit folgenden Merkmalen:
einer Einrichtung zum Untersuchen des Audiosignals hinsichtlich einer Periodizität in dem Audiosignal, um Rhythmus- Rohinformationen für das Audiosignal zu erhalten, wobei einer Spitze der Autokorrelationsfunktion eine Verzögerung zugeordnet ist;
einer Einrichtung zum Nachbearbeiten der mittels der Autokorre lationsfunktion bestimmten Rhythmus-Rohinformationen für das Au diosignal, um nachbearbeitete Rhythmus-Rohinformationen für das Audiosignal zu erhalten, so daß in den nachbearbeiteten Rhyth mus-Rohinformationen ein Signalanteil bei einem ganzzahligen Bruchteil einer Verzögerung, der eine Autokorrelationsfunktions spitze zugeordnet ist, hinzugefügt ist; und
einer Einrichtung zum Ermitteln der Rhythmusinformationen des Audiosignals unter Verwendung der nachbearbeiteten Rhythmus- Rohinformationen des Audiosignals.
einer Einrichtung zum Untersuchen des Audiosignals hinsichtlich einer Periodizität in dem Audiosignal, um Rhythmus- Rohinformationen für das Audiosignal zu erhalten, wobei einer Spitze der Autokorrelationsfunktion eine Verzögerung zugeordnet ist;
einer Einrichtung zum Nachbearbeiten der mittels der Autokorre lationsfunktion bestimmten Rhythmus-Rohinformationen für das Au diosignal, um nachbearbeitete Rhythmus-Rohinformationen für das Audiosignal zu erhalten, so daß in den nachbearbeiteten Rhyth mus-Rohinformationen ein Signalanteil bei einem ganzzahligen Bruchteil einer Verzögerung, der eine Autokorrelationsfunktions spitze zugeordnet ist, hinzugefügt ist; und
einer Einrichtung zum Ermitteln der Rhythmusinformationen des Audiosignals unter Verwendung der nachbearbeiteten Rhythmus- Rohinformationen des Audiosignals.
9. Vorrichtung zum Analysieren eines Audiosignals hinsichtlich
von Rhythmusinformationen des Audiosignals unter Verwendung ei
ner Autokorrelationsfunktion, mit folgenden Merkmalen:
einer Einrichtung zum Untersuchen des Audiosignals hinsichtlich einer Periodizität in dem Audiosignal, um Rhythmus- Rohinformationen für das Audiosignal zu erhalten, wobei einer Spitze der Autokorrelationsfunktion eine Verzögerung zugeordnet ist;
einer Einrichtung zum Nachbearbeiten der mittels der Autokorre lationsfunktion bestimmten Rhythmus-Rohinformationen für das Au diosignal, um nachbearbeitete Rhythmus-Rohinformationen für das Audiosignal zu erhalten, durch Subtrahieren einer mit einem Fak tor ungleich Eins gewichteten, um einen ganzzahligen Faktor grö ßer als Eins gespreizten Version der Rhythmus-Rohinformationen; und
einer Einrichtung zum Ermitteln der Rhythmusinformationen des Audiosignals unter Verwendung der nachbearbeiteten Rhythmus- Rohinformationen des Audiosignals.
einer Einrichtung zum Untersuchen des Audiosignals hinsichtlich einer Periodizität in dem Audiosignal, um Rhythmus- Rohinformationen für das Audiosignal zu erhalten, wobei einer Spitze der Autokorrelationsfunktion eine Verzögerung zugeordnet ist;
einer Einrichtung zum Nachbearbeiten der mittels der Autokorre lationsfunktion bestimmten Rhythmus-Rohinformationen für das Au diosignal, um nachbearbeitete Rhythmus-Rohinformationen für das Audiosignal zu erhalten, durch Subtrahieren einer mit einem Fak tor ungleich Eins gewichteten, um einen ganzzahligen Faktor grö ßer als Eins gespreizten Version der Rhythmus-Rohinformationen; und
einer Einrichtung zum Ermitteln der Rhythmusinformationen des Audiosignals unter Verwendung der nachbearbeiteten Rhythmus- Rohinformationen des Audiosignals.
10. Verfahren zum Analysieren eines Audiosignals hinsichtlich
von Rhythmusinformationen des Audiosignals unter Verwendung ei
ner Autokorrelationsfunktion, mit folgenden Schritten:
Untersuchen des Audiosignals hinsichtlich einer Periodizität in dem Audiosignal, um Rhythmus-Rohinformationen für das Audiosi gnal zu erhalten, wobei einer Spitze der Autokorrelationsfunkti on eine Verzögerung zugeordnet ist;
Nachbearbeiten der mittels der Autokorrelationsfunktion bestimm ten Rhythmus-Rohinformationen für das Audiosignal, um nach bearbeitete Rhythmus-Rohinformationen für das Audiosignal zu er halten, so daß in den nachbearbeiteten Rhythmus-Rohinformationen ein Signalanteil bei einem ganzzahligen Bruchteil einer Verzöge rung, der eine Autokorrelationsfunktionsspitze zugeordnet ist, hinzugefügt ist; und
Ermitteln der Rhythmusinformationen des Audiosignals unter Ver wendung der nachbearbeiteten Rhythmus-Rohinformationen des Au diosignals.
Untersuchen des Audiosignals hinsichtlich einer Periodizität in dem Audiosignal, um Rhythmus-Rohinformationen für das Audiosi gnal zu erhalten, wobei einer Spitze der Autokorrelationsfunkti on eine Verzögerung zugeordnet ist;
Nachbearbeiten der mittels der Autokorrelationsfunktion bestimm ten Rhythmus-Rohinformationen für das Audiosignal, um nach bearbeitete Rhythmus-Rohinformationen für das Audiosignal zu er halten, so daß in den nachbearbeiteten Rhythmus-Rohinformationen ein Signalanteil bei einem ganzzahligen Bruchteil einer Verzöge rung, der eine Autokorrelationsfunktionsspitze zugeordnet ist, hinzugefügt ist; und
Ermitteln der Rhythmusinformationen des Audiosignals unter Ver wendung der nachbearbeiteten Rhythmus-Rohinformationen des Au diosignals.
11. Verfahren zum Analysieren eines Audiosignals hinsichtlich
von Rhythmusinformationen des Audiosignals unter Verwendung ei
ner Autokorrelationsfunktion, mit folgenden Schritten:
Untersuchen des Audiosignals hinsichtlich einer Periodizität in dem Audiosignal, um Rhythmus-Rohinformationen für das Audiosi gnal zu erhalten, wobei einer Spitze der Autokorrelationsfunkti on eine Verzögerung zugeordnet ist;
Nachbearbeiten der mittels der Autokorrelationsfunktion bestimm ten Rhythmus-Rohinformationen für das Audiosignal, um nach bearbeitete Rhythmus-Rohinformationen für das Audiosignal zu er halten, durch Subtrahieren einer mit einem Faktor ungleich Eins gewichteten, um einen ganzzahligen Faktor größer als Eins ge spreizten Version der Rhythmus-Rohinformationen; und
Ermitteln der Rhythmusinformationen des Audiosignals unter Ver wendung der nachbearbeiteten Rhythmus-Rohinformationen des Au diosignals.
Untersuchen des Audiosignals hinsichtlich einer Periodizität in dem Audiosignal, um Rhythmus-Rohinformationen für das Audiosi gnal zu erhalten, wobei einer Spitze der Autokorrelationsfunkti on eine Verzögerung zugeordnet ist;
Nachbearbeiten der mittels der Autokorrelationsfunktion bestimm ten Rhythmus-Rohinformationen für das Audiosignal, um nach bearbeitete Rhythmus-Rohinformationen für das Audiosignal zu er halten, durch Subtrahieren einer mit einem Faktor ungleich Eins gewichteten, um einen ganzzahligen Faktor größer als Eins ge spreizten Version der Rhythmus-Rohinformationen; und
Ermitteln der Rhythmusinformationen des Audiosignals unter Ver wendung der nachbearbeiteten Rhythmus-Rohinformationen des Au diosignals.
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10123281A DE10123281C1 (de) | 2001-05-14 | 2001-05-14 | Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion |
EP02742987A EP1371055B1 (de) | 2001-05-14 | 2002-05-10 | Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion |
DE50202914T DE50202914D1 (de) | 2001-05-14 | 2002-05-10 | Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion |
ES02742987T ES2240762T3 (es) | 2001-05-14 | 2002-05-10 | Dispositivo para analizar una señal de audio en relacion con la informacion de ritmo de la señal de audio mediante el uso de una funcion de autocorrelacion. |
AT02742987T ATE294440T1 (de) | 2001-05-14 | 2002-05-10 | Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion |
PCT/EP2002/005171 WO2002093550A2 (de) | 2001-05-14 | 2002-05-10 | Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen unter verwendung einer autokorrelationsfunktion |
US10/713,691 US7012183B2 (en) | 2001-05-14 | 2003-11-14 | Apparatus for analyzing an audio signal with regard to rhythm information of the audio signal by using an autocorrelation function |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10123281A DE10123281C1 (de) | 2001-05-14 | 2001-05-14 | Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10123281C1 true DE10123281C1 (de) | 2002-10-10 |
Family
ID=7684650
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10123281A Expired - Fee Related DE10123281C1 (de) | 2001-05-14 | 2001-05-14 | Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion |
DE50202914T Expired - Lifetime DE50202914D1 (de) | 2001-05-14 | 2002-05-10 | Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE50202914T Expired - Lifetime DE50202914D1 (de) | 2001-05-14 | 2002-05-10 | Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion |
Country Status (6)
Country | Link |
---|---|
US (1) | US7012183B2 (de) |
EP (1) | EP1371055B1 (de) |
AT (1) | ATE294440T1 (de) |
DE (2) | DE10123281C1 (de) |
ES (1) | ES2240762T3 (de) |
WO (1) | WO2002093550A2 (de) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10223735A1 (de) * | 2002-05-28 | 2004-01-08 | Red Chip Company Ltd. | Verfahren und Vorrichtung zum Ermitteln von Rhythmuseinheiten in einem Musikstück |
DE102005038876A1 (de) * | 2005-08-17 | 2007-03-01 | Andreas Merz | Benutzereingabevorrichtung mit Benutzereingabebewertung und Verfahren |
EP2061035A3 (de) * | 2001-05-22 | 2009-07-15 | Pioneer Corporation | Informationswiedergabegerät |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10123366C1 (de) * | 2001-05-14 | 2002-08-08 | Fraunhofer Ges Forschung | Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen |
DE10232916B4 (de) * | 2002-07-19 | 2008-08-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals |
US8918316B2 (en) * | 2003-07-29 | 2014-12-23 | Alcatel Lucent | Content identification system |
US20090019994A1 (en) * | 2004-01-21 | 2009-01-22 | Koninklijke Philips Electronic, N.V. | Method and system for determining a measure of tempo ambiguity for a music input signal |
US8535236B2 (en) * | 2004-03-19 | 2013-09-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for analyzing a sound signal using a physiological ear model |
US7626110B2 (en) * | 2004-06-02 | 2009-12-01 | Stmicroelectronics Asia Pacific Pte. Ltd. | Energy-based audio pattern recognition |
US7563971B2 (en) * | 2004-06-02 | 2009-07-21 | Stmicroelectronics Asia Pacific Pte. Ltd. | Energy-based audio pattern recognition with weighting of energy matches |
US7193148B2 (en) * | 2004-10-08 | 2007-03-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating an encoded rhythmic pattern |
WO2006037366A1 (en) * | 2004-10-08 | 2006-04-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating an encoded rhythmic pattern |
JP4948118B2 (ja) * | 2005-10-25 | 2012-06-06 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP4465626B2 (ja) * | 2005-11-08 | 2010-05-19 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
FI20065010A0 (fi) * | 2006-01-09 | 2006-01-09 | Nokia Corp | Häiriönvaimennuksen yhdistäminen tietoliikennejärjestelmässä |
JP5351373B2 (ja) * | 2006-03-10 | 2013-11-27 | 任天堂株式会社 | 演奏装置および演奏制御プログラム |
US7952012B2 (en) * | 2009-07-20 | 2011-05-31 | Apple Inc. | Adjusting a variable tempo of an audio file independent of a global tempo using a digital audio workstation |
US8121618B2 (en) | 2009-10-28 | 2012-02-21 | Digimarc Corporation | Intuitive computing methods and systems |
US8490131B2 (en) * | 2009-11-05 | 2013-07-16 | Sony Corporation | Automatic capture of data for acquisition of metadata |
US9484046B2 (en) | 2010-11-04 | 2016-11-01 | Digimarc Corporation | Smartphone-based methods and systems |
GB201109731D0 (en) | 2011-06-10 | 2011-07-27 | System Ltd X | Method and system for analysing audio tracks |
US8952233B1 (en) * | 2012-08-16 | 2015-02-10 | Simon B. Johnson | System for calculating the tempo of music |
US9357163B2 (en) * | 2012-09-20 | 2016-05-31 | Viavi Solutions Inc. | Characterizing ingress noise |
US9311640B2 (en) | 2014-02-11 | 2016-04-12 | Digimarc Corporation | Methods and arrangements for smartphone payments and transactions |
US9354778B2 (en) | 2013-12-06 | 2016-05-31 | Digimarc Corporation | Smartphone-based methods and systems |
JP2016177204A (ja) * | 2015-03-20 | 2016-10-06 | ヤマハ株式会社 | サウンドマスキング装置 |
US9756281B2 (en) | 2016-02-05 | 2017-09-05 | Gopro, Inc. | Apparatus and method for audio based video synchronization |
CN105741835B (zh) * | 2016-03-18 | 2019-04-16 | 腾讯科技(深圳)有限公司 | 一种音频信息处理方法及终端 |
US9697849B1 (en) | 2016-07-25 | 2017-07-04 | Gopro, Inc. | Systems and methods for audio based synchronization using energy vectors |
US9640159B1 (en) | 2016-08-25 | 2017-05-02 | Gopro, Inc. | Systems and methods for audio based synchronization using sound harmonics |
US9653095B1 (en) * | 2016-08-30 | 2017-05-16 | Gopro, Inc. | Systems and methods for determining a repeatogram in a music composition using audio features |
US9916822B1 (en) | 2016-10-07 | 2018-03-13 | Gopro, Inc. | Systems and methods for audio remixing using repeated segments |
JP2020106753A (ja) * | 2018-12-28 | 2020-07-09 | ローランド株式会社 | 情報処理装置および映像処理システム |
CN111508457A (zh) * | 2020-04-14 | 2020-08-07 | 上海影卓信息科技有限公司 | 音乐节拍检测方法和系统 |
US11107504B1 (en) * | 2020-06-29 | 2021-08-31 | Lightricks Ltd | Systems and methods for synchronizing a video signal with an audio signal |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3999009A (en) * | 1971-03-11 | 1976-12-21 | U.S. Philips Corporation | Apparatus for playing a transparent optically encoded multilayer information carrying disc |
JPS61117746A (ja) * | 1984-11-13 | 1986-06-05 | Hitachi Ltd | 光デイスク基板 |
JPS61177642A (ja) * | 1985-01-31 | 1986-08-09 | Olympus Optical Co Ltd | 光学的情報記録再生装置 |
GB2207027B (en) | 1987-07-15 | 1992-01-08 | Matsushita Electric Works Ltd | Voice encoding and composing system |
US5255260A (en) * | 1989-07-28 | 1993-10-19 | Matsushita Electric Industrial Co., Ltd. | Optical recording apparatus employing stacked recording media with spiral grooves and floating optical heads |
US5392263A (en) * | 1990-01-31 | 1995-02-21 | Sony Corporation | Magneto-optical disk system with specified thickness for protective layer on the disk relative to the numerical aperture of the objective lens |
KR940002573B1 (ko) * | 1991-05-11 | 1994-03-25 | 삼성전자 주식회사 | 광디스크기록재생장치에 있어서 연속재생장치 및 그 방법 |
US5255262A (en) * | 1991-06-04 | 1993-10-19 | International Business Machines Corporation | Multiple data surface optical data storage system with transmissive data surfaces |
US5470627A (en) * | 1992-03-06 | 1995-11-28 | Quantum Corporation | Double-sided optical media for a disk storage device |
WO1993024923A1 (en) * | 1992-06-03 | 1993-12-09 | Neil Philip Mcangus Todd | Analysis and synthesis of rhythm |
DE4311683C2 (de) * | 1993-04-08 | 1996-05-02 | Sonopress Prod | Plattenförmiger optischer Speicher und Verfahren zu dessen Herstellung |
EP1045377A3 (de) * | 1993-06-08 | 2011-03-16 | Panasonic Corporation | Optische Platte sowie Vorrichtung zur Informationsaufnahme/wiedergabe |
DE69422870T2 (de) * | 1993-09-07 | 2000-10-05 | Hitachi Ltd | Informationsaufzeichnungsträger, optische Platten und Wiedergabesystem |
US5518325A (en) * | 1994-02-28 | 1996-05-21 | Compulog | Disk label printing |
JP3210549B2 (ja) * | 1995-05-17 | 2001-09-17 | 日本コロムビア株式会社 | 光情報記録媒体 |
US5729525A (en) * | 1995-06-21 | 1998-03-17 | Matsushita Electric Industrial Co., Ltd. | Two-layer optical disk |
JP3674092B2 (ja) * | 1995-08-09 | 2005-07-20 | ソニー株式会社 | 再生装置 |
JP2728057B2 (ja) * | 1995-10-30 | 1998-03-18 | 日本電気株式会社 | 光ディスク用情報アクセス装置 |
JPH09161320A (ja) * | 1995-12-08 | 1997-06-20 | Nippon Columbia Co Ltd | 貼り合わせ型光情報記録媒体 |
JPH09293083A (ja) | 1996-04-26 | 1997-11-11 | Toshiba Corp | 楽曲検索装置および検索方法 |
TW350571U (en) * | 1996-11-23 | 1999-01-11 | Ind Tech Res Inst | Optical grille form of optical read head in digital CD-ROM player |
JPH10269611A (ja) * | 1997-03-27 | 1998-10-09 | Pioneer Electron Corp | 光ピックアップ及びそれを用いた多層ディスク再生装置 |
US5949752A (en) * | 1997-10-30 | 1999-09-07 | Wea Manufacturing Inc. | Recording media and methods for display of graphic data, text, and images |
JP4043175B2 (ja) * | 2000-06-09 | 2008-02-06 | Tdk株式会社 | 光情報媒体およびその製造方法 |
US6657117B2 (en) * | 2000-07-14 | 2003-12-02 | Microsoft Corporation | System and methods for providing automatic classification of media entities according to tempo properties |
-
2001
- 2001-05-14 DE DE10123281A patent/DE10123281C1/de not_active Expired - Fee Related
-
2002
- 2002-05-10 EP EP02742987A patent/EP1371055B1/de not_active Expired - Lifetime
- 2002-05-10 AT AT02742987T patent/ATE294440T1/de not_active IP Right Cessation
- 2002-05-10 WO PCT/EP2002/005171 patent/WO2002093550A2/de active IP Right Grant
- 2002-05-10 DE DE50202914T patent/DE50202914D1/de not_active Expired - Lifetime
- 2002-05-10 ES ES02742987T patent/ES2240762T3/es not_active Expired - Lifetime
-
2003
- 2003-11-14 US US10/713,691 patent/US7012183B2/en not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2061035A3 (de) * | 2001-05-22 | 2009-07-15 | Pioneer Corporation | Informationswiedergabegerät |
DE10223735A1 (de) * | 2002-05-28 | 2004-01-08 | Red Chip Company Ltd. | Verfahren und Vorrichtung zum Ermitteln von Rhythmuseinheiten in einem Musikstück |
DE10223735B4 (de) * | 2002-05-28 | 2005-05-25 | Red Chip Company Ltd. | Verfahren und Vorrichtung zum Ermitteln von Rhythmuseinheiten in einem Musikstück |
DE102005038876A1 (de) * | 2005-08-17 | 2007-03-01 | Andreas Merz | Benutzereingabevorrichtung mit Benutzereingabebewertung und Verfahren |
DE102005038876B4 (de) * | 2005-08-17 | 2013-03-14 | Andreas Merz | Benutzereingabevorrichtung mit Benutzereingabebewertung und Verfahren |
Also Published As
Publication number | Publication date |
---|---|
US7012183B2 (en) | 2006-03-14 |
DE50202914D1 (de) | 2005-06-02 |
WO2002093550A3 (de) | 2003-02-27 |
US20040094019A1 (en) | 2004-05-20 |
EP1371055A2 (de) | 2003-12-17 |
WO2002093550A2 (de) | 2002-11-21 |
ES2240762T3 (es) | 2005-10-16 |
EP1371055B1 (de) | 2005-04-27 |
ATE294440T1 (de) | 2005-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE10123281C1 (de) | Vorrichtung und Verfahren zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen des Audiosignals unter Verwendung einer Autokorrelationsfunktion | |
DE10123366C1 (de) | Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen | |
DE10232916B4 (de) | Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals | |
EP1407446B1 (de) | Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals | |
EP1368805B1 (de) | Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals | |
EP1606798B1 (de) | Vorrichtung und verfahren zum analysieren eines audio-informationssignals | |
EP2351017B1 (de) | Verfahren zur erkennung von notenmustern in musikstücken | |
DE102007034774A1 (de) | Vorrichtung zur Bestimmung von Akkordnamen und Programm zur Bestimmung von Akkordnamen | |
DE2659096A1 (de) | Verfahren und vorrichtung zur spracherkennung | |
EP1280138A1 (de) | Verfahren zur Analyse von Audiosignalen | |
DE60031812T2 (de) | Vorrichtung und Verfahren zur Klangsynthesierung | |
DE19581667C2 (de) | Spracherkennungssystem und Verfahren zur Spracherkennung | |
DE102004028693B4 (de) | Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt | |
WO2006005448A1 (de) | Verfahren und vorrichtung zur rhythmischen aufbereitung von audiosignalen | |
EP1377924B1 (de) | VERFAHREN UND VORRICHTUNG ZUM EXTRAHIEREN EINER SIGNALKENNUNG, VERFAHREN UND VORRICHTUNG ZUM ERZEUGEN EINER DAZUGEHÖRIGEN DATABANK und Verfahren und Vorrichtung zum Referenzieren eines Such-Zeitsignals | |
EP1671315B1 (de) | Vorrichtung und verfahren zum charakterisieren eines tonsignals | |
EP1743324B1 (de) | Vorrichtung und verfahren zum analysieren eines informationssignals | |
DE10253868B3 (de) | Verfahren und Anordnung zur Synchronisation von Test- und Referenzmustern sowie ein entsprechendes Computerprogramm-Erzeugnis und ein entsprechendes computerlesbares Speichermedium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8100 | Publication of patent without earlier publication of application | ||
D1 | Grant (no unexamined application published) patent law 81 | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |