-
Die
vorliegende Erfindung bezieht sich auf das technische Gebiet der
Audiosignalverarbeitung und insbesondere bezieht sich die vorliegende
Erfindung auf die Bestimmung eines einem Audiosignal zugrunde liegenden
Frequenzrasters, wobei durch das Frequenzraster die spektrale Lage
von Halbtönen
der Notenskala definiert ist und hierdurch eine Stimmung bzw. Verstimmung
eines Audiosignals in bezug auf eine exakte Stimmung möglich ist.
-
Um
mit Hilfe von technischen Mitteln eine Harmonie oder Klanginformation
aus einem Musikstück
bzw. einem Audiosignal mit Musikinformationen zu erkennen, ist es
zunächst
notwendig, dass mit Hilfe von technischen Hilfsmitteln exakt bestimmt werden
kann, welche Frequenzen innerhalb des Musikstücks auftreten. Hierbei ist
es besonders wichtig, auf eine exakte Stimmung der Analysehilfsmittel
oder -werkzeuge zu achten, da bereits bei einer kleinen Fehl-Stimmung des Analysewerkzeugs
bereits eine fehlerhafte Erkennung der dem Musikstück zugrunde liegenden
Harmonien oder Akkorde resultiert.
-
Meist
werden zur Analyse eines Musikstücks bzw.
eines entsprechenden Audiosignals Zeit-Frequenzbereichstransformationen
wie die Fourier-Transformation, die Wavelet-Transformation und ähnliches
verwendet. Bei derartigen Transformationen wird ein Zeitbereichssignal,
wie beispielsweise eines in Zeitbereichsdarstellung vorliegendes
Audiosignal, in den Frequenzbereich transformiert oder umgesetzt,
wobei durch die Transformationen eine Analyse erfolgt, welche spektralen
Anteile von der Transformation zugrunde liegen den Basisfunktionen in
dem Audiosignal enthalten sind. Hierbei wird insbesondere häufig die
Fourier-Transformation oder deren numerisch effizientere Variante
FFT (FFT = Fast Fourier-Transformation = schnelle Fourier-Transformation)
verwendet, bei der, abhängig von
einer vordefinierten Fensterlänge
eines Transformationsfensters eine spektrale Auflösung erreicht wird,
bei der das Audiosignal auf ein Auftreten von Spektralanteilen des
Audiosignals in einem fest vorgegebenen Frequenzraster untersucht
wird. Dies bedeutet mit anderen Worten, dass bei der Verwendung einer
Fourierbasierten Transformation bereits feste Untersuchungsfrequenzwerte
als Frequenzraster der vorgegeben sind, und durch die Transformation
untersucht wird, ob in dem Audiosignal Frequenzanteile bei den vorgegebenen
Frequenzen des Frequenzrasters enthalten sind.
-
Nachteilig
bei der Verwendung der Fourier-basierten Transformationen ist jedoch
der äquidistante
Abstand der einzelnen Untersuchungsfrequenzen, d.h. des der Fourier-basierten
Transformation zugrunde liegenden Frequenzrasters. Um eine Analyse
von Audiosignalen und der den Audiosignalen inhärenten Harmonien erkennen zu
können,
ist ein "Mapping" des Frequenzrasters
auf die Frequenzskala notwendig, wie sie für die westliche Notenskala
verwendet wird. Dies beinhaltet ein "Mapping" des äquidistanten, linearen, Frequenzrasters auf
ein logarithmisches und somit nicht-lineares Frequenzraster. Eine
Transformation die ein derartiges Mapping durchführen kann, ist beispielsweise
die Constant Q Transform, wie sie in Judith C. Brown: "Calculation of a
constant Q spectral transform",
in: Journal of the Acoustical Society of America, '98(1): Seiten 425
bis 432, Januar 1991, oder in Judith C. Brown and Miller S. Puckette- "An efficient Algorithm for
the Calculation of' a
Constant Q transform",
in: Journal of the Acoustical Society of America, '92(5): Seiten 2698
bis 2701, November 1992 näher
beschrieben ist. Hierin wird die Constant Q Transformation CQT vorgestellt,
die ähnlich
einer Fourier-Transformation ein in Zeitbereichsdarstellung bereitgestelltes
Signal in eine Frequenzbereichsdarstellung umsetzt, wobei jedoch
im Gegensatz zu Fourier-basierten Transformationen ein logarithmisches
und somit nicht-lineares Frequenzraster bei der CQT zugrunde gelegt
wird. In diesem Zusammenhang kennzeichnet der Buchstabe Q das Verhältnis einer
Frequenz zu einer Bandbreite, d.h. das Verhältnis einer Frequenz zur nächst benachbarten
Frequenz des der CQT zugrunde gelegten (logarithmischen) nicht-linearen Frequenzrasters.
Da auch der westlichen Notenskala ein derartiges logarithmisches
nichtlineares Frequenzraster zugrunde liegt, lässt sich die CQT sehr gut zur
Erkennung von Tönen
bzw. Halbtönen
in einem Audiosignal einsetzen. Der Einsatz der CQT wird insbesondere
dadurch begünstigt,
dass auch der Halbtonabstand zwischen den einzelnen Halbtönen in den
verschiedenen Oktaven der Notenskala zunehmend größer wird,
d.h. ein Halbtonabstand im Bereich des Kammertones bei 440 Herz
(Kammerton a') kleiner
ist als ein Halbtonabstand in einer Oktav über dem Kammerton a'. Insbesondere durch
die Tatsache, dass die Halbtonabstände auch logarithmisch angeordnet
sind, ist daher die CQT besonders für die Aufdeckung von auftretenden
Tönen in
dem Audiosignal interessant, wobei dann auch eine Ermittlung einer
Oktavinformation des aufgetretenen Tones durch die CQT möglich ist.
-
Problematisch
ist die Anwendung der CQT jedoch dann, wenn erstens das der CQT
zugrundeliegende Frequenzraster geringfügig von dem Frequenzraster
der tatsächlichen
Notenskala abweicht. Dies kann beispielsweise aus einer Fehlanpassung der
Filterkoeffizienten der CQT resultieren. Die Filterkoeffizienten
für die
CQT stellen dabei die konkrete Frequenzauflösung der CQT, d.h. die exakte
Lage der Untersuchtungsfrequenzen oder das Frequenzrasters der CQT
sicher. Hierbei ist anzumerken, dass für jeden Filterkoeffizientensatz
entweder eine minimale Frequenz fmin vorgegeben
ist, auf deren Basis die weiteren Frequenzen des der CQT zugrundegelegten
Frequenzrasters, beispielsweise durch die in Judith C. Brown's Artikel "Calculation of a
Constant Q Spectral Transform" genannte
Gleichung 1 berechnet werden kann. Alternativ zur Angabe der Minimumfrequenz
fmin für
einen Koeffizientensatz und somit einem zu dem Koeffizientensatz
entsprechenden Frequenzraster der CQT kann auch ein Satz von unterschiedlichen
Fensterlängen
N[k] in einem Koeffizientensatz enthalten sein, wobei die unterschiedlichen
Fensterlängen
N[k] durch die Gleichung 3 in dem oben genannten Artikel mit der
Minimumfrequenz fmin zusammenhängt. Erfolgt
nun beim Berechnen oder Bereitstellen der Koeffizienten für die CQT eine
geringfügige
Verstimmung, derart, dass beispielsweise nicht die exakten Halbtonfrequenzen
der Notenskala getroffen werden, sondern die durch die Koeffizienten
realisierten Rasterfrequenzen geringfügig über oder unter den Halbtonfrequenzen
der Notenskala liegen, kann dies gravierende negative Effekte (beispielsweise
durch einen auftretenden Leck-Effekt bei einer Transformation) bei
der Ermittlung von in dem Audiosignal auftretenden Tönen und damit
zu einer deutlichen Verschlechterung einer Erkennung von Harmonien
oder anderen polyphonen Strukturen in dem Audiosignal führen. Eine
solche Verstimmung des Analysewerkzeugs führt dann insbesondere dazu,
dass nicht mehr Energien bzw. Amplituden der eigentlichen gespielten
Tönen korrekt
in den Frequenzbereich abgebildet werden, sondern beispielsweise
durch Randeffekte oder Filterlängeneffekte
resultierende "Verschmierungen" zu einem Auftreten
von Amplitudenwerten bei den "verstimmten" Rasterfrequenzen
resultieren.
-
Ein
weiterer, zweiter Aspekt kann darin gesehen werden, dass beispielsweise
der Kammerton a' zwar
bei 440 Herz liegt, dass aber, beispielsweise durch künstlerische
Freiheit, ein Orchester für
seine Interpretation von Musikstücken
den Kammerton a' auf
eine "eigene" Kammertonfrequenz
von beispielsweise 444 Herz legt. Auch in diesem Fall resultieren dann
die vorstehend beschriebenen Probleme, da zwar der Koeffizientensatz,
auf dessen Basis dass Frequenzraster der CQT "geeicht" wurde, bei den nach der Notenskala "korrekten" Halbtonfrequenzen Rasterfrequenzen
aufweist, aber durch die willkürliche "Verstimmung" des Kammertones
durch das Orchester wieder eine Fehlanpassung resultiert.
-
Es
ist daher die Aufgabe der vorliegenden Erfindung, eine Möglichkeit
zu schaffen, um das einem Audiosignal zugrunde liegende Frequenzraster zu
bestimmen, wobei das Bestimmen des dem Audiosignal zugrundeliegenden
Frequenzrasters numerisch einfach und schnell durchführbar sein
soll.
-
Diese
Aufgabe wird durch eine Vorrichtung zum Bestimmen eines einem Audiosignal
zugrundeliegenden Frequenzrasters gemäß Anspruch 1 und ein Verfahren
zum Bestimmen eines einem Audiosignal zugrundeliegenden Frequenzrasters
gemäß Anspruch
13 gelöst.
-
Die
vorliegende Erfindung schafft eine Vorrichtung zum Bestimmen eines
einem Audiosignal zugrunde liegenden Frequenzrasters mit folgenden Merkmalen:
einer
Einrichtung zum Ermitteln eines Frequenzschätzwertes eines in dem Audiosignal
auftretenden Tones;
einer Einrichtung zum Berechnen einer im
Vergleich zum Frequenzschätzwert
exakteren Tonfrequenz eines in dem Audiosignal auftretenden Tons
unter Verwendung des Frequenzschätzwertes
und des Audiosignals; und
einer Einrichtung zum Vergleichen
der Tonfrequenz mit einer Mehrzahl von unterschiedlichen Frequenzrastern,
wobei jedes Frequenzraster einer anderen Stimmung zugeordnet ist,
wobei die Einrichtung zum Vergleichen ausgebildet ist, um das Frequenzraster zu
bestimmen, das mit der Tonfrequenz am besten übereinstimmt.
-
Ferner
schafft die vorliegende Erfindung ein Verfahren zum Bestimmen eines
einem Audiosignal zugrunde liegenden Frequenzrasters mit folgenden Schritten
Ermitteln
eines Frequenzschätzwertes
eines in dem Audiosignal auftretenden Tones;
Berechnen einer
im Vergleich zum Frequenzschätzwert
exakteren Tonfrequenz eines in dem Audiosignal auftretenden Tons
unter Verwendung des Frequenzschätzwertes
und des Audiosignals; und
Vergleichen der Tonfrequenz mit einer
Mehrzahl von unterschiedlichen Frequenzrastern, wobei jedes Frequenzraster
einer anderen Stimmung zugeordnet ist, um durch das Vergleichen
das Frequenzraster zu bestimmen, das mit der Tonfrequenz am besten übereinstimmt.
-
Der
vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass das Bestimmen
eines einem Audiosignal zugrunde liegende Frequenzrasters dadurch
möglich
ist, dass zuerst ein Frequenzschätzwert
einer Frequenz eines in dem Audiosignal auftretenden Tones ermittelt
wird und anschließend
unter Verwendung des Frequenzschätzwertes
und des Audiosignals eine im Vergleich zum Frequenzschätzwert exaktere
Tonfrequenz des in dem Audiosignal auftretenden Tones berechnet
wird. Hieran anschließend
kann unter Kenntnis der exakteren Tonfrequenz verglichen werden,
welches Frequenzraster am besten mit der Tonfrequenz übereinstimmt,
d.h. welches Frequenzraster beispielsweise eine Rasterfrequenz aufweist,
die der Tonfrequenz am nähesten
kommt. Das Vorabbestimmen des Frequenzschätzwertes kann dabei beispielsweise
durch eine Fourier-basierte Transformation mit 256 Stützstellen
oder einer ähnlichen
numerisch gegenüber
herkömmlichen
Ansätzen
der Bestimmung einer exakten Frequenz einfachen Umsetzung eines
Zeitbereichssignals in eine Frequenzbereichsdarstellung erfolgen.
Aus dem durch die numerisch einfache Umsetzung resultierenden „nicht-präzisen" Frequenzschätzwert für den in
dem Audiosignal auftretenden Ton kann dann die exaktere Tonfrequenz
berechnet werden, was beispielsweise durch eine Verwendung des Frequenzschätzwertes,
dem Audiosignal und einer Version des abgeleiteten, d.h. diffe renzierten
Audiosignals bewerkstelligen lässt.
Ein derartiges Berechnen ermöglicht
wiederum ein gegenüber
dem Stand der Technik numerisch einfaches Vorgehen. Auch die Bestimmung
des Frequenzrasters, das am besten mit der exakteren Tonfrequenz übereinstimmt
lässt sich
beispielsweise durch eine einfache Vergleichsoperation in Form einer
Subtraktion durchführen.
-
Die
vorliegende Erfindung bietet somit den Vorteil, eine Möglichkeit
zu schaffen, ein Frequenzraster, das einem Audiosignal zugrunde
liegt, gegenüber
dem Stand der Technik durch numerisch einfache, damit auch schnell
durchführbare
Operationen zu bestimmen, wodurch sich der vorgeschlagenen Ansatz
auch kostengünstig
durchführen
lässt.
-
Gemäß einer
Ausführungsform
der vorliegenden Erfindung kann das Frequenzraster eine Anzahl von
Rasterfrequenzen umfasst, die in einer nicht-linearen Skalierung
auf der Frequenzachse angeordnet sind, wobei ein spektraler Abstand
zwischen einer ersten Rasterfrequenz und einer zur ersten Rasterfrequenz
benachbarten zweiten Rasterfrequenz in einem vorbestimmten Toleranzbereich
einem Halbtonabstand zwischen zwei in einem Bereich um die erste
Rasterfrequenz benachbarten Halbtöne einer Notenskala entspricht,
und wobei die Einrichtung zum Vergleichen ausgebildet ist, um einen
spektralen Abstand zwischen einer Rasterfrequenz und der Tonfrequenz
zu ermitteln. Dies bietet den Vorteil, dass auf einen einfache Weise
durch Verwendung einer Differenzbildung zu Bestimmen, welches Raster (mit
der Rasterfrequenz) am Besten mit der bestimmten Tonfrequenz übereinstimmt
-
Gemäß einer
weiteren Ausführungsform
der erfindungsgemäßen Vorrichtung
zum Bestimmen sind drei voneinander unterscheidbare Frequenzraster
bereitgestellt, wobei die Rasterfrequenzen eines ersten Frequenzrasters
Halbtonfrequenzen einer Notenskala entsprechen, die Rasterfrequenzen
des zweiten Frequenzrasters um einen Drittel Halbtonabstand reduzierten
Halbtonfrequenzen der Notenskala entsprechen und die Rasterfrequenzen
des dritten Frequenzrasters um einen dritten Halbtonabstand erhöhten Halbtonfrequenzen
der Notenskala entsprechen, und wobei die Einrichtung (106)
zum Vergleichen ausgebildet ist, um diejenige Rasterfrequenz des
ersten, zweiten oder dritten Frequenzrasters zu ermitteln, das eine
Rasterfrequenz aufweist, die einen geringeren spektralen Abstand
zur Tonfrequenz aufweist als eine Rasterfrequenz eines anderen des ersten,
zweiten oder dritten Frequenzrasters. Ein derartiges Bereitstellen
bietet den Vorteil, dass nicht einen beliebig hohe Anzahl von Frequenzrastern
mit verschiedenen Rasterfrequenzen zu untersuchen ist, sondern dass
bereits eine Anzahl von drei Frequenzrastern, die entweder Rasterfrequenzen
auf den exakten Halbtonfrequenzen der Notenskala Rasterfrequenzen
aufweisen, oder deren Rasterfrequenzen um einen Drittel Halbton
spektral höher
oder niedriger verschoben sind, für eine hinreichend genaue Klassifikation
der des einem Audiosignal zugrundegelegten Frequenzraster ausreichen.
-
Gemäß einer
weiteren Ausführungsform
der vorliegenden Erfindung kann die Einrichtung (102) zum
Ermitteln ausgebildet sein, um eine Umsetzung eines Segmentes des
Audiosignals in den Frequenzbereich durchzuführen, um ein Audiofrequenzbereichssignal
zu erhalten, wobei einer ersten Frequenz des Audiofrequenzbereichssignals
ein erster Amplitudenwert zugewiesen wird und einer zweiten Frequenz
des Audiofrequenzbereichssignals ein zweiter Amplitudenwert zugewiesen
wird und wobei die Einrichtung zum Ermitteln ferner ausgebildet
ist, die erste Frequenz als Frequenzschätzwert des in dem Audiosignal
aufgetretenen Tones zu ermitteln, wenn der erste Amplitudenwert
größer als
der zweite Amplitudenwert ist. Eine derart ausgebildete Ausführungsform
der vorliegenden Erfindung ermöglicht
ein sehr einfaches Erkennen einer in einem Audiosignal auftretenden
tonalen Komponente aufgrund eines im Spektralbereich auftretenden „Peaks" bei einer Frequenz.
-
Gemäß einer
weiteren Ausführungsform
der vorliegenden Erfindung kann die Einrichtung zum Ermitteln ferner
ausgebildet sein, um die erste Frequenz als Frequenzschätzwert zu
ermitteln, wenn der erste Amplitudenwert größer als ein vordefinierter Schwellwert
ist oder ein Quotient aus dem ersten und zweiten Amplitudenwert
größer als
der vordefinierte Schwellwert ist. Dies bietet den Vorteil, einer
eindeutig und sicheren Entscheidung über das vorliegen einer tonalen
Komponenten bei der Frequenz mit dem größeren Amplitudenwert.
-
Ferner
kann die Einrichtung zum Berechnen ausgebildet sein, um aus einem
Segment des Audiosignals eine differenzierte Version des Segmentes des
Audiosignals zu berechnen, die differenzierte Version des Audiosignals
in den Frequenzbereich umzusetzen, um ein differenziertes Audiofrequenzbereichssignal
zu erhalten und ein Berechnen der im Vergleich zu dem Frequenzschätzwert exakteren Tonfrequenz
auf der Basis des Audiofrequenzbereichssignals, des differenzierten
Audiofrequenzbereichssignals und des Frequenzschätzwertes durchzuführen. Ein
solche Vorgehen ermöglichst
durch numerisch einfach durchzuführende
Rechenschritte das Bestimmen einer im Vergleich zu dem Frequenzschätzwert deutlich
exakteren Tonfrequenz.
-
In
einer weiteren Ausführungsform
können die
Einrichtung zum Ermitteln und die Einrichtung zum Berechnen ausgebildet
sein, um das Umsetzen des Segmentes des Audiosignals in den Frequenzbereich
auf eine gleiche Weise wie das Umsetzen der differenzierten Version
des Segmentes des Audiosignals in den Frequenzbereich durchzuführen. Dies bietet
den Vorteil, dass eine numerisch effiziente Implementierung einer
Umsetzungsvorschrift eines Zeitbereichssignals in' ein Frequenzbereichssignal weiterverwendet
werden kann und dass störende
Effekte wie beispielsweise Fensterungseffekte bei einer Fourier-basierten
Transformation durch eine gleiche Wirkung auf das Audiofrequenzbereichssignal
und das differenzierte Audiofrequenzbereichssignal und die nachfolgende
Verarbei tung der beiden Signale im wesentlichen kompensiert werden
können.
-
Ferner
kann die Einrichtung zum Ermitteln ausgebildet sein, um aus dem
Audiosignal eine Mehrzahl von Audiosignalteilsegmenten zu ermitteln und
für jedes
Audioteilsignalsegment einen Frequenzschätzwert des in dem Audioteilsignalsegmentes
auftretenden Tones zu ermitteln, wobei die Einrichtung zum Berechnen
ausgebildet ist, um für
jedes Audiosignalteilsegment eine im Vergleich zu dem Frequenzschätzwert exaktere
Tonfrequenz des in dem Audiosignalteilsegment auftretenden Tones
zu berechnen und wobei ferner die Einrichtung zum Vergleichen ausgebildet
ist, um das Bestimmen des Frequenzrasters auf der Basis der Mehrzahl
der berechneten exakteren Tonfrequenzen zu bestimmen. Dies bietet
den Vorteil, dass die bestimmte Tonfrequenz nicht nur von einem
kurzen (ein Transformationsfenster langen) Zeitabschnittes abhängt, sonder
die Tonfrequenz über
mehrere Zeitabschnitte „gemittelt" berechnet werden
kann. Die ergibt eine höhere
Zuverlässigkeit
der erhaltenen Tonfrequenz.
-
In
einer weiteren Ausführungsform
der vorliegenden Erfindung kann die Einrichtung zum Berechnen ausgebildet
sein, um eine erste Klasse von Tonfrequenzen, eine zweite Klasse
von Tonfrequenzen und eine dritte Klasse von Tonfrequenzen zu definieren,
wobei die Tonfrequenzen der ersten Klasse in einer ersten spektralen
Spanne mit einer Rasterfrequenz des ersten Frequenzrasters liegen,
die Tonfrequenzen der zweiten Klasse in einer zweiten spektralen
Spanne mit einer Rasterfrequenz des zweiten Frequenzrasters liegen
und die Tonfrequenzen der dritten Klasse in einer dritten spektralen
Spanne mit einer Rasterfrequenz des dritten Frequenzrasters liegen,
wobei sich die spektralen Sannen der ersten, zweiten und dritten
Klasse nicht überschneiden,
wobei die Einrichtung ferner ausgebildet ist, um eine Häufigkeit
eines Auftretens von Tonfrequenzen in jeder der ersten, zweiten
oder dritten Klasse zu ermitteln und wobei die Einrichtung zum Vergleichen
ausgebildet ist, um dasjenige Fre quenzraster zu bestimmen, das eine
Rasterfrequenz in der Klasse aufweist, in der die meisten Tonfrequenzen
aufgetreten sind.
-
Ferner
kann die Einrichtung zum Ermitteln ausgebildet sein, um aus dem
Audiosignal 10 Audiosignalteilsegmente zu ermitteln. Dies bietet
den Vorteil, dass bereits bei einer Anzahl von 10 Audiosignalteilsegmenten
eine Klassifikation möglich
ist, die zu einer ausreichenden, d.h. hinreichend hohen Wahrscheinlichkeit
einer zutreffenden Klassifikation des korrekten Frequenzrasters
führt.
-
In
einem weiteren Ausführungsbeispiel
kann ein zu jedem Frequenzraster ein das Frequenzraster eindeutig
definierender Koeffizientensatz zugeordnet sein, wobei die Vorrichtung
ferner folgende Merkmale aufweist:
eine Einrichtung zum Auswählen des
dem bestimmten Frequenzraster zugeordneten Koeffizientensatzes;
und
eine Einrichtung zum Umsetzen des Audiosignals in den Frequenzbereich
unter Verwendung des ausgewählten
Koeffizientensatzes.
-
Dies
bietet den Vorteil, dass für
verschiedenen Frequenzraster bereits Koeffizientensätze für eine Umsetzungsvorschrift
vorab berechnet werden können,
was numerisch aufwendig ist. Diese Koeffizientensätze lassen
sich dann durch die Bestimmung des dem Audiosignal zugrundeliegenden
Frequenzrasters auf eine einfache Art und Weise auswählen, um
die Umsetzung des Audiosignals in den Frequenzbereich durchzuführen.
-
In
einer weiteren Ausführungsform
kann die Einrichtung zum Ermitteln ausgebildet sein, um das Umsetzen
des Segmentes des Audiosignals unter Verwendung eines ersten Umsetzungsalgorithmus auszuführen und
bei der die Einrichtung zum Umsetzen des Audiosignals in den Frequenzbereich
ausgebildet ist, um das Umsetzen unter Verwendung eines zweiten
Umsetzungsalgorithmus auszuführen,
wobei das Ausführen
des ersten Umsetzungsalgorithmus einen geringeren numerischen Aufwand
erfordert, als das Ausführen
des zweiten Umsetzungsalgorithmus. Dies bietet den Vorteil, dass
das Ermitteln des Frequenzschätzwertes
und das Bestimmen der Tonfrequenz mit Hilfe eines numerisch einfacheren
Algorithmus durchgeführt
werden kann, als das Verfahren zum Umsetzen des Audiosignals in
den Frequenzbereich. Dies führt
letztendlich dazu, das bestimmen des Frequenzrasters und des das
Frequenzraster definierenden Koeffizientensatzes durch ein numerisch
einfacheres Verfahren durchzuführen,
als das nachfolgende Umsetzen des Audiosignals in den Frequenzbereich.
-
Bevorzugte
Ausführungsbeispiele
der vorliegenden Erfindung werden nachfolgend anhand der beiliegenden
Zeichnungen näher
erläutert.
Es zeigt:
-
1 ein
Blockschaltbild eines Ausführungsbeispiels
der erfindungsgemäßen Vorrichtung zum
Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters;
-
2A bis 2C eine
Darstellung, wie auf effiziente Weise der Fre quenzschätzwert ermittelt werden
kann;
-
3 eine
Darstellung der Lage von Mittenfrequenzen für drei verschiedene Koeffizientensätze einer
Constant Q Transformation; und
-
4 ein
Ablaufdiagramm eines Ausführungsbeispiels
des erfindungsgemäßen Verfahrens zum
Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters.
-
In
der nachfolgenden Beschreibung werden für gleiche oder gleich wirkende
Elemente gleiche oder ähnliche
Bezugszei chen verwendet, wobei auf eine wiederholte Beschreibung
dieser Bezugszeichen verzichtet wird.
-
1 zeigt
ein Blockschaltbild eines Ausführungsbeispiels
der erfindungsgemäßen Vorrichtung 100 zum
Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters.
Die Vorrichtung 100 weist eine Einrichtung 102 zum
Ermitteln eines Frequenzschätzwertes
eines in dem Audiosignal auftretenden Tones, eine Einrichtung 104 zum
Berechnen einer im Vergleich zum Frequenzschätzwert exakteren Tonfrequenz
des in dem Audiosignal auftretenden Tons und eine Einrichtung 106 zum
Vergleichen der Tonfrequenz mit einer Mehrzahl von Frequenzrastern
auf. Die Einrichtung 102 zum Ermitteln hat einen Eingang
zum Empfangen eines Audiosignals 108 und einen ersten Ausgang 110 zum
Ausgeben des ermittelten Frequenzschätzwertes und einen zweiten
Ausgang 111 zum Ausgeben des Audiosignals (d.h. das am
Eingang 108 anliegende Audiosignal wird am zweiten Ausgang 111 der
Einrichtung zum Ermitteln wieder ausgegeben). Die Einrichtung 104 zum
Berechnen hat einen Eingang 112 zum Empfangen des von der
Einrichtung 102 zum Ermitteln ausgegebenen Schätzwertes
und einen zweiten Eingang 113 zum Empfangen des von der
Einrichtung 102 zum Ermitteln ausgegebenen Audiosignal. Ferner
hat die Einrichtung 104 zum Berechnen einen Ausgang 114 zum
Ausgeben der berechneten Tonfrequenz fp.
Die Einrichtung 106 zum Vergleichen der Tonfrequenz fp mit einer Mehrzahl von Frequenzrastern
hat einen Eingang 116 zum Empfangen der von der Einrichtung 104 zum
Berechnen berechneten Tonfrequenz fp und
einen Ausgang 118 zum Ausgeben des von der Einrichtung 106 zum
Vergleichen bestimmten Frequenzrasters.
-
Nachfolgend
wird auch die Funktionsweise der in 1 dargestellten
Vorrichtung 100 zum Bestimmen eines einem Audiosignal zugrunde
liegenden Frequenzrasters näher
eingegangen. Zunächst wird
ein Audiosignal oder ein Audiosignalsegment über den Eingang 108 der
Einrichtung 102 zum Ermitteln eines Frequenzschätzwertes
eines in dem Audiosignal auftretenden Tones zugeführt. In
der Einrichtung 102 zum Ermit teln erfolgt dann beispielsweise
unter Verwendung einer Fourier-Transformation oder ähnlichem
(beispielsweise einer Wavelet Transformation) eine Umsetzung des
(vorzugsweise im Zeitbereich) vorliegenden Audiosignals in den Frequenzbereich.
Hierbei werden die in dem Audiosignal auftretenden Frequenzen auf
einer Frequenzskala oder Frequenzachse durch die Transformation
meist aus Gründen
der Einfachheit in einer linearen Skalierung abgebildet. Durch dieses
Abbilden in der linearen Skalierung treten meist Ungenauigkeiten
bei der Verwendung eines Audiosignals als Eingangssignal auf, da
die Töne
des Audiosignals meist in einem nicht-linear skalierten Frequenzraster
in diesem Audiosignal enthalten sind. Es ist jedoch anzumerken, dass
durch die Verwendung von hinlänglich
bekannten und damit gut erforschten und optimierten Zeit-Frequenzbereichstransformationen
wie der Fourier-Transformation eine derartige Umsetzung des Audiosignals
vom Zeitbereich in den Frequenzbereich numerisch sehr effektiv durchgeführt werden kann.
Durch die Einrichtung 102 zum Ermitteln wird somit aus
dem Audiosignal zunächst
ein Frequenzschätzwert
eines in dem Audiosignal auftretenden Tones ermittelt, der die ungefähre Lage
eines in dem Audiosignal auftretenden Tones auf der Frequenzachse
wiedergibt. Dieser ermittelte Frequenzschätzwert wird dann über den
Ausgang 110 der Einrichtung 102 zum Ermitteln
an die Einrichtung 104 zum Berechnen über deren Eingang 112 übermittelt. Weiterhin
wird auch das Audiosignal selbst von der Einrichtung 102 zum
Ermitteln an die Einrichtung 104 zum Berechnen weitergegeben.
In der Einrichtung 104 zum Berechnen einer im Vergleich
zum Frequenzschätzwert
exakteren Tonfrequenz des in dem Audiosignal auftretenden Tones
kann dann die Tonfrequenz auf der Basis eines Algorithmus berechnet werden,
wie er beispielsweise in dem Artikel von M. Desainte-Catherine und
S. Marchand: "High-Precision
Fourier Analysis of Sounds Using Signal Derivatives", veröffentlicht
in: Journal of Acoustic Engineering Society, 48(7), July/August
2000 vorgeschlagen wurde. Ein derartiger Ansatz ermittelt aus dem
Frequenzschätzwert
und dem Audiosignal auf eine nachfolgend noch näher beschriebene Weise die
(im Vergleich zum Frequenzschätzwert
exaktere) Tonfrequenz fp des in dem Audiosignal
auftretenden Tones, die über
den Ausgang 114 der Einrichtung 104 zum Berechnen
ausgegeben wird. Die Tonfrequenz fp, die nun
am Ausgang 114 der Einrichtung 104 zum Berechnen
anliegt, wird der Einrichtung 106 zum Vergleichen über deren
Eingang 116 zugeführt,
wobei die Einrichtung 106 zum Vergleichen nun beispielsweise
unter Verwendung von mehreren bereitgestellten Frequenzrastern dasjenige
Frequenzraster bestimmt, das am besten mit der exakteren Tonfrequenz übereinstimmt.
Dieses Bestimmen desjenigen Frequenzrasters, das mit der exakteren
Tonfrequenz am besten übereinstimmt,
kann beispielsweise dadurch erfolgen, dass einzelne Rasterfrequenzen
der verschiedenen Frequenzraster mit der Tonfrequenz fp verglichen
werden (beispielsweise in Form einer Subtraktion eines Rasterfrequenzwertes
von einem Wert der Tonfrequenz fp), wobei
dann dasjenige Frequenzraster ausgewählt wird, das eine Rasterfrequenz
aufweist, die den geringsten spektralen Abstand zu der Tonfrequenz
fp hat. Würde das Vergleichen in Form
einer Subtraktion der Rasterfrequenz von der Tonfrequenz fp durchgeführt, kann beispielsweise dasjenige
Frequenzraster gewählt
werden, dessen Rasterfrequenz bei der Subtraktion mit der Tonfrequenz
fp einen Wert annimmt, der näher am Wert
0 liegt als alle anderen Werte, die bei einer vergleichbaren Subtraktion
von einer Rasterfrequenz mit der Tonfrequenz fp erhalten
werden. Die auf diese Weise bestimmte Rasterfrequenz kann dann am Ausgang 118 der
Einrichtung 106 zum Vergleichen ausgegeben werden.
-
2 zeigt eine Möglichkeit, einen Frequenzschätzwert eines
in dem Audiosignal auftretenden Tones zu ermitteln. Hierzu ist in
den 2A bis 2C jeweils
ein Diagramm dargestellt, auf dessen Abszisse die Frequenz und auf
dessen Ordinate eine Amplitude des Audiosignalsegmentes bei der
entsprechenden Frequenz aufgetragen ist. Die Darstellung entspricht
hierbei einem Ergebnis, wie es durch die Zeit-Frequenzbereichsumsetzung
in der Einrichtung 102 zum Ermitteln resultiert; d.h. insbesondere ist
die Frequenz achse oder Abszisse des vorzugsweise durch die Verwendung
der Fourier-Transformation (beispielsweise einer Short-Time Fast
Fourier-Transformation STFT = Kurzzeit-Fourier-Transformation) verwendeten Frequenzrasters
linear skaliert. Tritt nun ein Frequenzverlauf ein, wie er in 2A dargestellt
ist, kann deutlich erkannt werden, dass bei der Frequenz f1 eine tonale Komponente vorhanden ist, was
sich durch den deutlichen „peak" (oder Spitzenwert)
im Amplitudenspektrum zeigt. Demgegenüber ist bei einem Amplitudenspektrum
wie er in 2B gezeigt ist, eine eindeutige
Aussage bezüglich
einer tonalen Komponente bei der Frequenz f1 nicht
möglich,
da der Amplitudenverlauf linksseitig der Frequenz f1 niedrigere
Werte als bei der Frequenz f1 und rechtsseitig
von der Frequenz f1 höhere Amplitudenwerte als bei
der Frequenz f1 hat. In einem derartigen
Fall wäre
dann beispielsweise eine tonale Komponente bei der Frequenz f2 anzunehmen, da diese einen (wenn auch nicht
so eindeutig ausgeprägten) „peak" im Amplitudenspektrum
aufweist. Demgegenüber
ist in 2C dargestellt, dass bei einem "Einbruch" des Amplitudenspektrums
bei der Frequenz f1 keine tonale Komponente
zu erwarten ist, da die Amplitude bei der Frequenz f1 niedriger
als bei benachbarten Frequenzwerten ist. Eine derartige Suche nach
tonalen Komponenten in einem Audiosignal oder in einem Audiosignalsegment
wird auch als „peak
picking" (= Spitzenwert-Suche)
bezeichnet. Um eine eindeutigere Entscheidung über das Vorliegen einer tonalen
Komponente treffen zu können, lassen
sich auch noch zusätzliche
Kriterien zur Bestimmung einsetzen, ob eine tonale Komponente vorliegt
oder nicht. Dies kann beispielsweise eine Quotientenbedingung sein,
derart, dass ein Amplitudenwert beispielsweise der Amplitudenwert
bei der Frequenz f1 durch einen weiteren
Amplitudenwert bei einer anderen Frequenz geteilt und somit ein
Quotient gebildet wird. Nachfolgend kann dieser Quotient beispielsweise
mit einem vorbestimmten Schwellwert verglichen werden und bei einem Überschreiten
des Quotienten über
den vorbestimmten Schwellwert auf das Vorliegen einer tonalen Komponente
geschlossen werden. Andererseits kann bei einem Unterschreiten des
Quo tienten unter den vorbestimmten Schwellwert darauf geschlossen
werden, dass keine tonale Komponente bei der Frequenz f1 vorliegt.
In diesem Fall lassen sich auch Amplitudenspektrumsverläufe wie
in 2B dargestellt, besser auswerten. Alternativ kann
aber auch direkt der Amplitudenwert bei der Frequenz f1 einer
Schwellwert-basierten Untersuchung unterzogen werden, wobei dann
das zuvor gesagte nicht mehr für
den Quotienten sondern direkt für
den Amplitudenwert bei der Frequenz f1 gilt. Entsprechend
ist dann eventuell auch ein veränderter
Entscheidungsschwellwert anzusetzen.
-
Um
das Ermitteln eines Frequenzschätzwertes
optimal auszugestalten, kann als weitere Option bei der Suche nach
möglichen
Tonanfängen
in dem Audiosignal eine Mehrzahl von (beispielsweise aufeinander
folgenden) Audiosignalsegmenten untersucht werden, wobei dann die
Segmente einzeln vom Zeitbereich in den Frequenzbereich umgesetzt
werden und in einer Matrixstruktur das Amplitudenspektrum, d.h.
die Zuordnung von Amplitudenwerten zu Frequenzen über den
Zeitbereich ermittelt werden kann. In diesem Ausführungsbeispiel
können
dann die Zeilen der Matrix in Frequenzen des durch die Zeitbereichs-Frequenzbereichstransformation
vorgegebenen Frequenzen entsprechen, wobei die Spalten den einzelnen
Audiosegmenten entsprechen.
-
In
den einzelnen Elementen der Matrix werden dann die entsprechenden
Amplitudenwerte in den entsprechenden Frequenzen eingetragen, wobei die
Spalte ein zeitliche Audiosignalsegment kennzeichnet, in dem der
Amplitudenwert bei der entsprechenden Frequenz aufgetreten ist.
Um eine Verbesserung der Detektion einer tonalen Komponente (unter
Zuhilfenahme des vorstehend beschriebenen „peak picking") kann weiterhin
in der Matrix mit dem transformierten Signal eine Glättung mit
einem Tiefpass (beispielsweise in Zeitrichtung über mehrere Spalten der Matrix)
erfolgen und ferner optional eine Suche nach kontinuierlichen Anstiegsketten
durchgeführt
werden, was dann beispielsweise einem Mindestlän genkriterium für das Auftreten
einer tonalen Komponente in dem Audiosignal entspricht. Beispielsweise
kann ferner das Auftreten einer tonalen Komponente dann erkannt
werden, wenn eine zeitliche Dauer eines Auftretens einer tonalen
Komponente über
einem zeitlichen Mindestlängenschwellwert für den entsprechenden
Ton liegt.
-
In
bezug auf die Funktionsweise der Einrichtung 104 zum Berechnen
der exakteren Tonfrequenz lässt
sich anmerken, dass diese beispielsweise analog zu der vorstehend
genannten Schrift von M. Desainte-Catherine möglich ist. Hierbei wird unter
Verwendung der Fourier-Transformation des Audiosignalsegmentes oder
des Audiosignals, einer Fourier-Transformation
des abgeleiteten (d.h. differenzierten) Audiosignalsegmentes oder
des abgeleiteten Audiosignals jeweils an der Stelle des Frequenzschätzwertes
verwendet. Durch das Ableiten des Audiosignals oder des Audiosignalsegmentes
(das in zeitlicher Darstellung vorliegt) kann somit eine Phaseninformation
aus dem Audiosignalsegment oder dem Audiosignal berücksichtigt
werden und somit eine präzisere
Tonfrequenz fp als der Frequenzschätzwert für den in
dem Audiosignal auftretenden Ton ermittelt werden. Diese Präzisierung
ist dann durch ein Dividieren des Fouriertransformierten abgeleiteten
Audiosignalsegmentes durch die Fourier-Transformierte des originalen
Audiosignalsegmentes jeweils an der Stelle des Frequenzschätzwertes
möglich.
Hierbei ist weiterhin ein Faktor von 1/2π zu berücksichtigen. Eine exaktere
Tonfrequenz ergibt sich dann daraus, dass durch die Division der Fourier-Transformierten
der abgeleiteten Version des Audiosignals durch die Fourier-Transformierte des ursprünglichen
Audiosignals jeweils an der Stelle des Frequenzschätzwertes
der sich bei der Fourier-Transformation auswirkende Fenster-Effekt
bei der Wahl des der Fourier-Transformation zugrunde liegenden Filterfenster
kompensiert wird. Hierdurch lässt
sich somit aus dem zuvor durch einfache Fourier-Transformation ermittelten
Frequenzschätzwert des
in dem Audiosignal auftretenden Tones eine deutlich exaktere Tonfrequenz
fp des in dem Audio signal auftretenden Tones
ermitteln. Ein derartiges Vorgehen ermöglicht sogar die Reduzierung
der für die
Fourier-Transformation
notwendigen Anzahl von Stützwerten
von beispielsweise 1024 Punkten auf 256 Punkte, wobei durch das
vorstehend genannte Dividieren und somit das Berechnen der exakteren Tonfrequenz
fp trotzdem eine Erhöhung der Präzision bei der Bestimmung der
Tonfrequenz fp möglich ist. Die von M. Desainte-Catherine
vorgeschlagene Vorgehensweise ermöglicht somit (ohne das Verwenden einer
hohen Überabtastung)
das präzise
Bestimmen von exakten Tonfrequenzen fp unter
Verwendung der Ableitung des Audiosignals, was sich numerisch deutlich
aufwandsreduzierend gegenüber
der hohen Überabtastung
mit beispielsweise dem zwei- oder dreifachen Überabtastfaktor der maximal
detektierbaren Frequenz aus dem Audiosignal auswirkt.
-
Wie
vorstehend bereits dargelegt wurde, lässt sich die im Vergleich zum
Frequenzschätzwert exaktere
Tonfrequenz fp nun zum Bestimmen eines Frequenzrasters
aus einer Mehrzahl von Frequenzrastern verwenden. Eine solche Mehrzahl
von Frequenzrastern ist beispielsweise durch die Frequenzraster
mit den Frequenzen f–, f, f+ in 3 dargestellt. Hierbei
kennzeichnet das Frequenzraster mit den Frequenzen f die spektrale
Lage der exakten Halbtonfrequenzen der westlichen Notenskala. Beispielsweise
wird durch die in 3 dargestellt Frequenz f1 der Kammerton a' gekennzeichnet, der eine Frequenz von
440 Herz aufweist. Die Rasterfrequenz f0 kennzeichnet
dann einen Halbton der Notenskala, der eine niedrigere Frequenz
als der Kammerton a' aufweist.
Demgegenüber
ist das in 3 dargestellte Frequenzraster
mit den Rasterfrequenzen f– gegenüber dem
Frequenzraster mit den Rasterfrequenzen f spektral leicht versetzt.
Die Rasterfrequenzen f– weisen dabei gegenüber den
Rasterfrequenzen f eine geringfügig
niedrigere Frequenz auf, die beispielsweise einem Drittel Halbtonschritt
entspricht (d.h. die Rasterfrequenzen f– sind
um –33
cent gegenüber
den Rasterfrequenzen f verschoben). Dies bedeutet dann, dass beispielsweise
die Frequenz f1– eine Frequenz von 431,6
Hz, die Rasterfrequenz f0– einen Wert von 407,0
Hz und die Rasterfrequenz von f2– einen
Wert von 457,3 Hz aufweist. Demgegenüber weist das Frequenzraster
mit den Rasterfrequenzen f+ einen positiven
spektralen Versatz gegenüber
dem Frequenzraster mit den Rasterfrequenzen f auf, beispielsweise
ebenfalls um einen Drittel Halbtonschritt, d.h. um +33 cent. Die
entsprechenden Frequenzen lassen sich somit wie folgt angeben: f1+ = 448,6 Hz, f0+ =
423,4 Hz und f2+ = 475,2 Hz. Dies bedeutet,
dass die drei Frequenzraster in einem vorbestimmten Zusammenhang
stehen, nämlich
dass das Frequenzraster mit den Rasterfrequenzen f– um –33 cent
gegenüber
dem Frequenzraster mit den Rasterfrequenzen f der exakten Halbtonfrequenz
(d.h. die Rasterfrequenz liegt bei 0 cent) verschoben ist, während das
Frequenzraster mit den Rasterfrequenzen f+ um +33
cent gegenüber
dem Frequenzraster mit den Rasterfrequenzen f verschoben ist. Wird
nun als exakte Tonfrequenz die Frequenz fp ermittelt,
kann zunächst
eine Aussage getroffen werden, dass die exakte Tonfrequenz eine
in dem Audiosignal oder dem Audiosignalsegment auftretenden Tones
nicht mit der normierten Halbtonfrequenz eines Halbtones der Notenskala übereinstimmt.
Vielmehr liegt die exaktere Tonfrequenz geringfügig über der Frequenz des Kammertons
a' von 440 Herz.
Um eines der drei in 3 dargestellten Frequenzraster
auszuwählen, kann
nun die exakte Tonfrequenz fp mit den Rasterfrequenzen
der entsprechenden Frequenzraster verglichen werden. Hierbei wird
dann festgestellt, dass die Rasterfrequenzen f1–,
f1 und f1+ diejenigen
Rasterfrequenzen sind, die bei jedem Frequenzraster am nähesten an
der exakten Tonfrequenz fp liegen. Wird nun
die Tonfrequenz fp mit jedem der drei Rasterfrequenzen
f1–,
f1 und f1+ verglichen,
lässt sich
ferner bestimmen, dass die Rasterfrequenz f1 des
Frequenzrasters mit den Rasterfrequenzen f am nähesten an der exakten Tonfrequenz
fp liegt. Hierauf kann dann die Rasterfrequenz
mit den Rasterfrequenzen f als dasjenige Frequenzraster bestimmt
werden, das am besten mit der exakten Tonfrequenz fp übereinstimmt.
-
Um
eine bessere Auflösung,
d.h. eine höhere Granularität der bestimmbaren
Frequenzraster zu erreichen, können
auch mehr als drei Frequenzraster verwendet werden, die auch keinen
symmetrischen Abstand von ± 33
cent zueinander zu haben brauchen. Es zeigt sich jedoch, dass eine
für eine
Bestimmung von Harmonien oder Akkorden notwendige Ermittlung von
in einem Audiosignal aufgetretenen Tönen bzw. Halbtönen durch
die in 3 dargestellten drei Frequenzraster ausreichend
genau möglich
ist, wodurch sich unter Berücksichtigung
von nur drei Frequenzrastern ein numerischer Aufwand zur Bestimmung
der in dem Audiosignal auftretenden Halbtöne optimieren lässt.
-
Weiterhin
lässt sich
anmerken, dass die in 3 dargestellte Rasterfrequenzen
der drei Frequenzraster beispielsweise als Mittenfrequenzen bei einer
Constant Q Transform (CQT) erreichbar sind, die eine nicht-lineare
Frequenzskalierung auf der Frequenzachse aufweist. Um durch eine
solche CQT zur Ermittlung von in dem Audiosignal auftretenden Halbtönen einsetzen
zu können,
ist es somit notwendig, zuerst die CQT sozusagen zu "eichen", um das Frequenzraster
festzulegen, das die Mittenfrequenzen der der CQT zugrunde liegenden
nicht-linearen Zeit-Frequenzbereichstransformation definiert. Hierbei
ist zu berücksichtigen,
dass im Vorfeld bereits für jedes
Frequenzraster ein eigener Koeffizientensatz der CQT zu ermitteln
ist. Dieser dem Frequenzraster entsprechende Koeffizientensatz ermöglicht dann
bei Anwendung der CQT eine Auflösung
des Audiosignals in diejenigen Rasterfrequenzen, die das dem Koeffizientensatz
entsprechende Frequenzraster bilden. In bezug auf 3 lässt sich
beispielsweise durch einen ersten Koeffizientensatz eine spektrale Auflösung des
Audiosignals in die Mittenfrequenzen f0–,
f1–,
f2–,
usw. durchführen', während sich
für einen zweiten
Koeffizientensatz durch die CQT eine spektrale Auflösung des
Audiosignals in die Mittenfrequenzen f0,
f1, f2, ... durchführen lässt. Durch
einen dritten Koeffizientensatz lässt sich dann analog eine spektrale
Auflösung
des Audiosignals in die Frequenzen f0+,
f1+, f2+, ... etc.
durchführen.
Hierbei bleibt die Berechnungsvorschrift der CQT identisch; lediglich ein
unterschiedlicher Koeffizientensatz wird bei der Ausführung der
CQT verwendet. Diese unterschiedliche Koeffizientensatz kann beispielsweise
die Länge von
Filterfenstern N[k] für
die CQT oder ein minimaler Initialisierungsfrequenzwert fmin für
die Anordnung der Rasterfrequenzen auf der Frequenzachse sein.
-
Gegenüber einer
numerisch aufwendigen Eichung der CQT beispielsweise unter Verwendung der
CQT selbst, kann somit durch den vorliegenden Ansatz unter Verwendung
einer numerisch einfach zu realisierenden Ermittlung eines Frequenzschätzwertes,
einer nachfolgenden Bestimmung einer exakteren Tonfrequenz auf der
Basis des Frequenzschätzwertes
und des Audiosignals und der hier anschließenden "Eichung", d.h. der Auswahl eines geeigneten
Koeffizientensatzes für
die CQT, eine deutliche Reduktion des numerischen Aufwandes für eine derartige
Eichung realisiert werden, wobei durch das beschriebene Vorgehen
zugleich die Tonfrequenz präzise
bestimmbar ist und die Initialisierung oder „Eichung" der CQT schneller durchführbar ist,
als bei anderen Initialisierungsverfarhen. Diese deutliche numerische
Vereinfachung resultiert insbesondere daraus, dass beim Ermitteln
des Frequenzschätzwertes
eine Fourier-basierte Transformation (beispielsweise eine FFT bzw.
eine STFT) verwendet werden kann, die numerisch besonders effizient durchführbar sind,
während
durch eine CQT eine Abbildung der Frequenzen des Audiosignals in
einer nicht-linearen Darstellung möglich ist, dies jedoch nur
unter Inkaufnahme eines hohen numerischen Aufwandes erfolgen kann.
-
Als
weiterer Aspekt lässt
sich anführen,
dass die Berechnungen der exakteren Tonfrequenz fp sich noch
weiter optimieren lässt.
Insbesondere bei der Verwendung einer FFT oder einer STFT mit einem kurzen
Zeitfenster von beispielsweise 256 Abtastwerten kann möglicherweise
eine eindeutige Bestimmung der exakten Tonfrequenz des in dem Audiosignal
enthaltenen Tones nicht 100%-ig geschlossen werden, da die zeitliche
Dauer des für
die Transformation verwendeten Audiosignalsegmentes zu kurz ist.
Dieses Problem kann beispielsweise durch eine statistische Absicherung
des Auftretens der berechneten exakteren Tonfrequenz fp abgemildert
werden. Hierfür
werden in beispielsweise 10 aufeinanderfolgende Segmenten des Audiosignals
jeweils ein Frequenzschätzwert
und hieraus in Verbindung mit dem entsprechenden Audiosignalsegment
eine Tonfrequenz fp für jedes Audiosignalsegment
bestimmt. Anschließend
werden beispielsweise drei Frequenzklassen gebildet, wobei jede
Frequenzklasse eine der in 3 dargestellten
Rasterfrequenzen f1–, f1 oder
f1+ umfasst und jede dieser drei Rasterfrequenzen
in einer anderen Klasse, d.h. in einem der Klasse entsprechenden
spektralen Abschnitt auf der Frequenzachse, entspricht. Die ermittelten
exakteren Tonfrequenzen fp werden nun derart
klassifiziert, dass eine Häufigkeit
des Auftretens von Tonfrequenzen fp in jeder
Klasse gezählt
wird. Anschließend
wird dasjenige Frequenzraster ausgewählt, dessen Rasterfrequenz
in der Klasse liegt, in der auch am Häufigsten die aus den 10 Audiosignalsegmenten
berechneten Tonfrequenzen fp aufgetreten
ist. Durch ein derartiges Bilden eines sogenannten Pitch-Histogrammes
lässt sich
somit eine Verbesserung der Bestimmung der Rasterfrequenzen (und
damit auch eine präzisere
Auswahl der dem Frequenzraster entsprechenden Koeffizientensatz)
durchführen,
ohne auf die numerische Effizienz der Verwendung eines zeitlich
kurzen Filterfensters für
die Bestimmung eines Frequenzschätzwertes
verzichten zu müssen.
-
4 zeigt
ein Ablaufdiagramm eines Ausführungsbeispiels
des erfindungsgemäßen Verfahrens 400 zum
Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters.
Hierbei umfasst das in 4 dargestellt Verfahren in einem
ersten Schritt ein Ermitteln 402 eines Frequenzschätzwertes
eines in dem Audiosignal auftretenden Tons. Dieses Ermitteln 402 kann
dabei, wie vorstehend ausgeführt
wurde, unter Verwendung eines numerisch effizient durchzuführenden
Zeit-Frequenzbereichsumsetzungsverfahren
wie beispielsweise ei ner FFT bzw. einer STFT durchgeführt werden.
Als Ergebnis kann durch das vorstehend ebenfalls näher spezifizierte
Verfahren des „peak
pickings" ein Frequenzschätzwert ermittelt
werden. Dieser Frequenzschätzwert
wird in einem nachfolgenden Schritt des Berechnens 404 einer
im Vergleich zum Frequenzschätzwert
exakteren Tonfrequenz des in dem Audiosignal aufgetretenen Tones
weiterverwendet und hieraus beispielsweise durch das vorstehend
beschriebene Verfahren von M. Desainte-Catherine eine Tonfrequenz
fp berechnet. In einem anschließenden Schritt
erfolgt ein Vergleichen 406 der berechneten Tonfrequenz
fp mit einer Mehrzahl von unterschiedlichen
Frequenzraster, um dasjenige Frequenzraster zu bestimmen, das am
besten mit der exakteren Tonfrequenz übereinstimmt.
-
Abhängig von
den Gegebenheiten kann das erfindungsgemäße Verfahren zum Bestimmen
eines einem Audiosignal zugrundeliegenden Frequenzrasters in Hardware
oder in Software implementiert werden. Die Implementierung kann
auf einem digitalen Speichermedium, insbesondere einer Diskette
oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die
so mit einem programmierbaren Computersystem zusammenwirken können, dass
das entsprechende Verfahren ausgeführt wird. Allgemein besteht
die Erfindung somit auch in einem Computerprogrammprodukt mit einem
auf einem maschinenlesbaren Träger
gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn
das Computerprogrammprodukt auf einem Rechner abläuft. Mit
anderen Worten ausgedrückt, kann
die Erfindung somit als ein Computerprogramm mit einem Programmcode
zur Durchführung
des Verfahrens realisiert werden, wenn das Computerprogramm auf
einem Computer abläuft.
-
Zusammenfassend
lässt sich
somit sagen, dass zur Bestimmung von Halbtönen in einem Audiosignal eine
möglichst
genaue Abbildung der Halbtöne
im Frequenzbereich notwendig ist. Hierbei sollte vor einer Transformation
des Audiosignals in den Frequenzbereich eine Abschätzung für die "Fehlanpas sung" des dem Audiosignal
zugrunde liegenden Frequenzrasters vorab durchgeführt werden,
um sicher zu stellen, dass die tonalen Komponenten möglichst
gut zu den Mittenfrequenzen der durch die Spektralumsetzung des
Audiosignals von dem Zeitbereich in den Frequenzbereich übereinstimmen.
Zunächst
kann eine Erkennung von auftretenden tonalen Komponenten durch das
vorstehend näher
erläuterte
Verfahren des „peak
pickings" aus einem STFT-Amplitudenspektrum
erfolgen, woraus sich ein Frequenzschätzwert für einen in dem Audiosignal auftretenden
Ton ermitteln lässt.
Dieser Frequenzschätzwert
kann dann verwendet werden, um eine zu dem Frequenzschätzwert entsprechende
exakte Frequenz fp zu berechnen, wobei dieses
Berechnen der exakten Frequenz unter Verwendung eines transformierten
abgeleiteten (d.h. differenzierten) Signals erfolgen kann, wie dies
beispielsweise in dem von M. Desainte-Catherine vorgeschlagenen
Verfahren möglich
ist. Für
jeden dieser exakten Tonfrequenz-Werte kann dann ein "Verstimmungsfaktor" bestimmt werden
und ein Histogramm für
10 aufeinander folgende Zeitrahmen (oder Zeitsegmente) des Audiosignalsegmentes
erstellt werden. Hierbei wird in etwa durch die 10 Rahmen der Audiosignalsegmente
eine Zeitspanne von 1,4 Sek. abgedeckt, wobei ein in dem Audiosignal
auftretender Ton innerhalb dieser Zeitspanne mit hoher Wahrscheinlichkeit
erkennbar ist. Aus dem Histogramm kann dann ein Maximum erkannt
werden, das anzeigt, welches von beispielsweise drei Koeffizientensätzen für eine nahfolgenden
Transformation mit beispielsweise dem CQT-Verfahren zu verwenden
ist. Hierbei ist beispielsweise ein erster Koeffizientensatz derart
ausgestaltet, dass er auf eine Mittenfrequenz von exakt 440 Herz
gestimmt ist (d.h. seine Stimmung ist auf eine exakte Frequenz von
440 Hz ±0
cent), ein zweiter Koeffizientensatz ist beispielsweise 33 cent
niedriger gestimmt und ein dritter Koeffizientensatz ist derart
gestimmt, dass mit diesem dritten Koeffizientensatz Rasterfrequenzen
realisierbar sind, die 33 cent über
den Rasterfrequenzen des ersten Koeffizientensatzes liegen.