DE102004028719A1

DE102004028719A1 - Vorrichtung und Verfahren zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters

Info

Publication number: DE102004028719A1
Application number: DE200410028719
Authority: DE
Inventors: Claas Derboven; Sebastian Streich; Markus Cremer
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2004-06-14
Filing date: 2004-06-14
Publication date: 2006-01-05
Also published as: WO2005122137A1

Abstract

Eine Vorrichtung (100) zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters umfasst eine Einrichtung (102) zum Ermitteln eines Frequenzschätzwertes eines in dem Audiosignal auftretenden Tons und eine Einrichtung (104) zum Berechnen einer im Vergleich zum Frequenzschätzwert exakteren Tonfrequenz (f¶p¶) des in dem Audiosignal auftretenden Tons unter Verwendung des Frequenzschätzwertes und des Audiosignals. Ferner umfasst die Vorrichtung (100) zum Bestimmen eine Einrichtung (106) zum Vergleichen der Tonfrequenz mit einer Mehrzahl von unterschiedlichen Frequenzrastern, wobei jedes Frequenzraster einer anderen Stimmung zugeordnet ist, wobei die Einrichtung (106) zum Vergleichen ausgebildet ist, um das Frequenzraster zu bestimmen, das mit der Tonfrequenz am besten übereinstimmt. Hierdurch ist es möglich, auf numerisch effiziente und schnelle Weise ein Frequenzraster zu ermitteln, dem ein Audiosignal zugrunde liegt.

Description

Die vorliegende Erfindung bezieht sich auf das technische Gebiet der Audiosignalverarbeitung und insbesondere bezieht sich die vorliegende Erfindung auf die Bestimmung eines einem Audiosignal zugrunde liegenden Frequenzrasters, wobei durch das Frequenzraster die spektrale Lage von Halbtönen der Notenskala definiert ist und hierdurch eine Stimmung bzw. Verstimmung eines Audiosignals in bezug auf eine exakte Stimmung möglich ist.

Um mit Hilfe von technischen Mitteln eine Harmonie oder Klanginformation aus einem Musikstück bzw. einem Audiosignal mit Musikinformationen zu erkennen, ist es zunächst notwendig, dass mit Hilfe von technischen Hilfsmitteln exakt bestimmt werden kann, welche Frequenzen innerhalb des Musikstücks auftreten. Hierbei ist es besonders wichtig, auf eine exakte Stimmung der Analysehilfsmittel oder -werkzeuge zu achten, da bereits bei einer kleinen Fehl-Stimmung des Analysewerkzeugs bereits eine fehlerhafte Erkennung der dem Musikstück zugrunde liegenden Harmonien oder Akkorde resultiert.

Meist werden zur Analyse eines Musikstücks bzw. eines entsprechenden Audiosignals Zeit-Frequenzbereichstransformationen wie die Fourier-Transformation, die Wavelet-Transformation und ähnliches verwendet. Bei derartigen Transformationen wird ein Zeitbereichssignal, wie beispielsweise eines in Zeitbereichsdarstellung vorliegendes Audiosignal, in den Frequenzbereich transformiert oder umgesetzt, wobei durch die Transformationen eine Analyse erfolgt, welche spektralen Anteile von der Transformation zugrunde liegen den Basisfunktionen in dem Audiosignal enthalten sind. Hierbei wird insbesondere häufig die Fourier-Transformation oder deren numerisch effizientere Variante FFT (FFT = Fast Fourier-Transformation = schnelle Fourier-Transformation) verwendet, bei der, abhängig von einer vordefinierten Fensterlänge eines Transformationsfensters eine spektrale Auflösung erreicht wird, bei der das Audiosignal auf ein Auftreten von Spektralanteilen des Audiosignals in einem fest vorgegebenen Frequenzraster untersucht wird. Dies bedeutet mit anderen Worten, dass bei der Verwendung einer Fourierbasierten Transformation bereits feste Untersuchungsfrequenzwerte als Frequenzraster der vorgegeben sind, und durch die Transformation untersucht wird, ob in dem Audiosignal Frequenzanteile bei den vorgegebenen Frequenzen des Frequenzrasters enthalten sind.

Nachteilig bei der Verwendung der Fourier-basierten Transformationen ist jedoch der äquidistante Abstand der einzelnen Untersuchungsfrequenzen, d.h. des der Fourier-basierten Transformation zugrunde liegenden Frequenzrasters. Um eine Analyse von Audiosignalen und der den Audiosignalen inhärenten Harmonien erkennen zu können, ist ein "Mapping" des Frequenzrasters auf die Frequenzskala notwendig, wie sie für die westliche Notenskala verwendet wird. Dies beinhaltet ein "Mapping" des äquidistanten, linearen, Frequenzrasters auf ein logarithmisches und somit nicht-lineares Frequenzraster. Eine Transformation die ein derartiges Mapping durchführen kann, ist beispielsweise die Constant Q Transform, wie sie in Judith C. Brown: "Calculation of a constant Q spectral transform", in: Journal of the Acoustical Society of America, '98(1): Seiten 425 bis 432, Januar 1991, oder in Judith C. Brown and Miller S. Puckette- "An efficient Algorithm for the Calculation of' a Constant Q transform", in: Journal of the Acoustical Society of America, '92(5): Seiten 2698 bis 2701, November 1992 näher beschrieben ist. Hierin wird die Constant Q Transformation CQT vorgestellt, die ähnlich einer Fourier-Transformation ein in Zeitbereichsdarstellung bereitgestelltes Signal in eine Frequenzbereichsdarstellung umsetzt, wobei jedoch im Gegensatz zu Fourier-basierten Transformationen ein logarithmisches und somit nicht-lineares Frequenzraster bei der CQT zugrunde gelegt wird. In diesem Zusammenhang kennzeichnet der Buchstabe Q das Verhältnis einer Frequenz zu einer Bandbreite, d.h. das Verhältnis einer Frequenz zur nächst benachbarten Frequenz des der CQT zugrunde gelegten (logarithmischen) nicht-linearen Frequenzrasters. Da auch der westlichen Notenskala ein derartiges logarithmisches nichtlineares Frequenzraster zugrunde liegt, lässt sich die CQT sehr gut zur Erkennung von Tönen bzw. Halbtönen in einem Audiosignal einsetzen. Der Einsatz der CQT wird insbesondere dadurch begünstigt, dass auch der Halbtonabstand zwischen den einzelnen Halbtönen in den verschiedenen Oktaven der Notenskala zunehmend größer wird, d.h. ein Halbtonabstand im Bereich des Kammertones bei 440 Herz (Kammerton a') kleiner ist als ein Halbtonabstand in einer Oktav über dem Kammerton a'. Insbesondere durch die Tatsache, dass die Halbtonabstände auch logarithmisch angeordnet sind, ist daher die CQT besonders für die Aufdeckung von auftretenden Tönen in dem Audiosignal interessant, wobei dann auch eine Ermittlung einer Oktavinformation des aufgetretenen Tones durch die CQT möglich ist.

Problematisch ist die Anwendung der CQT jedoch dann, wenn erstens das der CQT zugrundeliegende Frequenzraster geringfügig von dem Frequenzraster der tatsächlichen Notenskala abweicht. Dies kann beispielsweise aus einer Fehlanpassung der Filterkoeffizienten der CQT resultieren. Die Filterkoeffizienten für die CQT stellen dabei die konkrete Frequenzauflösung der CQT, d.h. die exakte Lage der Untersuchtungsfrequenzen oder das Frequenzrasters der CQT sicher. Hierbei ist anzumerken, dass für jeden Filterkoeffizientensatz entweder eine minimale Frequenz f_min vorgegeben ist, auf deren Basis die weiteren Frequenzen des der CQT zugrundegelegten Frequenzrasters, beispielsweise durch die in Judith C. Brown's Artikel "Calculation of a Constant Q Spectral Transform" genannte Gleichung 1 berechnet werden kann. Alternativ zur Angabe der Minimumfrequenz f_min für einen Koeffizientensatz und somit einem zu dem Koeffizientensatz entsprechenden Frequenzraster der CQT kann auch ein Satz von unterschiedlichen Fensterlängen N[k] in einem Koeffizientensatz enthalten sein, wobei die unterschiedlichen Fensterlängen N[k] durch die Gleichung 3 in dem oben genannten Artikel mit der Minimumfrequenz f_min zusammenhängt. Erfolgt nun beim Berechnen oder Bereitstellen der Koeffizienten für die CQT eine geringfügige Verstimmung, derart, dass beispielsweise nicht die exakten Halbtonfrequenzen der Notenskala getroffen werden, sondern die durch die Koeffizienten realisierten Rasterfrequenzen geringfügig über oder unter den Halbtonfrequenzen der Notenskala liegen, kann dies gravierende negative Effekte (beispielsweise durch einen auftretenden Leck-Effekt bei einer Transformation) bei der Ermittlung von in dem Audiosignal auftretenden Tönen und damit zu einer deutlichen Verschlechterung einer Erkennung von Harmonien oder anderen polyphonen Strukturen in dem Audiosignal führen. Eine solche Verstimmung des Analysewerkzeugs führt dann insbesondere dazu, dass nicht mehr Energien bzw. Amplituden der eigentlichen gespielten Tönen korrekt in den Frequenzbereich abgebildet werden, sondern beispielsweise durch Randeffekte oder Filterlängeneffekte resultierende "Verschmierungen" zu einem Auftreten von Amplitudenwerten bei den "verstimmten" Rasterfrequenzen resultieren.

Ein weiterer, zweiter Aspekt kann darin gesehen werden, dass beispielsweise der Kammerton a' zwar bei 440 Herz liegt, dass aber, beispielsweise durch künstlerische Freiheit, ein Orchester für seine Interpretation von Musikstücken den Kammerton a' auf eine "eigene" Kammertonfrequenz von beispielsweise 444 Herz legt. Auch in diesem Fall resultieren dann die vorstehend beschriebenen Probleme, da zwar der Koeffizientensatz, auf dessen Basis dass Frequenzraster der CQT "geeicht" wurde, bei den nach der Notenskala "korrekten" Halbtonfrequenzen Rasterfrequenzen aufweist, aber durch die willkürliche "Verstimmung" des Kammertones durch das Orchester wieder eine Fehlanpassung resultiert.

Es ist daher die Aufgabe der vorliegenden Erfindung, eine Möglichkeit zu schaffen, um das einem Audiosignal zugrunde liegende Frequenzraster zu bestimmen, wobei das Bestimmen des dem Audiosignal zugrundeliegenden Frequenzrasters numerisch einfach und schnell durchführbar sein soll.

Diese Aufgabe wird durch eine Vorrichtung zum Bestimmen eines einem Audiosignal zugrundeliegenden Frequenzrasters gemäß Anspruch 1 und ein Verfahren zum Bestimmen eines einem Audiosignal zugrundeliegenden Frequenzrasters gemäß Anspruch 13 gelöst.

Die vorliegende Erfindung schafft eine Vorrichtung zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters mit folgenden Merkmalen:
einer Einrichtung zum Ermitteln eines Frequenzschätzwertes eines in dem Audiosignal auftretenden Tones;
einer Einrichtung zum Berechnen einer im Vergleich zum Frequenzschätzwert exakteren Tonfrequenz eines in dem Audiosignal auftretenden Tons unter Verwendung des Frequenzschätzwertes und des Audiosignals; und
einer Einrichtung zum Vergleichen der Tonfrequenz mit einer Mehrzahl von unterschiedlichen Frequenzrastern, wobei jedes Frequenzraster einer anderen Stimmung zugeordnet ist, wobei die Einrichtung zum Vergleichen ausgebildet ist, um das Frequenzraster zu bestimmen, das mit der Tonfrequenz am besten übereinstimmt.

Ferner schafft die vorliegende Erfindung ein Verfahren zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters mit folgenden Schritten
Ermitteln eines Frequenzschätzwertes eines in dem Audiosignal auftretenden Tones;
Berechnen einer im Vergleich zum Frequenzschätzwert exakteren Tonfrequenz eines in dem Audiosignal auftretenden Tons unter Verwendung des Frequenzschätzwertes und des Audiosignals; und
Vergleichen der Tonfrequenz mit einer Mehrzahl von unterschiedlichen Frequenzrastern, wobei jedes Frequenzraster einer anderen Stimmung zugeordnet ist, um durch das Vergleichen das Frequenzraster zu bestimmen, das mit der Tonfrequenz am besten übereinstimmt.

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass das Bestimmen eines einem Audiosignal zugrunde liegende Frequenzrasters dadurch möglich ist, dass zuerst ein Frequenzschätzwert einer Frequenz eines in dem Audiosignal auftretenden Tones ermittelt wird und anschließend unter Verwendung des Frequenzschätzwertes und des Audiosignals eine im Vergleich zum Frequenzschätzwert exaktere Tonfrequenz des in dem Audiosignal auftretenden Tones berechnet wird. Hieran anschließend kann unter Kenntnis der exakteren Tonfrequenz verglichen werden, welches Frequenzraster am besten mit der Tonfrequenz übereinstimmt, d.h. welches Frequenzraster beispielsweise eine Rasterfrequenz aufweist, die der Tonfrequenz am nähesten kommt. Das Vorabbestimmen des Frequenzschätzwertes kann dabei beispielsweise durch eine Fourier-basierte Transformation mit 256 Stützstellen oder einer ähnlichen numerisch gegenüber herkömmlichen Ansätzen der Bestimmung einer exakten Frequenz einfachen Umsetzung eines Zeitbereichssignals in eine Frequenzbereichsdarstellung erfolgen. Aus dem durch die numerisch einfache Umsetzung resultierenden „nicht-präzisen" Frequenzschätzwert für den in dem Audiosignal auftretenden Ton kann dann die exaktere Tonfrequenz berechnet werden, was beispielsweise durch eine Verwendung des Frequenzschätzwertes, dem Audiosignal und einer Version des abgeleiteten, d.h. diffe renzierten Audiosignals bewerkstelligen lässt. Ein derartiges Berechnen ermöglicht wiederum ein gegenüber dem Stand der Technik numerisch einfaches Vorgehen. Auch die Bestimmung des Frequenzrasters, das am besten mit der exakteren Tonfrequenz übereinstimmt lässt sich beispielsweise durch eine einfache Vergleichsoperation in Form einer Subtraktion durchführen.

Die vorliegende Erfindung bietet somit den Vorteil, eine Möglichkeit zu schaffen, ein Frequenzraster, das einem Audiosignal zugrunde liegt, gegenüber dem Stand der Technik durch numerisch einfache, damit auch schnell durchführbare Operationen zu bestimmen, wodurch sich der vorgeschlagenen Ansatz auch kostengünstig durchführen lässt.

Gemäß einer Ausführungsform der vorliegenden Erfindung kann das Frequenzraster eine Anzahl von Rasterfrequenzen umfasst, die in einer nicht-linearen Skalierung auf der Frequenzachse angeordnet sind, wobei ein spektraler Abstand zwischen einer ersten Rasterfrequenz und einer zur ersten Rasterfrequenz benachbarten zweiten Rasterfrequenz in einem vorbestimmten Toleranzbereich einem Halbtonabstand zwischen zwei in einem Bereich um die erste Rasterfrequenz benachbarten Halbtöne einer Notenskala entspricht, und wobei die Einrichtung zum Vergleichen ausgebildet ist, um einen spektralen Abstand zwischen einer Rasterfrequenz und der Tonfrequenz zu ermitteln. Dies bietet den Vorteil, dass auf einen einfache Weise durch Verwendung einer Differenzbildung zu Bestimmen, welches Raster (mit der Rasterfrequenz) am Besten mit der bestimmten Tonfrequenz übereinstimmt

Gemäß einer weiteren Ausführungsform der erfindungsgemäßen Vorrichtung zum Bestimmen sind drei voneinander unterscheidbare Frequenzraster bereitgestellt, wobei die Rasterfrequenzen eines ersten Frequenzrasters Halbtonfrequenzen einer Notenskala entsprechen, die Rasterfrequenzen des zweiten Frequenzrasters um einen Drittel Halbtonabstand reduzierten Halbtonfrequenzen der Notenskala entsprechen und die Rasterfrequenzen des dritten Frequenzrasters um einen dritten Halbtonabstand erhöhten Halbtonfrequenzen der Notenskala entsprechen, und wobei die Einrichtung (106) zum Vergleichen ausgebildet ist, um diejenige Rasterfrequenz des ersten, zweiten oder dritten Frequenzrasters zu ermitteln, das eine Rasterfrequenz aufweist, die einen geringeren spektralen Abstand zur Tonfrequenz aufweist als eine Rasterfrequenz eines anderen des ersten, zweiten oder dritten Frequenzrasters. Ein derartiges Bereitstellen bietet den Vorteil, dass nicht einen beliebig hohe Anzahl von Frequenzrastern mit verschiedenen Rasterfrequenzen zu untersuchen ist, sondern dass bereits eine Anzahl von drei Frequenzrastern, die entweder Rasterfrequenzen auf den exakten Halbtonfrequenzen der Notenskala Rasterfrequenzen aufweisen, oder deren Rasterfrequenzen um einen Drittel Halbton spektral höher oder niedriger verschoben sind, für eine hinreichend genaue Klassifikation der des einem Audiosignal zugrundegelegten Frequenzraster ausreichen.

Gemäß einer weiteren Ausführungsform der vorliegenden Erfindung kann die Einrichtung (102) zum Ermitteln ausgebildet sein, um eine Umsetzung eines Segmentes des Audiosignals in den Frequenzbereich durchzuführen, um ein Audiofrequenzbereichssignal zu erhalten, wobei einer ersten Frequenz des Audiofrequenzbereichssignals ein erster Amplitudenwert zugewiesen wird und einer zweiten Frequenz des Audiofrequenzbereichssignals ein zweiter Amplitudenwert zugewiesen wird und wobei die Einrichtung zum Ermitteln ferner ausgebildet ist, die erste Frequenz als Frequenzschätzwert des in dem Audiosignal aufgetretenen Tones zu ermitteln, wenn der erste Amplitudenwert größer als der zweite Amplitudenwert ist. Eine derart ausgebildete Ausführungsform der vorliegenden Erfindung ermöglicht ein sehr einfaches Erkennen einer in einem Audiosignal auftretenden tonalen Komponente aufgrund eines im Spektralbereich auftretenden „Peaks" bei einer Frequenz.

Gemäß einer weiteren Ausführungsform der vorliegenden Erfindung kann die Einrichtung zum Ermitteln ferner ausgebildet sein, um die erste Frequenz als Frequenzschätzwert zu ermitteln, wenn der erste Amplitudenwert größer als ein vordefinierter Schwellwert ist oder ein Quotient aus dem ersten und zweiten Amplitudenwert größer als der vordefinierte Schwellwert ist. Dies bietet den Vorteil, einer eindeutig und sicheren Entscheidung über das vorliegen einer tonalen Komponenten bei der Frequenz mit dem größeren Amplitudenwert.

Ferner kann die Einrichtung zum Berechnen ausgebildet sein, um aus einem Segment des Audiosignals eine differenzierte Version des Segmentes des Audiosignals zu berechnen, die differenzierte Version des Audiosignals in den Frequenzbereich umzusetzen, um ein differenziertes Audiofrequenzbereichssignal zu erhalten und ein Berechnen der im Vergleich zu dem Frequenzschätzwert exakteren Tonfrequenz auf der Basis des Audiofrequenzbereichssignals, des differenzierten Audiofrequenzbereichssignals und des Frequenzschätzwertes durchzuführen. Ein solche Vorgehen ermöglichst durch numerisch einfach durchzuführende Rechenschritte das Bestimmen einer im Vergleich zu dem Frequenzschätzwert deutlich exakteren Tonfrequenz.

In einer weiteren Ausführungsform können die Einrichtung zum Ermitteln und die Einrichtung zum Berechnen ausgebildet sein, um das Umsetzen des Segmentes des Audiosignals in den Frequenzbereich auf eine gleiche Weise wie das Umsetzen der differenzierten Version des Segmentes des Audiosignals in den Frequenzbereich durchzuführen. Dies bietet den Vorteil, dass eine numerisch effiziente Implementierung einer Umsetzungsvorschrift eines Zeitbereichssignals in' ein Frequenzbereichssignal weiterverwendet werden kann und dass störende Effekte wie beispielsweise Fensterungseffekte bei einer Fourier-basierten Transformation durch eine gleiche Wirkung auf das Audiofrequenzbereichssignal und das differenzierte Audiofrequenzbereichssignal und die nachfolgende Verarbei tung der beiden Signale im wesentlichen kompensiert werden können.

Ferner kann die Einrichtung zum Ermitteln ausgebildet sein, um aus dem Audiosignal eine Mehrzahl von Audiosignalteilsegmenten zu ermitteln und für jedes Audioteilsignalsegment einen Frequenzschätzwert des in dem Audioteilsignalsegmentes auftretenden Tones zu ermitteln, wobei die Einrichtung zum Berechnen ausgebildet ist, um für jedes Audiosignalteilsegment eine im Vergleich zu dem Frequenzschätzwert exaktere Tonfrequenz des in dem Audiosignalteilsegment auftretenden Tones zu berechnen und wobei ferner die Einrichtung zum Vergleichen ausgebildet ist, um das Bestimmen des Frequenzrasters auf der Basis der Mehrzahl der berechneten exakteren Tonfrequenzen zu bestimmen. Dies bietet den Vorteil, dass die bestimmte Tonfrequenz nicht nur von einem kurzen (ein Transformationsfenster langen) Zeitabschnittes abhängt, sonder die Tonfrequenz über mehrere Zeitabschnitte „gemittelt" berechnet werden kann. Die ergibt eine höhere Zuverlässigkeit der erhaltenen Tonfrequenz.

In einer weiteren Ausführungsform der vorliegenden Erfindung kann die Einrichtung zum Berechnen ausgebildet sein, um eine erste Klasse von Tonfrequenzen, eine zweite Klasse von Tonfrequenzen und eine dritte Klasse von Tonfrequenzen zu definieren, wobei die Tonfrequenzen der ersten Klasse in einer ersten spektralen Spanne mit einer Rasterfrequenz des ersten Frequenzrasters liegen, die Tonfrequenzen der zweiten Klasse in einer zweiten spektralen Spanne mit einer Rasterfrequenz des zweiten Frequenzrasters liegen und die Tonfrequenzen der dritten Klasse in einer dritten spektralen Spanne mit einer Rasterfrequenz des dritten Frequenzrasters liegen, wobei sich die spektralen Sannen der ersten, zweiten und dritten Klasse nicht überschneiden, wobei die Einrichtung ferner ausgebildet ist, um eine Häufigkeit eines Auftretens von Tonfrequenzen in jeder der ersten, zweiten oder dritten Klasse zu ermitteln und wobei die Einrichtung zum Vergleichen ausgebildet ist, um dasjenige Fre quenzraster zu bestimmen, das eine Rasterfrequenz in der Klasse aufweist, in der die meisten Tonfrequenzen aufgetreten sind.

Ferner kann die Einrichtung zum Ermitteln ausgebildet sein, um aus dem Audiosignal 10 Audiosignalteilsegmente zu ermitteln. Dies bietet den Vorteil, dass bereits bei einer Anzahl von 10 Audiosignalteilsegmenten eine Klassifikation möglich ist, die zu einer ausreichenden, d.h. hinreichend hohen Wahrscheinlichkeit einer zutreffenden Klassifikation des korrekten Frequenzrasters führt.

In einem weiteren Ausführungsbeispiel kann ein zu jedem Frequenzraster ein das Frequenzraster eindeutig definierender Koeffizientensatz zugeordnet sein, wobei die Vorrichtung ferner folgende Merkmale aufweist:
eine Einrichtung zum Auswählen des dem bestimmten Frequenzraster zugeordneten Koeffizientensatzes; und
eine Einrichtung zum Umsetzen des Audiosignals in den Frequenzbereich unter Verwendung des ausgewählten Koeffizientensatzes.

Dies bietet den Vorteil, dass für verschiedenen Frequenzraster bereits Koeffizientensätze für eine Umsetzungsvorschrift vorab berechnet werden können, was numerisch aufwendig ist. Diese Koeffizientensätze lassen sich dann durch die Bestimmung des dem Audiosignal zugrundeliegenden Frequenzrasters auf eine einfache Art und Weise auswählen, um die Umsetzung des Audiosignals in den Frequenzbereich durchzuführen.

In einer weiteren Ausführungsform kann die Einrichtung zum Ermitteln ausgebildet sein, um das Umsetzen des Segmentes des Audiosignals unter Verwendung eines ersten Umsetzungsalgorithmus auszuführen und bei der die Einrichtung zum Umsetzen des Audiosignals in den Frequenzbereich ausgebildet ist, um das Umsetzen unter Verwendung eines zweiten Umsetzungsalgorithmus auszuführen, wobei das Ausführen des ersten Umsetzungsalgorithmus einen geringeren numerischen Aufwand erfordert, als das Ausführen des zweiten Umsetzungsalgorithmus. Dies bietet den Vorteil, dass das Ermitteln des Frequenzschätzwertes und das Bestimmen der Tonfrequenz mit Hilfe eines numerisch einfacheren Algorithmus durchgeführt werden kann, als das Verfahren zum Umsetzen des Audiosignals in den Frequenzbereich. Dies führt letztendlich dazu, das bestimmen des Frequenzrasters und des das Frequenzraster definierenden Koeffizientensatzes durch ein numerisch einfacheres Verfahren durchzuführen, als das nachfolgende Umsetzen des Audiosignals in den Frequenzbereich.

Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend anhand der beiliegenden Zeichnungen näher erläutert. Es zeigt:
1 ein Blockschaltbild eines Ausführungsbeispiels der erfindungsgemäßen Vorrichtung zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters;
2A bis 2C eine Darstellung, wie auf effiziente Weise der Fre quenzschätzwert ermittelt werden kann;
3 eine Darstellung der Lage von Mittenfrequenzen für drei verschiedene Koeffizientensätze einer Constant Q Transformation; und
4 ein Ablaufdiagramm eines Ausführungsbeispiels des erfindungsgemäßen Verfahrens zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters.
In der nachfolgenden Beschreibung werden für gleiche oder gleich wirkende Elemente gleiche oder ähnliche Bezugszei chen verwendet, wobei auf eine wiederholte Beschreibung dieser Bezugszeichen verzichtet wird.
1 zeigt ein Blockschaltbild eines Ausführungsbeispiels der erfindungsgemäßen Vorrichtung 100 zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters. Die Vorrichtung 100 weist eine Einrichtung 102 zum Ermitteln eines Frequenzschätzwertes eines in dem Audiosignal auftretenden Tones, eine Einrichtung 104 zum Berechnen einer im Vergleich zum Frequenzschätzwert exakteren Tonfrequenz des in dem Audiosignal auftretenden Tons und eine Einrichtung 106 zum Vergleichen der Tonfrequenz mit einer Mehrzahl von Frequenzrastern auf. Die Einrichtung 102 zum Ermitteln hat einen Eingang zum Empfangen eines Audiosignals 108 und einen ersten Ausgang 110 zum Ausgeben des ermittelten Frequenzschätzwertes und einen zweiten Ausgang 111 zum Ausgeben des Audiosignals (d.h. das am Eingang 108 anliegende Audiosignal wird am zweiten Ausgang 111 der Einrichtung zum Ermitteln wieder ausgegeben). Die Einrichtung 104 zum Berechnen hat einen Eingang 112 zum Empfangen des von der Einrichtung 102 zum Ermitteln ausgegebenen Schätzwertes und einen zweiten Eingang 113 zum Empfangen des von der Einrichtung 102 zum Ermitteln ausgegebenen Audiosignal. Ferner hat die Einrichtung 104 zum Berechnen einen Ausgang 114 zum Ausgeben der berechneten Tonfrequenz f_p. Die Einrichtung 106 zum Vergleichen der Tonfrequenz f_p mit einer Mehrzahl von Frequenzrastern hat einen Eingang 116 zum Empfangen der von der Einrichtung 104 zum Berechnen berechneten Tonfrequenz f_p und einen Ausgang 118 zum Ausgeben des von der Einrichtung 106 zum Vergleichen bestimmten Frequenzrasters.
Nachfolgend wird auch die Funktionsweise der in 1 dargestellten Vorrichtung 100 zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters näher eingegangen. Zunächst wird ein Audiosignal oder ein Audiosignalsegment über den Eingang 108 der Einrichtung 102 zum Ermitteln eines Frequenzschätzwertes eines in dem Audiosignal auftretenden Tones zugeführt. In der Einrichtung 102 zum Ermit teln erfolgt dann beispielsweise unter Verwendung einer Fourier-Transformation oder ähnlichem (beispielsweise einer Wavelet Transformation) eine Umsetzung des (vorzugsweise im Zeitbereich) vorliegenden Audiosignals in den Frequenzbereich. Hierbei werden die in dem Audiosignal auftretenden Frequenzen auf einer Frequenzskala oder Frequenzachse durch die Transformation meist aus Gründen der Einfachheit in einer linearen Skalierung abgebildet. Durch dieses Abbilden in der linearen Skalierung treten meist Ungenauigkeiten bei der Verwendung eines Audiosignals als Eingangssignal auf, da die Töne des Audiosignals meist in einem nicht-linear skalierten Frequenzraster in diesem Audiosignal enthalten sind. Es ist jedoch anzumerken, dass durch die Verwendung von hinlänglich bekannten und damit gut erforschten und optimierten Zeit-Frequenzbereichstransformationen wie der Fourier-Transformation eine derartige Umsetzung des Audiosignals vom Zeitbereich in den Frequenzbereich numerisch sehr effektiv durchgeführt werden kann. Durch die Einrichtung 102 zum Ermitteln wird somit aus dem Audiosignal zunächst ein Frequenzschätzwert eines in dem Audiosignal auftretenden Tones ermittelt, der die ungefähre Lage eines in dem Audiosignal auftretenden Tones auf der Frequenzachse wiedergibt. Dieser ermittelte Frequenzschätzwert wird dann über den Ausgang 110 der Einrichtung 102 zum Ermitteln an die Einrichtung 104 zum Berechnen über deren Eingang 112 übermittelt. Weiterhin wird auch das Audiosignal selbst von der Einrichtung 102 zum Ermitteln an die Einrichtung 104 zum Berechnen weitergegeben. In der Einrichtung 104 zum Berechnen einer im Vergleich zum Frequenzschätzwert exakteren Tonfrequenz des in dem Audiosignal auftretenden Tones kann dann die Tonfrequenz auf der Basis eines Algorithmus berechnet werden, wie er beispielsweise in dem Artikel von M. Desainte-Catherine und S. Marchand: "High-Precision Fourier Analysis of Sounds Using Signal Derivatives", veröffentlicht in: Journal of Acoustic Engineering Society, 48(7), July/August 2000 vorgeschlagen wurde. Ein derartiger Ansatz ermittelt aus dem Frequenzschätzwert und dem Audiosignal auf eine nachfolgend noch näher beschriebene Weise die (im Vergleich zum Frequenzschätzwert exaktere) Tonfrequenz f_p des in dem Audiosignal auftretenden Tones, die über den Ausgang 114 der Einrichtung 104 zum Berechnen ausgegeben wird. Die Tonfrequenz f_p, die nun am Ausgang 114 der Einrichtung 104 zum Berechnen anliegt, wird der Einrichtung 106 zum Vergleichen über deren Eingang 116 zugeführt, wobei die Einrichtung 106 zum Vergleichen nun beispielsweise unter Verwendung von mehreren bereitgestellten Frequenzrastern dasjenige Frequenzraster bestimmt, das am besten mit der exakteren Tonfrequenz übereinstimmt. Dieses Bestimmen desjenigen Frequenzrasters, das mit der exakteren Tonfrequenz am besten übereinstimmt, kann beispielsweise dadurch erfolgen, dass einzelne Rasterfrequenzen der verschiedenen Frequenzraster mit der Tonfrequenz f_p verglichen werden (beispielsweise in Form einer Subtraktion eines Rasterfrequenzwertes von einem Wert der Tonfrequenz f_p), wobei dann dasjenige Frequenzraster ausgewählt wird, das eine Rasterfrequenz aufweist, die den geringsten spektralen Abstand zu der Tonfrequenz f_p hat. Würde das Vergleichen in Form einer Subtraktion der Rasterfrequenz von der Tonfrequenz f_p durchgeführt, kann beispielsweise dasjenige Frequenzraster gewählt werden, dessen Rasterfrequenz bei der Subtraktion mit der Tonfrequenz f_p einen Wert annimmt, der näher am Wert 0 liegt als alle anderen Werte, die bei einer vergleichbaren Subtraktion von einer Rasterfrequenz mit der Tonfrequenz f_p erhalten werden. Die auf diese Weise bestimmte Rasterfrequenz kann dann am Ausgang 118 der Einrichtung 106 zum Vergleichen ausgegeben werden.
2 zeigt eine Möglichkeit, einen Frequenzschätzwert eines in dem Audiosignal auftretenden Tones zu ermitteln. Hierzu ist in den 2A bis 2C jeweils ein Diagramm dargestellt, auf dessen Abszisse die Frequenz und auf dessen Ordinate eine Amplitude des Audiosignalsegmentes bei der entsprechenden Frequenz aufgetragen ist. Die Darstellung entspricht hierbei einem Ergebnis, wie es durch die Zeit-Frequenzbereichsumsetzung in der Einrichtung 102 zum Ermitteln resultiert; d.h. insbesondere ist die Frequenz achse oder Abszisse des vorzugsweise durch die Verwendung der Fourier-Transformation (beispielsweise einer Short-Time Fast Fourier-Transformation STFT = Kurzzeit-Fourier-Transformation) verwendeten Frequenzrasters linear skaliert. Tritt nun ein Frequenzverlauf ein, wie er in 2A dargestellt ist, kann deutlich erkannt werden, dass bei der Frequenz f₁ eine tonale Komponente vorhanden ist, was sich durch den deutlichen „peak" (oder Spitzenwert) im Amplitudenspektrum zeigt. Demgegenüber ist bei einem Amplitudenspektrum wie er in 2B gezeigt ist, eine eindeutige Aussage bezüglich einer tonalen Komponente bei der Frequenz f₁ nicht möglich, da der Amplitudenverlauf linksseitig der Frequenz f₁ niedrigere Werte als bei der Frequenz f₁ und rechtsseitig von der Frequenz f₁ höhere Amplitudenwerte als bei der Frequenz f₁ hat. In einem derartigen Fall wäre dann beispielsweise eine tonale Komponente bei der Frequenz f₂ anzunehmen, da diese einen (wenn auch nicht so eindeutig ausgeprägten) „peak" im Amplitudenspektrum aufweist. Demgegenüber ist in 2C dargestellt, dass bei einem "Einbruch" des Amplitudenspektrums bei der Frequenz f₁ keine tonale Komponente zu erwarten ist, da die Amplitude bei der Frequenz f₁ niedriger als bei benachbarten Frequenzwerten ist. Eine derartige Suche nach tonalen Komponenten in einem Audiosignal oder in einem Audiosignalsegment wird auch als „peak picking" (= Spitzenwert-Suche) bezeichnet. Um eine eindeutigere Entscheidung über das Vorliegen einer tonalen Komponente treffen zu können, lassen sich auch noch zusätzliche Kriterien zur Bestimmung einsetzen, ob eine tonale Komponente vorliegt oder nicht. Dies kann beispielsweise eine Quotientenbedingung sein, derart, dass ein Amplitudenwert beispielsweise der Amplitudenwert bei der Frequenz f₁ durch einen weiteren Amplitudenwert bei einer anderen Frequenz geteilt und somit ein Quotient gebildet wird. Nachfolgend kann dieser Quotient beispielsweise mit einem vorbestimmten Schwellwert verglichen werden und bei einem Überschreiten des Quotienten über den vorbestimmten Schwellwert auf das Vorliegen einer tonalen Komponente geschlossen werden. Andererseits kann bei einem Unterschreiten des Quo tienten unter den vorbestimmten Schwellwert darauf geschlossen werden, dass keine tonale Komponente bei der Frequenz f₁ vorliegt. In diesem Fall lassen sich auch Amplitudenspektrumsverläufe wie in 2B dargestellt, besser auswerten. Alternativ kann aber auch direkt der Amplitudenwert bei der Frequenz f₁ einer Schwellwert-basierten Untersuchung unterzogen werden, wobei dann das zuvor gesagte nicht mehr für den Quotienten sondern direkt für den Amplitudenwert bei der Frequenz f₁ gilt. Entsprechend ist dann eventuell auch ein veränderter Entscheidungsschwellwert anzusetzen.
Um das Ermitteln eines Frequenzschätzwertes optimal auszugestalten, kann als weitere Option bei der Suche nach möglichen Tonanfängen in dem Audiosignal eine Mehrzahl von (beispielsweise aufeinander folgenden) Audiosignalsegmenten untersucht werden, wobei dann die Segmente einzeln vom Zeitbereich in den Frequenzbereich umgesetzt werden und in einer Matrixstruktur das Amplitudenspektrum, d.h. die Zuordnung von Amplitudenwerten zu Frequenzen über den Zeitbereich ermittelt werden kann. In diesem Ausführungsbeispiel können dann die Zeilen der Matrix in Frequenzen des durch die Zeitbereichs-Frequenzbereichstransformation vorgegebenen Frequenzen entsprechen, wobei die Spalten den einzelnen Audiosegmenten entsprechen.
In den einzelnen Elementen der Matrix werden dann die entsprechenden Amplitudenwerte in den entsprechenden Frequenzen eingetragen, wobei die Spalte ein zeitliche Audiosignalsegment kennzeichnet, in dem der Amplitudenwert bei der entsprechenden Frequenz aufgetreten ist. Um eine Verbesserung der Detektion einer tonalen Komponente (unter Zuhilfenahme des vorstehend beschriebenen „peak picking") kann weiterhin in der Matrix mit dem transformierten Signal eine Glättung mit einem Tiefpass (beispielsweise in Zeitrichtung über mehrere Spalten der Matrix) erfolgen und ferner optional eine Suche nach kontinuierlichen Anstiegsketten durchgeführt werden, was dann beispielsweise einem Mindestlän genkriterium für das Auftreten einer tonalen Komponente in dem Audiosignal entspricht. Beispielsweise kann ferner das Auftreten einer tonalen Komponente dann erkannt werden, wenn eine zeitliche Dauer eines Auftretens einer tonalen Komponente über einem zeitlichen Mindestlängenschwellwert für den entsprechenden Ton liegt.
In bezug auf die Funktionsweise der Einrichtung 104 zum Berechnen der exakteren Tonfrequenz lässt sich anmerken, dass diese beispielsweise analog zu der vorstehend genannten Schrift von M. Desainte-Catherine möglich ist. Hierbei wird unter Verwendung der Fourier-Transformation des Audiosignalsegmentes oder des Audiosignals, einer Fourier-Transformation des abgeleiteten (d.h. differenzierten) Audiosignalsegmentes oder des abgeleiteten Audiosignals jeweils an der Stelle des Frequenzschätzwertes verwendet. Durch das Ableiten des Audiosignals oder des Audiosignalsegmentes (das in zeitlicher Darstellung vorliegt) kann somit eine Phaseninformation aus dem Audiosignalsegment oder dem Audiosignal berücksichtigt werden und somit eine präzisere Tonfrequenz f_p als der Frequenzschätzwert für den in dem Audiosignal auftretenden Ton ermittelt werden. Diese Präzisierung ist dann durch ein Dividieren des Fouriertransformierten abgeleiteten Audiosignalsegmentes durch die Fourier-Transformierte des originalen Audiosignalsegmentes jeweils an der Stelle des Frequenzschätzwertes möglich. Hierbei ist weiterhin ein Faktor von 1/2π zu berücksichtigen. Eine exaktere Tonfrequenz ergibt sich dann daraus, dass durch die Division der Fourier-Transformierten der abgeleiteten Version des Audiosignals durch die Fourier-Transformierte des ursprünglichen Audiosignals jeweils an der Stelle des Frequenzschätzwertes der sich bei der Fourier-Transformation auswirkende Fenster-Effekt bei der Wahl des der Fourier-Transformation zugrunde liegenden Filterfenster kompensiert wird. Hierdurch lässt sich somit aus dem zuvor durch einfache Fourier-Transformation ermittelten Frequenzschätzwert des in dem Audiosignal auftretenden Tones eine deutlich exaktere Tonfrequenz f_p des in dem Audio signal auftretenden Tones ermitteln. Ein derartiges Vorgehen ermöglicht sogar die Reduzierung der für die Fourier-Transformation notwendigen Anzahl von Stützwerten von beispielsweise 1024 Punkten auf 256 Punkte, wobei durch das vorstehend genannte Dividieren und somit das Berechnen der exakteren Tonfrequenz f_p trotzdem eine Erhöhung der Präzision bei der Bestimmung der Tonfrequenz f_p möglich ist. Die von M. Desainte-Catherine vorgeschlagene Vorgehensweise ermöglicht somit (ohne das Verwenden einer hohen Überabtastung) das präzise Bestimmen von exakten Tonfrequenzen f_p unter Verwendung der Ableitung des Audiosignals, was sich numerisch deutlich aufwandsreduzierend gegenüber der hohen Überabtastung mit beispielsweise dem zwei- oder dreifachen Überabtastfaktor der maximal detektierbaren Frequenz aus dem Audiosignal auswirkt.
Wie vorstehend bereits dargelegt wurde, lässt sich die im Vergleich zum Frequenzschätzwert exaktere Tonfrequenz f_p nun zum Bestimmen eines Frequenzrasters aus einer Mehrzahl von Frequenzrastern verwenden. Eine solche Mehrzahl von Frequenzrastern ist beispielsweise durch die Frequenzraster mit den Frequenzen f_–, f, f₊ in 3 dargestellt. Hierbei kennzeichnet das Frequenzraster mit den Frequenzen f die spektrale Lage der exakten Halbtonfrequenzen der westlichen Notenskala. Beispielsweise wird durch die in 3 dargestellt Frequenz f₁ der Kammerton a' gekennzeichnet, der eine Frequenz von 440 Herz aufweist. Die Rasterfrequenz f₀ kennzeichnet dann einen Halbton der Notenskala, der eine niedrigere Frequenz als der Kammerton a' aufweist. Demgegenüber ist das in 3 dargestellte Frequenzraster mit den Rasterfrequenzen f_– gegenüber dem Frequenzraster mit den Rasterfrequenzen f spektral leicht versetzt. Die Rasterfrequenzen f_– weisen dabei gegenüber den Rasterfrequenzen f eine geringfügig niedrigere Frequenz auf, die beispielsweise einem Drittel Halbtonschritt entspricht (d.h. die Rasterfrequenzen f_– sind um –33 cent gegenüber den Rasterfrequenzen f verschoben). Dies bedeutet dann, dass beispielsweise die Frequenz f_1– eine Frequenz von 431,6 Hz, die Rasterfrequenz f_0– einen Wert von 407,0 Hz und die Rasterfrequenz von f_2– einen Wert von 457,3 Hz aufweist. Demgegenüber weist das Frequenzraster mit den Rasterfrequenzen f₊ einen positiven spektralen Versatz gegenüber dem Frequenzraster mit den Rasterfrequenzen f auf, beispielsweise ebenfalls um einen Drittel Halbtonschritt, d.h. um +33 cent. Die entsprechenden Frequenzen lassen sich somit wie folgt angeben: f₁₊ = 448,6 Hz, f₀₊ = 423,4 Hz und f₂₊ = 475,2 Hz. Dies bedeutet, dass die drei Frequenzraster in einem vorbestimmten Zusammenhang stehen, nämlich dass das Frequenzraster mit den Rasterfrequenzen f_– um –33 cent gegenüber dem Frequenzraster mit den Rasterfrequenzen f der exakten Halbtonfrequenz (d.h. die Rasterfrequenz liegt bei 0 cent) verschoben ist, während das Frequenzraster mit den Rasterfrequenzen f₊ um +33 cent gegenüber dem Frequenzraster mit den Rasterfrequenzen f verschoben ist. Wird nun als exakte Tonfrequenz die Frequenz f_p ermittelt, kann zunächst eine Aussage getroffen werden, dass die exakte Tonfrequenz eine in dem Audiosignal oder dem Audiosignalsegment auftretenden Tones nicht mit der normierten Halbtonfrequenz eines Halbtones der Notenskala übereinstimmt. Vielmehr liegt die exaktere Tonfrequenz geringfügig über der Frequenz des Kammertons a' von 440 Herz. Um eines der drei in 3 dargestellten Frequenzraster auszuwählen, kann nun die exakte Tonfrequenz f_p mit den Rasterfrequenzen der entsprechenden Frequenzraster verglichen werden. Hierbei wird dann festgestellt, dass die Rasterfrequenzen f_1–, f₁ und f₁₊ diejenigen Rasterfrequenzen sind, die bei jedem Frequenzraster am nähesten an der exakten Tonfrequenz f_p liegen. Wird nun die Tonfrequenz f_p mit jedem der drei Rasterfrequenzen f_1–, f₁ und f₁₊ verglichen, lässt sich ferner bestimmen, dass die Rasterfrequenz f₁ des Frequenzrasters mit den Rasterfrequenzen f am nähesten an der exakten Tonfrequenz f_p liegt. Hierauf kann dann die Rasterfrequenz mit den Rasterfrequenzen f als dasjenige Frequenzraster bestimmt werden, das am besten mit der exakten Tonfrequenz f_p übereinstimmt.
Um eine bessere Auflösung, d.h. eine höhere Granularität der bestimmbaren Frequenzraster zu erreichen, können auch mehr als drei Frequenzraster verwendet werden, die auch keinen symmetrischen Abstand von ± 33 cent zueinander zu haben brauchen. Es zeigt sich jedoch, dass eine für eine Bestimmung von Harmonien oder Akkorden notwendige Ermittlung von in einem Audiosignal aufgetretenen Tönen bzw. Halbtönen durch die in 3 dargestellten drei Frequenzraster ausreichend genau möglich ist, wodurch sich unter Berücksichtigung von nur drei Frequenzrastern ein numerischer Aufwand zur Bestimmung der in dem Audiosignal auftretenden Halbtöne optimieren lässt.
Weiterhin lässt sich anmerken, dass die in 3 dargestellte Rasterfrequenzen der drei Frequenzraster beispielsweise als Mittenfrequenzen bei einer Constant Q Transform (CQT) erreichbar sind, die eine nicht-lineare Frequenzskalierung auf der Frequenzachse aufweist. Um durch eine solche CQT zur Ermittlung von in dem Audiosignal auftretenden Halbtönen einsetzen zu können, ist es somit notwendig, zuerst die CQT sozusagen zu "eichen", um das Frequenzraster festzulegen, das die Mittenfrequenzen der der CQT zugrunde liegenden nicht-linearen Zeit-Frequenzbereichstransformation definiert. Hierbei ist zu berücksichtigen, dass im Vorfeld bereits für jedes Frequenzraster ein eigener Koeffizientensatz der CQT zu ermitteln ist. Dieser dem Frequenzraster entsprechende Koeffizientensatz ermöglicht dann bei Anwendung der CQT eine Auflösung des Audiosignals in diejenigen Rasterfrequenzen, die das dem Koeffizientensatz entsprechende Frequenzraster bilden. In bezug auf 3 lässt sich beispielsweise durch einen ersten Koeffizientensatz eine spektrale Auflösung des Audiosignals in die Mittenfrequenzen f_0–, f_1–, f_2–, usw. durchführen', während sich für einen zweiten Koeffizientensatz durch die CQT eine spektrale Auflösung des Audiosignals in die Mittenfrequenzen f₀, f₁, f₂, ... durchführen lässt. Durch einen dritten Koeffizientensatz lässt sich dann analog eine spektrale Auflösung des Audiosignals in die Frequenzen f₀₊, f₁₊, f₂₊, ... etc. durchführen. Hierbei bleibt die Berechnungsvorschrift der CQT identisch; lediglich ein unterschiedlicher Koeffizientensatz wird bei der Ausführung der CQT verwendet. Diese unterschiedliche Koeffizientensatz kann beispielsweise die Länge von Filterfenstern N[k] für die CQT oder ein minimaler Initialisierungsfrequenzwert f_min für die Anordnung der Rasterfrequenzen auf der Frequenzachse sein.
Gegenüber einer numerisch aufwendigen Eichung der CQT beispielsweise unter Verwendung der CQT selbst, kann somit durch den vorliegenden Ansatz unter Verwendung einer numerisch einfach zu realisierenden Ermittlung eines Frequenzschätzwertes, einer nachfolgenden Bestimmung einer exakteren Tonfrequenz auf der Basis des Frequenzschätzwertes und des Audiosignals und der hier anschließenden "Eichung", d.h. der Auswahl eines geeigneten Koeffizientensatzes für die CQT, eine deutliche Reduktion des numerischen Aufwandes für eine derartige Eichung realisiert werden, wobei durch das beschriebene Vorgehen zugleich die Tonfrequenz präzise bestimmbar ist und die Initialisierung oder „Eichung" der CQT schneller durchführbar ist, als bei anderen Initialisierungsverfarhen. Diese deutliche numerische Vereinfachung resultiert insbesondere daraus, dass beim Ermitteln des Frequenzschätzwertes eine Fourier-basierte Transformation (beispielsweise eine FFT bzw. eine STFT) verwendet werden kann, die numerisch besonders effizient durchführbar sind, während durch eine CQT eine Abbildung der Frequenzen des Audiosignals in einer nicht-linearen Darstellung möglich ist, dies jedoch nur unter Inkaufnahme eines hohen numerischen Aufwandes erfolgen kann.
Als weiterer Aspekt lässt sich anführen, dass die Berechnungen der exakteren Tonfrequenz f_p sich noch weiter optimieren lässt. Insbesondere bei der Verwendung einer FFT oder einer STFT mit einem kurzen Zeitfenster von beispielsweise 256 Abtastwerten kann möglicherweise eine eindeutige Bestimmung der exakten Tonfrequenz des in dem Audiosignal enthaltenen Tones nicht 100%-ig geschlossen werden, da die zeitliche Dauer des für die Transformation verwendeten Audiosignalsegmentes zu kurz ist. Dieses Problem kann beispielsweise durch eine statistische Absicherung des Auftretens der berechneten exakteren Tonfrequenz f_p abgemildert werden. Hierfür werden in beispielsweise 10 aufeinanderfolgende Segmenten des Audiosignals jeweils ein Frequenzschätzwert und hieraus in Verbindung mit dem entsprechenden Audiosignalsegment eine Tonfrequenz f_p für jedes Audiosignalsegment bestimmt. Anschließend werden beispielsweise drei Frequenzklassen gebildet, wobei jede Frequenzklasse eine der in 3 dargestellten Rasterfrequenzen f_1–, f₁ oder f₁₊ umfasst und jede dieser drei Rasterfrequenzen in einer anderen Klasse, d.h. in einem der Klasse entsprechenden spektralen Abschnitt auf der Frequenzachse, entspricht. Die ermittelten exakteren Tonfrequenzen f_p werden nun derart klassifiziert, dass eine Häufigkeit des Auftretens von Tonfrequenzen f_p in jeder Klasse gezählt wird. Anschließend wird dasjenige Frequenzraster ausgewählt, dessen Rasterfrequenz in der Klasse liegt, in der auch am Häufigsten die aus den 10 Audiosignalsegmenten berechneten Tonfrequenzen f_p aufgetreten ist. Durch ein derartiges Bilden eines sogenannten Pitch-Histogrammes lässt sich somit eine Verbesserung der Bestimmung der Rasterfrequenzen (und damit auch eine präzisere Auswahl der dem Frequenzraster entsprechenden Koeffizientensatz) durchführen, ohne auf die numerische Effizienz der Verwendung eines zeitlich kurzen Filterfensters für die Bestimmung eines Frequenzschätzwertes verzichten zu müssen.
4 zeigt ein Ablaufdiagramm eines Ausführungsbeispiels des erfindungsgemäßen Verfahrens 400 zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters. Hierbei umfasst das in 4 dargestellt Verfahren in einem ersten Schritt ein Ermitteln 402 eines Frequenzschätzwertes eines in dem Audiosignal auftretenden Tons. Dieses Ermitteln 402 kann dabei, wie vorstehend ausgeführt wurde, unter Verwendung eines numerisch effizient durchzuführenden Zeit-Frequenzbereichsumsetzungsverfahren wie beispielsweise ei ner FFT bzw. einer STFT durchgeführt werden. Als Ergebnis kann durch das vorstehend ebenfalls näher spezifizierte Verfahren des „peak pickings" ein Frequenzschätzwert ermittelt werden. Dieser Frequenzschätzwert wird in einem nachfolgenden Schritt des Berechnens 404 einer im Vergleich zum Frequenzschätzwert exakteren Tonfrequenz des in dem Audiosignal aufgetretenen Tones weiterverwendet und hieraus beispielsweise durch das vorstehend beschriebene Verfahren von M. Desainte-Catherine eine Tonfrequenz f_p berechnet. In einem anschließenden Schritt erfolgt ein Vergleichen 406 der berechneten Tonfrequenz f_p mit einer Mehrzahl von unterschiedlichen Frequenzraster, um dasjenige Frequenzraster zu bestimmen, das am besten mit der exakteren Tonfrequenz übereinstimmt.
Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren zum Bestimmen eines einem Audiosignal zugrundeliegenden Frequenzrasters in Hardware oder in Software implementiert werden. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das entsprechende Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Computerprogrammprodukt auf einem Rechner abläuft. Mit anderen Worten ausgedrückt, kann die Erfindung somit als ein Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens realisiert werden, wenn das Computerprogramm auf einem Computer abläuft.
Zusammenfassend lässt sich somit sagen, dass zur Bestimmung von Halbtönen in einem Audiosignal eine möglichst genaue Abbildung der Halbtöne im Frequenzbereich notwendig ist. Hierbei sollte vor einer Transformation des Audiosignals in den Frequenzbereich eine Abschätzung für die "Fehlanpas sung" des dem Audiosignal zugrunde liegenden Frequenzrasters vorab durchgeführt werden, um sicher zu stellen, dass die tonalen Komponenten möglichst gut zu den Mittenfrequenzen der durch die Spektralumsetzung des Audiosignals von dem Zeitbereich in den Frequenzbereich übereinstimmen. Zunächst kann eine Erkennung von auftretenden tonalen Komponenten durch das vorstehend näher erläuterte Verfahren des „peak pickings" aus einem STFT-Amplitudenspektrum erfolgen, woraus sich ein Frequenzschätzwert für einen in dem Audiosignal auftretenden Ton ermitteln lässt. Dieser Frequenzschätzwert kann dann verwendet werden, um eine zu dem Frequenzschätzwert entsprechende exakte Frequenz f_p zu berechnen, wobei dieses Berechnen der exakten Frequenz unter Verwendung eines transformierten abgeleiteten (d.h. differenzierten) Signals erfolgen kann, wie dies beispielsweise in dem von M. Desainte-Catherine vorgeschlagenen Verfahren möglich ist. Für jeden dieser exakten Tonfrequenz-Werte kann dann ein "Verstimmungsfaktor" bestimmt werden und ein Histogramm für 10 aufeinander folgende Zeitrahmen (oder Zeitsegmente) des Audiosignalsegmentes erstellt werden. Hierbei wird in etwa durch die 10 Rahmen der Audiosignalsegmente eine Zeitspanne von 1,4 Sek. abgedeckt, wobei ein in dem Audiosignal auftretender Ton innerhalb dieser Zeitspanne mit hoher Wahrscheinlichkeit erkennbar ist. Aus dem Histogramm kann dann ein Maximum erkannt werden, das anzeigt, welches von beispielsweise drei Koeffizientensätzen für eine nahfolgenden Transformation mit beispielsweise dem CQT-Verfahren zu verwenden ist. Hierbei ist beispielsweise ein erster Koeffizientensatz derart ausgestaltet, dass er auf eine Mittenfrequenz von exakt 440 Herz gestimmt ist (d.h. seine Stimmung ist auf eine exakte Frequenz von 440 Hz ±0 cent), ein zweiter Koeffizientensatz ist beispielsweise 33 cent niedriger gestimmt und ein dritter Koeffizientensatz ist derart gestimmt, dass mit diesem dritten Koeffizientensatz Rasterfrequenzen realisierbar sind, die 33 cent über den Rasterfrequenzen des ersten Koeffizientensatzes liegen.

Claims

Vorrichtung (100) zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters (f) mit folgenden Merkmalen: einer Einrichtung (102) zum Ermitteln eines Frequenzschätzwertes eines in dem Audiosignal auftretenden Tones; einer Einrichtung (104) zum Berechnen einer im Vergleich zum Frequenzschätzwert exakteren Tonfrequenz (f_p) eines in dem Audiosignal auftretenden Tons unter Verwendung des Frequenzschätzwertes und des Audiosignals; und einer Einrichtung (106) zum Vergleichen der Tonfrequenz (f_p) mit einer Mehrzahl von unterschiedlichen Frequenzrastern (f_–, f, f₊), wobei jedes Frequenzraster (f_–, f, f₊) einer anderen Stimmung zugeordnet ist, wobei die Einrichtung (106) zum Vergleichen ausgebildet ist, um das Frequenzraster (f) zu bestimmen, das mit der Tonfrequenz (f_p) am besten übereinstimmt.
Vorrichtung (100) zum Bestimmen, bei der das Frequenzraster eine Anzahl von Rasterfrequenzen (f₀, f₁, f₂) umfasst, die in einer nicht-linearen Skalierung auf der Frequenzachse angeordnet sind, wobei ein spektraler Abstand zwischen einer ersten Rasterfrequenz und einer zur ersten Rasterfrequenz benachbarten zweiten Rasterfrequenz in einem vorbestimmten Toleranzbereich einem Halbtonabstand zwischen zwei in einem Bereich um die erste Rasterfrequenz benachbarten 'Halbtöne einer Notenskala entspricht, und wobei die Einrichtung (106) zum Vergleichen ausgebildet ist, um einen spektralen Abstand zwischen einer Rasterfrequenz (f_1–, f₁, f₁₊) und der Tonfrequenz (f_p) zu ermitteln.
Vorrichtung (100) zum Bestimmen gemäß Anspruch 2, bei der drei voneinander unterscheidbare Frequenzraster (f_–, f, f₊) bereitgestellt sind, wobei die Rasterfrequenzen eines ersten Frequenzrasters Halbtonfrequenzen einer Notenskala entsprechen, die Rasterfrequenzen des zweiten Frequenzrasters um einen Drittel Halbtonabstand reduzierten Halbtonfrequenzen der Notenskala entsprechen und die Rasterfrequenzen des dritten Frequenzrasters um einen dritten Halbtonabstand erhöhten Halbtonfrequenzen der Notenskala entsprechen, und wobei die Einrichtung (106) zum Vergleichen ausgebildet ist, um diejenige Rasterfrequenz des ersten, zweiten oder dritten Frequenzrasters zu ermitteln, das eine Rasterfrequenz aufweist, die einen geringeren spektralen Abstand zur Tonfrequenz (f_p) aufweist als eine Rasterfrequenz eines anderen des ersten, zweiten oder dritten Frequenzrasters.
Vorrichtung (100) gemäß einem der Ansprüche 1 bis 3, bei der die Einrichtung (102) zum Ermitteln ausgebildet ist, um eine Umsetzung eines Segmentes des Audiosignals in den Frequenzbereich durchzuführen, um ein Audiofrequenzbereichssignal zu erhalten, wobei einer ersten Frequenz des Audiofrequenzbereichssignals ein erster Amplitudenwert zugewiesen wird und einer zweiten Frequenz des Audiofrequenzbereichssignals ein zweiter Amplitudenwert zugewiesen wird und wobei die Einrichtung zum Ermitteln ferner ausgebildet ist, die erste Frequenz (f₁) als Frequenzschätzwert des in dem Audiosignal aufgetretenen Tones zu ermitteln, wenn der erste Amplitudenwert größer als der zweite Amplitudenwert ist.
Vorrichtung (100) zum Bestimmen gemäß Anspruch 4, bei der die Einrichtung (102) zum Ermitteln ferner ausgebildet ist, um die erste Frequenz (f₁) als Frequenzschätzwert zu ermitteln, wenn der erste Amplitudenwert größer als ein vordefinierter Schwellwert ist oder ein Quotient aus dem ersten und zweiten Amplitudenwert größer als der vordefinierte Schwellwert ist.
Vorrichtung (100) zum Bestimmen gemäß einem der Ansprüche 4 bis 5, bei der die Einrichtung (104) zum Berechnen ausgebildet ist, um aus einem Segment des Audiosignals eine differenzierte Version des Segmentes des Audiosignals zu berechnen, die differenzierte Version des Audiosignals in den Frequenzbereich umzusetzen, um ein differenziertes Audiofrequenzbereichssignal zu erhalten und ein Berechnen der im Vergleich zu dem Frequenzschätzwert exakteren Tonfrequenz (f_p) auf der Basis des Audiofrequenzbereichssignals, des differenzierten Audiofrequenzbereichssignals und des Frequenzschätzwertes durchzuführen.
Vorrichtung (100) zum Bestimmen gemäß Anspruch 6, bei der die Einrichtung (102) zum Ermitteln und die Einrichtung (104) zum Berechnen ausgebildet sind, um das Umsetzen des Segmentes des Audiosignals in den Frequenzbereich auf eine gleiche Weise durchzuführen wie das Umsetzen der differenzierten Version des Segmentes des Audiosignals in den Frequenzbereich.
Vorrichtung (100) zum Bestimmen gemäß einem der Ansprüche 1 bis 7, bei der die Einrichtung (102) zum Ermitteln ausgebildet ist, um aus dem Audiosignal eine Mehrzahl von Audiosignalteilsegmenten zu ermitteln und für jedes Audioteilsignalsegment einen Frequenzschätzwert des in dem Audioteilsignalsegmentes auftretenden Tones zu ermitteln, wobei die Einrichtung (104) zum Berechnen ausgebildet ist, um für jedes Audiosignalteilsegment eine im Vergleich zu dem Frequenzschätzwert exaktere Tonfrequenz (f_p) des in dem Audiosignalteilsegment auftretenden Tones zu berechnen und wobei ferner die Einrichtung (106) zum Vergleichen ausgebildet ist, um das Bestimmen des Frequenzrasters auf der Basis der Mehrzahl der berechneten exakteren Tonfrequenzen (f_p) zu bestimmen.
Vorrichtung (100) zum Bestimmen gemäß Anspruch 3 und 8, bei der die Einrichtung (104) zum Berechnen ausgebildet ist, um eine erste Klasse von Tonfrequenzen, eine zweite Klasse von Tonfrequenzen und eine dritte Klasse von Tonfrequenzen zu definieren, wobei die Tonfrequenzen der ersten Klasse in einer ersten spektralen Spanne mit einer Rasterfrequenz des ersten Frequenzrasters liegen, die Tonfrequenzen der zweiten Klasse in einer zweiten spektralen Spanne mit einer Rasterfrequenz des zweiten Frequenzrasters liegen und die Tonfrequenzen der dritten Klasse in einer dritten spektralen Spanne mit einer Rasterfrequenz des dritten Frequenzrasters liegen, wobei sich die spektralen Spannen der ersten, zweiten und dritten Klasse nicht überschneiden, wobei die Einrichtung (104) ferner ausgebildet ist, um eine Häufigkeit eines Auftretens von Tonfrequenzen (f_p) in jeder der ersten, zweiten oder dritten Klasse zu ermitteln und wobei die Einrichtung (106) zum Vergleichen ausgebildet ist, um dasjenige Frequenzraster zu bestimmen, das eine Rasterfrequenz in der Klasse aufweist, in der die meisten Tonfrequenzen (f_p) aufgetreten sind.
Vorrichtung (100) zum Bestimmen gemäß Anspruch 8 oder 9, bei der die Einrichtung (102) zum Ermitteln ausgebildet ist, um aus dem Audiosignal 10 Audiosignalteilsegmente zu ermitteln.
Vorrichtung (100) zum Bestimmen gemäß einem der Ansprüche 1 bis 10, bei der zu jedem Frequenzraster ein das Frequenzraster eindeutig definierender Koeffizientensatz zugeordnet ist, wobei die Vorrichtung (100) ferner folgende Merkmale aufweist: eine Einrichtung zum Auswählen des dem bestimmten Frequenzraster zugeordneten Koeffizientensatzes; und eine Einrichtung zum Umsetzen des Audiosignals in den Frequenzbereich unter Verwendung des ausgewählten Koeffizientensatzes.
Vorrichtung (100) zum Bestimmen gemäß den Ansprüchen 4 und 11, bei der die Einrichtung (102) zum Ermitteln ausgebildet ist, um das Umsetzen des Segmentes des Audiosignals unter Verwendung eines ersten Umsetzungsalgorithmus auszuführen und bei der die Einrichtung zum Umsetzen des Audiosignals in den Frequenzbereich ausgebildet ist, um das Umsetzen unter Verwendung eines zweiten Umsetzungsalgorithmus auszuführen, wobei das Ausführen des ersten Umsetzungsalgorithmus einen geringeren numerischen Aufwand erfordert, als das Ausführen des zweiten Umsetzungsalgorithmus.
Verfahren (400) zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters (f) mit folgenden Merkmalen: Ermitteln (402) eines Frequenzschätzwertes eines in dem Audiosignal auftretenden Tones; Berechnen (404) einer im Vergleich zum Frequenzschätzwert exakteren Tonfrequenz (f_p) eines in dem Audiosignal auftretenden Tons unter Verwendung des Frequenzschätzwertes und des Audiosignals; und Vergleichen (406) der Tonfrequenz (f_p) mit einer Mehrzahl von unterschiedlichen Frequenzrastern (f_–, f, f₊), wobei jedes Frequenzraster (f_–, f, f₊) einer anderen Stimmung zugeordnet ist, um durch das Vergleichen (406) das Frequenzraster (f) zu bestimmen, das mit der Tonfrequenz (f_p) am besten übereinstimmt.
Computer-Programm mit Programmcode zur Durchführung des Verfahrens gemäß Anspruch 13, wenn das Computer-Programm auf einem Computer abläuft.