DE60207061T2

DE60207061T2 - Audiokompression

Info

Publication number: DE60207061T2
Application number: DE60207061T
Authority: DE
Inventors: Donald Martin Beckington MONRO
Original assignee: Ayscough Visuals LLC
Current assignee: Zarbana Digital Fund LLC
Priority date: 2001-03-30
Filing date: 2002-03-07
Publication date: 2006-08-03
Anticipated expiration: 2022-03-08
Also published as: WO2002080146A1; US20040165737A1; DE60207061D1; EP1628290A3; GB0108080D0; EP1377966B9; EP1628290A2; EP1377966A1; EP1377966B1

Description

Die vorliegende Erfindung betrifft die Audiokompression und insbesondere Verfahren und eine Vorrichtung zur Kompression von Audiosignalen unter Verwendung einer auditiven Filterbank, welche die Reaktion des menschlichen Ohrs imitiert.
Analoge Audiosignale, wie etwa jene von Sprache oder Musik, werden fast immer digital dargestellt, indem die Wellenform wiederholt abgetastet wird und durch die resultierenden quantisierten Abtastwerte dargestellt wird. Dies ist als Pulscodemodulation (PCM) bekannt. Die PCM wird typisch ohne Kompression in bestimmten breitbandigen Audiogeräten (wie etwa CD-Spielern) benutzt, jedoch ist eine Kompression normalerweise unerlässlich, wenn das digitalisierte Audiosignal über ein Kommunikationsmedium wie etwa ein Computer- oder Telefonnetz übertragen werden soll. Außerdem verringert eine Kompression selbstverständlich den Speicherplatzbedarf, beispielsweise dort, wo ein Audiomuster auf der Festplatte eines Computers gespeichert werden soll.
Es sind zahlreiche Audio-Kompressionsalgorithmen bekannt, wobei die allgemeinen Grundsätze sind, dass die Redundanz in dem Datenstrom verringert werden sollte und dass keine Informationen übertragen werden sollten, die bei Empfang für den Hörer unhörbar sind. Eine gängige Methode ist die Anwendung einer Teilband-Codierung, die darauf abzielt, die Frequenzreaktion des menschlichen Ohrs durch Unterteilen des Tonfrequenzspektrums in eine große Anzahl von verschiedenen Frequenzbändern zu imitieren und dann Signale innerhalb dieser Bändern unabhängig voneinander zu quantisieren. Einer solchen Methode liegt zu Grunde, dass die Frequenzreaktion des menschlichen Ohrs durch eine Bandpass-Filterbank angenähert werden kann, die aus überlappenden Bandpassfiltern („Filter für maßgebliche Bänder", ["critical-band filters" (engl.)]) besteht. Die Filter sind bei einer linearen Frequenzskala nahezu symmetrisch und weisen sehr steile Flanken auf. Für niedrige Mittenfrequenzen ist die Filterbandbreite ungefähr konstant bei etwa 100 Hz, während bei höheren Frequenzen die maßgebliche Bandbreite mit der Frequenz zunimmt. Gewöhnlich sagt man, dass fünfundzwanzig maßgebliche Bänder erforderlich sind, um Frequenzen bis 20 kHz abzudecken.
Bei einem typischen transformierenden Codierer hat jedes der Teilbänder seine eigene festgelegte Maskierungsschwelle. Der Codierer verwendet gewöhnlich eine schnelle Fouriertransformation (FFT: Fast Fourier Transform (engl.)), um Unterschiede zwischen dem wahrnehmungsmaßgeblichen Hörschall, dem nicht wahrnehmungsmaßgeblichen Schall und dem in dem System vorhandenen Quantisierungsrauschen zu erfassen, und stellt dann die Maskierungsschwelle entsprechend dem vorher festgelegten Wahrnehmungsmodell passend ein. Einmal gefiltert werden die Ausgabedaten von jedem der Teilbänder mit einer Bitauflösung, die gerade ausreicht, um einen adäquaten Abstand zwischen dem Quantisierungsrauschen und der Maskierungsschwelle für jedes Band zu bewahren, erneut quantisiert.
Ein nützlicher Überblick über derzeitige Audiokompressionstechniken kann "Digital Audio Data Compression"; F. Wylie, Electronics & Communication Engineering Journal, Februar 1995, S. 5 bis 10, entnommen werden. Weitere Einzelheiten des Maskierungsverfahrens sind in "Auditory Masking and MPEG1 Audio Compression"; E. Ambikairajah, A. G. Davies and W. T. K. Wong, Electronics & Communication Engineering Journal, August 1997, S. 165–175 beschrieben. "A simple wavelet based perceptual audio coder"; F. Mujica u.a., ICSPAT 1996, S. 1933–1937 diskutiert einen auf einer Baumstruktur beruhenden Algorithmus zur Filterbank-Erzeugung. "High quality low complexity scalable wavelet audio coding"; W. K. Dobson u.a., ICASSP 1997, offenbart einen Codierer, der eine Wavelet-Zerlegung benutzt, wobei eine im Voraus berechnete Baumstruktur entsprechend der Abtastfrequenz ausgewählt wird. "High-quality audio compression using an adaptive wavelet packet decomposition and psychoacoustic modeling"; Srinivasan P. and Jamieson L. H., IEEE Transaction on signal processing, Bd. 46, Nr. 4, 4. April 1998, offenbart eine Filterbankstruktur, die sich entsprechend der zur Verfügung stehenden Komplexität des Decodierers anpasst.
Von verschiedenen Forschern ist eine große Anzahl von auditiven Filterbänken entwickelt worden, wovon einige genauer als andere auf die gemessenen "maßgeblichen Bänder" des menschlichen Gehörs abbilden. Beim Schreiben eines neuen Codec wird der Autor entweder eine der existierenden Filterbanken zur Verwendung mit diesem auswählen oder er kann, als eine andere Möglichkeit, eine neue Filterbank entwickeln, die für die besonderen Verhältnisse, unter denen der Codec benutzt werden soll, optimiert ist. Die bei der Auswahl einer geeigneten Filterbank zu berücksichtigenden Faktoren sind normalerweise die Teilband-Trennung, der erforderliche Rechenaufwand und die Verzögerung durch den Codierer. Eine längere Impulsantwort der Filter in der Bank wird beispielsweise die Unterteilung in Teilbänder verbessern und somit eine stärkere Kompression erlauben, jedoch um den Peis eines zusätzlichen Rechenaufwands und einer zusätzlichen Verzögerung durch den Codierer.
Es ist eine Aufgabe der vorliegenden Erfindung, einige der Probleme des Standes der Technik zumindest zu verringern.
Eine weitere Aufgabe der vorliegenden Erfindung ist die Schaffung eines Verfahrens und einer Vorrichtung für eine Audiocodierung, die über einen breiteren Anwendungsbereich als bisher erzielbar wirksam sind, ohne ein Umprogrammieren der Algorithmen und/oder ein Auswechseln der Filterbank zu erfordern.
Eine weitere Aufgabe ist die Schaffung eines Verfahrens und einer Vorrichtung, die über eine Auswahl unterschiedlicher Abtastraten/Bitraten wirksam sind.
Die Erfindung ist in den unabhängigen Ansprüchen dargelegt. Weitere, optionale Merkmale sind in den abhängigen Ansprüchen definiert.
Die Erfindung ist besonders, wenngleich nicht ausschließlich, zur Verwendung mit transformierenden Codierern geeignet, bei denen die Zeitbereichs-Audiowellenform in eine Frequenzbereichsdarstellung wie etwa eine Fourier-, diskrete Cosinus- oder Wavelet-Transformierte überführt wird. Der Codierer kann, braucht aber nicht, ein vorhersagender Codierer sein.
Die Erfindung ist besonders bei Anwendungen mit niedriger Bitrate nützlich, beispielsweise dort, wo ein Audiosignal über ein Kommunikationsmedium mit einer geringen Bandbreite, wie etwa eine Fernsprech- oder Funkverbindung, ein Computernetz oder das Internet zu übertragen ist. Sie ist besonders praktisch in Situationen, in denen die Abtastfrequenz und/oder Bitrate entweder von Hand durch den Benutzer oder als eine andere Möglichkeit automatisch durch das System entsprechend irgendeinem im Voraus festgelegten Schema verändert werden kann. Wo beispielsweise sowohl Audio- als auch Videodaten über die gleiche Verbindung zu übertragen sind, kann das System automatisch das Bit-Budget zwischen dem Audiodatenstrom und dem Videodatenstrom aufteilen, um eine optimale Wiedergabetreue am empfangenden Ende sicherzustellen. Die optimale Wiedergabetreue hängt dabei sehr stark von der Wahrnehmung des Empfängers ab, so dass beispielsweise dem Audiostrom eine höhere Priorität als dem Videostrom gegeben werden muss, da es für den Empfänger stärker initierend ist, ein unterbrochenes Audiosignal als ein unterbrochenes Videosignal zu empfangen. Da sich die effektive Bitrate über die Verbindung ändert (beispielsweise wegen Rauschens oder Überlastung), kann das System automatisch in eine andere Betriebsart umschalten, wobei sich die Abtastfrequenz und/oder das Bit-Budget, das dem Audiokanal zugewiesen ist, ändert. Im Gebrauch passt sich dann gemäß der vorliegenden Erfindung die Filterbank automatisch an die neuen Bedingungen durch eine Neubildung der Filterbank in Echtzeit an.
Die Erfindung kann auf verschiedenste Weise in die Praxis überführt werden. Ein besonderer Codec und zugehörige Algorithmen werden nun beispielhaft mit Bezug auf die beigefügte Zeichnung beschrieben, worin:
1a schematisch einen Codec gemäß einer bevorzugten Ausführungsform der Erfindung darstellt;
1b eine weitere bevorzugte Ausführungsform veranschaulicht; und
2 das bevorzugte Verfahren zur Konstruktion der Filterbank veranschaulicht.
1a zeigt schematisch den bevorzugten Codec gemäß einer ersten Ausführungsform der Erfindung. Der gezeigte Codec benutzt eine transformierende Codierung, bei der die Zeitbereichs-Audiowellenform in eine Frequenzbereichsdarstellung, wie etwa eine Fourier-, diskrete Cosinus- oder (vorzugsweise) Wavelet-Transformierte, überführt wird. Die transformierende Codierung nutzt vorteilhaft die Tatsache, dass sich die Amplitude oder Einhüllende eines Audiosignals verhältnismäßig langsam ändert, so dass die Koeffizienten der Transformation verhältnismäßig oft übermittelt werden können.
Bei dem Codec der 1a stellen die Kästchen 12, 16, 20 einen Codierer und die Kästchen 28, 32, 36 einen Decodierer dar.
Das ursprüngliche Audiosignal 10 wird als Eingangsgröße einer dekorrelierenden Transformation 12 zugeführt, die Redundanz in dem Signal beseitigt. Die resultierenden Koeffizienten 14 werden dann mittels einer Quantisiereinrichtung 16 quantisiert, um psychoakustische Redundanz zu entfernen, wie weiter unten ausführlicher beschrieben wird. Dies erzeugt eine Folge von Symbolen 18, die durch einen Symbol-Codierer 20 in einen Ausgabe-Bitstrom 22 codiert werden. Der Bitstrom wird dann über einen Nachrichtenkanal gesendet oder, soweit erforderlich, gespeichert, wie durch das Bezugszeichen 24 angegeben ist.
Der gesendete oder wiedergewonnene Bitstrom 26 wird von einem Symbol-Decodierer 28 empfangen, welcher die Bits in Symbole 30 decodiert. Diese werden an eine Rekonstruktionseinrichtung 32 weitergegeben, welche die Koeffizienten 34 rekonstruiert, wodurch die Anwendung der Rücktransformation 36 möglich wird, um das rekonstruierte Ausgangs-Audiosignal 38 zu erzeugen. Es kann sein, dass in der Praxis das Ausgangssignal dem Eingangssignal nicht genau gleich ist, da der Vorgang der Quantisierung selbstverständlich unumkehrbar ist.
Die psychoakustische Reaktion des menschlichen Ohrs wird mittels einer Filterbank 15 modelliert, die den Frequenzraum in eine Anzahl verschiedener Teilbänder unterteilt. Jedes Teilband wird separat behandelt und mit einer Anzahl von Quantisierungsstufen quantisiert, die mittels einer dynamischen Bitzuweisungsregel erhalten werden, die durch das psychoakustische Modell gesteuert ist. Folglich weist jedes Teilband seinen eigenen Maskierungspegel auf, so dass sich die Maskierung mit der Frequenz ändert. Die Filterbank 15 wirkt auf das Audio-Eingangssignal 10, um eine Maskiereinrichtung 17 zu steuern, die wiederum Maskierungsschwellen für die Quantisiereinrichtung 16 liefert. Die Transformation 12 und die Filterbank 15 können gegebenenfalls von völlig verschiedenen Transformationsalgorithmen Gebrauch machen. Alternativ können sie gleiche oder ähnliche Algorithmen anwenden, jedoch mit verschiedenen Parametern. In dem letzteren Fall kann Programmcode für die Transformation 12 und für die Filterbank 15 gemeinsam benutzt werden. In einer besonderen Ausführung wenden die Transformation 12 und die Filterbank 15 völlig gleiche oder sehr ähnliche Wavelet-Transformationsalgorithmen an, jedoch mit verschiedenen Wellenlängen. Beispielsweise können orthogonale Wavelets zur Maskierung benutzt werden, und symmetrische Wavelets, um die Koeffizienten für die Kompression zu generieren.
Eine etwas andere Ausführungsform ist in 1b gezeigt. Diese gleicht der Ausführungsform von 1a, mit der Ausnahme dass die Transformation 12 und die Filterbank 15 in einem einzigen Block zusammengefasst sind, der mit dem Bezugszeichen 12' bezeichnet ist. In dieser Ausführungsform sind die Transformation und die Filterbank im Wesentlichen ein und dasselbe, wobei die gemeinsame Transformation 12 sowohl an die Quantisiereinrichtung 16 als auch an die Maskiereinrichtung 17 Koeffizienten liefert.
Alternativ könnte die Maskiereinrichtung 17, statt irgendein psychoakustisches Modell beispielsweise das bei MP3 verwendete Standardmodell repräsentieren.
Im Gegensatz zum Stand der Technik ist die bei der vorliegenden Erfindung benutzte Filterbank nicht im Voraus definiert und festgelegt, sondern passt sich stattdessen automatisch selbst an die verwendete Abtastfrequenz/Bitrate an. Die bevorzugte Methode ist, eine Wavelet-Packet-Zerlegung, d.h. einen beliebigen Teilband-Zerlegungsbaum, der eine Verallgemeinerung der normalen Wavelet-Transformationszerlegung darstellt, anzuwenden. Bei einer normalen Wavelet-Transformation wird nur das Tiefpass-Teilband auf einem bestimmten Niveau weiter zerlegt: Dies funktioniert in einigen Fällen gut, insbesondere bei der Bildkompression, aber oftmals passen die Zeit-Frequenz-Kennlinien des Signals nicht mit den von dem Wavelet gebotenen Zeit-Frequenz-Lokalisierungen überein, was eine ineffiziente Zerlegung zur Folge haben kann. Die Wavelet-Packet-Zerlegung ist insofern flexibler, als verschiedene Skalen auf verschiedene Frequenzbereiche angewendet werden können, wodurch eine recht effiziente Modellierung des benutzten psychoakustischen Modells möglich ist.
2 veranschaulicht eine beispielhafte Wavelet-Packet-Zerlegung, die die maßgeblichen Bänder des menschlichen Gehörs modelliert. Jedes nicht ausgefüllte Quadrat stellt ein spezifisches Frequenz-Teilband dar, das normalerweise eine Breite haben wird, die geringer als jene des entsprechenden maßgeblichen Bands ist, das der Frequenz in der Mitte des Teilbands entspricht. Auf diese Weise wird das Frequenzspektrum gezielt in genügend Unterbänder unterteilt, deren Breiten sich mit der Frequenz ändern, so dass kein Teilband von größerer Breite als sein entsprechendes maßgebliches Band ist. Dies sollte sicherstellen, dass Quantisierungsrauschen und anderes Rauschen in jedem Teilband wirksam maskiert werden kann.
In dem Anschauungsbeispiel von 2 geht der Gesamtfrequenzbereich von 0 bis 24 kHz. Der Stamm des Baums 120 ist deshalb bei 12 kHz, und dies definiert einen Knotenpunkt, an dem sich der Baum in zwei Zweige teilt, wobei der erste, 122, den Bereich von 0 bis 12 kHz abdeckt und der zweite, 124, den Bereich von 12 bis 24 kHz abdeckt. Jeder dieser zwei Zweige wird dann an Knoten 126, 128 erneut aufgespaltet, wobei der Letztere davon zwei Unterverzweigungen 127, 130 definiert, welche die Bänder von 12 bis 18 kHz bzw. von 18 bis 24 kHz definieren. Der Zweig 127 endet in einem Knoten 130, der zwei weitere Unterverzweigungen, nämlich das Teilband von 12 bis 15 kHz und das Teilband von 15 bis 18 kHz, definiert. Diese enden jeweils in Endknoten bzw. "Blättern" 134, 136. Der Zweig 130 endet in einem Endknoten 132 einer höheren Ebene.
Die Zerlegung des Baums an jedem Knoten wird fortgesetzt, bis jeder Endknoten ein Teilband definiert, das schmaler als das maßgebliche Band ist, das der Mittenfrequenz entspricht. Beispielsweise ist von dem psychoakustischen Modell her bekannt, dass das maßgebliche Band für den Endknoten 132 (bei 21 kHz, dem Zentrum des Bands von 18 bis 24 kHz) breiter als 18 bis 24 kHz ist. Ebenso ist das maßgebliche Band für den Endknoten 136 (bei 16,5 kHz, dem Zentrum des Bands) größer als 15 bis 18 kHz.
Es gibt etliche Möglichkeiten, um einen solchen Baum zu berechnen, wobei jedoch die bevorzugte Methode ist, den Baum systematisch von den niedrigeren zu den höheren Frequenzen zu konstruieren. Mit dem Beginn auf der ersten Ebene wird die Abtastfrequenz durch vier geteilt, um den Stammknoten 120 zu definieren. Dadurch werden zwei Bänder gleicher Frequenz beiderseits des Knotens definiert (in der Zeichnung durch die Zweige 122, 124 dargestellt). Bei dem niedrigeren der zwei Bänder wird die Mittenfrequenz 126 ermittelt, wobei das Band praktisch in zwei weitere Teilbänder unterteilt wird. Das Verfahren wird auf jeder folgenden Ebene wiederholt. Wenn man zu einem Endknoten gelangt, der einem Teilband entspricht, das eine Breite aufweist, die kleiner oder gleich der maßgeblichen Bandbreite ist, kann die Bandaufspaltung auf dieser Ebene eingestellt werden; man geht dann zur nächsten Ebene und startet erneut im niedrigeren Frequenzband. Wenn das niedrigste Frequenzband eine Breite hat, die kleiner oder gleich seiner maßgeblichen Bandbreite ist, dann ist die Zerlegung vollständig.
Da bekannt ist, dass die maßgeblichen Bänder mit der Frequenz monoton zunehmen, geht der Algorithmus davon aus, dass dann, wenn bei einer gegebenen Frequenz N Ebenen gebraucht werden, für alle höheren Frequenzen N oder weniger Ebenen erforderlich sind.
Das oben beschriebene Verfahren gewährleistet, dass für eine beliebige Abtastfrequenz alle Teilbandbreiten gleich den Breiten der entsprechenden maßgeblichen Bänder oder kleiner sind. Selbstverständlich benötigt das System Informationen darüber, wo die maßgeblichen Bänder für jede Frequenz eigentlich liegen, damit es weiß, wann die Zerlegung einzustellen ist. Diese Informationen, die von einem psychoakustischen Experiment abgeleitet sind, können entweder in einer Nachschlage-Tabelle gespeichert sein oder können nach Bedarf in Echtzeit näherungsweise bestimmt werden. Für diesen Zweck kann die folgende Näherungsformel benutzt werden, wobei BW die maßgebliche Bandbreite in Hz und f die Mittenfrequenz des Bands repräsentiert: BW = 25 + 75[1 + 1,4f2]0,69
In einer Variante des oben beschriebenen Verfahrens kann der Benutzer die "Strenge" oder Anderes des Algorithmus mittels einer benutzerdefinierten Konstanten Konst. steuern. Die Anzahl der Ebenen (Grad der Zerlegung) ist als die kleinste gewählt, für welche die Breite des Teilbands multipliziert mit Konst kleiner als die maßgebliche Bandbreite bei der Mittenfrequenz des Teilbands ist. Konst = 1 entspricht dem oben beschriebenen Verfahren; Konst > 1 definiert eine hochwertigere Spezifikation, die mehr Teilbänder erzeugt; und Konst < 1 ist weniger streng und lässt zu, dass die Teilbänder eher breiter als die maßgeblichen Bänder sind.
Der bevorzugte Algorithmus zur Erzeugung des Baums von 2 ist nachstehend dargelegt. Das Feld ToDo speichert, wie viele Zerlegungen auf jeder Ebene ausgeführt werden müssen. Die Zerlegungen beginnen mit einer niedrigen Frequenz und werden fortgesetzt, bis die Teilbandbreite klein genug ist. Bei höheren Frequenzen braucht nicht weiter aufgespaltet zu werden, da die maßgebliche Bandbreite mit der Frequenz monoton zunimmt:
Selbstverständlich ist klar, dass Obiges nur beispielhaft ist und dass der Baum auf jede geeignete Weise konstruiert werden kann.
Der Baum wird automatisch in Echtzeit erzeugt, wobei er sich bei Bedarf automatisch selbst an Veränderungen der Abtastfrequenz/Bitrate durch erneutes Berechnen anpasst. Alternativ (obwohl dies nicht bevorzugt wird) könnte eine Reihe möglicher Bäume vorab für verschiedene Abtastfrequenzen/Bitraten berechnet werden, und diese könnten in dem Codierer gespeichert sein. Der entsprechende vorcompilierte Baum könnte dann von dem System automatisch in Abhängigkeit von der Abtastfrequenz/Bitrate ausgewählt werden.
Die Maskierung und die Kompression werden vorzugsweise beide unter Verwendung der gleichen Transformation, beispielsweise einer Wavelet-Transformation, ausgeführt. Obwohl das System gut funktioniert, wenn das gleiche Wavelet für jede Ebene verwendet wird, wäre es möglich, sich unterscheidende Filter zur Verwendung auf jeder Ebene oder bei verschiedenen Frequenzen zu spezifizieren. Beispielsweise könnte gewünscht sein, ein kürzeres Wavelet auf niedrigeren Ebenen zu benutzen, um die Verzögerung zu verringern.
Damit die Filterbank bei der Bereitstellung von Eingangsgrößen für die Maskierungseinrichtung effektiv ist, sollte ein orthogonales Wavelet benutzt werden, wie etwa das Daubechies-Wavelet, da nur mit orthogonalen Wavelets die Energie in den Bändern genau berechnet werden kann. Es ist jedoch wohlbekannt, dass orthogonale Wavelets nicht symmetrisch sein können, und die Daubechies-Wavelet sind stark asymmetrisch. Für eine Kompression ist es am besten, ein symmetrisches Wavelet zu verwenden, da eine Quantisierung in Kombination mit einem nicht symmetrischen Wavelet Phasenverzerrungen hervorrufen wird, die für menschliche Zuhörer sehr wohl wahrnehmbar sind. In der Praxis ist festgestellt worden, dass dann, wenn gewünscht ist, dass die gleiche Wavelet-Transformation (z.B. wie in 1b) für die Maskierung und die Kompression benutzt wird, so genannte "Symlets" ein guter Kompromiss sind, da sie die am meisten symmetrischen orthogonalen Wavelets sind. Alternativ kann die Filterbank zweimal verwendet werden, einmal mit orthogonalen Wavelets zur Maskierung und noch einmal mit einem symmetrischen Wavelet, um die Koeffizienten für die Kompression zu generieren (z.B. wie in 1a).
Es ist festgestellt worden, dass bei Verwendung von nicht orthogonalen Wavelets gute Ergebnisse mit einem Wert von ungefähr 1,2 für Konst erzielt werden können.
Um die Entstehung von Artefakten aufgrund von Blockgrenzen zu vermeiden, wird das Audiosignal vorzugsweise als ein unendlicher Block behandelt, wobei das Wavelet-Filter einfach das Signal "entlanggeschoben" wird.
Das bevorzugte Verfahren und die bevorzugte Vorrichtung der Erfindung können in einen Video-Codec für eine gleichzeitige Übertragung von Bildern und Ton integriert werden.
Fig. 1a, b
Fig. 2

Claims

Verfahren zur Kompression eines Audiosignals, einschließlich einer Erzeugung einer Filterbank in Abhängigkeit von der Abtastfrequenz oder Bitrate, wobei die Filterbank mittels einer Baumstruktur erzeugt wird, die entsprechend den folgenden Schritten konstruiert wird: (a) Definieren eines Versuchsbandes auf der Ebene eins, Vergleichen der Breite des Versuchsbandes mit der Breite eines entsprechenden kritischen Bands und Teilen des Versuchsbandes in Bänder der Ebene zwei, falls festgestellt wird, dass das Versuchsband der Ebene eins zu breit ist; (b) beginnend mit dem Versuchsband der Ebene 2 mit der niedrigsten Frequenz, Vergleichen der Breite jedes Versuchsbandes der Ebene zwei der Reihe nach mit der Breite eines entsprechenden kritischen Bands und Teilen jedes Bands der Ebene zwei, das als zu breit bestimmt wird, in Bänder der Ebene drei; und (c) Wiederholen des Schrittes (b) für die dritte Ebene und höhere Ebenen, bis kein Band mehr als zu breit bestimmt wird.
Verfahren nach Anspruch 1, wobei im Betrieb die Filterbank automatisch aktualisiert wird, wenn sich die Abtastfrequenz oder Bitrate ändert.
Verfahren nach Anspruch 1 oder 2, wobei die Baumstruktur ein Binärbaum ist.
Verfahren nach Anspruch 1, 2 oder 3, wobei das Versuchsband als zu breit bestimmt wird, wenn es breiter als das entsprechende kritische Band ist.
Verfahren nach Anspruch 1, 2 oder 3, wobei das Versuchsband als zu breit bestimmt wird, wenn die Breite des Bands multipliziert mit einer Konstanten größer als die Breite des entsprechenden kritischen Bands ist, oder wenn die Breite des Bands größer als die mit einer Konstanten multiplizierte Breite des entsprechenden kritischen Bands ist.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das dem Versuchsband entsprechende kritische Band jenes kritische Band ist, das um die Mittenfrequenz des Versuchsbandes zentriert ist.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die kritischen Bänder in einer Nachschlage-Tabelle gespeichert sind.
Verfahren nach einem der Ansprüche 1 bis 6, wobei die kritischen Bänder bei Bedarf mittels einer deterministischen Formel gerundet werden.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Filterbank benutzt wird, um die auf das Signal anzuwendende Maskierung festzulegen.
Verfahren nach Anspruch 9, wobei sowohl für die Kompression als auch die Maskierung die gleiche Transformation benutzt wird.
Verfahren nach Anspruch 10, wobei die Transformation eine Wavelet-Transformation ist.
Verfahren nach Anspruch 9, wobei die Maskierung durch eine Wavelet-Transformation bestimmt wird.
Verfahren nach Anspruch 12, wobei die Wavelet-Transformation bei allen Skalen das gleiche Wavelet verwendet.
Verfahren nach Anspruch 12, wobei die Wavelet-Transformation bei verschiedenen Skalen verschiedene Wavelets verwendet.
Codierer für eine Kompression eines Audiosignals, wobei der Codierer ein Verfahren nach einem der vorhergehenden Ansprüche ausführt.
Codec, der einen Codierer nach Anspruch 15 beinhaltet.