DE60207061T2 - Audiokompression - Google Patents

Audiokompression Download PDF

Info

Publication number
DE60207061T2
DE60207061T2 DE60207061T DE60207061T DE60207061T2 DE 60207061 T2 DE60207061 T2 DE 60207061T2 DE 60207061 T DE60207061 T DE 60207061T DE 60207061 T DE60207061 T DE 60207061T DE 60207061 T2 DE60207061 T2 DE 60207061T2
Authority
DE
Germany
Prior art keywords
band
level
width
critical
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60207061T
Other languages
English (en)
Other versions
DE60207061D1 (de
Inventor
Donald Martin Beckington MONRO
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zarbana Digital Fund LLC
Original Assignee
Ayscough Visuals LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ayscough Visuals LLC filed Critical Ayscough Visuals LLC
Application granted granted Critical
Publication of DE60207061D1 publication Critical patent/DE60207061D1/de
Publication of DE60207061T2 publication Critical patent/DE60207061T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Description

  • Die vorliegende Erfindung betrifft die Audiokompression und insbesondere Verfahren und eine Vorrichtung zur Kompression von Audiosignalen unter Verwendung einer auditiven Filterbank, welche die Reaktion des menschlichen Ohrs imitiert.
  • Analoge Audiosignale, wie etwa jene von Sprache oder Musik, werden fast immer digital dargestellt, indem die Wellenform wiederholt abgetastet wird und durch die resultierenden quantisierten Abtastwerte dargestellt wird. Dies ist als Pulscodemodulation (PCM) bekannt. Die PCM wird typisch ohne Kompression in bestimmten breitbandigen Audiogeräten (wie etwa CD-Spielern) benutzt, jedoch ist eine Kompression normalerweise unerlässlich, wenn das digitalisierte Audiosignal über ein Kommunikationsmedium wie etwa ein Computer- oder Telefonnetz übertragen werden soll. Außerdem verringert eine Kompression selbstverständlich den Speicherplatzbedarf, beispielsweise dort, wo ein Audiomuster auf der Festplatte eines Computers gespeichert werden soll.
  • Es sind zahlreiche Audio-Kompressionsalgorithmen bekannt, wobei die allgemeinen Grundsätze sind, dass die Redundanz in dem Datenstrom verringert werden sollte und dass keine Informationen übertragen werden sollten, die bei Empfang für den Hörer unhörbar sind. Eine gängige Methode ist die Anwendung einer Teilband-Codierung, die darauf abzielt, die Frequenzreaktion des menschlichen Ohrs durch Unterteilen des Tonfrequenzspektrums in eine große Anzahl von verschiedenen Frequenzbändern zu imitieren und dann Signale innerhalb dieser Bändern unabhängig voneinander zu quantisieren. Einer solchen Methode liegt zu Grunde, dass die Frequenzreaktion des menschlichen Ohrs durch eine Bandpass-Filterbank angenähert werden kann, die aus überlappenden Bandpassfiltern („Filter für maßgebliche Bänder", ["critical-band filters" (engl.)]) besteht. Die Filter sind bei einer linearen Frequenzskala nahezu symmetrisch und weisen sehr steile Flanken auf. Für niedrige Mittenfrequenzen ist die Filterbandbreite ungefähr konstant bei etwa 100 Hz, während bei höheren Frequenzen die maßgebliche Bandbreite mit der Frequenz zunimmt. Gewöhnlich sagt man, dass fünfundzwanzig maßgebliche Bänder erforderlich sind, um Frequenzen bis 20 kHz abzudecken.
  • Bei einem typischen transformierenden Codierer hat jedes der Teilbänder seine eigene festgelegte Maskierungsschwelle. Der Codierer verwendet gewöhnlich eine schnelle Fouriertransformation (FFT: Fast Fourier Transform (engl.)), um Unterschiede zwischen dem wahrnehmungsmaßgeblichen Hörschall, dem nicht wahrnehmungsmaßgeblichen Schall und dem in dem System vorhandenen Quantisierungsrauschen zu erfassen, und stellt dann die Maskierungsschwelle entsprechend dem vorher festgelegten Wahrnehmungsmodell passend ein. Einmal gefiltert werden die Ausgabedaten von jedem der Teilbänder mit einer Bitauflösung, die gerade ausreicht, um einen adäquaten Abstand zwischen dem Quantisierungsrauschen und der Maskierungsschwelle für jedes Band zu bewahren, erneut quantisiert.
  • Ein nützlicher Überblick über derzeitige Audiokompressionstechniken kann "Digital Audio Data Compression"; F. Wylie, Electronics & Communication Engineering Journal, Februar 1995, S. 5 bis 10, entnommen werden. Weitere Einzelheiten des Maskierungsverfahrens sind in "Auditory Masking and MPEG1 Audio Compression"; E. Ambikairajah, A. G. Davies and W. T. K. Wong, Electronics & Communication Engineering Journal, August 1997, S. 165–175 beschrieben. "A simple wavelet based perceptual audio coder"; F. Mujica u.a., ICSPAT 1996, S. 1933–1937 diskutiert einen auf einer Baumstruktur beruhenden Algorithmus zur Filterbank-Erzeugung. "High quality low complexity scalable wavelet audio coding"; W. K. Dobson u.a., ICASSP 1997, offenbart einen Codierer, der eine Wavelet-Zerlegung benutzt, wobei eine im Voraus berechnete Baumstruktur entsprechend der Abtastfrequenz ausgewählt wird. "High-quality audio compression using an adaptive wavelet packet decomposition and psychoacoustic modeling"; Srinivasan P. and Jamieson L. H., IEEE Transaction on signal processing, Bd. 46, Nr. 4, 4. April 1998, offenbart eine Filterbankstruktur, die sich entsprechend der zur Verfügung stehenden Komplexität des Decodierers anpasst.
  • Von verschiedenen Forschern ist eine große Anzahl von auditiven Filterbänken entwickelt worden, wovon einige genauer als andere auf die gemessenen "maßgeblichen Bänder" des menschlichen Gehörs abbilden. Beim Schreiben eines neuen Codec wird der Autor entweder eine der existierenden Filterbanken zur Verwendung mit diesem auswählen oder er kann, als eine andere Möglichkeit, eine neue Filterbank entwickeln, die für die besonderen Verhältnisse, unter denen der Codec benutzt werden soll, optimiert ist. Die bei der Auswahl einer geeigneten Filterbank zu berücksichtigenden Faktoren sind normalerweise die Teilband-Trennung, der erforderliche Rechenaufwand und die Verzögerung durch den Codierer. Eine längere Impulsantwort der Filter in der Bank wird beispielsweise die Unterteilung in Teilbänder verbessern und somit eine stärkere Kompression erlauben, jedoch um den Peis eines zusätzlichen Rechenaufwands und einer zusätzlichen Verzögerung durch den Codierer.
  • Es ist eine Aufgabe der vorliegenden Erfindung, einige der Probleme des Standes der Technik zumindest zu verringern.
  • Eine weitere Aufgabe der vorliegenden Erfindung ist die Schaffung eines Verfahrens und einer Vorrichtung für eine Audiocodierung, die über einen breiteren Anwendungsbereich als bisher erzielbar wirksam sind, ohne ein Umprogrammieren der Algorithmen und/oder ein Auswechseln der Filterbank zu erfordern.
  • Eine weitere Aufgabe ist die Schaffung eines Verfahrens und einer Vorrichtung, die über eine Auswahl unterschiedlicher Abtastraten/Bitraten wirksam sind.
  • Die Erfindung ist in den unabhängigen Ansprüchen dargelegt. Weitere, optionale Merkmale sind in den abhängigen Ansprüchen definiert.
  • Die Erfindung ist besonders, wenngleich nicht ausschließlich, zur Verwendung mit transformierenden Codierern geeignet, bei denen die Zeitbereichs-Audiowellenform in eine Frequenzbereichsdarstellung wie etwa eine Fourier-, diskrete Cosinus- oder Wavelet-Transformierte überführt wird. Der Codierer kann, braucht aber nicht, ein vorhersagender Codierer sein.
  • Die Erfindung ist besonders bei Anwendungen mit niedriger Bitrate nützlich, beispielsweise dort, wo ein Audiosignal über ein Kommunikationsmedium mit einer geringen Bandbreite, wie etwa eine Fernsprech- oder Funkverbindung, ein Computernetz oder das Internet zu übertragen ist. Sie ist besonders praktisch in Situationen, in denen die Abtastfrequenz und/oder Bitrate entweder von Hand durch den Benutzer oder als eine andere Möglichkeit automatisch durch das System entsprechend irgendeinem im Voraus festgelegten Schema verändert werden kann. Wo beispielsweise sowohl Audio- als auch Videodaten über die gleiche Verbindung zu übertragen sind, kann das System automatisch das Bit-Budget zwischen dem Audiodatenstrom und dem Videodatenstrom aufteilen, um eine optimale Wiedergabetreue am empfangenden Ende sicherzustellen. Die optimale Wiedergabetreue hängt dabei sehr stark von der Wahrnehmung des Empfängers ab, so dass beispielsweise dem Audiostrom eine höhere Priorität als dem Videostrom gegeben werden muss, da es für den Empfänger stärker initierend ist, ein unterbrochenes Audiosignal als ein unterbrochenes Videosignal zu empfangen. Da sich die effektive Bitrate über die Verbindung ändert (beispielsweise wegen Rauschens oder Überlastung), kann das System automatisch in eine andere Betriebsart umschalten, wobei sich die Abtastfrequenz und/oder das Bit-Budget, das dem Audiokanal zugewiesen ist, ändert. Im Gebrauch passt sich dann gemäß der vorliegenden Erfindung die Filterbank automatisch an die neuen Bedingungen durch eine Neubildung der Filterbank in Echtzeit an.
  • Die Erfindung kann auf verschiedenste Weise in die Praxis überführt werden. Ein besonderer Codec und zugehörige Algorithmen werden nun beispielhaft mit Bezug auf die beigefügte Zeichnung beschrieben, worin:
  • 1a schematisch einen Codec gemäß einer bevorzugten Ausführungsform der Erfindung darstellt;
  • 1b eine weitere bevorzugte Ausführungsform veranschaulicht; und
  • 2 das bevorzugte Verfahren zur Konstruktion der Filterbank veranschaulicht.
  • 1a zeigt schematisch den bevorzugten Codec gemäß einer ersten Ausführungsform der Erfindung. Der gezeigte Codec benutzt eine transformierende Codierung, bei der die Zeitbereichs-Audiowellenform in eine Frequenzbereichsdarstellung, wie etwa eine Fourier-, diskrete Cosinus- oder (vorzugsweise) Wavelet-Transformierte, überführt wird. Die transformierende Codierung nutzt vorteilhaft die Tatsache, dass sich die Amplitude oder Einhüllende eines Audiosignals verhältnismäßig langsam ändert, so dass die Koeffizienten der Transformation verhältnismäßig oft übermittelt werden können.
  • Bei dem Codec der 1a stellen die Kästchen 12, 16, 20 einen Codierer und die Kästchen 28, 32, 36 einen Decodierer dar.
  • Das ursprüngliche Audiosignal 10 wird als Eingangsgröße einer dekorrelierenden Transformation 12 zugeführt, die Redundanz in dem Signal beseitigt. Die resultierenden Koeffizienten 14 werden dann mittels einer Quantisiereinrichtung 16 quantisiert, um psychoakustische Redundanz zu entfernen, wie weiter unten ausführlicher beschrieben wird. Dies erzeugt eine Folge von Symbolen 18, die durch einen Symbol-Codierer 20 in einen Ausgabe-Bitstrom 22 codiert werden. Der Bitstrom wird dann über einen Nachrichtenkanal gesendet oder, soweit erforderlich, gespeichert, wie durch das Bezugszeichen 24 angegeben ist.
  • Der gesendete oder wiedergewonnene Bitstrom 26 wird von einem Symbol-Decodierer 28 empfangen, welcher die Bits in Symbole 30 decodiert. Diese werden an eine Rekonstruktionseinrichtung 32 weitergegeben, welche die Koeffizienten 34 rekonstruiert, wodurch die Anwendung der Rücktransformation 36 möglich wird, um das rekonstruierte Ausgangs-Audiosignal 38 zu erzeugen. Es kann sein, dass in der Praxis das Ausgangssignal dem Eingangssignal nicht genau gleich ist, da der Vorgang der Quantisierung selbstverständlich unumkehrbar ist.
  • Die psychoakustische Reaktion des menschlichen Ohrs wird mittels einer Filterbank 15 modelliert, die den Frequenzraum in eine Anzahl verschiedener Teilbänder unterteilt. Jedes Teilband wird separat behandelt und mit einer Anzahl von Quantisierungsstufen quantisiert, die mittels einer dynamischen Bitzuweisungsregel erhalten werden, die durch das psychoakustische Modell gesteuert ist. Folglich weist jedes Teilband seinen eigenen Maskierungspegel auf, so dass sich die Maskierung mit der Frequenz ändert. Die Filterbank 15 wirkt auf das Audio-Eingangssignal 10, um eine Maskiereinrichtung 17 zu steuern, die wiederum Maskierungsschwellen für die Quantisiereinrichtung 16 liefert. Die Transformation 12 und die Filterbank 15 können gegebenenfalls von völlig verschiedenen Transformationsalgorithmen Gebrauch machen. Alternativ können sie gleiche oder ähnliche Algorithmen anwenden, jedoch mit verschiedenen Parametern. In dem letzteren Fall kann Programmcode für die Transformation 12 und für die Filterbank 15 gemeinsam benutzt werden. In einer besonderen Ausführung wenden die Transformation 12 und die Filterbank 15 völlig gleiche oder sehr ähnliche Wavelet-Transformationsalgorithmen an, jedoch mit verschiedenen Wellenlängen. Beispielsweise können orthogonale Wavelets zur Maskierung benutzt werden, und symmetrische Wavelets, um die Koeffizienten für die Kompression zu generieren.
  • Eine etwas andere Ausführungsform ist in 1b gezeigt. Diese gleicht der Ausführungsform von 1a, mit der Ausnahme dass die Transformation 12 und die Filterbank 15 in einem einzigen Block zusammengefasst sind, der mit dem Bezugszeichen 12' bezeichnet ist. In dieser Ausführungsform sind die Transformation und die Filterbank im Wesentlichen ein und dasselbe, wobei die gemeinsame Transformation 12 sowohl an die Quantisiereinrichtung 16 als auch an die Maskiereinrichtung 17 Koeffizienten liefert.
  • Alternativ könnte die Maskiereinrichtung 17, statt irgendein psychoakustisches Modell beispielsweise das bei MP3 verwendete Standardmodell repräsentieren.
  • Im Gegensatz zum Stand der Technik ist die bei der vorliegenden Erfindung benutzte Filterbank nicht im Voraus definiert und festgelegt, sondern passt sich stattdessen automatisch selbst an die verwendete Abtastfrequenz/Bitrate an. Die bevorzugte Methode ist, eine Wavelet-Packet-Zerlegung, d.h. einen beliebigen Teilband-Zerlegungsbaum, der eine Verallgemeinerung der normalen Wavelet-Transformationszerlegung darstellt, anzuwenden. Bei einer normalen Wavelet-Transformation wird nur das Tiefpass-Teilband auf einem bestimmten Niveau weiter zerlegt: Dies funktioniert in einigen Fällen gut, insbesondere bei der Bildkompression, aber oftmals passen die Zeit-Frequenz-Kennlinien des Signals nicht mit den von dem Wavelet gebotenen Zeit-Frequenz-Lokalisierungen überein, was eine ineffiziente Zerlegung zur Folge haben kann. Die Wavelet-Packet-Zerlegung ist insofern flexibler, als verschiedene Skalen auf verschiedene Frequenzbereiche angewendet werden können, wodurch eine recht effiziente Modellierung des benutzten psychoakustischen Modells möglich ist.
  • 2 veranschaulicht eine beispielhafte Wavelet-Packet-Zerlegung, die die maßgeblichen Bänder des menschlichen Gehörs modelliert. Jedes nicht ausgefüllte Quadrat stellt ein spezifisches Frequenz-Teilband dar, das normalerweise eine Breite haben wird, die geringer als jene des entsprechenden maßgeblichen Bands ist, das der Frequenz in der Mitte des Teilbands entspricht. Auf diese Weise wird das Frequenzspektrum gezielt in genügend Unterbänder unterteilt, deren Breiten sich mit der Frequenz ändern, so dass kein Teilband von größerer Breite als sein entsprechendes maßgebliches Band ist. Dies sollte sicherstellen, dass Quantisierungsrauschen und anderes Rauschen in jedem Teilband wirksam maskiert werden kann.
  • In dem Anschauungsbeispiel von 2 geht der Gesamtfrequenzbereich von 0 bis 24 kHz. Der Stamm des Baums 120 ist deshalb bei 12 kHz, und dies definiert einen Knotenpunkt, an dem sich der Baum in zwei Zweige teilt, wobei der erste, 122, den Bereich von 0 bis 12 kHz abdeckt und der zweite, 124, den Bereich von 12 bis 24 kHz abdeckt. Jeder dieser zwei Zweige wird dann an Knoten 126, 128 erneut aufgespaltet, wobei der Letztere davon zwei Unterverzweigungen 127, 130 definiert, welche die Bänder von 12 bis 18 kHz bzw. von 18 bis 24 kHz definieren. Der Zweig 127 endet in einem Knoten 130, der zwei weitere Unterverzweigungen, nämlich das Teilband von 12 bis 15 kHz und das Teilband von 15 bis 18 kHz, definiert. Diese enden jeweils in Endknoten bzw. "Blättern" 134, 136. Der Zweig 130 endet in einem Endknoten 132 einer höheren Ebene.
  • Die Zerlegung des Baums an jedem Knoten wird fortgesetzt, bis jeder Endknoten ein Teilband definiert, das schmaler als das maßgebliche Band ist, das der Mittenfrequenz entspricht. Beispielsweise ist von dem psychoakustischen Modell her bekannt, dass das maßgebliche Band für den Endknoten 132 (bei 21 kHz, dem Zentrum des Bands von 18 bis 24 kHz) breiter als 18 bis 24 kHz ist. Ebenso ist das maßgebliche Band für den Endknoten 136 (bei 16,5 kHz, dem Zentrum des Bands) größer als 15 bis 18 kHz.
  • Es gibt etliche Möglichkeiten, um einen solchen Baum zu berechnen, wobei jedoch die bevorzugte Methode ist, den Baum systematisch von den niedrigeren zu den höheren Frequenzen zu konstruieren. Mit dem Beginn auf der ersten Ebene wird die Abtastfrequenz durch vier geteilt, um den Stammknoten 120 zu definieren. Dadurch werden zwei Bänder gleicher Frequenz beiderseits des Knotens definiert (in der Zeichnung durch die Zweige 122, 124 dargestellt). Bei dem niedrigeren der zwei Bänder wird die Mittenfrequenz 126 ermittelt, wobei das Band praktisch in zwei weitere Teilbänder unterteilt wird. Das Verfahren wird auf jeder folgenden Ebene wiederholt. Wenn man zu einem Endknoten gelangt, der einem Teilband entspricht, das eine Breite aufweist, die kleiner oder gleich der maßgeblichen Bandbreite ist, kann die Bandaufspaltung auf dieser Ebene eingestellt werden; man geht dann zur nächsten Ebene und startet erneut im niedrigeren Frequenzband. Wenn das niedrigste Frequenzband eine Breite hat, die kleiner oder gleich seiner maßgeblichen Bandbreite ist, dann ist die Zerlegung vollständig.
  • Da bekannt ist, dass die maßgeblichen Bänder mit der Frequenz monoton zunehmen, geht der Algorithmus davon aus, dass dann, wenn bei einer gegebenen Frequenz N Ebenen gebraucht werden, für alle höheren Frequenzen N oder weniger Ebenen erforderlich sind.
  • Das oben beschriebene Verfahren gewährleistet, dass für eine beliebige Abtastfrequenz alle Teilbandbreiten gleich den Breiten der entsprechenden maßgeblichen Bänder oder kleiner sind. Selbstverständlich benötigt das System Informationen darüber, wo die maßgeblichen Bänder für jede Frequenz eigentlich liegen, damit es weiß, wann die Zerlegung einzustellen ist. Diese Informationen, die von einem psychoakustischen Experiment abgeleitet sind, können entweder in einer Nachschlage-Tabelle gespeichert sein oder können nach Bedarf in Echtzeit näherungsweise bestimmt werden. Für diesen Zweck kann die folgende Näherungsformel benutzt werden, wobei BW die maßgebliche Bandbreite in Hz und f die Mittenfrequenz des Bands repräsentiert: BW = 25 + 75[1 + 1,4f2]0,69
  • In einer Variante des oben beschriebenen Verfahrens kann der Benutzer die "Strenge" oder Anderes des Algorithmus mittels einer benutzerdefinierten Konstanten Konst. steuern. Die Anzahl der Ebenen (Grad der Zerlegung) ist als die kleinste gewählt, für welche die Breite des Teilbands multipliziert mit Konst kleiner als die maßgebliche Bandbreite bei der Mittenfrequenz des Teilbands ist. Konst = 1 entspricht dem oben beschriebenen Verfahren; Konst > 1 definiert eine hochwertigere Spezifikation, die mehr Teilbänder erzeugt; und Konst < 1 ist weniger streng und lässt zu, dass die Teilbänder eher breiter als die maßgeblichen Bänder sind.
  • Der bevorzugte Algorithmus zur Erzeugung des Baums von 2 ist nachstehend dargelegt. Das Feld ToDo speichert, wie viele Zerlegungen auf jeder Ebene ausgeführt werden müssen. Die Zerlegungen beginnen mit einer niedrigen Frequenz und werden fortgesetzt, bis die Teilbandbreite klein genug ist. Bei höheren Frequenzen braucht nicht weiter aufgespaltet zu werden, da die maßgebliche Bandbreite mit der Frequenz monoton zunimmt:
  • Figure 00080001
  • Selbstverständlich ist klar, dass Obiges nur beispielhaft ist und dass der Baum auf jede geeignete Weise konstruiert werden kann.
  • Der Baum wird automatisch in Echtzeit erzeugt, wobei er sich bei Bedarf automatisch selbst an Veränderungen der Abtastfrequenz/Bitrate durch erneutes Berechnen anpasst. Alternativ (obwohl dies nicht bevorzugt wird) könnte eine Reihe möglicher Bäume vorab für verschiedene Abtastfrequenzen/Bitraten berechnet werden, und diese könnten in dem Codierer gespeichert sein. Der entsprechende vorcompilierte Baum könnte dann von dem System automatisch in Abhängigkeit von der Abtastfrequenz/Bitrate ausgewählt werden.
  • Die Maskierung und die Kompression werden vorzugsweise beide unter Verwendung der gleichen Transformation, beispielsweise einer Wavelet-Transformation, ausgeführt. Obwohl das System gut funktioniert, wenn das gleiche Wavelet für jede Ebene verwendet wird, wäre es möglich, sich unterscheidende Filter zur Verwendung auf jeder Ebene oder bei verschiedenen Frequenzen zu spezifizieren. Beispielsweise könnte gewünscht sein, ein kürzeres Wavelet auf niedrigeren Ebenen zu benutzen, um die Verzögerung zu verringern.
  • Damit die Filterbank bei der Bereitstellung von Eingangsgrößen für die Maskierungseinrichtung effektiv ist, sollte ein orthogonales Wavelet benutzt werden, wie etwa das Daubechies-Wavelet, da nur mit orthogonalen Wavelets die Energie in den Bändern genau berechnet werden kann. Es ist jedoch wohlbekannt, dass orthogonale Wavelets nicht symmetrisch sein können, und die Daubechies-Wavelet sind stark asymmetrisch. Für eine Kompression ist es am besten, ein symmetrisches Wavelet zu verwenden, da eine Quantisierung in Kombination mit einem nicht symmetrischen Wavelet Phasenverzerrungen hervorrufen wird, die für menschliche Zuhörer sehr wohl wahrnehmbar sind. In der Praxis ist festgestellt worden, dass dann, wenn gewünscht ist, dass die gleiche Wavelet-Transformation (z.B. wie in 1b) für die Maskierung und die Kompression benutzt wird, so genannte "Symlets" ein guter Kompromiss sind, da sie die am meisten symmetrischen orthogonalen Wavelets sind. Alternativ kann die Filterbank zweimal verwendet werden, einmal mit orthogonalen Wavelets zur Maskierung und noch einmal mit einem symmetrischen Wavelet, um die Koeffizienten für die Kompression zu generieren (z.B. wie in 1a).
  • Es ist festgestellt worden, dass bei Verwendung von nicht orthogonalen Wavelets gute Ergebnisse mit einem Wert von ungefähr 1,2 für Konst erzielt werden können.
  • Um die Entstehung von Artefakten aufgrund von Blockgrenzen zu vermeiden, wird das Audiosignal vorzugsweise als ein unendlicher Block behandelt, wobei das Wavelet-Filter einfach das Signal "entlanggeschoben" wird.
  • Das bevorzugte Verfahren und die bevorzugte Vorrichtung der Erfindung können in einen Video-Codec für eine gleichzeitige Übertragung von Bildern und Ton integriert werden.
  • Fig. 1a, b
    Figure 00110001
  • Fig. 2
    Figure 00110002

Claims (16)

  1. Verfahren zur Kompression eines Audiosignals, einschließlich einer Erzeugung einer Filterbank in Abhängigkeit von der Abtastfrequenz oder Bitrate, wobei die Filterbank mittels einer Baumstruktur erzeugt wird, die entsprechend den folgenden Schritten konstruiert wird: (a) Definieren eines Versuchsbandes auf der Ebene eins, Vergleichen der Breite des Versuchsbandes mit der Breite eines entsprechenden kritischen Bands und Teilen des Versuchsbandes in Bänder der Ebene zwei, falls festgestellt wird, dass das Versuchsband der Ebene eins zu breit ist; (b) beginnend mit dem Versuchsband der Ebene 2 mit der niedrigsten Frequenz, Vergleichen der Breite jedes Versuchsbandes der Ebene zwei der Reihe nach mit der Breite eines entsprechenden kritischen Bands und Teilen jedes Bands der Ebene zwei, das als zu breit bestimmt wird, in Bänder der Ebene drei; und (c) Wiederholen des Schrittes (b) für die dritte Ebene und höhere Ebenen, bis kein Band mehr als zu breit bestimmt wird.
  2. Verfahren nach Anspruch 1, wobei im Betrieb die Filterbank automatisch aktualisiert wird, wenn sich die Abtastfrequenz oder Bitrate ändert.
  3. Verfahren nach Anspruch 1 oder 2, wobei die Baumstruktur ein Binärbaum ist.
  4. Verfahren nach Anspruch 1, 2 oder 3, wobei das Versuchsband als zu breit bestimmt wird, wenn es breiter als das entsprechende kritische Band ist.
  5. Verfahren nach Anspruch 1, 2 oder 3, wobei das Versuchsband als zu breit bestimmt wird, wenn die Breite des Bands multipliziert mit einer Konstanten größer als die Breite des entsprechenden kritischen Bands ist, oder wenn die Breite des Bands größer als die mit einer Konstanten multiplizierte Breite des entsprechenden kritischen Bands ist.
  6. Verfahren nach einem der vorhergehenden Ansprüche, wobei das dem Versuchsband entsprechende kritische Band jenes kritische Band ist, das um die Mittenfrequenz des Versuchsbandes zentriert ist.
  7. Verfahren nach einem der vorhergehenden Ansprüche, wobei die kritischen Bänder in einer Nachschlage-Tabelle gespeichert sind.
  8. Verfahren nach einem der Ansprüche 1 bis 6, wobei die kritischen Bänder bei Bedarf mittels einer deterministischen Formel gerundet werden.
  9. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Filterbank benutzt wird, um die auf das Signal anzuwendende Maskierung festzulegen.
  10. Verfahren nach Anspruch 9, wobei sowohl für die Kompression als auch die Maskierung die gleiche Transformation benutzt wird.
  11. Verfahren nach Anspruch 10, wobei die Transformation eine Wavelet-Transformation ist.
  12. Verfahren nach Anspruch 9, wobei die Maskierung durch eine Wavelet-Transformation bestimmt wird.
  13. Verfahren nach Anspruch 12, wobei die Wavelet-Transformation bei allen Skalen das gleiche Wavelet verwendet.
  14. Verfahren nach Anspruch 12, wobei die Wavelet-Transformation bei verschiedenen Skalen verschiedene Wavelets verwendet.
  15. Codierer für eine Kompression eines Audiosignals, wobei der Codierer ein Verfahren nach einem der vorhergehenden Ansprüche ausführt.
  16. Codec, der einen Codierer nach Anspruch 15 beinhaltet.
DE60207061T 2001-03-30 2002-03-07 Audiokompression Expired - Lifetime DE60207061T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB0108080 2001-03-30
GBGB0108080.3A GB0108080D0 (en) 2001-03-30 2001-03-30 Audio compression
PCT/GB2002/001014 WO2002080146A1 (en) 2001-03-30 2002-03-07 Audio compression

Publications (2)

Publication Number Publication Date
DE60207061D1 DE60207061D1 (de) 2005-12-08
DE60207061T2 true DE60207061T2 (de) 2006-08-03

Family

ID=9911964

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60207061T Expired - Lifetime DE60207061T2 (de) 2001-03-30 2002-03-07 Audiokompression

Country Status (5)

Country Link
US (1) US20040165737A1 (de)
EP (2) EP1377966B9 (de)
DE (1) DE60207061T2 (de)
GB (1) GB0108080D0 (de)
WO (1) WO2002080146A1 (de)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
EP1490822A2 (de) * 2002-02-04 2004-12-29 Ingenuity Systems Inc. Verfahren zur arzneimittelentdeckung
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
JP2008510197A (ja) * 2004-08-17 2008-04-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ スケーラブルなオーディオ符号化
US7562021B2 (en) * 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US7546240B2 (en) 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
US20070053603A1 (en) * 2005-09-08 2007-03-08 Monro Donald M Low complexity bases matching pursuits data coding and decoding
US20070065034A1 (en) * 2005-09-08 2007-03-22 Monro Donald M Wavelet matching pursuits coding and decoding
US8121848B2 (en) * 2005-09-08 2012-02-21 Pan Pacific Plasma Llc Bases dictionary for low complexity matching pursuits data coding and decoding
US7813573B2 (en) * 2005-09-08 2010-10-12 Monro Donald M Data coding and decoding with replicated matching pursuits
US7848584B2 (en) * 2005-09-08 2010-12-07 Monro Donald M Reduced dimension wavelet matching pursuits coding and decoding
US20070271250A1 (en) * 2005-10-19 2007-11-22 Monro Donald M Basis selection for coding and decoding of data
US8674855B2 (en) * 2006-01-13 2014-03-18 Essex Pa, L.L.C. Identification of text
JP4396646B2 (ja) 2006-02-07 2010-01-13 ヤマハ株式会社 応答波形合成方法、応答波形合成装置、音響設計支援装置および音響設計支援プログラム
US7783079B2 (en) * 2006-04-07 2010-08-24 Monro Donald M Motion assisted data enhancement
US7586424B2 (en) * 2006-06-05 2009-09-08 Donald Martin Monro Data coding using an exponent and a residual
US20070290899A1 (en) * 2006-06-19 2007-12-20 Donald Martin Monro Data coding
US7770091B2 (en) * 2006-06-19 2010-08-03 Monro Donald M Data compression for use in communication systems
US7845571B2 (en) * 2006-06-19 2010-12-07 Monro Donald M Data compression
US7689049B2 (en) * 2006-08-31 2010-03-30 Donald Martin Monro Matching pursuits coding of data
US7508325B2 (en) * 2006-09-06 2009-03-24 Intellectual Ventures Holding 35 Llc Matching pursuits subband coding of data
US20080084924A1 (en) * 2006-10-05 2008-04-10 Donald Martin Monro Matching pursuits basis selection design
US7974488B2 (en) 2006-10-05 2011-07-05 Intellectual Ventures Holding 35 Llc Matching pursuits basis selection
US7707214B2 (en) * 2007-02-21 2010-04-27 Donald Martin Monro Hierarchical update scheme for extremum location with indirect addressing
US7707213B2 (en) * 2007-02-21 2010-04-27 Donald Martin Monro Hierarchical update scheme for extremum location
US20080205505A1 (en) * 2007-02-22 2008-08-28 Donald Martin Monro Video coding with motion vectors determined by decoder
US10194175B2 (en) 2007-02-23 2019-01-29 Xylon Llc Video coding with embedded motion
US7761290B2 (en) * 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US8046214B2 (en) 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US7511638B2 (en) * 2007-07-12 2009-03-31 Monro Donald M Data compression for communication between two or more components in a system
US8144037B2 (en) * 2007-07-12 2012-03-27 Intellectual Ventures Fund 44 Llc Blocking for combinatorial coding/decoding for electrical computers and digital data processing systems
US7990289B2 (en) * 2007-07-12 2011-08-02 Intellectual Ventures Fund 44 Llc Combinatorial coding/decoding for electrical computers and digital data processing systems
US7548176B2 (en) * 2007-07-12 2009-06-16 Donald Martin Monro Data coding buffer for electrical computers and digital data processing systems
US7545291B2 (en) * 2007-07-12 2009-06-09 Donald Martin Monro FIFO radix coder for electrical computers and digital data processing systems
US8055085B2 (en) * 2007-07-12 2011-11-08 Intellectual Ventures Fund 44 Llc Blocking for combinatorial coding/decoding for electrical computers and digital data processing systems
US7511639B2 (en) * 2007-07-12 2009-03-31 Monro Donald M Data compression for communication between two or more components in a system
US7602316B2 (en) * 2007-07-12 2009-10-13 Monro Donald M Data coding/decoding for electrical computers and digital data processing systems
US7671767B2 (en) * 2007-07-12 2010-03-02 Donald Martin Monro LIFO radix coder for electrical computers and digital data processing systems
US7737869B2 (en) * 2007-07-12 2010-06-15 Monro Donald M Symbol based data compression
US8249883B2 (en) 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
US7786903B2 (en) 2008-10-06 2010-08-31 Donald Martin Monro Combinatorial coding/decoding with specified occurrences for electrical computers and digital data processing systems
US7864086B2 (en) 2008-10-06 2011-01-04 Donald Martin Monro Mode switched adaptive combinatorial coding/decoding for electrical computers and digital data processing systems
US7791513B2 (en) * 2008-10-06 2010-09-07 Donald Martin Monro Adaptive combinatorial coding/decoding with specified occurrences for electrical computers and digital data processing systems
US7786907B2 (en) 2008-10-06 2010-08-31 Donald Martin Monro Combinatorial coding/decoding with specified occurrences for electrical computers and digital data processing systems
GB2466286A (en) * 2008-12-18 2010-06-23 Nokia Corp Combining frequency coefficients based on at least two mixing coefficients which are determined on statistical characteristics of the audio signal

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5115240A (en) * 1989-09-26 1992-05-19 Sony Corporation Method and apparatus for encoding voice signals divided into a plurality of frequency bands
US6252909B1 (en) * 1992-09-21 2001-06-26 Aware, Inc. Multi-carrier transmission system utilizing channels of different bandwidth
US5408580A (en) * 1992-09-21 1995-04-18 Aware, Inc. Audio compression system employing multi-rate signal analysis
JP3173218B2 (ja) * 1993-05-10 2001-06-04 ソニー株式会社 圧縮データ記録方法及び装置、圧縮データ再生方法、並びに記録媒体
US5533052A (en) * 1993-10-15 1996-07-02 Comsat Corporation Adaptive predictive coding with transform domain quantization based on block size adaptation, backward adaptive power gain control, split bit-allocation and zero input response compensation
EP0709809B1 (de) * 1994-10-28 2002-01-23 Oki Electric Industry Company, Limited Gerät und Verfahren zur Kodierung und Dekodierung von Bildern unter Verwendung einer Kantensynthese und einer Wavelet-Rücktransformation
US5710863A (en) * 1995-09-19 1998-01-20 Chen; Juin-Hwey Speech signal quantization using human auditory models in predictive coding systems
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5687191A (en) * 1995-12-06 1997-11-11 Solana Technology Development Corporation Post-compression hidden data transport
US5852806A (en) * 1996-03-19 1998-12-22 Lucent Technologies Inc. Switched filterbank for use in audio signal coding
US6847737B1 (en) * 1998-03-13 2005-01-25 University Of Houston System Methods for performing DAF data filtering and padding
KR100280497B1 (ko) * 1998-09-04 2001-02-01 김영환 격자구조의 이산 웨이브렛 변환 장치
US6300888B1 (en) * 1998-12-14 2001-10-09 Microsoft Corporation Entrophy code mode switching for frequency-domain audio coding
US6898288B2 (en) * 2001-10-22 2005-05-24 Telesecura Corporation Method and system for secure key exchange

Also Published As

Publication number Publication date
EP1628290A3 (de) 2007-09-19
EP1377966B9 (de) 2006-06-28
GB0108080D0 (en) 2001-05-23
EP1377966B1 (de) 2005-11-02
EP1377966A1 (de) 2004-01-07
EP1628290A2 (de) 2006-02-22
US20040165737A1 (en) 2004-08-26
DE60207061D1 (de) 2005-12-08
WO2002080146A1 (en) 2002-10-10

Similar Documents

Publication Publication Date Title
DE60207061T2 (de) Audiokompression
EP0290581B1 (de) Verfahren zum übertragen digitalisierter tonsignale
DE69923555T2 (de) Verfahren und vorrichtung zur entropie-kodierung von quantisierten transformationskoeffizienten eines signals
DE69924431T2 (de) Vorrichtung und Verfahren zur dynamischen Bitverteilung für Audiokodierung
DE60214027T2 (de) Kodiervorrichtung und dekodiervorrichtung
DE102006022346B4 (de) Informationssignalcodierung
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE69732159T2 (de) Geschaltete Filterbank für Audiosignalkodierung
DE2818052C2 (de) Quantisierung eines Signals mit einem sich über ein gegebenes Frequenzband erstreckendem Spetkrum
DE69821089T2 (de) Verbesserung von quellenkodierung unter verwendung von spektralbandreplikation
DE19747132C2 (de) Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
DE60208426T2 (de) Vorrichtung zur signalkodierung, signaldekodierung und system zum verteilen von audiodaten
DE69333394T2 (de) Hochwirksames Kodierverfahren und -gerät
DE60319590T2 (de) Verfahren zur codierung und decodierung von audio mit variabler rate
EP1145227A1 (de) Verfahren und vorrichtung zum verschleiern eines fehlers in einem codierten audiosignal und verfahren und vorrichtung zum decodieren eines codierten audiosignals
DE69932861T2 (de) Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung
DE69533259T2 (de) Nichtlineares quantisieren eines informationssignales
DE60124079T2 (de) Sprachverarbeitung
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms
DE10310785A1 (de) Verfahren und Architektur einer digitalen Codierung zum Übertragen und Packen von Audiosignalen
DE4001747C2 (de) Digitales Audiofrequenz-Signalverarbeitungssystem
EP1239455A2 (de) Verfahren und Anordnung zur Durchführung einer an die Übertragungsfunktion menschilcher Sinnesorgane angepassten Fourier Transformation sowie darauf basierende Vorrichtungen zur Geräuschreduktion und Spracherkennung
DE19742201C1 (de) Verfahren und Vorrichtung zum Codieren von Audiosignalen
DE69532932T2 (de) Verfahren zum nicht linearen Quantisieren eines Informationssignals
DE69534115T2 (de) Bitverteilung für Mehrkanal-Audiokodierer auf Grund von wahrnehmungsgebundener Entropie

Legal Events

Date Code Title Description
8327 Change in the person/name/address of the patent owner

Owner name: AYSCOUGH VISUALS LLC, LOS ALTOS, CALIF., US

8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Representative=s name: MEISSNER, BOLTE & PARTNER GBR, 80538 MUENCHEN