DE69401514T2 - Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und kodiereinrichtung - Google Patents

Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und kodiereinrichtung

Info

Publication number
DE69401514T2
DE69401514T2 DE69401514T DE69401514T DE69401514T2 DE 69401514 T2 DE69401514 T2 DE 69401514T2 DE 69401514 T DE69401514 T DE 69401514T DE 69401514 T DE69401514 T DE 69401514T DE 69401514 T2 DE69401514 T2 DE 69401514T2
Authority
DE
Germany
Prior art keywords
masking threshold
allocation
input signal
function
subband
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69401514T
Other languages
English (en)
Other versions
DE69401514D1 (de
Inventor
Grant Davidson
Mark Davis
Louis Fielder
Brian Link
Craig Todd
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US08/145,975 external-priority patent/US5632003A/en
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of DE69401514D1 publication Critical patent/DE69401514D1/de
Application granted granted Critical
Publication of DE69401514T2 publication Critical patent/DE69401514T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/667Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using a division in frequency subbands

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

    Technisches Gebiet
  • Die Erfindung bezieht sich allgemein auf Perzeptionsmodelle und auf das Kodieren und Dekodieren von Informationen, beispielsweise von akustischer Information auf der Basis der Wahrnehmung und mit niedriger Bitrate. Genauer gesagt betrifft die Erfindung hochentwickelte, vom Rechenaufwand leistungsfähige Perzeptionsmodelle, welche die Grundlage für eine adaptive Bitzuteilung und Quantisierung kodierter Informationen sein können, die für Kodiersysteme von hoher Qualität bei niedriger Bitrate nützlich sind.
  • Hintergrund
  • Unter denjenigen, die sich mit den Gebieten der Audio- und Videosignalverarbeitung beschäftigen, besteht beträchtliches Interesse daran, die Menge an Information auf ein Minimum einzuschränken, die für die Darstellung eines Signals erforderlich ist, ohne daß es zu einem wahrnehmbaren Verlust an Signalqualität kommt. Durch eine Verringerung der Informationserfordernisse entlasten Signale die Informationskapazitätserfordernisse von Übermittlungskanälen und Speicherträgern.
  • So sind zum Beispiel die Informationskapazitätserfordernisse geringer bei Analogsignalen, die einer Audiokompression oder einer Einengung des Dynamikbereichs unterworfen wurden, als bei derartigen Signalen ohne Kompression. Für mit weniger binären Bits kodierte Digitalsignale sind geringere Informationskapazitätserfordernisse zu erfüllen als für kodierte Signale, bei denen für die Darstellung des Signals eine größere Anzahl Bits verwendet ist. Natürlich gibt es Grenzen, bis zu denen eine Minderung realisiert werden kann, ohne daß die wahrgenommene Signalqualität leidet. Ein großer Teil der folgenden Erörterung befaßt sich mehr im einzelnen mit digitalen Techniken, obwohl bedacht werden sollte, daß ähnliche Erwägungen auch für analoge Techniken zutreffen.
  • Die Anzahl der für die Darstellung jedes Abtastwertes eines digitalen Signals verfügbaren Bits legt die Genauigkeit der digitalen Signaldarstellung fest. Niedrigere Bitraten bedeuten, daß für die Darstellung jedes Abtastwertes weniger Bits zur Verfügung stehen. Deshalb bedeuten niedrigere Bitraten implizit größere Quantisierungsungenauigkeiten oder Quantisierungsfehler. In vielen Anwendungsfällen zeigen sich Quantisierungsfehler als Quantisierungsrauschen, und wenn die Fehler eine hinreichende Größe erreichen, wird durch das Quantisierungsrauschen die subjektive Qualität des kodierten Signals verschlechtert.
  • Mit verschiedenen "Teilband"-Kodiertechniken versucht man, Informationserfordernisse ohne wahrnehmbare Qualitätsverschlechterung zu schmälern, indem man verschiedene psychisch wahrnehmbare Effekte ausnutzt. Bei akustischen Anwendungsfällen zeigt beispielsweise das menschliche Gehör Frequenzanalyseeigenschaften ähnlich denen von stark asymmetrisch abgestimmten Filtern, die variable Mittenfrequenzen und Bandbreiten haben, welche sich in Funktion der Mittenfrequenz ändern. Die Fähigkeit des menschlichen Gehörs, einzelne Töne zu unterscheiden, nimmt insgesamt mit zunehmendem Frequenzunterschied zwischen den Tönen zu. Allerdings bleibt die Auflösungsfähigkeit des menschlichen Gehörs bei Frequenzdifferenzen unterhalb der Bandbreite der oben genannten Filter im wesentlichen konstant. Also unterscheidet sich die Frequenzauflösungsfähigkeit des menschlichen Gehörs entsprechend der Bandbreite dieser Filter über das ganze Hörspektrum hinweg. Die effektive Bandbreite eines solchen Hörfilters bezeichnet man als "kritisches Band". Die Wahrscheinlichkeit ist größer, daß ein dominantes Signal innerhalb eines kritischen Bandes die Hörbarkeit anderer Signale irgendwo innerhalb dieses kritischen Bandes überdeckt als daß andere Signale mit Frequenzen außerhalb des kritischen Bandes maskiert werden. Siehe insgesamt das Audio Engineering Handbook, K. Blair Benson ed., McGraw-Hill, San Francisco, 1988, Seite 1.40-1.42 sowie 4.8-4.10.
  • Mit Audioteilbandkodiertechniken, die die nützliche Signalbandbreite in Frequenzbänder unterteilen, deren Bandbreiten den kritischen Bändern des menschlichen Gehörs angenähert sind, können psychoakustische Effekt besser ausgenutzt werden als mit Verfahren breiterer Bänder. Konzeptionsmäßig umfassen solche Teilbandkodiertechniken insgesamt das Unterteilen der Signalbandbreite mittels einer Filterbank, das Reduzieren der Informationserfordernisse des von jedem Filterband hindurchgelassenen Signals, so daß die Signalverschlechterung gerade noch nicht hörbar ist, sowie das Rekonstruieren einer Kopie des ursprünglichen Signals in einem Umkehrprozeß. Zwei derartige Techniken sind die Teilbandkodierung und die Transformationskodierung. Teilband- und Transformationskodierer können Informationserfordernisse in bestimmten Frequenzbändern verringern, wenn die entstehenden Artefakte psychoakustisch durch eine oder mehr Spektralkomponenten überdeckt sind und deshalb die subjektive Qualität des kodierten Signals nicht verschlechtert wird.
  • Zur Verwirklichung einer Filterbank mit Analog- oder Digitalfiltern können Teilbandkodierer gemäß verschiedenen Techniken arbeiten. Bei digitalen Teilbandkodierern wird ein Eingangssignal, welches Signalabtastwerte aufweist, durch eine Bank digitaler Filter hindurchgeleitet. Jedes Teilbandsignal, welches ein entsprechendes Filter in der Filterbank durchläßt, wird entsprechend der Bandbreite des Filters dieses Teilbandes abwärtsgetastet. Der Kodierer versucht, jedes Teilbandsignal mit gerade so viel Bits zu quantisieren, daß das Quantisierungsrauschen nicht hörbar wird. Jedes Teilbandsignal weist Abtastwerte auf, die einen Teil des Eingangssignalspektrums darstellen.
  • Transformationskodierer können zur Verwirklichung einer Bank digitaler Filter verschiedene sogenannte Transformationen von der Zeitdomäne in die Frequenzdomäne anwenden. Einzelne, aus der Transformation erhaltene Koeffizienten oder zwei oder mehr zu einer Gruppe zusammengeschlossene Koeffizienten bestimmen "Teilbänder", deren effektive Bandbreiten Summen individueller Transformationskoeffizientenbandbreiten sind. Die Koeffizienten in einem Teilband bilden ein entsprechendes Teilbandsignal. Der Kodierer versucht, die Koeffizienten in jedem Teilband unter Verwendung von gerade genug Bits zu quantisieren, um das Quantisierungsrauschen nicht hörbar zu machen.
  • Im Verlauf der nachfolgenden Erörterung soll sich der Ausdruck "Teilbandkodierer" auf Teilbandkodierer, Transformationskodierer sowie weitere Teilbandkodiertechniken beziehen, die Teile der nutzbaren Signalbandbreite bearbeiten. Der Ausdruck "Teilband" soll auf diese Teile der nutzbaren Signalbandbreite zutreffen, gleichgültig ob mittels eines wahren Teilbandkodierers, eines Transformationskodierers oder eines anderen Verfahrens verwirklicht.
  • Wie zuvor erwähnt, bieten viele digitale Teilbandkodierer, in denen psychoakustische Prinzipien ausgenutzt sind, ein Kodieren von hoher Qualität mit niedrigen Bitraten, indem sie eine Filterbank auf ein Eingangssignal zur Erzeugung von Teilbandinformationen anwenden, jedes Element der Teilbandinformation unter Verwendung einer Anzahl von diesem Element zugeteilten Bits quantisieren, so daß das entstehende Quantisierungsrauschen aufgrund psychoakustischer Maskiereffekte nicht hörbar ist, und die quantisierte Information zu einer zum Übertragen oder Speichern geeigneten Form zusammensetzen.
  • Ein komplementärer digitaler Teilbanddekodierer gewinnt eine Wiedergabe des ursprünglichen Eingangssignals durch Extrahieren quantisierter Information aus einem kodierten Signal, Dequantisieren der quantisierten Information zum Erhalt von Teilbandinformation und Anlegen einer Umkehrfilterbank an die Teilbandinformation zwecks Erzeugung der Wiedergabe des ursprünglichen Eingangssignals.
  • Die Zahl der zum Quantisieren jedes Teilbandinformationselementes zugeteilten Bits muß dem Dekodierer zur Verfügung stehen, um eine exakte Dequantisierung der Teilbandinformation zu ermöglichen. Ein "vorwärtsadaptiver" Kodierer benutzt eine Zuteilungsfunktion, um Zuteilungswerte festzusetzen und leitet diese Zuteilungswerte ausdrücklich als "Seiteninformation" an einen Dekodierer weiter. Ein "rückwärtsadaptiver" Kodierer legt Zuteilungswerte dadurch fest, daß er ausgewählte Information einer Zuteilungsfunktion aussetzt, und leitet die ausgewählte Information in dem kodierten Signal weiter, statt ausdrücklich die Zuteilungswerte weiterzugeben. Ein rückwärtsadaptiver Dekodierer setzt die Zuteilungswerte erneut dadurch fest, daß er die Zuteilungsfunktion an die ausgewählte Information anlegt, die er aus dem kodierten Signal extrahiert.
  • Allgemein gesagt, können komplexe Zuteilungsfunktionen, die auf hochentwickelten Psychoperzeptionsmodellen basieren, Zuteilungswerte festlegen, welche eine äquivalente subjektive Kodierqualität bei niedrigeren Bitraten erzielen als die Zuteilungswerte, die mit weniger komplexen, auf einfacheren Modellen beruhenden Zuteilungsfunktionen festgelegt sind. Aus diesem Grund ist es wünschenswert, Zuteilungsfunktionen zu benutzen, die auf Modellen beruhen, welche den höchstmöglichen, praktisch zu verwirklichenden Entwicklungsstand haben.
  • Ein ziemlich hochentwickeltes mathematisches Modell der Mechanik des menschlichen Gehörs ist von Schroeder, Atal und Hall beschrieben worden in "Optimizing Digital Speech Coders by Exploiting Masking Properties of the Human Ear", J. Acoust. Soc. Am., Dezember 1979, SS. 1647-1652. Zu diesem Modell gehört: 1.) Durchführen einer kurzfristigen Spektralanalyse eines Eingangssignals durch Anwenden einer kurzfristigen Fourier-Transformation, 2.) Erhalten der Dichten des kritischen Bandes des Eingangssignals durch Abbilden der resultierenden Spektralkoeffizienten in kritischen Bändern x, und 3.) Erzeugen eines Basilarmembran-"Erregungsmusters" durch Falten der Dichten des kritischen Bandes mit einer Basilarmembran-"Ausbreitungsfunktion". Dieses Modell wird auf das Eingangssignal sowie ein Rauschsignal angewandt, welches Quantisierfehler darstellt, um ein "Signalerregungsmuster" bzw. ein "Rauscherregungsmuster" zu erzeugen. Die Lautheit des Eingangssignals und des Rauschsignals wird mittels Integrationsfunktionen der entsprechenden Erregungsmuster berechnet. Die Lautheit des Eingangssignals und des Rauschsignals, dessen Erregungsmuster unter eine Maskierungsschwelle fällt, ist null, was bedeutet, daß es nicht hörbar ist. Die Maskierfunktion wird aus dem Produkt des Signalerregungsmusters und einer "Empfindlichkeitsfunktion" erhalten, welche die Schwelle für das Maskieren bestimmt. Ein objektives Maß für die Kodierleistung ist ein Verhältnis, welches durch Dividieren der Lautheit des Rauschsignals durch die Lautheit des Eingangssignals erhalten wird. Das mathematische Modell ist klar und einfach und bietet ziemlich gute Ergebnisse für eine Spektralenergie unterhalb etwa 5 kHz; allerdings ist es vom Rechenaufwand her intensiv.
  • Ein Beispiel eines Transformationskodierers, der eine komplexe Zuteilungsfunktion, beruhend auf einem hochentwickelten Perzeptionsmodell, ähnlich dem Schroeder-Modell verwendet, wurde von Johnston in IEEE J. Selected Areas in Comm., Bd. 6, Nr. 2, Februar 1988, SS. 314-323 beschrieben. Gemäß diesem Beispiel wird eine Maskierungsschwelle berechnet durch: 1.) Durchführen einer Analyse des kritischen Bandes des Eingangssignals, 2.) Anwenden einer Matrix- Multiplikationsoperation zwecks Anwendung der Schroeder-Ausbreitungsfunktion des Spektrums des kritischen Bandes, 3.) Schätzen der Rausch-Maskierungsschwelle durch Berechnen einer gewichteten Summe einer Tonmaskierungsschwelle und einer Rauschmaskierungsschwelle, 4.) Erhalten einer Schwelle in der Bark-Domäne im wesentlichen durch ein "Entfalten" oder "Rück- Normieren" der geschätzten Schwelle und 5.) Berücksichtigen der absoluten Hörschwelle. Die gewichtete Summe der Schwellen beruht auf einem "Tonalitätskoeffizienten" α, der aus einem Maß der Flachheit des Eingangssignalspektrums errechnet ist. Die Matrix-Multiplikationsoperation, die Berechnung des Tonalitätskoeffizienten und das Rück-Normieren der Schwelle zurück in die Bark- Domäne, all dies trägt zur Rechenintensität des offenbarten Kodierers bei.
  • Bei einem Ausführungsbeispiel eines rückwärtsadaptiven Kodier/ Dekodiersystems bereitet ein Kodierer eine Schätzung der Spektralhüllkurve des Eingangssignals vor, legt Zuteilungswerte durch Anwenden einer Zuteilungsfunktion auf die Hüllkurvenschätzung fest, skaliert Signalinformationen unter Verwendung von Elementen der Hülkurvenschätzung als Skalierungsfaktoren, quantisiert die skalierte Signalinformation entsprechend den festgelegten Zuteilungswerten und assembliert die quantisierte Information und die Hüllkurvenschätzung zu einem kodierten Signal. Ein rückwärtsadaptiver Dekodierer extrahiert die Hüllkurvenschätzung und die quantisierte Information aus dem kodierten Signal, legt Zuteilungswerte durch das Anwenden der gleichen Zuteilungsfunktion wie der vom Kodierer benutzten auf die Hüllkurvenschätzung fest, dequantisiert die quantisierte Information und macht das Skalieren der Signalinformation rückgängig. Das Skalieren wird angewandt, um den Dynamikbereich von Informationen zu vergrößern, die durch die begrenzte Anzahl der für das Quantisieren verfügbaren Bits dargestellt werden kann. Zwei Beispiele eines rückwärtsadaptiven Kodier/Dekodiersystems sind in den US-Patenten 4 790 016 und 5 109 417 offenbart.
  • Rückwärtsadaptive Techniken sind deshalb bei vielen Kodiersystemen mit niedriger Bitrate reizvoll, weil keine Bits erforderlich sind, um ausdrückliche Zuteilungswerte weiterzuleiten. Der Dekodierer schafft die Zuteilungswerte neu, indem er an Information, die aus dem kodierten Signal extrahiert wurde, eine Zuteilungsfunktion anlegt.
  • Leider muß ein rückwärtsadaptiver Dekodierer eine Zuteilungsfunktion benutzen, die mit der vom Kodierer benutzten identisch oder mindestens genau gleichwertig ist, denn sonst ist eine exakte Dequantisierung im Dekodierer nicht gewährleistet. Infolgedessen ist der Dekodierer hinsichtlich seiner Kompliziertheit oder der Verwirklichungskosten mit denen des Kodierers vergleichbar. Jegliche Einschränkung der Komplexität des Dekodierers erlegt normalerweise auch der Komplexität der Zuteilungsfunktion sowohl des Kodierers als auch des Dekodierers Einschränkungen auf, wodurch die Gesamtleistung des Kodierer/ Dekodierersystems begrenzt wird. Aufgrund praktischer Überlegungen beim Dekodierer können viele rückwärtsadaptive Kodiersysteme Zuteilungsfunktionen, die auf rechenmäßig intensiven Modellen beruhen, wie dem von Schroeder et al. beschriebenen nicht nutzen.
  • Vorwärtsadaptive Techniken sind in vielen Kodiersystemen hoher Qualität deshalb attraktiv, weil der Dekodierer keine Zuteilungsfunktion durchführen muß, um Zuteilungswerte festzulegen. Ein vorwärtsadaptiver Dekodierer kann rechenmäßig weniger kompliziert sein und braucht der vom Kodierer geleisteten Zuteilungsfunktion keinerlei Einschränkungen aufzuerlegen. Darüber hinaus können verbesserte Zuteilungsfunktionen den Kodierern von vorwärtsadaptiven Kodiersystemen einverleibt werden, wobei die Kompatibilität mit bereits bestehenden Dekodierern erhalten bleibt. Die in einem Kodierer benutzte Zuteilungsfunktion kann das Ergebnis einer unabhängigen Auslegungswahl sein.
  • Eine Verbesserungsmöglichkeit für die Zuteilungsfunktion bei einem Kodierer ist wichtig. Mit dem Fortschritt in der Technik der Signalkodierung und Signalverarbeitung werden zunehmend höher entwickelte Zuteilungsfunktionen wirtschaftlich durchführbar. Durch Verbesserung des Entwicklungsniveaus von Zuteilungsfunktionen können Bitraten bei gegebener Signalqualität verringert werden, oder es kann die Signalqualität bei gegebener Bitrate verbessert werden.
  • Trotz dieses Vorteils sind jedoch vorwärtsadaptive Kodiersysteme in vielen Anwendungsfällen mit niedriger Bitrate unter Umständen deshalb ungeeignet, weil sie eine bedeutsame Anzahl von Bits für das Übermitteln von Seiteninformationen erfordern. Insgesamt werden sogar mehr Bits für das Übermitteln von Seiteninformationen benötigt, wenn man versucht, mit Zuteilungsfunktionen die Kodierleistung dadurch zu verbessern, daß das Spektrum in schmalere und deshalb zahlreichere Bänder unterteilt wird. Außerdem stellt die Anzahl der als Träger dieser Seiteninformation benötigten Bits einen größeren Anteil des kodierten Signals dar, wenn verbesserte Kodiertechniken die Anzahl der als Träger des restlichen kodierten Signals erforderlichen Bits verringern.
  • Aus diesem Grund besteht der Wunsch, vom Rechneraufwand her leistungsfähige Perzeptionsmodelle hohen Niveaus zu entwickeln, die eine Grundlage für wirksame, zur preisgünstigen Verwirklichung von Kodiersystemen geeignete Zuteilungsfunktionen bieten können. Außerdem ist es wünschenswert, Verbesserungen bei Zuteilungsfunktionen zu ermöglichen, ohne daß übermäßiger Overhead im kodierten Signal für das Tragen ausdrücklicher Zuteilungswerte entsteht.
  • Wirkungsvolle, hochentwickelte Perzeptionsmodelle können auch für andere Anwendungsfälle herangezogen werden, beispielsweise zum objektiven Messen der Leistung von Teilbandkodiersystemen, wie den oben erörterten.
  • Offenbarung der Erfindung
  • Eine Aufgabe der vorliegenden Erfindung besteht darin, ein vom Rechenaufwand her effizientes, hochentwickeltes Perzeptionsmodell bereitzustellen.
  • Eine Aufgabe der vorliegenden Erfindung ist es, eine wirksame Hochleistungs-Zuteilungsfunktion bereitzustellen, die zur Verwendung bei Kodier/Dekodiersystemen und Verfahren von hoher Qualität und mit niedriger Bitrate geeignet ist.
  • Bei einem ersten Ausführungsbeispiel eines akustischen Kodierers wird ein Eingangssignal in eine Vielzahl von Teilbändern unterteilt, um Teilbandinformationen zu erzeugen, die Teilbandinformationen werden entsprechend mittels einer Zuteilungsfunktion festgelegter Zuteilungswerte quantisiert, und die quantisierten Teilbandinformationen werden in ein kodiertes Signal assembliert, welches zur Übertragung oder Speicherung geeignet ist. Die Zuteilungsfunktion legt Zuteilungswerte entsprechend psychoakustischen Prinzipien auf der Grundlage einer Maskierungsschwelle fest. Die Festlegung der Maskierungsschwelle erfolgt durch Schätzen der Leistungsspektrumdichte (PSD) des Eingangssignals, Erzeugen eines Erregungsmusters durch Anlegen einer Ausbreitungsfunktion an die PSD, Einstellen des Erregungsmusters um einen Betrag, der einem frequenzabhängigen Rauschabstand (SNR)-Versatz gleicht, welcher ausreichend ist, um eine psychoakustische Maskierung zu erzielen, Vergleichen des Niveaus des eingestellten Musters mit der Hörschwelle und Erzeugen einer Maskierungsschwelle, die dem größeren der beiden werte gleicht. Die Verwirklichung der Ausbreitungsfunktion erfolgt durch Anlegen eines oder mehrerer FIR-Filter oder eines oder mehrerer IIR-Filter.
  • Bei rückwärtsadaptiven Kodiersystemen wird die PSD anhand von Informationen geschätzt, die gleichfalls in das kodierte Signal assembliert werden. So kann die PSD zum Beispiel anhand von Skalierungsfaktoren geschätzt werden, die aus einer Spektralhüllkurve abgeleitet sind. Bei vorwärtsadaptiven Kodiersystemen kann die PSD anhand von Informationen geschätzt werden, die in das kodierte Signal assembliert sind oder auch nicht. So kann die PSD zum Beispiel anhand einer Hochauflösungs-Spektralhüllkurve des Eingangssignals geschätzt werden, auch wenn diese Hochauflösungshüllkurve nicht in das kodierte Signal eingeschlossen ist.
  • Bei einer speziellen Verwirklichung wird Teilbandinformation durch Verwendung eines Quantisierers quantisiert, der aus einem Satz von Quantisierern ausgewählt wird. Die Quantisierer in dem Satz können sich voneinander durch die Anzahl Quantisierungsstufen, die Verwendung einer symmetrischen oder asymmetrischen Quantisierungsfunktion, die Verwendung einer linearen noch nicht linearen Quantisierungsfunktion, die Verwendung und Amplitude von Vorquantisierungszittern und/oder die Verwendung einer reservierten "kleine-Null"-Quantisierungsstufe für Signale mit sehr kleiner Amplitude unterscheiden. Ein Kodiersystem kann zum Beispiel die kleine-Null-Quantisierungsstufe benutzen, um anzuzeigen, daß kein Vorquantisierungszittern angewandt wird, weil die Zitterkomponente eine Amplitude hat, die mit der Signalamplitude vergleichbar oder größer ist als diese.
  • Bei einer anderen Verwirklichung werden die Zuteilungswerte für Teilbandinformationen in Abhängigkeit von der Differenz zwischen der Teilbandinformationsamplitude und einem entsprechende Teil der Maskierungsschwelle festgelegt. Die Zuteilungswerte für Teilbandinformationen können proportional zu dieser Differenz festgelegt werden und/oder werden anhand einer Nachschlagetabelle festgesetzt.
  • Bei einem zweiten Ausführungsbeispiel eines Kodierers erfolgt eine Modifikation eines oder mehrerer die Ergebnisse der Zuteilungsfunktion beeinflussender Parameter in Abhängigkeit von Charakteristiken, die entweder im Eingangssignal und/oder in der Teilbandinformation festgestellt werden. So kann zum Beispiel der oben genannte SNR-Versatz modifiziert werden, um die Gesamtkodierqualität zu beeinflussen. In das kodierte Signal werden Seiteninformationen, welche einen Hinweis auf die modifizierten Parameter aufweisen, assembliert.
  • Bei einer anderen Verwirklichung des zweiten Ausführungsbeispiels werden modifizierte Zuteilungswerte, die sich aus der Verwendung modifizierter Parameter ergeben, als ausdrückliche Zuteilungswerte zu dem kodierten Signal hinzugefügt.
  • Weitere Ausführungsbeispiele eines Kodierers sind möglich, einschließlich eines eine Kombination der beiden vorstehend beschriebenen Ausführungsbeispiele umfassenden Beispiels, ohne darauf beschränkt zu sein. Ferner sind unterschiedliche Kombinationen der verschiedenen oben beschriebenen Verwirklichungen möglich.
  • Bei einem ersten Ausführungsbeispiel eines Dekodierers wird aus einem kodierten Signal quantisierte Teilbandinformation extrahiert, die quantisierte Teilbandinformation entsprechend Zuteilungswerten dequantisiert, die durch eine Zuteilungsfunktion festgelegt sind, und ein Ausgangssignal in Abhängigkeit von der dequantisierten Teilbandinformation erzeugt. Die Zuteilungsfunktion legt Zuteilungswerte entsprechend psychoakustischer Grundsätze basierend auf einer Maskierungsschwelle fest. Die Maskierungsschwelle wird dadurch festgelegt, daß eine Schätzung der PSD des ursprünglichen Eingangssignals, dargestellt durch das kodierte Signal, erhalten wird, ein Erregungsmuster durch Anlegen einer Ausbreitungsfunktion an die PSD erzeugt wird, das Erregungsmuster um einen Betrag eingestellt wird, der einem SNR-Versatz gleicht, welcher zum Erzielen einer psychoakustischen Maskierung ausreicht, der Pegel des eingestellten Musters mit der Hörschwelle verglichen und eine Maskierungsschwelle erzeugt wird, die dem größeren der beiden Werte gleicht. Die Ausbreitungsfunktion wird durch Anlegen eines oder mehrerer FIR-Filter oder eines oder mehrerer IIR-Filter verwirklicht.
  • Bei rückwärtsadaptiven Kodiersystemen kann die PSD anhand von Maßen der Teilbandamplitude und/oder Leistung geschätzt werden, die aus dem kodierten Signal extrahiert werden. Bei vorwärtsadaptiven Kodiersystemen arbeiten Dekodierer allerdings im allgemeinen nicht mit irgendeiner Zuteilungsfunktion, weil in dem kodierten Signal ausdrückliche Zuteilungswerte weitergeleitet werden.
  • Merkmale der oben für das erste Ausführungsbeispiel erörterten Verwirklichungen eines akustischen Kodierers können auch diesem ersten Ausführungsbeispiel eines Dekodierers einverleibt sein.
  • Bei einem zweiten Ausführungsbeispiel eines Dekodierers werden aus dem kodierten Signal ein oder mehrere Parameter extrahiert, welche die Ergebnisse der Zuteilungsfunktion beeinflussen. Bei einer anderen Verwirklichung werden aus dem kodierten Signal ausdrückliche Zuteilungswerte extrahiert, welche modifizierte Zuteilungswerte darstellen.
  • Weitere Ausführungsbeispiele eines Dekodierers sind möglich, einschließlich eines eine Kombination der beiden vorstehend beschriebenen Ausführungsbeispiele beinhaltenden Beispiels, ohne darauf beschränkt zu sein. Ferner sind verschiedene Kombinationen der speziellen, oben beschriebenen Verwirklichungen möglich.
  • Bei einem Kodiersystem, bei dem eine hybridadaptive Zuteilung Verwendung findet, kann Seiteninformation ausschließlich modifizierte Zuteilungswerte und/oder modifizierte Parameter übermitteln. Eine Zuteilungsfunktion, die sowohl dem Kodierer als auch dem Dekodierer bekannt ist, liefert dem Dekodierer grundlegende Zuteilungswerte. Die Seiteninformation bietet Einstellungen für die grundlegenden Zuteilungswerte, wie sie zum Erhalten der gleichen, beim Kodierer benutzten Zuteilungswerte nötig sind. Auf diese Weise kann die Zuteilungsfunktion in einem Kodierer ohne Verlust der Kompatibilität mit bestehenden Dekodierern geändert werden, und die Anzahl der für Seiteninformationen erforderlichen Bits, um die Kompatibilität zwischen dem Kodierer und dem Dekodierer aufrechtzuerhalten, ist verringert.
  • Die vorliegende Erfindung ist in Teilbandkodierern benutzbar, die Filterbänke durch ein beliebiges von verschiedenen Verfahren verwirklichen. Es sei erwähnt, daß trotz der größeren Ausnutzung psychoakustischer Effekte, die die Verwendung von Teilbändern mit Bandbreiten entsprechend den für das menschliche Gehör kritischen Bandbreiten ermöglicht, verschiedene Aspekte der vorliegenden Erfindung nicht auf diese Weise beschränkt sind. Deshalb sollte der Ausdruck "Teilband" und ähnliche, die hier verwendet werden, so verstanden werden, daß sie sich auf eines oder mehrere Frequenzbänder innerhalb der nutzbaren Bandbreite eines Eingangssignals beziehen.
  • Die verschiedenen Merkmale der vorliegenden Erfindung und ihre bevorzugten Ausführungsbeispiele sind besser zu verstehen unter Hinweis auf die nachfolgende Erörterung und die beigefügten Zeichnungen, in denen gleiche Bezugszeichen sich auf gleiche Elemente in den unterschiedlichen Figuren beziehen. Der Inhalt der folgenden Erörterung und der Zeichnungen dient lediglich als Beispiel und sollte nicht so verstanden werden, als ob er den Umfang der vorliegenden Erfindung beschränkte.
  • Kurzbeschreibung der Zeichnungen
  • Fig. 1 ist ein Blockschaltbild eines Ausführungsbeispiels eines Kodierers in einem Kodierer/- Dekodierersystem mit vorwärtsadaptiver Zuteilung.
  • Fig. 2 ist ein Blockschaltbild eines Ausführungsbeispiels eines Dekodierers in einem Kodierer/- Dekodierersystem mit vorwärtsadaptiver Zuteilung.
  • Fig. 3 ist ein Blockschaltbild eines weiteren Ausführungsbeispiels eines Kodierers in einem Kodierer/Dekodierersystem mit vorwärtsadaptiver Zuteilung.
  • Fig. 4 ist ein Blockschaltbild eines Ausführungsbeispiels eines Kodierers in einem Kodierer/- Dekodierersystem mit rückwärtsadaptiver Zuteilung.
  • Fig. 5 ist ein Blockschaltbild eines Ausführungsbeispiels eines Dekodierers in einem Kodierer/- Dekodierersystem mit rückwärtsadaptiver Zuteilung.
  • Fig. 6 ist ein Blockschaltbild eines Ausführungsbeispiels eines Kodierers in einem Kodierer/- Dekodierersystem mit hybridadaptiver Zuteilung.
  • Fig. 7 ist ein Blockschaltbild eines Ausführungsbeispiels eines Dekodierers in einem Kodierer/- Dekodierersystem mit hybridadaptiver Zuteilung.
  • Fig. 8 ist ein Blockschaltbild eines Ausführungsbeispiels eines Verfahrens, mit dem ein Erregungsmuster wirksam erhalten werden kann.
  • Fig. 9a-9c sind hypothetische graphische Darstellungen von Impulsgängen einpoliger Filter, die der in Fig. 8 gezeigten Konstruktion einverleibt sein können.
  • Fig. 9d ist eine hypothetische graphische Darstellung des zusammengesetzten Impulsganges des in Fig. 8 gezeigten Ausführungsbeispiels mit Filtern, welche die in Fig. 9a-9c gezeigten Impusgänge haben.
  • Fig. 10a ist eine hypothetische graphische Darstellung eines Impulsganges für ein Filter mit einem Pol und einer oder mehreren Nullstellen.
  • Fig. 10b ist eine hypothetische graphische Darstellung des zusammengesetzten Impulsganges eines Ausführungsbeispiels ähnlich dem in Fig. 8 gezeigten aber mit nur zwei Filtern, bei dem eines der Filter den in Fig. 10a gezeigten Impulsgang hat.
  • Art und Weise des Ausführens der Erfindung Vorwärtsadaptive Zuteilung
  • Fig. 1 veranschaulicht den Grundaufbau eines Ausführungsbeispiels eines Teilbandkodierers, der in einem die vorwärtsadaptive Zuteilung beinhaltenden Kodierer/Dekodierersystem verwendet ist. Eine Filterbank 102 erzeugt Teilbandinformation in Abhängigkeit von einem Eingangssignal, welches von einem Weg 100 empfangen wird. Eine Zuteilungsfunktion 110 legt Zuteilungswerte in Abhängigkeit von dem Eingangssignal fest und gibt die Zuteilungswerte längs eines Weges 111 an einen Quantisierer 104 und einen Formatierer 106 weiter. Der Quantisierer 104 quantisiert die von der Filterbank 102 erhaltene Teilbandinformation unter Anwendung einer Quantisierfunktion, die in Abhängigkeit von den Zuteilungswerten angepaßt ist, und der Formatierer 106 setzt die quantisierte Teilbandinformation und die Zuteilungswerte zu einem kodierten Signal zusammen, dessen Format zum Übertragen oder Speichern geeignet ist. Das kodierte Signal wird längs eines Weges 108 an einen Übertragungskanal oder eine Speichervorrichtung, je nach Wunsch, weitergeleitet.
  • Fig. 2 veranschaulicht den Grundaufbau eines Ausführungsbeispiels eines Teilbanddekodierers, der in einem vorwärtsadaptive Zuteilung beinhaltenden Kodierer/Dekodierersystem benutzt ist. Ein Deformatierer 202 extrahiert quantisierte Information und Zuteilungswerte aus einem kodierten Signal, welches von einem Weg 200 empfangen wird. Die Zuteilungswerte werden längs eines Weges 211 und zu einem Dequantisierer 204 geleitet. Der Dequantisierer 204 erzeugt Teilbandinformation durch Dequantisieren der vom Deformatierer 202 empfangenen quantisierten Information unter Anwendung einer Dequantisierungsfunktion, die in Abhängigkeit von den Zuteilungswerten angepaßt ist. Eine Umkehrfilterbank 206 erzeugt längs eines Weges 208 ein Ausgangssignal in Abhängigkeit von der vom Dequantisierer 204 empfangenen dequantisierten Teilbandinformation.
  • Es sind andere Ausführungsbeispiele des Kodierers und Dekodierers möglich. So kann zum Beispiel, wie in Fig. 3 gezeigt, ein vorwärtsadaptiver Kodierer Zuteilungswerte in Abhängigkeit von der von der Filterbank 102 erzeugten Teilbandinformation festlegen. Bei noch einem weiteren Ausführungsbeispiel, welches in keiner Fig. gezeigt ist, können Zuteilungswerte in Abhängigkeit sowohl vom Eingangssignal als auch von der Teilbandinformation festgelegt werden.
  • Da Zuteilungswerte ausdrücklich im kodierten Signal weitergegeben werden, kann, wie oben erörtert, die Zuteilungsfunktion bei einem vorwärtsadaptiven Kodierer geändert werden, ohne daß dabei die Kompatibilität mit bereits bestehenden vorwärtsadaptiven Dekodierern aufgegeben wird. Allein das Format des kodierten Signals muß erhalten bleiben.
  • Rückwärtsadaptive Zuteilung
  • Fig. 4 veranschaulicht den Grundaufbau eines Ausführungsbeispiels eines Teilbandkodierers, der in einem rückwärtsadaptive Zuteilung beinhaltenden Kodierer/Dekodierersystem verwendet ist. Eine Filterbank 102 erzeugt Teilbandinformation in Abhängigkeit von einem Eingangssignal, welches von einem Weg 100 empfangen wird. Ein Konverter 112 erzeugt eine Darstellung der Teilbandinformation, die X-Wörter und Y-Wörter aufweist. Die X-Wörter werden längs eines Weges 113 als Eingabe für eine Zuteilungsfunktion 110 und einen Formatierer 106 weitergegeben. Die Zuteilungsfunktion 110 legt Zuteil ungswerte in Abhängigkeit von den X-Wörtern fest und gibt die Zuteilungswerte an einen Quantisierer 104 weiter. Der Quantisierer 104 erzeugt quantisierte Information durch das Quantisieren der von einem Weg 115 empfangenen Y-Wörter unter Anwendung einer Quantisierungsfunktion, die in Abhängigkeit von den Zuteilungswerten angepaßt ist, und ein Formatierer 106 setzt die quantisierte Information und die X-Wörter zu einem kodierten Signal zusammen, dessen Format für die Übertragung oder Speicherung geeignet ist. Das kodierte Signal wird längs eines Weges 108 an einen Übermittlungskanal oder eine Speichervorrichtung, je nach Wunsch, weitergegeben.
  • Fig. 5 veranschaulicht den Grundaufbau eines Ausführungsbeispiels eines Teilbanddekodierers, der in einem rückwärtsadaptive Zuteilung beinhaltenden Kodierer/Dekodierersystem verwendet ist. Ein Deformatierer 202 extrahiert quantisierte Information und X-Wörter aus einem kodierten Signal, welches von einem Weg 200 empfangen wird. Die X-Wörter werden längs eines Weges 203 zu einer Zuteilungsfunktion 210 weitergegeben. Die Zuteilungsfunktion 210 legt Zuteilungswerte in Abhängigkeit von den X-Wörtern fest und gibt die Zuteilungswerte an einen Dequantisierer 204 weiter. Der Dequantisierer 204 erzeugt Y-Wörter durch Dequantisieren der vom Deformatierer 202 empfangenen quantisierten Information unter Benutzung einer Dequantisierungsfunktion, die in Abhängigkeit von den Zuteilungswerten angepaßt ist. Ein Umkehrkonverter 212 erzeugt Teilbandinformation in Abhängigkeit von den X-Wörtern und den -Wörtern, und eine Umkehrfilterbank 206 erzeugt längs eines Weges 208 ein Ausgangssignal in Abhängigkeit von der vom Umkehrkonverter 212 empfangenen Teilbandinformation.
  • Rückwärtsadaptive Kodiersysteme können den Overhead vermeiden, welcher für das Übermitteln von Seiteninformationen in dem kodierten Signal erforderlich ist, weil die Zuteilungswerte implizit von den X-Wörtern dargestellt werden, welche zu dem kodierten Signal zusammengesetzt sind. Ein rückwärtsadaptiver Dekodierer kann die Zuteilungswerte aus den X-Wörtern wiedergewinnen, indem er eine Zuteilungsfunktion durchführt, welche mit der zuvor in einem rückwärtsadaptiven Kodierer durchgeführten gleichwertig ist. Es sei darauf hingewiesen, daß es zum exakten Dekodieren des kodierten Signals nicht erforderlich ist, daß die Kodierer- und Dekodierer-Zuteilungsfunktionen selbst identisch sind; aber exaktes Dekodieren kann nur dann sichergestellt werden, wenn die beiden Funktionen identische Zuteilungswerte erhalten.
  • Hybridadaptive Zuteilung
  • Fig. 6 veranschaulicht den Grundaufbau eines Ausführungsbeispiels eines Teilbandkodierers in einem hybridadaptive Zuteilung beinhaltenden Kodierer/Dekodierersystem. Die Funktionen der verschiedenen Elemente innerhalb des oben erörterten, in Fig. 4 gezeigten Ausführungsbeispiels entsprechen den Funktionen der jeweiligen Elemente in dem in Fig. 6 gezeigten Aufbau. Zusätzlich modifiziert ein Adapter 120 einen oder mehrere der durch die Zuteilungsfunktion 110 festgelegten Zuteilungswerte unter Anwendung einer von zwei Grundtechniken oder beider. Die zum Verwirklichen beider Techniken benutzte Konstruktion ist in Fig. 6 dargestellt. Allerdings kann die eine oder andere Technik auch allein angewandt werden, und unnütze Funktionselemente können aus der dargestellten Konstruktion entfernt werden.
  • Bei der ersten oder "Parameter"-Technik modifiziert der Adapter 120 einen oder mehrere Parameter, die die Ergebnisse der Zuteilungsfunktion 110 beeinflussen. Die vom Adapter 120 bereitgestellten, modifizierten Parameter werden längs eines Weges 123 zu einer Zuteilungsfunktion 110 und einem Formatierer 106 weitergegeben. Der Formatierer 106 setzt einen Hinweis auf die modifizierten Parameter und die quantisierte Information zu einem kodierten Signal zusammen, dessen Format zum Übertragen oder Speichern geeignet ist.
  • Bei der zweiten oder "Wert"-Technik modifiziert der Adapter 120 einen oder mehrere Zuteilungswerte. Die vom Adapter 120 geschaffenen, modifizierten Werte werden längs eines Weges 121 zu einem Formatierer 106 und einem Verschmelzer 118 weitergegeben. Der Verschmelzer 118 verschmilzt die modifizierten Werte mit den von der Zuteilungsfunktion 110 empfangenen Zuteilungswerten und leitet die verschmolzenen Zuteilungswerte an einen Quantisierer 104 weiter. Der Formatierer 106 setzt einen Hinweis auf die modifizierten Werte und die quantisierte Information zu einem kodierten Signal zusammen, dessen Format zur Übertragung oder Speicherung geeignet ist.
  • Das in Fig. 6 gezeigte Ausführungsbeispiel zeigt, daß der Adapter 120 auf das vom Weg 100 empfangene Eingangssignal, die vom Weg 103 empfangene Teilbandinformation und die vom Weg 113 empfangenen X-Wörter anspricht. Bei anderen Ausführungsbeispielen eines hybridadaptiven Kodierers kann der Adapter 120 auf einen beliebigen der drei Wege ansprechen, auf eine beliebige Kombination der drei Wege ansprechen und/oder auf sonstige Informationen ansprechen.
  • Fig. 7 zeigt den Grundaufbau eines Ausführungsbeispiels eines Teilbanddekodierers in einem hybridadaptive Zuteilung beinhaltenden Kodierer/Dekodierersystem. Die Funktionen der verschiedenen Elemente innerhalb des oben erörterten, in Fig. 5 gezeigten Ausführungsbeispiels entsprechen den Funktionen der jeweiligen Elemente in dem in Fig. 7 gezeigten Aufbau. Zusätzlich findet eine Modifizierung eines oder mehrerer Zuteilungswerte unter Anwendung einer von zwei Grundtechniken oder beider statt. Der zum Verwirklichen beider Techniken benutzte Aufbau ist in Fig. 7 dargestellt. Allerdings kann jede der beiden Techniken auch allein angewandt werden, und unnütze Funktionselemente können aus dem dargestellten Aufbau entfernt werden.
  • Bei der ersten oder "Parameter"-Technik extrahiert ein Deformatierer 202 aus dem kodierten Signal einen oder mehrere modifizierte Parameter, welche die Ergebnisse einer Zuteilungsfunktion 210 beeinflussen, und gibt die modifizierten Parameter längs eines Weges 213 an die Zuteilungsfunktion 210 weiter.
  • Bei der zweiten oder "Wert"-Technik extrahiert der Deformatierer 202 einen oder mehrere modifizierte Werte aus dem kodierten Signal und gibt die modifizierten Werte längs eines Weges 205 zu einem Verschmelzer 218 weiter. Der Verschmelzer 21 8 verschmilzt die modifizierten Werte mit den von der Zuteilungsfunktion 210 empfangenen Werten und gibt die verschmolzenen Zuteilungswerte an einen Dequantisierer 204 weiter.
  • Verwirklichung Filterbank
  • Die in den Fig. 1-7 dargestellten Ausführungsbeispiele können durch eine große Vielfalt an Verwirklichungen in die Tat umgesetzt werden. So können beispielsweise die Filterbank 102 und die Umkehrfilterbank 206 durch eine Vielfalt in der Technik bekannter digitaler Filtertechniken verwirklicht werden, zu denen, ohne darauf beschränkt zu sein, Quadraturspiegelfiter, Polyphasenfilter und verschiedene Fourier-Transformationen gehören. Ein bevorzugtes Ausführungsbeispiel benutzt die von Princen, Johnson und Bradley in "Subband/Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation", Proceedings Int. Conf. Acoust., Speech and Signal Proc., Mai 1987, SS. 2161-2164 offenbarte Time Domain Aliasing Cancellation (TDAC) Transformation. Ein Beispiel eines Transformationskodierer/Dekodierersystems, bei dem eine Filterbank mit der TDAC-Transformation verwirklicht ist, ist in dem oben genannten US-Patent 5 109 417 beschrieben.
  • Für die Ausführung der vorliegenden Erfindung ist keine spezielle Verwirklichung von kritischer Bedeutung. Auch wenn die gegebene Beschreibung der vorliegenden Erfindung sich spezieller mit digitalen Teilbandkodierverwirklichungen befaßt, sei darauf hingewiesen, daß ein Kodierer/- Dekodierersystem, welches Aspekte der vorliegenden Erfindung beinhaltet, auch analoge Filterbänke verwenden kann. So kann zum Beispiel die Filterbank 102 einen oder mehrere Analogfilter und einen Analog/Digital-Umsetzer (ADC) aufweisen, der digitale Abtastwerte für jedes Teilbandsignal erzeugt. Die Umkehrfilterbank 206 kann einen Digital/Analog-Umsetzer (DAC) aufweisen, der analoge Teilbandsignale in Abhängigkeit von digitalen Abtastwerten erzeugt, sowie eine Komponente, welche die analogen Teilbandsignale zu einem zusammengesetzten analogen Ausgangssignal kombiniert.
  • Konverter
  • Auch der Konverter 112 und der Umkehrkonverter 212, die die X-Wörter und die Y-Wörter erzeugen und wiedergewinnen, können auf die verschiedenste Weise verwirklicht werden. Wie zuvor erörtert, sind die X-Wörter durch die Tatsache gekennzeichnet, daß sie sowohl dem Kodierer als auch dem Dekodierer zur Information über die Zuteilungsfunktion zur Verfügung stehen. Die X-Wörter können insgesamt Skalierungsfaktoren entsprechen, und die Y-Wörter können Werten entsprechen, die in Übereinstimmung mit den Skalierungsfaktoren skaliert sind. Bei Ausführungsbeispielen, die mit verschiedenen Fließpunktdarstellungen numerischer Mengen arbeiten, können die X-Wörter den Fließpunktexponenten entsprechen, während die Y-Wörter den Fließpunktmantissen entsprechen können.
  • Bei manchen Verwirklichungen sind Gruppen oder Blöcke von Y-Wörtern einem gemeinsamen X- Wortexponenten zugeordnet und bilden eine Blockfließpunkt-(BFP)-Darstellung. Bei einem bevorzugten Ausführungsbeispiel wird jedoch von den X-Wörtern eine Spektralhüllkurve höherer Auflösung dadurch erhalten, daß jede Y-Wortmantisse einem entsprechenden X-Wortexponenten zugeordnet wird.
  • Quantisierer
  • Die speziellen, vom Quantisierer 104 und vom Dequantisierer 204 angewandten Funktionen sind für die Durchführung der vorliegenden Erfindung nicht von kritischer Bedeutung; aber die beiden Funktionen sollten zueinander komplementär sein. Insgesamt ist bei den gleichen gegebenen Zuteilungswerten die Dequantisierungsfunktion d(x) invers zur Quantisierungsfunktion q(x), so daß die ursprüngliche Menge x ≈ d[q(x)]. Eine strenge Gleichheit wird nicht erwartet, weil eine Quantisierung üblicherweise zu einem gewissen Verlust an Genauigkeit führt.
  • In Reaktion auf die Zuteilungswerte kann der Quantisierer 104 seine Quantisierungsfunktion auf die eine oder andere Weise anpassen. So kann der Quantisierer 104 zum Beispiel die Zahl der Quantisierungsstufen entsprechend den Zuteilungswerten einstellen. Eine achtstufige Quantisierungsfunktion und eine vierstufige Quantisierungsfunktion könnten in Abhängigkeit von Werten benutzt werden, die eine Zuteilung von drei Bits bzw. zwei Bits anzeigen. Als weiteres Beispiel könnte der Quantisierer 104 eine logarithmische Quantisierungsfunktionen in Abhängigkeit von Zuteilungswerten benutzen, die größer sind als ein spezifiziertes Niveau oder diesem gleichen, beispielsweise sechs Bits, und in Abhängigkeit von kleineren Werten lineare Quantisierungsfunktionen anwenden.
  • Der Quantisierer 104 kann seine Quantisierungsfunktion auch durch Umschalten zwischen symmetrischen und asymmetrischen Funktionen oder durch adaptive Verwendung einer oder mehrerer Quantisierungsstufen zur Darstellung spezieller Amplitudenbereiche anpassen. So kann zum Beispiel eine N-Bit Quantisierungsfunktion eine ihrer 2N Quantisierungsstufen als eine "kleine Null" Quantisierungsstufe reservieren, wie zuvor erörtert. Eine solche Quantisierungsstufe, die ansonsten zur Darstellung großer Amplituden herangezogen wird, wird stattdessen zur Darstellung sehr kleiner Amplituden benutzt. Durch die Benutzung einer solchen Quantisierungsfunktion kann es ein Kodierer einem Dekodierer ermöglichen, ohne weiteres zwischen Signalen kleiner Amplitude, die auf einen Wert von Null quantisiert sind und Signalen sehr kleiner Amplitude zu unterscheiden, die auf die spezielle "kleine Null" Quantisierungsstufe quantisiert sind.
  • In Abhängigkeit von den Zuteilungswerten paßt der Dequantisierer 204 seine Dequantisierungsfunktion in einer Weise an, die zu derjenigen Art und Weise komplementär ist, in der der Quantisierer 104 seine Quantisierungsfunktion anpaßt.
  • Verschmelzer
  • Die vom Verschmelzer 118 und vom Verschmezer 218 angewandten Methoden sind für die Verwirklichung der vorliegenden Erfindung nicht von kritischer Bedeutung. Vom Konzept her werden vom Verschmelzer 118 und Verschmelzer 219 die entsprechenden Werte aus einem Satz Zuteilungswerte und einem Satz modifizierter Werte zu einem einzigen Wertesatz kombiniert. Das kann auf vielerlei Art und Weise geschehen. So kann zum Beispiel ein Zuteilungswert durch einen entsprechenden modifizierten Wert ersetzt werden. Bei einem Teilbandkodierer stellt jeder Zuteilungswert die Anzahl Bits dar, die beim Quantisieren von Teilbandinformation in einem entsprechenden Teilband zu verwenden sind. Jeder modifizierte Wert tritt an die Stelle des entsprechenden Zuteilungswertes und wird stattdessen vom Quantisierer benutzt.
  • Als weiteres Beispiel können die beiden Wertesätze durch Anwendung der modifizierten Werte zum Einstellen entsprechender Zuteilungswerte kombiniert werden. So kann zum Beispiel der modifizierte Wert eine inkrementale Menge darstellen, um die der entsprechende Zuteilungswert geändert werden sollte. Bei einem Teilbandkodierer könnte die zum Quantisieren von Teilbandinformation in einem speziellen Teilband benutzte Anzahl Bits durch die algebraische Summe des entsprechenden Zuteilungswertes und des entsprechenden modifizierten Wertes definiert werden, wenn der modifizierte Wert in dem kodierten Signal vorhanden ist. Als Alternative kann der modifizierte Wert einen Faktor darstellen, um den der entsprechende Zuteilungswert skaliert werden sollte.
  • Formatierer
  • Bei vielen Kodiersystemen, bei denen das kodierte Signal durch einen seriellen Bitstrom dargestellt ist, entsprechen die vom Formatierer 108 und Deformatierer 202 gebotenen Funktionen im wesentlichen dem Multiplexen bzw. Demultiplexen des seriellen Bitstroms. Auch wenn die Verwirklichung der Formatier- und Deformatierfunktionen für einen bestimmten Anwendungsfall wichtig sein mag, ist sie für die Ausführung der vorliegenden Erfindung nicht von kritischer Bedeutung. Jegliches Verfahren, welches das kodierte Signal in eine zur Übertragung oder Speicherung geeignete Form bringen kann und das kodierte Signal aus der formatierten Darstellung wiedergewinnen kann, ist geeignet.
  • Zuteilungsfunktion Überblick
  • Die Zuteilung 110 legt Zuteilungswerte entsprechend Grundsätzen der Psychowahrnehmung fest. Diese Zuteilungswerte werden so festgesetzt, daß das resultierende Quantisierungsrauschen eine Maskierungsschwelle möglichst nicht übersteigt. Dieses Verfahren wird nachfolgend mehr im einzelnen erörtert. Obwohl die Erörterung spezieller auf akustische Kodiersysteme gerichtet ist, können viele der dargestellten Konzepte in einem größeren Anwendungsbereich benutzt werden, beispielsweise bei der Videokodierung.
  • Die Maskierungsschwelle wird unter Anwendung eines mathematischen Modells der menschlichen Wahrnehmung festgelegt. Es kann eine Vielfalt von Modellen für verschiedene Aspekte der vorliegenden Erfindung benutzt werden. Gemäß Schroeder et al., die oben zitiert wurden, kann die Reaktion des menschlichen Ohres auf akustische Energie modelliert werden, indem man 1.) die Leistungsspektrumdichte (PSD) des Eingangssignals schätzt, 2.) die Dichte kritischer Bänder des Eingangssignals durch Abbilden der PSD in kritischen Bändern erhält, 3.) ein Basilarmembran- Erregungsmuster durch Anlegen einer Basilarmembran-Ausbreitungsfunktion an die Information über die Dichte kritischer Bänder erzeugt, 4.) eine vorläufige Maskierungsschwelle durch Verstellen des Erregungsmusters um eine Größe entsprechend einem für psychoakustische Maskierung ausreichenden Rauschabstand (SNR)-Versatz erzeugt, 5.) das Niveau der vorläufigen Maskierungsschwelle mit einer Schwelle menschlicher Wahrnehmung vergleicht, und 6.) eine Maskierungsschwelle erzeugt, die der größeren der beiden gleicht.
  • Einige dieser Schritte können kombiniert oder in einer anderen Reihenfolge durchgeführt werden. So kann zum Beispiel Schritt 1 und Schritt 2 in gewisser Weise umgekehrt werden, indem zunächst die Spektralkomponenten eines Eingangssignals in kritischen Bändern abgebildet und dann die Dichte kritischer Bänder unmittelbar anhand der abgebildeten Komponenten erzeugt wird. Als weiteres Beispiel können Schritt 2 bis einschließlich Schritt 4 zum Erzeugen einer vorläufigen Maskierungsschwelle zu einem einzigen Schritt kombiniert werden, indem eine entsprechend gewichtete Ausbreitungsfunktion unmittelbar an die Eingangssignal-PSD angelegt wird.
  • Die nachfolgende Erörterung ist mehr im einzelnen auf Ausführungsbeispiele gerichtet, die Variationen der oben aufgeführten sechs Schritte beinhalten. Diese Schritte werden herangezogen, um verschiedene Konzepte zu erklären und sind nicht erforderlich, um die vorliegende Erfindung in die Praxis umzusetzen. Alternative Ausführungsbeispiele können andere Hörmodelle beinhalten, die andere Schritte aufweisen.
  • Leistungsspektrumdichte
  • Kodierer in vorwärtsadaptiven Systemen können die PSD eines Eingangssignals anhand von Informationen schätzen, die vom Weg 100 und/oder vom Weg 103 empfangen werden. In Systemen mit Filterbänken, die durch eine schnelle Fourier-Transformation (FFT) verwirklicht sind, kann zum Beispiel die PSD aus dem Quadrat der Größe jedes der resultierenden Transformationskoeffizienten erhalten werden. Allerdings schätzen Kodierer in rückwärtsadaptiven Systemen die PSD im allgemeinen anhand der vom Weg 113 empfangenen X-Wörter.
  • Bei einer Verwirklichung, bei der die Amplitude jeder Spektralkomponente C in einer konventionellen binären Fließpunktform dargestellt ist, welche einen Exponenten X und eine Mantisse Y aufweist, kann die Leistung der Spektralkomponenten in dB unmittelbar anhand der Werte der Exponenten abgeschätzt werden. Der Wert jedes Exponenten ist die Potenz von 2, die zur Normierung der zugehörigen Mantisse benutzt wird, oder C = Y 2-X. Aus dieser Darstellung kann die Leistung jeder Spektralkomponente aus einem Ausdruck abgeschätzt werden, wie
  • i ≈ -6(Xi+0.5)dB. (1)
  • wobei i = Leistung der Spektralkomponente Ci, und
  • Xi = Wert des Fließpunktexponenten für die Spektralkomponente Ci
  • Bei einem bevorzugten Ausführungsbeispiel ist jede Spektralkomponente C in Fließpunktform dargestellt, die eine normierte Mantisse Y und einen Exponenten X aufweist. Die PSD wird geschätzt durch Gruppieren einer oder mehrerer Spektralkomponenten zu Bändern und durch Erhalten der "log-Summe" der Exponenten für die Spektralkomponenten in jedem Band. Eine Möglichkeit der Berechnung einer log-Summe wird nachfolgend erörtert.
  • Konzeptionell ist kein bestimmtes Verfahren zum Schätzen der PSD für die Ausführung der vorliegenden Erfindung von kritischer Bedeutung. Praktisch gesehen kann jedoch die Genauigkeit des Verfahrens die Leistung des Kodiersystems signifikant beeinflussen.
  • Dichte kritischer Bänder
  • Teilbandkodiersysteme sind meistens besser in der Lage, psychoakustische Effekte durch Unterteilen des Eingangssignals in Teilbänder auszunutzen, deren Bandbreiten nicht mehr als die Hälfte der kritischen Bandbreiten ausmachen. Das ist meistens nötig, weil Kodiersystemteilbänder feste Mittenfrequenzen haben im Gegensatz zum menschlichen Gehör, wo die kritischen Bänder variable Mittenfrequenzen haben. Manchmal wird unrichtigerweise davon ausgegangen, daß eine dominante Spektralkomponente andere Spektralkomponenten niedrigen Pegels über ein ganzes Teilband von kritischer Bandbreite bei einem Teilbandkodierer überdeckt. Diese Annahme trifft unter Umständen nicht zu, weil die Maskiereffekte einer dominanten Spektralkomponente außerhalb des Frequenzintervalls einer Hälfte einer kritischen Bandbreite an jeder Seite der Spektralkomponente abnehmen. Wenn nun diese dominante Spektralkomponente am Rand eines Kodiersystemteilbandes auftritt, können andere Spektralkomponenten in dem Teilband außerhalb der tatsächlichen kritischen Bandbreite auftreten, es sei denn, daß die Bandbreite des Teilbandes nicht mehr jene eine Hälfte einer kritischen Bandbreite ist.
  • Bei einem Ausführungsbeispiel wird die Eingangssignal-PSD in Bändern abgebildet, die jeweils eine Bandbreite von etwa einer kritischen Bandbreite des menschlichen Gehörs haben. Jedes der Bänder hat eine Breite von einem Bark. Bei einem bevorzugten Ausführungsbeispiel wird die Eingangssignal- PSD in "unterkritischen Bändern" abgebildet, deren Bandbreiten etwa eine Hälfte der kritischen Bandbreiten des menschlichen Gehörs betragen oder Breiten von etwa einem halben Bark. Diese bevorzugte Abbildung wird durch die in Tabelle 1 gezeigten Einträge wiedergegeben.
  • Andere Abbildungsfunktionen und Bandbreiten können angewandt werden, ohne von den Ideen der vorliegenden Erfindung abzuweichen. So kann zum Beispiel nach Schroeder et al. eine Frequenz f unterhalb etwa 5 kHz in kritischen Bändern durch den Ausdruck
  • f = 650 sinh x/7 (2)
  • abgebildet werden, wo x = kritische Bandzahl.
  • Um die nachfolgende Erörterung zu erleichtern, soll der Ausdruck "Dichte kritischer Bänder" sich auf eine Eingangssignal-PSD beziehen, die in Frequenzbändern irgendeiner zweckmäßigen Bandbreite, einschließlich kritischer Bandbreiten und unterkritischer Bandbreiten abgebildet ist. Die Dichte kritischer Bänder des Eingangssignals kann von der richtigen Abbildungsfunktion gemäß
  • S(x) = [f(x)] df/dx (3)
  • erhalten werden, wo
  • (x) = Leistungsspektrumdichte des Eingangssignals und
  • S(x) = Dichte kritischer Bänder des Eingangssignals.
  • Erregungsmuster
  • Ein Erregungsmuster beschreibt annähernd die Energieverteilung längs der Basilarmembran, die sich aus der akustischen Leistung ergibt, welche von einem Intervall des Eingangssignals dargestellt ist. Ein Erregungsmuster kann errechnet werden aus der Faltung
  • E(x) = S(x) * B(x) (4)
  • wo E(x) = das aus dem Eingangssignal resultierende Erregungsmuster und
  • B(x) = eine Basilarmembran-Ausbreitungsfunktion.
  • Schroeder et al. bieten einen zweckmäßigen analytischen Ausdruck für eine Ausbreitungsfunktion über Frequenzbänder hinweg, die kritische Bandbreiten haben. Der Ausdruck, der das Niveau für die Ausbreitung in einem Frequenzband x bietet, welches von einer Spektralkomponente im Frequenzband x&sub0; resultiert, ist
  • 10 log&sub1;&sub0; B(Δx) = 15.81 + 7.5 (Δx + 0.474) - 17.5 [1 + (Δx + 0.474)²] dB (5)
  • worin Δx = x-x&sub0;.
  • Die Faltung der Dichte kritischer Bänder des Eingangssignals S(x) und der Ausbreitungsfunktion B(x) ist vom Rechenaufwand her intensiv und hat eine rechen mäßige Komplexität in der Größenordnung von N M, wo N die Zahl der Punkte in S(x) und M die Zahl der Punkte in B(x) ist. Infolgedessen ist es bei vielen Kodiersystemen, insbesondere bei rückwärtsadaptiven Kodiersystemen nicht praktisch, das Schroeder-Modell zu benutzen.
  • Ein praktischer Ansatz erhält ein Erregungsmuster durch Filtern einer spektralen Darstellung eines Eingangssignals. Das Filtern erfolgt in einer "spektralen Domäne", wie den hier erörterten abgebildeten und nicht abgebildeten Frequenzdomänen.
  • Fig. 8 veranschaulicht ein Ausführungsbeispiel eines Prozesses, mit dem das Erregungsmuster wirksamer erhalten werden kann, wobei eine rechenmäßige Komplexität in der Größenordnung von N besteht. Gemäß diesem Ausführungsbeispiel wird Information, welche die Dichte kritischer Bänder des Eingangssignals übermittelt, von einem Weg 500 erhalten, durch drei Filter geleitet und zu dem Erregungsmuster kombiniert.
  • Die PSD kann als lineare, logarithmische oder sonstige Darstellung von Leistung skaliert werden. Wenn die PSD eine lineare Darstellung der Eingangssignalleistung ist, und wenn die Bänder höherer Frequenz x eine Bandbreite, ausgedrückt in Bark, haben, die im wesentlichen konstant ist, dann können diese Filter als ein einpoliges IIR-Filter mit einer Übertragungsfunktion verwirklicht werden, die durch den rekursiven Ausdruck dargestellt ist
  • Fi(x) = ai(x) S(x) + bi(x) Fi(x-1) (6)
  • wobei ai(x) = Verstärkungsfaktor für Filter i,
  • bi(x) = Abklingrate für Filter i,
  • F&sub1;(x) = Ausgangsignal des Filters 502 bei Frequenzband x,
  • F&sub2;(x) = Ausgangsignal des Filters 504 bei Frequenzband x, und
  • F&sub3;(x) = Ausgangsignal des Filters 510 bei Frequenzband x.
  • Hypothetische Impulsgänge des Filters 502, des Filters 504 und des Filters 510 sind jeweils in den entsprechenden Fig. 9a-9c dargestellt.
  • Wenn die PSD eine logarithmische Darstellung der Eingangssignalleistung ist, können Filterberechnungen effizienter in der logarithmischen Leistungsdomäne durchgeführt werden. Eine Möglichkeit, wie diese Rechnungen durchgeführt werden können, wird nachfolgend erörtert.
  • Wenn die Bänder höherer Frequenz x keine in Bark ausgedrückten Bandbreiten haben, die im wesentlichen konstant sind, ist unter Umständen eine komplexere Übertragungsfunktion für eines oder mehrere der Filter erforderlich. Wenn zum Beispiel diese Frequenzbänder eine konstante Bandbreite haben, hat das Filter 502 vorzugsweise eine oder mehrere Nullstellen mit einer Übertragungsfunktion, beispielsweise
  • wo Mi(x) = Anzahl der Nullstellen für das Filter Fi bei Frequenzband x.
  • Wirkungsmäßig verzögert der dritte Term im Ausdruck 7 das exponentielle Abklingen im Impulsgang. Ein hypothetischer Impulsgang ist in Fig. 10a gezeigt. Jede Nullstelle fügt eine "Verzögerung" eines Frequenzbandes hinzu. Insgesamt werden mehr Nullstellen für Bänder höherer Frequenz benutzt. Wenn zum Beispiel jedes Element im PSD eines Eingangssignals einer Bandbreite von 20 kHz einem Transformationskoeffizienten entspricht, der von einer 512-Punkt Transformation generiert wird, dann sind unter Umständen bis zu zehn Nullstellen erforderlich für die Bänder der höchsten Frequenz, während keine Nullstellen nötig sind für Bänder unterhalb etwa 500 Hz.
  • Die Genauigkeit der Ausbreitungsfunktion läßt sich auf Kosten einer größeren Rechenkomplexität verbessern, wenn Filterkoeffizienten verwendet werden, die Funktionen der Frequenzbandzahl x sind. Vorzugsweise bietet der rekursive Ausdruckkoeffizient bi(x) mehr Ausbreitung für Spektralkomponenten bei höheren Frequenzen. Durch das Abbilden der Eingangssignal-PSD in einem Satz von Frequenzbändern entsprechender Bandbreiten kann jedoch eine Ausbreitungsfunktion mit vernünftiger Genauigkeit erhalten werden, wenn ein rekursiver Ausdruckkoeffizient bi benutzt wird, der im wesentlichen unveränderlich ist. Eine gewisse Veränderlichkeit im Koeffizienten bi ist wahrscheinlicher bei vielen Kodiersystemen nötig für Bänder niedrigerer Frequenz, weil die kritischen Bandbreiten viel schmaler sind.
  • Die Filtercharakteristiken lassen sich entsprechend dem Bedarf der Kodieranwendung festlegen. Es sei jedoch betont, daß diese Filter in einer Frequenzbanddomäne arbeiten, bei der es sich um eine abgebildete Frequenzdomäne handelt. Der Abklingausdruck für die Filter stellt eine Ausbreitung akustischer Energie längs der Basilarmembran dar und bietet eine Wirkung ähnlich derjenigen, die durch Falten mit einer Ausbreitungsfunktion erzielt wird.
  • Unter Hinweis auf Fig. 8 führt ein Umkehrer 508 eine Frequenzbandumkehr der von einem Weg 500 empfangenen Information vor dem Filtern mittels eines Filters 510 durch, und ein Umkehrer 512 führt eine Frequenzbandumkehr der gefilterten Ausgabe durch. Die beiden Umkehrelemente und das zwischengeschaltete Filter stellen die Ausbreitungsfunktion längs der Basilarmembran bei Frequenzen unterhalb einer Reizfrequenz dar.
  • Eine Komponente 506 und eine Komponente 514 ermitteln die Summe ihrer jeweiligen Eingangssignale. Die von der Komponente 514 resultierende Summe, bei der es sich um das berechnete Erregungsmuster handelt, wird längs eines Weges 516 weitergeleitet. Fig. 9d gibt die zusammengesetzte Filterkurve der in Fig. 8 veranschaulichten Konstruktion wieder, welche Filter der in Fig. 9a-9c dargestellten Kurven beinhaltet. Wenn die Information über die Dichte kritischer Bänder, die vom Weg 500 empfangen wird, in der logarithmischen Leistungsdomäne ausgedrückt wird, sind die von der Komponente 506 und der Komponente 514 berechneten Summen log-Summen. Eine Möglichkeit zum Berechnen der log-Summen wird nachfolgend erörtert.
  • Es sind viele alternative Ausführungsbeispiele möglich. Zum Beispiel kann ein Ausführungsbeispiel von geringerer rechenmäßiger Komplexität nur Filter 502, Filter 504 und Komponente 506 aufweisen, und die Komponente 506 kann die beiden gefilterten Ausgangssignale einfach durch das Wählen des größeren der beiden kombinieren. Die mit diesem einfacheren Ausführungsbeispiel erhaltenen Ergebnisse sind in vielen Kodieranwendungsfällen von hoher Qualität akzeptabel. So zeigt beispielsweise Fig. 10b einen hypothetischen zusammengesetzten Impulsgang dieses Ausführungsbeispiels, bei dem das Filter 502 den in Fig. 10a gezeigten Impulsgang und das Filter 504 den in Fig. 9b gezeigten Impulsgang hat. Die Tabelle II zeigt Filterkoeffizienten a&sub1;(x) und b&sub1;(x) für Filter 502 und Koeffizienten a&sub2;(x) und b&sub2;(x) für Filter 504, die zur Verwendung bei einem Ausführungsbeispiel geeignet sind, bei dem die in Tabelle I gezeigte PSD-Abbildung verwendet ist. Die Koeffizienten sind zur Verwendung in der logarithmischen Leistungsdomäne in dB ausgedrückt, können aber ohne weiteres in Koeffizienten zur Verwendung in der linearen Leistungsdomäne umgewandelt werden, indem die Einträge in der Tabelle durch zehn dividiert und der Antilogarithmus des Quotienten genommen wird.
  • Die Filter können als IIR-Filter oder FIR-Filter unter Einschluß von Gitterfiltern verwirklicht werden. IIR-Filter werden insgesamt bevorzugt, weil sie üblicherweise vom Rechenaufwand her effizienter sind.
  • Die rechenmäßige Komplexität läßt sich weiter verringern, wenn man die Filterberechnungen in der logarithmischen Leistungsdomäne durchführt. Die zum Berechnen des Ausdrucks 6 in der Leistungsdomäne erforderlichen Multiplikationen können als Additionen in der logarithmischen Leistungsdomäne verwendet werden oder
  • log A = log [ai(x) S(x)] log ai(x) + log S(x) (8)
  • log B = log [bi(x) F(x-1)] log bi(x) + log Fi(x-1). (9)
  • Die Addition der beiden Terme im Ausdruck 6 kann in der logarithmischen Leistungsdomäne nicht gradeheraus durchgeführt werden. Diese Addition, die als eine "log-Summe" bezeichnet wird, kann unter Verwendung der Identität
  • log (A+B) = max (log A, log B) + log[1 + exp(- log A - log B )] (10)
  • durchgeführt werden, wo exp(y) = Antilogarithmus der Menge y. Durch Konstruieren einer Nachschlagetabelle des Ausdrucks
  • log[1 + exp(- log A - log B )] (11)
  • für einen geeigneten Wertebereich log A - log B , kann die Addition im Ausdruck 6 in der logarithmischen Leistungsdomäne durchgeführt werden, indem 1.) der absolute Wert der Differenz zwischen log A und log B herausgefunden wird, 2.) ein Wert aus der Nachschlagetabelle unter Verwendung dieser Differenz als Schlüssel erhalten wird, und 3.) der erhaltene Wert aus der Nachschlagetabelle zum größeren von log A und log B addiert wird. Diese Verwirklichung ist für die praktische Ausführung der vorliegenden Erfindung nicht wesentlich, aber sie ist bei vielen Ausführungsbeispielen nützlich, um die Komplexität des Rechenaufwandes weiter zu verringern.
  • Die Nachschlagetabelle kann hinreichend kompakt sein, weil der kleinere Ausdruck für Differenzen log A - log B größer als ca. 24 dB im wesentlichen vernachlässigbar ist. Anders ausgedrückt, können hinreichend exakte Annäherungen der log-Summe für Unterschiede von mehr als etwa 24 db erhalten werden, wenn man davon ausgeht, daß der Eintrag in der Tabelle Null gleicht.
  • Empfindlichkeitsfunktion
  • Die Grundlage psychoakustischer Maskiereffekte beruht in der Tatsache, daß das menschliche Gehör durch das Vorhandensein akustischer Energie entsensibilisiert wird. Ein Signal niedrigen Pegels, welches, wenn isoliert, hörbar ist, kann in Begleitung eines viel lauteren Signals unter Umständen nicht hörbar sein. Die "Empfindlichkeitsfunktion" w(x) von Schroeder et al. entspricht ungefähr dem Grad, bis zu dem das menschliche Gehör entsensibilisiert wird. Diese Funktion, die den notwendigen SNR bietet, um die psychoakustische Maskierung innerhalb eines kritischen Bandes x zu gewährleisten, läßt sich ausdrücken als
  • 10 log&sub1;&sub0; w(x) = -(15.5 +x) dB. (12)
  • Ein einfacherer Ansatz arbeitet mit einer Empfindlichkeitsfunktion von w(x) = -20 dB, womit einfach der erforderliche SNR auf unveränderlich 20 dB gesetzt wird.
  • Bei einem bevorzugten Ausführungsbeispiel, bei dem der maximale digitale Wert 105 dB SPL darstellt, wird ein konservativer Pegel angewandt, um eine Maskierung durch Spektralkomponenten niedriger Amplitude selbst dann sicherzustellen, wenn eine Lautstärkensteuerung in einem Wiedergabesystem auf einen sehr hohen Pegel eingestellt ist. Diese Empfindlichkeitsfunktion, dargestellt durch den Ausdruck
  • eignet sich zur Verwendung bei einem Ausführungsbeispiel, bei dem die in Tabelle I gezeigte PSD- Abbildung verwendet ist.
  • Eine vorläufige Maskierungsschwelle Z(x) wird in bezug auf das Erregungsmuster E(x), versetzt um den durch die Empfindlichkeitsfunktion w(x) spezifizierten Betrag, definiert. Die vorläufige Schwelle wird erhalten aus dem Ausdruck
  • Z(x) = w(x) + E(x) (14)
  • in der logarithmischen Leistungsdomäne oder aus dem Ausdruck
  • Z(x) = w(x) E(x) (15)
  • in der linearen Leistungsdomäne.
  • Maskierungsschwelle
  • Alle akustische Energie unterhalb der Schwelle des Hörens ist per definitionem unhörbar. Folglich braucht der zum Sicherstellen der Maskierung des Quantisierungsrauschens erforderliche SNR das Quantisierungsrauschen unterhalb der Hörschwelle nicht zu unterdrücken. Die Schwelle des Hörens ist in der Technik gut definiert. Siehe zum Beispiel ISO Norm 226, die Informationen bereithält, die zu Konturen gleicher Lautheit eines "mindestens hörbaren Feldes" gehören, im ISO Standards Handbook, Acoustics, 1990, SS. 20-25. Die Funktion Θ(x) wird hier verwendet, um einen analytischen Ausdruck dieser Schwelle wiederzugeben.
  • Die psychoakustische Maskierungsschwelle M(x) ist zu erhalten durch einen Vergleich der Hörschwelle mit der vorläufigen Maskierungsschwelle und durch Wählen der größeren der beiden Schwellen Punkt für Punkt. Dies läßt sich darstellen als
  • M(x) = max[Z(x),θ(x)]. (16)
  • Zuteilungswerte
  • Bei einem einfachen Ausführungsbeispiel können Bits mit einer Rate von einem Bit für jeweils 6 dB des erforderlichen SNR oder
  • zugeteilt werden, wo A(x) = Zuteilungswert für jede Spektralkomponente im Frequenzband x.
  • Bei bevorzugten Ausführungsbeispielen wird durch Nachschlagen in einer Tabelle eine wirksamere Zuteilung erhalten. Der erforderliche SNR der geschätzten spektralen Leistung S(x) für die Maskierungsschwelle M(x) wird als Schlüssel für die Nachschlagetabelle herangezogen, und jeder Eintrag in der Tabelle gibt die Zahl der Quantisierungsstufen wieder, die zum Erzielen des erforderlichen SNR nötig ist.
  • Die Einträge in der Nachschlagetabelle können auf in der Technik allgemein bekannten und in verschiedenen bekannten Kodiersystemen bereits benutzten Quantisierungsbeziehungen beruhen. Konzeptionell ist keine besondere Nachschlagetabelle für die praktische Ausführung der vorliegenden Erfindung von kritischer Bedeutung; aber praktisch gesehen können die Einträge in der Nachschlagetabelle die Leistung von Kodiersystemen signifikant beeinflussen.
  • Eine Möglichkeit, um Einträge in der Tabelle für ein spezielles Kodiersystem abzuleiten, besteht darin, den SNR zu messen, der aus jenem Kodiersystem resultiert, unter Einschluß von Quantisierungsfunktionen, die gezwungen sind, Spektralinformation zu einer gegebenen Zahl von Quantisierungspegeln zu quantisieren. So zeigt beispielsweise die Tabelle II an, daß ein SNR von 8,21 dB und 11,62 dB mit einem bestimmten Ausführungsbeispiel eines Kodiersystems erhalten wird, welches mit einer Quantisierungsfunktion arbeitet, welche drei Quantisierungsstufen bzw. fünf Quantisierungsstufen hat. Entsprechend den Einträgen in dieser Tabelle sollten Spektralkomponenten, die einen SNR von mehr als 8,21 dB aber weniger als oder gleich 11,62 dB erfordern, genügend Bits zugeteilt werden, um zu fünf Niveaus quantisiert zu werden.
  • Bei dieser Verwirklichung ist die untere Grenze der Tabelle null Quantisierungsstufen bei 0 dB, und die obere Grenze der Tabelle wird auf eine maximale Zahl von Bits gesetzt, die hier als "Zuteilungsdecke" bezeichnet wird. Gemäß dem in der Tabelle III gezeigten Beispiel entspricht die Zuteilungsdecke 65 536 Quantisierungsstufen, die durch 16 Bits dargestellt werden können.
  • Bei vielen Kodiersystemen werden mittels der Zuteilungsfunktion Zuteilungswerte festgelegt, die eine bestimmte Anzahl von Bits zuteilen. Diese Anzahl wird hier als "Bit-Budget" bezeichnet. Wenn die Gesamtzahl der durch die Zuteilungsfunktion zugeteilten Bits das Bit-Budget übersteigt, muß die Zuteilungsfunktion die Zuteilungswerte entsprechend revidieren. Ist die Gesamtzahl der durch die Zuteilungsfunktion zugeteilten Bits geringer als das Bit-Budget, werden vorzugsweise die Zuteilungswerte revidiert, um die Verwendung der restlichen Bits zu optimieren.
  • Bei manchen Ausführungsbeispielen werden die Zuteilungswerte durch Einstellen des Niveaus der Maskierungsschwelle M(x) und Neuberechnen der Zuteilungswerte verfeinert. Vorzugsweise wird die Hörschwelle berücksichtigt, wenn die Maskierungsschwelle angehoben und abgesenkt wird. Bei einem Ausführungsbeispiel geschieht dies durch Anheben und Absenken der vorläufigen Maskierungsschwelle Z(x) über einen Teil des Spektrums oder das ganze Spektrum und erneutes Festsetzen der Maskierungsschwelle gemäß dem Ausdruck 16, bis die Gesamtzahl zugeteilter Bits dem Bit-Budget ausreichend nahekommt. Um die Erörterung zu erleichtern, wird die Bezeichnung M&sub0;(x) benutzt, um Bezug zu nehmen auf eine anfängliche oder "ideale" Maskierungsschwelle, die aus einem akustischen Modell erhalten wird, ehe irgendwelche Einstellungen zur Verfeinerung von Zuteilungswerten vorgenommen werden.
  • Bei einem Ausführungsbeispiel kann die Maskierungsschwelle in bezug auf die M&sub0;(x) Maskierungsschwelle um bis zu 72 dB abgesenkt und um bis zu 24 dB angehoben werden. Diese Einstellungen entsprechen der Zuteilung von etwa 12 zusätzlichen Bits bzw. 4 Bits weniger pro Spektralkomponente. Anfangs wird die Maskierungsschwelle auf einen Pegel von 24 dB unterhalb M&sub0;(x) gesetzt, was in der Mitte zwischen den beiden extremen Werten von 72 dB und -24 dB liegt. Die Zuteilungswerte werden errechnet und mit dem Bit-Budget verglichen. Eine binäre Suchtechnik nimmt grobe Einstellungen an der Maskierungsschwelle vor, um die Gesamtbitzuteilung auf einen Wert konvergieren zu lassen, der dem Bit-Budget gleicht oder kleiner ist als dieses. Das binäre Suchen wiederholt die groben Einstellungen, bis entweder die Gesamtbitzuteilung dem Bit-Budget gleicht oder bis die inkrementelle Einstellung der Maskierungsschwelle weniger beträgt als 1,5 dB. Im Anschluß an diese groben Einstellungen nimmt das binäre Suchen Feineinstellungen an der Maskierungsschwelle vor, um einen Pegel von bis zu 6 dB niedriger festzulegen, der die Gesamtbitzuteilung näher an das Bit-Budget konvergieren läßt. Dieses binäre Suchen wiederholt die Feineinstellungen bis entweder die Gesamtbitzuteilung dem Bit-Budget gleicht oder bis die inkrementelle Einstellung der Maskierungsschwelle weniger beträgt als 0,375 dB. Der Unterschied zwischen der eingestellten Schwelle und M&sub0;(x) kann in dem kodierten Signal weitergegeben werden, was es dem Dekodierer ermöglicht, die Zuteilungswerte unmittelbar festzusetzen, ohne den Konvergenzprozeß zu wiederholen.
  • Dieses gleiche Verfahren der Grob/Feineinstellung kann auch in Mehrfachkanalkodiersystemen verwendet werden, bei denen Bits in allen Kanälen aus einem gemeinsamen Bitpool den Spektralkomponenten zugeteilt werden. Bei einem alternativen Ausführungsbeispiel werden Grobeinstellungen nur an einer Maskierungsschwelle vorgenommen, die allen Kanälen gemeinsam ist. Nachdem die Gesamtzuteilung für alle Kanäle ausreichend konvergiert vorliegt, werden Feineinstellungen an Maskierungsschwellen vorgenommen, die einzelnen Kanälen zugeordnet sind, bis die Summe zugeteilter Bits dem Bit-Budget gleicht oder ihm ausreichend nahekommt. Die Feineinstellungen erfolgen durch: 1.) Vervollständigen einer Einstellung für jeden Kanal der Reihe nach an einer entsprechenden Maskierungsschwelle, wobei über alle Kanäle hinweg bis zur Konvergenz eingestellt wird, oder 2.) Einstellen einer entsprechenden Maskierungsschwelle für jeden Kanal der Reihe nach bis zur Konvergenz, ausgehend vom Kanal mit der höchsten Priorität und fortlaufend bis zu einem Kanal mit der niedrigsten Priorität.
  • Ein Verfahren ähnlich dem gerade für Mehrfachkanalkodiersysteme beschriebenen kann bei anderen Kodiersystemen mit einem oder mehreren Kanälen angewandt werden. Bits können aus einem gemeinsamen Bitpool über eine verlängerte Zeitspanne hinweg Spektralkomponenten zugeteilt werden. Bei einem Transformationskodiersystem werden beispielsweise Grobeinstellungen an Zuteilungen über mehrere Blöcke von Transformationskoeffizienten hinweg vorgenommen, bis die Gesamtzuteilung für die mehrfachen Blöcke ausreichend nahe an das Bit-Budget konvergiert. Die Feineinstellungen können durch Einstellen der entsprechenden Maskierungsschwelle für jeden Block der Reihe nach vorgenommen werden, wobei eine Einstellung über alle Blöcke hinweg bis zur Konvergenz erfolgt. Dieses Verfahren ist auch für andere Teilbandkodiersysteme anwendbar, beispielsweise für ein Unterbandkodiersystem. Es läßt sich auch zur Verwendung in Mehrfachkanalkodiersystemen anpassen.
  • Wie diese Beispiele zeigen, sind viele Abänderungen im Konvergenzverfahren möglich. Wenn bei einer bestimmten Verwirklichung eine Zuteilungsdecke angewandt wird, sollte der Konvergenzprozeß nicht erlauben, daß ein Zuteilungswert diese Decke überschreitet.
  • Wird die Maskierungsschwelle angehoben, um die Gesamtbitzuteilung innerhalb eines Bit-Budgets unterzubringen, ist es möglich, daß eine oder mehrere spektrale "Zwischen"-Komponenten die anfängliche Schwelle M&sub0;(x) übersteigen, aber nicht die eingestellte Schwelle M(x) übersteigen. Gemäß dem Ausdruck 17 werden diesen spektralen Zwischenkomponenten keine Bits zugeteilt, so daß sie folglich aus dem kodierten Signal ausgeschlossen bleiben. Dieser Ausschluß ist unter Umständen hörbar, insbesondere wenn der Ausschluß intermittierend ist. So können beispielsweise die Oberwellen einer langangehaltenen Note während Intervallen, die an anderer Stelle im Spektrum eine beträchtliche akustische Energie haben, intermittierend ausgeschlossen werden.
  • Wenn diesen spektralen Zwischenkomponenten Bits zugeteilt werden, läßt sich das Bit-Budget dadurch ausgleichen, daß die Zuteilung zu größeren Spektralkomponenten verringert wird. Allerdings ist dann wahrscheinlich die resultierende Verschlechterung der Kodierqualität der größeren Spektralkomponenten hörbar. Vorzugsweise sollten Bits so zugeteilt werden, daß ein Ausgleich zwischen den hörbaren Effekten des Ausschlusses spektraler Zwischenkomponenten einerseits und der Verschlechterung der Kodierqualität größerer Spektralkomponenten andererseits erhalten wird.
  • Bei einem Ausführungsbeispiel wird ein Versuch unternommen, einen derartigen Ausgleich dadurch zu erzielen, daß nur eine minimale Anzahl Bits allen spektralen Zwischenkomponenten zugeteilt wird. Bei einer speziellen Verwirklichung wird dies durch Quantisieren aller spektralen Zwischenkomponenten unter Verwendung der Quantisierungsfunktion erreicht, welche die Mindestanzahl Quantisierungsstufen hat.
  • Bei einem anderen Ausführungsbeispiel wird ein Ausgleich dadurch versucht, daß eine Mindestanzahl Bits nur denjenigen spektralen Zwischenkomponenten zugeteilt wird, die innerhalb eines begrenzten Frequenzbereiches liegen. Dieser Bereich erstreckt sich von der Spektralkomponente mit der höchsten Frequenz, welche die eingestellte Maskierungsschwelle übersteigt, bis zur Obergrenze der kodierten Signalbandbreite.
  • Bei noch einem anderen Ausführungsbeispiel kann ein Ausgleich dadurch versucht werden, daß Bits nur jenen spektralen Zwischenkomponenten zugeteilt werden, die nicht mehr als um ein bestimmtes Niveau, sagen wir 9 dB unterhalb der eingestellten Maskierungsschwelle liegen. In Abwandlung dieses Ausführungsbeispiels wird das Niveau unterhalb der eingestellten Schwelle modifiziert, um zu gewährleisten, daß die spektralen Zwischenkomponenten zugeteilte Bitanzahl einen Prozentsatz des Bit-Budgets nicht übersteigt. Als weiteres Beispiel kann die Zahl der diesen spektralen Zwischenkomponenten zugeteilten Bits dadurch ausgeglichen werden, daß die Bandbreite des Frequenzbereiches gesteuert wird, innerhalb dessen diese Zuteilungen stattfinden können.
  • Die hörbaren Konsequenzen der Zuteilung von Bits zu diesen spektralen Zwischenkomponenten lassen sich verringern, wenn man die Geschwindigkeit steuert, mit der diese Zuteilungen geändert werden können. So können beispielsweise spektrale Zwischenkomponenten dadurch von der Zuteilung ausgeschlossen werden, daß die Zuteilungsbandbreite über ein Intervall von einigen hundert Millisekunden reduziert wird. Abänderungen an Kriterien, die zum Ausschluß spektraler Zwischenkomponenten herangezogen werden, unterliegen wirkungsmäßig einem Tiefpaßfilter.
  • Zuteilung von restlichen Bits
  • Wenn die Anzahl der bisher zugeteilten Bits erheblich geringer ist als das Bit-Budget, können die verbliebenen Bits auf verschiedenerlei Weise zugeteilt werden. Bei einem Ausführungsbeispiel wird ein zweistufiges Verfahren angewandt: 1.) Ausgehend von dem Band der niedrigsten Frequenz und fortschreitend in der Frequenz nach oben wird die Zuteilung für ein Frequenzband erhöht, wenn entweder (a) der entsprechende Zuteilungswert größer ist als Null und niedriger als die Zuteilungsdecke oder (b) der Zuteilungswert null ist und der Zuteilungswert für das eine oder andere benachbarte Frequenzband bei Beginn des Schritts 1 mehr als Null betrug, und 2.) solange noch Bits verfügbar sind, wird, ausgehend vom Band der niedrigsten Frequenz und in der Frequenz aufwärtsgehend der Zuteilungswert für jedes Frequenzband erhöht, wenn der entsprechende Zuteilungswert niedriger liegt als die Zuteilungsdecke. Schritt 2 wird wiederholt, bis keine restlichen Bits verbleiben.
  • Die Zuteilung restlicher Bits läßt sich vermeiden oder auf ein Minimum einschränken, wenn man es dem Konvergenzprozeß erlaubt, ausreichend nahe zum Bit-Budget zu konvergieren, so daß es nur sehr wenige, wenn überhaupt restliche Bits gibt.
  • Adapter
  • Bei Teilbandkodiersystemen, die mit Zuteilungsfunktionen arbeiten, welche auf verschiedenen Psychoperzeptionseffekten beruhen, kann jeglicher, das zugrundeliegende Psychowahrnehmungsmodell beeinflussende Parameter modifiziert werden, um die Zuteilungsfunktion anzupassen. Bei akustischen Kodieranwendungsfällen gehört zu solchen Parametern beispielsweise 1.) die Filterkoeffizienten der Gleichung 6 oder Gleichung 7, welche das Niveau psychoakustischer Maskierung oberhalb und/oder unterhalb eines Maskiertones modellieren, 2.) die Charakteristiken der Empfindlichkeitsfunktion, welche den SNR-Versatz gegenüber dem Erregungsmuster bietet, 3.) das Niveau der Zwischenkanalmaskierung in einem Mehrfachkanalsystem, 4.) die Bandbreite des Eingangssignals, 5.) die Mindestanzahl der Teilbandinformationen als Funktion der Frequenz zuzuteilenden Bits, 6.) die Zuteilungsdecke, möglicherweise als eine Funktion der Frequenz und 7.) die Anzahl der einer Spektralkomponente zusätzlich zuzuteilenden Bits für jede inkrementelle Zunahme der Amplitude als Funktion der Spektralamplitude. Empirischer Beweis deutet an, daß ein höherer SNR erforderlich ist, um eine Maskierung bei höheren Amplituden zu erzielen. Deshalb kann eine Zuteilung eines zusätzlichen Bits pro 6 dB Amplitudensteigerung bei hohen Amplituden erforderlich sein, während eine Zuteilung von nur einem Bit pro 12 db Zunahme bei niedrigeren Amplituden angemessen sein kann.
  • Zum Anpassen der Ergebnisse der Zuteilungsfunktion kann der Adapter 120 entweder die "Parameter"-Technik oder die "Wert"-Technik oder beide anwenden. Die Parameter-Technik bringt das Modifizieren eines oder mehrerer Parameter, wie der oben erörterten mit sich. Die Wert-Technik bringt das Erzeugen eines oder mehrerer modifizierter Werte mit sich, die mit den von der Zuteilungsfunktion erhaltenen Zuteilungswerten verschmolzen werden.
  • Der zum Verwirklichen der einen oder anderen Technik angewandte spezielle Prozeß ist für die praktische Durchführung der vorliegenden Erfindung nicht von kritischer Bedeutung. Bei einem Ansatz wird eine alternative Zuteilungsfunktion durchgeführt, es werden die Ergebnisse der alternativen Funktion mit den "Grundwerten" verglichen, die von der grundlegenden Zuteilungsfunktion 110 erhalten werden, und es werden modifizierte Werte für jeden Alternativwert gebildet, wo die Differenz zwischen ihm und dem entsprechenden Grundwert signifikant ist. Die Komplexität der grundlegenden Zuteilungsfunktion läßt sich einschränken, um den Dekodierer zu vereinfachen, aber andererseits kann die alternative Zuteilungsfunktion so komplex sein wie gewünscht. Bei akustischen Kodieranwendungsfällen kann zum Beispiel die alternative Funktion ein höher entwickeltes psychoakustisches Modell benutzen, welches die Berücksichtigung von Signalcharakteristiken, wie die Flachheit des Eingangssignalspektrums, die durchschnittliche oder Spitzenamplitude des Eingangssignals und die Tatsache, ob eine Maskierungskomponente tonähnlich oder rauschähnlich ist einschließt.
  • Ein weiterer beispielhafter Anpassungsprozeß vermeidet es, eine vollständige Zuteilungsfunktion durchzuführen und erzeugt lediglich Einstellungen an grundlegenden Zuteilungswerten in Abhängigkeit von der Erfassung verschiedener Signalmerkmale. So können zum Beispiel die grundlegenden Zuteilungswerte in Abhängigkeit von der Wahrnehmung tonähnlicher Maskierungskomponenten erhöht werden, oder die grundlegenden Zuteilungswerte können in Abhängigkeit von der Feststellung, daß das Eingangssignalspektrum im wesentlichen flach ist, erniedrigt werden.
  • Wie oben erörtert, kann der Adapter 120 auf das Eingangssignal, die von der Filterbank 102 erhaltene Teilbandinformation, die vom Konverter 112 erhaltenen X-Wörter oder sonstige Informationen von Bedeutung für den jeweiligen Anwendungsfall ansprechen. Bei einem Kodiersystem für ein Telefonfernleitungsnetz kann zum Beispiel der Adapter 120 auf Informationen zum Datum, zur Tageszeit oder zum Wochentag ansprechen, um eine Zuteilungsfunktion bereitzustellen, welche Bitzuteilungen reduziert, wodurch eine Kompensation zwischen geringeren Informationserfordernissen und größerer Wiedergabetreue beim Kodieren in Vorwegnahme vorhergesagter Steigerungen des Verkehrs über das Netzwerk gemacht wird.
  • Bei einem digitalen Videoanzeigesystem kann der Adapter 120 beispielsweise eine Zuteilungsfunktion zur Verfügung stellen, die auf die Eingabe seitens einer Bedienungsperson anspricht, wodurch es der Bedienungsperson erlaubt ist, einen Ausgleich zwischen kürzeren Ansprechzeiten für die Anzeige und höheren Bildauflösungen vorzunehmen.
  • Wie diese Beispiele zeigen, kann der Adapter 120 auf jede beliebige Information ansprechen, die in einem bestimmten Anwendungsfall erwünscht ist. Die Wahl dieser Information ist für die praktische Durchführung der vorliegenden Erfindung nicht von kritischer Bedeutung.
  • Es sei darauf hingewiesen, daß die vorliegende Erfindung innerhalb zahlreicher Ausführungsbeispiele praktiziert werden kann, die durch eine große Vielfalt von Techniken verwirklicht werden. Tables Table I Abbildung kritischer Bänder Table II Filter Koeffizienten Table III Zuteilungs-Nachschlagetabelle

Claims (27)

1. Vorrichtung zum Kodieren eines Eingangssignals mit
- einer Teilbandeinrichtung (102) zum Erzeugen von Teilbandsignalen, welche Frequenzteilbänder des Eingangssignals darstellen, und zum Erzeugen einer spektralen Darstellung des Eingangssignals,
- Erregereinrichtungen (502-514) zum Erzeugen eines Erregungsmusters durch Anlegen einer Ausbreitungsfunktion an die spektrale Darstellung, worin die Ausbreitungsfunktion durch eines oder mehrere IIR-Filter verwirklicht ist,
- einer Schwelleneinrichtung zum Festlegen einer anfänglichen Maskierungsschwelle in Abhängigkeit von dem Erregungsmuster,
- einer Zuteilungseinrichtung zum Zuteilen jeweiliger Bitzahlen zu den Teilbandsignalen in Übereinstimmung mit Pegeln der Teilbandsignale in bezug auf die anfängliche Maskierungsschwelle,
- einer Quantisierungseinrichtung (104) zum Erzeugen quantisierter Information durch Quantisieren der Teilbandsignale in Übereinstimmung mit den jeweiligen, den Teilbandsignalen zugeteilten Bitzahlen, und
- einer Formatiereinrichtung (106) zum Assemblieren der quantisierten Information zu einem kodierten, zur Übertragung oder Speicherung geeigneten Signal.
2. Vorrichtung nach Anspruch 1, ferner mit einer Einrichtung (120) zum Modifizieren eines oder mehrerer die Ergebnisse der Zuteilungseinrichtung beeinflussender Parameter, worin die Formatierungseinrichtung einen Hinweis auf die modifizierten Parameter in das kodierte Signal assembliert.
3. Vorrichtung nach Anspruch 1 oder 2, ferner mit einer Einrichtung (120) zum Modifizieren einer oder mehrerer der jeweiligen Bitzahlen, worin die Formatierungseinrichtung einen Hinweis auf die modifizierten Bitzahlen in das kodierte Signal assembliert.
4. Vorrichtung zum Dekodieren einer kodierten Darstellung eines Eingangssignals, wobei der Dekodierer folgendes aufweist:
- eine Deformatierungseinrichtung (202) zum Extrahieren quantisierter Teilbandinformation aus der kodierten Darstellung und zum Erzeugen einer spektralen Darstellung des Eingangssignals,
- Erregereinrichtungen (502-514) zum Erzeugen eines Erregungsmusters durch Anlegen einer Ausbreitungsfunktion an die spektrale Darstellung, worin die Ausbreitungsfunktion durch eines oder mehrere Filter mit unendlicher Impulsempfindlichkeit verwirklicht ist,
- eine Schwelleneinrichtung zum Festlegen einer anfänglichen Maskierungsschwelle in Abhängigkeit von dem Erregungsmuster,
- eine Zuteilungseinrichtung zum Zuteilen jeweiliger Bitzahlen zu der quantisierten Teilbandinformation in Übereinstimmung mit Pegeln der quantisierten Teilbandinformation in bezug auf die anfängliche Maskierungsschwelle,
- eine Dequantisierungseinrichtung (204) zum Erzeugen von Teilbandsignalen durch Dequantisieren der quantisierten Teilbandinformation in Übereinstimmung mit den jeweiligen Bitzahlen, und
- eine Umkehrteilbandeinrichtung (206), die auf die Teilbandsignale anspricht, um eine Wiedergabe des Eingangssignals zu erzeugen.
5. Vorrichtung nach Anspruch 4, bei der die Deformatierungseinrichtung von der kodierten Darstellung einen oder mehrere Parameter erhält, die die Resultate der Zuteilungseinrichtung beeinflussen.
6. Vorrichtung nach Anspruch 4 oder 5, bei der die Deformatierungseinrichtung von der kodierten Darstellung eine oder mehrere modifizierte Bitzahlen erhält, bei der die Zuteilungseinrichtung die eine oder mehrere modifizierte Bitzahlen mit den jeweiligen Bitzahlen verschmilzt.
7. Vorrichtung nach einem der Ansprüche 4 bis 6, bei der die Deformatierungseinrichtung Mittel aufweist, um in Abhängigkeit von der kodierten Darstellung eine eingestellte Maskierungsschwelle festzulegen, bei der die Zuteilungseinrichtung Mittel aufweist, um spektrale Zwischenkomponenten festzulegen, die Pegel haben, welche die anfängliche Maskierungsschwelle übersteigen aber unterhalb der eingestellten Maskierungsschwelle liegen, sowie Zwischenzuteilungsmittel zum Zuteilen jeweiliger Bitzahlen zu mindestens einigen der spektralen Zwischenkomponenten.
8. Vorrichtung nach einem der Ansprüche 1 bis 6, bei der die Zuteilungseinrichtung Mittel aufweist zum Festlegen einer eingestellten Maskierungsschwelle durch Einstellen des Niveaus der anfänglichen Maskierungsschwelle, Mittel zum Festlegen spektraler Zwischenkomponenten, die Pegel haben, welche die ursprüngliche Maskierungsschwelle übersteigen aber unterhalb der eingestellten Maskierungsschwelle liegen, sowie Zwischenzuteilungsmittel zum Zuteilen jeweiliger Bitzahlen zu mindestens einigen der spektralen Zwischenkomponenten.
9. Vorrichtung nach Anspruch 7 oder 8, bei der die Zwischenzuteilungsmittel Mittel zum Einschränken der Zuteilung auf jene spektralen Zwischenkomponenten aufweisen, die Frequenzen innerhalb eines Bereichs von der Spektralkomponente höchster Frequenz, die die eingestellte Maskierungsschwelle übersteigt, bis zu einer oberen Grenzfrequenz und/oder Pegel haben, welche eine Zwischenschwelle zwischen der anfänglichen Maskierungsschwelle und der eingestellten Maskierungsschwelle übersteigen.
10. Vorrichtung nach einem der Ansprüche 1 bis 6, bei der die Zuteilungseinrichtung Mittel zum Einstellen des Niveaus der anfänglichen Maskierungsschwelle aufweist, so daß eine Gesamtzahl zugeteilter Bits einem Bit-Budget im wesentlichen gleicht.
11. Vorrichtung nach Anspruch 10, bei der die Zuteilungseinrichtung folgendes aufweist:
- eine Einrichtung zum Festlegen einer eingestellten Maskierungsschwelle durch Einstellen des Niveaus der anfänglichen Maskierungsschwelle,
- eine Einrichtung zum Festlegen spektraler Zwischenkomponenten, die Pegel haben, welche die anfängliche Maskierungsschwelle übersteigen aber unterhalb der eingestellten Maskierungsschwelle liegen, und
- eine Zwischenzuteilungseinrichtung zum Zuteilen jeweiliger Bitzahlen zu mindestens einigen der spektralen Zwischenkomponenten, worin die Gesamtzahl der jeweiligen, spektralen Zwischenkomponenten zugeteilten Bits höchstens ein spezifizierter Anteil des Bit-Budgets ist.
12. Vorrichtung zum Modellieren der Hörwahrnehmung eines Eingangssignals mit
- einer Einrichtung zum Erzeugen einer spektralen Darstellung des Eingangssignals, und
- Einrichtungen (502-514) zum Erzeugen eines Erregungshörsignals durch Anlegen einer Ausbreitungsfunktion an die spektrale Darstellung, worin die Ausbreitungsfunktion durch eines oder mehrere Filter mit unendlicher Impulsempfindlichkeit verwirklicht ist.
13. Vorrichtung nach einem der Ansprüche 1 bis 12, bei der die spektrale Darstellung durch Anlegen einer Abbildungsfunktion eines kritischen Bandes oder eines unterkritischen Bandes an eine Schätzung der Leistungsspektrumdichte des Eingangssignals erzeugt wird.
14. Vorrichtung nach einem der Ansprüche 1 bis 12, bei der das eine oder die mehreren Filter eine Anzahl von Nullstellen haben, die in Funktion der Frequenz variieren.
15. Vorrichtung nach Anspruch 14, bei der die Anzahl Nullstellen bei höheren Frequenzen größer ist.
16. Vorrichtung nach einem der Ansprüche 1 bis 13, bei der die spektrale Darstellung durch Anlegen einer Abbildungsfunktion an eine Schätzung der Leistungsspektrumdichte des Eingangssignals erzeugt wird, die Abbildungsfunktion als Nachschlagetabelle von Einträgen verwirklicht ist, worin eine log-log-Funktion der Bandbreite gegenüber Bandfrequenz in den Einträgen der Tabelle im wesentlichen linear ist zwischen einem ersten Eintrag in der Nähe des niederfrequenten Endes der Tabelle und einem zweiten Eintrag in der Nähe des hochfrequenten Endes der Tabelle.
17. Verfahren zum Kodieren eines Eingangssignals mit den Schritten:
- Erzeugen von Teilbandsignalen, welche Frequenzteilbänder des Eingangssignals darstellen, und Erzeugen einer spektralen Darstellung des Eingangssignals,
- Erzeugen eines Erregungsmusters durch Anlegen eines oder mehrerer Filter an die spektrale Darstellung, worin das eine oder die mehreren Filter Filter mit unendlicher Impulsempfindlichkeit sind,
- Festlegen einer anfänglichen Maskierungsschwelle in Abhängigkeit von dem Erregungsmuster,
- Zuteilen jeweiliger Bitzahlen zu den Teilbandsignalen in Übereinstimmung mit Pegeln der Teilbandsignale in bezug auf die anfängliche Maskierungsschwelle,
- Erzeugen quantisierter Information durch Quantisieren der Teilbandsignale in Übereinstimmung mit den jeweiligen, den Teilbandsignalen zugeteilten Bitzahlen, und
- Zusammensetzen der quantisierten Information zu einem kodierten, zur Übertragung oder Speicherung geeigneten Signal.
18. Verfahren zum Dekodieren einer kodierten Darstellung eines Eingangssignals, wobei das Verfahren folgende Schritte aufweist:
- Auseinandernehmen der kodierten Darstellung zu quantisierter Teilbandinformation und Erzeugen einer spektralen Darstellung des Eingangssignals,
- Erzeugen eines Erregungsmusters durch Anlegen eines oder mehrerer Filter an die spektrale Darstellung, worin das eine oder die mehrere Filter Filter mit unendlicher Impulsempfindlichkeit sind,
- Festlegen einer anfänglichen Maskierungsschwelle in Abhängigkeit von dem Erregungsmuster,
- Zuteilen jeweiliger Bitzahlen zu der quantisierten Teilbandinformation in Übereinstimmung mit Pegeln der quantisierten Teilbandinformation in bezug auf die anfängliche Maskierungsschwelle,
- Erzeugen von Teilbandsignalen durch Dequantisieren der quantisierten Teilbandinformation in Übereinstimmung mit den jeweiligen Bitzahlen, und
- Erzeugen einer Wiedergabe des Eingangssignals in Abhängigkeit von den Teilbandsignalen.
19. Verfahren nach Anspruch 18, bei dem das Auseinandernehmen das Festlegen einer eingestellten Maskierungsschwelle in Abhängigkeit von der kodierten Darstellung umfaßt, bei dem die Zuteilung das Festlegen spektraler Zwischenkomponenten umfaßt, die Pegel haben, welche die anfängliche Maskierungsschwelle übersteigen aber unterhalb der eingestellten Maskierungsschwelle liegen, und Zuteilen jeweiliger Bitzahlen zu mindestens einigen der spektralen Zwischenkomponenten.
20. Verfahren nach Anspruch 1 7 oder 18, bei dem das Zuteilen das Festlegen einer eingestellten Maskierungsschwelle durch Einstellen des Niveaus der anfänglichen Maskierungsschwelle umfaßt, das Festlegen spektraler Zwischenkomponenten, die Pegel haben, welche die anfängliche Maskierungsschwelle übersteigen aber unterhalb der eingestellten Maskierungsschwelle liegen, und das Zuteilen jeweiliger Bitzahlen zu mindestens einigen der spektralen Zwischenkomponenten.
21. Verfahren nach Anspruch 20, bei dem das Zuteilen zu mindestens einigen der spektralen Zwischenkomponenten das Einschränken der Zuteilung auf jene spektralen Zwischenkomponenten umfaßt, die Frequenzen innerhalb eines Bereichs von der spektralen Komponente höchster Frequenz, die die eingestellte Maskierungsschwelle übersteigt, bis zu einer oberen Grenzfrequenz und/oder Pegel haben, welche eine Zwischenschwelle zwischen der anfänglichen Maskierungsschwelle und der eingestellten Maskierungsschwelle übersteigen.
22. Verfahren nach einem der Ansprüche 17 bis 21, bei dem das Zuteilen das Einstellen des Niveaus der anfänglichen Maskierungsschwelle so, daß eine Gesamtzahl zugeteilter Bits im wesentlichen einem Bit-Budget gleicht, umfaßt.
23. Verfahren nach Anspruch 22, bei dem das Zuteilen folgende Schritte umfaßt:
- das Festlegen einer eingestellten Maskierungsschwelle durch Einstellen des Niveaus der anfänglichen Maskierungsschwelle,
- das Festlegen spektraler Zwischenkomponenten, die Pegel haben, welche die anfängliche Maskierungsschwelle übersteigen aber unterhalb der eingestellten Maskierungsschwelle liegen, und
- das Zuteilen jeweiliger Bitzahlen zu mindestens einigen der spektralen Zwischenkomponenten, worin die Gesamtzahl der jeweiligen, spektralen Zwischenkomponenten zugeteilten Bitzahlen höchstens ein spezifizierter Anteil des Bit-Budgets ist.
24. Verfahren nach einem der Ansprüche 17 bis 23, bei dem die spektrale Darstellung durch Anlegen einer Abbildungsfunktion eines kritischen Bandes oder unterkritischen Bandes an eine Schätzung der Leistungsspektrumdichte des Eingangssignals erzeugt wird.
25. Verfahren nach einem der Ansprüche 17 bis 23, bei dem das eine oder die mehreren Filter eine Anzahl Nullstellen haben, die in Funktion der Frequenz variieren.
26. Verfahren nach Anspruch 25, bei dem Anzahl Nullstellen bei höheren Frequenzen größer ist.
27. Verfahren nach einem der Ansprüche 17 bis 24, bei dem die spektrale Darstellung durch Anlegen einer Abbildungsfunktion an eine Schätzung der Leistungsspektrumdichte des Eingangssignals erzeugt wird, die Abbildungsfunktion angelegt durch Benutzen einer Nachschlagetabelle von Einträgen, worin eine log-log-Funktion von Bandbreite gegenüber Bandfrequenz in den Einträgen der Tabelle im wesentlichen linear ist zwischen einem ersten Eintrag in der Nähe des niederfrequenten Endes der Tabelle und einem zweiten Eintrag in der Nähe des hochfrequenten Endes der Tabelle.
DE69401514T 1993-07-16 1994-07-18 Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und kodiereinrichtung Expired - Lifetime DE69401514T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US9226993A 1993-07-16 1993-07-16
US08/145,975 US5632003A (en) 1993-07-16 1993-11-01 Computationally efficient adaptive bit allocation for coding method and apparatus
PCT/US1994/008015 WO1995002930A1 (en) 1993-07-16 1994-07-18 Computationally efficient adaptive bit allocation for coding method and apparatus

Publications (2)

Publication Number Publication Date
DE69401514D1 DE69401514D1 (de) 1997-02-27
DE69401514T2 true DE69401514T2 (de) 1997-06-12

Family

ID=26785469

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69401514T Expired - Lifetime DE69401514T2 (de) 1993-07-16 1994-07-18 Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und kodiereinrichtung

Country Status (10)

Country Link
US (1) US5623577A (de)
EP (1) EP0709005B1 (de)
JP (1) JP3297051B2 (de)
AT (1) ATE147909T1 (de)
AU (1) AU694131B2 (de)
CA (1) CA2166551C (de)
DE (1) DE69401514T2 (de)
DK (1) DK0709005T3 (de)
ES (1) ES2096481T3 (de)
WO (1) WO1995002930A1 (de)

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3307138B2 (ja) * 1995-02-27 2002-07-24 ソニー株式会社 信号符号化方法及び装置、並びに信号復号化方法及び装置
US6263307B1 (en) 1995-04-19 2001-07-17 Texas Instruments Incorporated Adaptive weiner filtering using line spectral frequencies
US5946652A (en) * 1995-05-03 1999-08-31 Heddle; Robert Methods for non-linearly quantizing and non-linearly dequantizing an information signal using off-center decision levels
US5960390A (en) * 1995-10-05 1999-09-28 Sony Corporation Coding method for using multi channel audio signals
JPH09148937A (ja) * 1995-11-21 1997-06-06 Sony Corp 符号化処理方法、復号化処理方法、符号化処理装置および復号化処理装置
US5825320A (en) * 1996-03-19 1998-10-20 Sony Corporation Gain control method for audio encoding device
GB9700854D0 (en) * 1997-01-16 1997-03-05 Scient Generics Ltd Sub-audible acoustic data transmission mechanism
FR2768547B1 (fr) * 1997-09-18 1999-11-19 Matra Communication Procede de debruitage d'un signal de parole numerique
US5903872A (en) * 1997-10-17 1999-05-11 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to attenuate spectral splatter at frame boundaries
US5899969A (en) * 1997-10-17 1999-05-04 Dolby Laboratories Licensing Corporation Frame-based audio coding with gain-control words
US5913191A (en) * 1997-10-17 1999-06-15 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to suppress aliasing artifacts at frame boundaries
US6092040A (en) * 1997-11-21 2000-07-18 Voran; Stephen Audio signal time offset estimation algorithm and measuring normalizing block algorithms for the perceptually-consistent comparison of speech signals
US6839674B1 (en) * 1998-01-12 2005-01-04 Stmicroelectronics Asia Pacific Pte Limited Method and apparatus for spectral exponent reshaping in a transform coder for high quality audio
JPH11234136A (ja) * 1998-02-19 1999-08-27 Sanyo Electric Co Ltd デジタルデータの符号化方法及び符号化装置
US6128593A (en) * 1998-08-04 2000-10-03 Sony Corporation System and method for implementing a refined psycho-acoustic modeler
US6363338B1 (en) * 1999-04-12 2002-03-26 Dolby Laboratories Licensing Corporation Quantization in perceptual audio coders with compensation for synthesis filter noise spreading
US6246345B1 (en) * 1999-04-16 2001-06-12 Dolby Laboratories Licensing Corporation Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding
DE19947877C2 (de) * 1999-10-05 2001-09-13 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Einbringen von Informationen in einen Datenstrom sowie Verfahren und Vorrichtung zum Codieren eines Audiosignals
US7003449B1 (en) 1999-10-30 2006-02-21 Stmicroelectronics Asia Pacific Pte Ltd. Method of encoding an audio signal using a quality value for bit allocation
US7742927B2 (en) * 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
US7110953B1 (en) * 2000-06-02 2006-09-19 Agere Systems Inc. Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction
US6647365B1 (en) * 2000-06-02 2003-11-11 Lucent Technologies Inc. Method and apparatus for detecting noise-like signal components
US6778953B1 (en) * 2000-06-02 2004-08-17 Agere Systems Inc. Method and apparatus for representing masked thresholds in a perceptual audio coder
JP3576935B2 (ja) * 2000-07-21 2004-10-13 株式会社ケンウッド 周波数間引き装置、周波数間引き方法及び記録媒体
US6915264B2 (en) * 2001-02-22 2005-07-05 Lucent Technologies Inc. Cochlear filter bank structure for determining masked thresholds for use in perceptual audio coding
AUPR433901A0 (en) * 2001-04-10 2001-05-17 Lake Technology Limited High frequency signal construction method
JP2002330075A (ja) * 2001-05-07 2002-11-15 Matsushita Electric Ind Co Ltd サブバンドadpcm符号化方法、復号方法、サブバンドadpcm符号化装置、復号装置およびワイヤレスマイクロホン送信システム、受信システム
US7206739B2 (en) * 2001-05-23 2007-04-17 Samsung Electronics Co., Ltd. Excitation codebook search method in a speech coding system
US7062429B2 (en) * 2001-09-07 2006-06-13 Agere Systems Inc. Distortion-based method and apparatus for buffer control in a communication system
US7333929B1 (en) 2001-09-13 2008-02-19 Chmounk Dmitri V Modular scalable compressed audio data stream
US7177803B2 (en) * 2001-10-22 2007-02-13 Motorola, Inc. Method and apparatus for enhancing loudness of an audio signal
US6950794B1 (en) * 2001-11-20 2005-09-27 Cirrus Logic, Inc. Feedforward prediction of scalefactors based on allowable distortion for noise shaping in psychoacoustic-based compression
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7197083B2 (en) * 2001-12-21 2007-03-27 Intel Corporation Creation of spectral windows through the use of high rate code words
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
TWI288915B (en) * 2002-06-17 2007-10-21 Dolby Lab Licensing Corp Improved audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7299190B2 (en) 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
JP4676140B2 (ja) * 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
US7617100B1 (en) * 2003-01-10 2009-11-10 Nvidia Corporation Method and system for providing an excitation-pattern based audio coding scheme
KR100571824B1 (ko) * 2003-11-26 2006-04-17 삼성전자주식회사 부가정보 삽입된 mpeg-4 오디오 bsac부호화/복호화 방법 및 장치
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
DE102004009949B4 (de) * 2004-03-01 2006-03-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes
JP4734859B2 (ja) * 2004-06-28 2011-07-27 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
US7921007B2 (en) * 2004-08-17 2011-04-05 Koninklijke Philips Electronics N.V. Scalable audio coding
TWI393120B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 用於音訊信號編碼及解碼之方法和系統、音訊信號編碼器、音訊信號解碼器、攜帶有位元流之電腦可讀取媒體、及儲存於電腦可讀取媒體上的電腦程式
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
JP4800645B2 (ja) * 2005-03-18 2011-10-26 カシオ計算機株式会社 音声符号化装置、及び音声符号化方法
TWI397903B (zh) * 2005-04-13 2013-06-01 Dolby Lab Licensing Corp 編碼音訊之節約音量測量技術
US8280730B2 (en) 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US8190425B2 (en) * 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
US7797155B2 (en) * 2006-07-26 2010-09-14 Ittiam Systems (P) Ltd. System and method for measurement of perceivable quantization noise in perceptual audio coders
CN101501761B (zh) * 2006-08-15 2012-02-08 杜比实验室特许公司 无需边信息对时域噪声包络的任意整形
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
PL2232700T3 (pl) 2007-12-21 2015-01-30 Dts Llc System regulacji odczuwanej głośności sygnałów audio
CA2745842C (en) * 2008-04-18 2014-09-23 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
CN101425293B (zh) * 2008-09-24 2011-06-08 天津大学 一种高效感知音频比特分配方法
TWI591625B (zh) 2009-05-27 2017-07-11 杜比國際公司 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體
US11657788B2 (en) 2009-05-27 2023-05-23 Dolby International Ab Efficient combined harmonic transposition
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US20110257978A1 (en) * 2009-10-23 2011-10-20 Brainlike, Inc. Time Series Filtering, Data Reduction and Voice Recognition in Communication Device
US8958510B1 (en) * 2010-06-10 2015-02-17 Fredric J. Harris Selectable bandwidth filter
FR2973551A1 (fr) * 2011-03-29 2012-10-05 France Telecom Allocation par sous-bandes de bits de quantification de parametres d'information spatiale pour un codage parametrique
CN102543090B (zh) * 2011-12-31 2013-12-04 深圳市茂碧信息科技有限公司 一种应用于变速率语音和音频编码的码率自动控制系统
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
EP2917909B1 (de) 2012-11-07 2018-10-31 Dolby International AB Snr-berechnung eines wandlers mit reduzierter komplexität
JP2016508298A (ja) * 2012-11-16 2016-03-17 ヴィド スケール インコーポレイテッド 視聴条件を意識したビデオ符号化のための知覚前処理フィルタ
KR101520938B1 (ko) * 2013-04-26 2015-05-18 미디어젠(주) 음량 크기의 통계적 특성을 이용한 음량측정방법
US10045050B2 (en) 2014-04-25 2018-08-07 Vid Scale, Inc. Perceptual preprocessing filter for viewing-conditions-aware video coding
JP6492915B2 (ja) * 2015-04-15 2019-04-03 富士通株式会社 符号化装置、符号化方法、及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2002015C (en) * 1988-12-30 1994-12-27 Joseph Lindley Ii Hall Perceptual coding of audio signals
JP2906646B2 (ja) * 1990-11-09 1999-06-21 松下電器産業株式会社 音声帯域分割符号化装置
JP3446216B2 (ja) * 1992-03-06 2003-09-16 ソニー株式会社 音声信号処理方法

Also Published As

Publication number Publication date
JPH09500503A (ja) 1997-01-14
CA2166551A1 (en) 1995-01-26
WO1995002930A1 (en) 1995-01-26
EP0709005B1 (de) 1997-01-15
AU694131B2 (en) 1998-07-16
ES2096481T3 (es) 1997-03-01
ATE147909T1 (de) 1997-02-15
DE69401514D1 (de) 1997-02-27
CA2166551C (en) 2005-10-11
EP0709005A1 (de) 1996-05-01
AU7364294A (en) 1995-02-13
DK0709005T3 (da) 1997-07-14
JP3297051B2 (ja) 2002-07-02
US5623577A (en) 1997-04-22

Similar Documents

Publication Publication Date Title
DE69401514T2 (de) Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und kodiereinrichtung
DE69401512T2 (de) Hybride adaptive bitzuteilung für audiokoder und -dekoder
DE2818052C2 (de) Quantisierung eines Signals mit einem sich über ein gegebenes Frequenzband erstreckendem Spetkrum
DE69015613T2 (de) Transformationscodierer, -decodierer und -codierer/decodierer mit kurzer zeitverzögerung für audio-anwendungen hoher qualität.
DE69028675T2 (de) Wahrnehmungsgebundene Kodierung von Audiosignalen
DE69525836T2 (de) Kodierung und dekodierung eines breitbandigen digitalen informationssignals
DE69232251T2 (de) Digitaler Kodierer mit dynamischer Quantisierungsbitverteilung
DE69107841T2 (de) Transformationskodierer und -dekodierer mit adaptiver blocklänge, adaptiver transformation und adaptivem fenster für hochwertige tonsignale.
DE69323106T2 (de) Verfahren und Vorrichtung für perceptuelles Kodieren von Audio-Signalen
DE69320872T2 (de) Kompression und Dehnung von digitalen Signalen
DE69924431T2 (de) Vorrichtung und Verfahren zur dynamischen Bitverteilung für Audiokodierung
DE60004814T2 (de) Quantisierung in perzeptuellen audiokodierern mit kompensation des durch den synthesefilter verschmierten rauschens
DE69319494T2 (de) Kodierungsvorrichtung für Audiosignalen und Verfahren dazu
DE60310716T2 (de) System für die audiokodierung mit füllung von spektralen lücken
DE69515907T2 (de) Verfahren und gerät zum anwenden von wellenformprädiktion auf teilbänder in einem perzeptiven kodiersystem
DE69804478T2 (de) Verfahren und vorrichtung zur codierung und decodierung mehrere tonkanäle mit geringer bitrate
DE69326484T2 (de) Vorrichtung und Verfahren zur Datenkompression
DE69210064T2 (de) Teilbandkodierer und Sender unter Verwendung dieses Kodierers
DE69225524T2 (de) Einrichtung zur Orthogonaltransformationskodierung eines digitalen Audiosignals
EP0290581B1 (de) Verfahren zum übertragen digitalisierter tonsignale
DE60207061T2 (de) Audiokompression
DE69705642T2 (de) Audio-kodierverfahren mit veränderlicher kodelänge unter verwendung einer mehrzahl von teilband-bitverteilungsmoden
DE69333394T2 (de) Hochwirksames Kodierverfahren und -gerät
DE69225100T2 (de) Reduzierung der Zusaztinformation bei Teilbandkodierungsverfahren
DE69325312T2 (de) Kompressionskodierung und -dekodierung digitaler Audiosignale

Legal Events

Date Code Title Description
8364 No opposition during term of opposition