DE69401959T2 - Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und einrichtung mit toleranz für dekoderspektralverzerrungen - Google Patents

Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und einrichtung mit toleranz für dekoderspektralverzerrungen

Info

Publication number
DE69401959T2
DE69401959T2 DE69401959T DE69401959T DE69401959T2 DE 69401959 T2 DE69401959 T2 DE 69401959T2 DE 69401959 T DE69401959 T DE 69401959T DE 69401959 T DE69401959 T DE 69401959T DE 69401959 T2 DE69401959 T2 DE 69401959T2
Authority
DE
Germany
Prior art keywords
decoding
allocation
spectral
information
subband signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69401959T
Other languages
English (en)
Other versions
DE69401959D1 (de
Inventor
Louis Fielder
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US08/145,975 external-priority patent/US5632003A/en
Priority claimed from US08/190,655 external-priority patent/US5623577A/en
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Application granted granted Critical
Publication of DE69401959D1 publication Critical patent/DE69401959D1/de
Publication of DE69401959T2 publication Critical patent/DE69401959T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Analogue/Digital Conversion (AREA)

Description

    Technisches Gebiet
  • Die Erfindung bezieht sich allgemein auf das Kodieren und Dekodieren von Informationen, beispielsweise Audioinformationen mit niedriger Bitrate. Insbesondere betrifft die Erfindung eine vom Rechenaufwand her leistungsfähige, adaptive Bitzuteilung und Quantisierung kodierter Information, die für Kodiersysteme von hoher Qualität mit niedriger Bitrate nützlich sind, wobei für Spektralverzerrungen des Dekodierers Spielraum besteht.
  • Hintergrund
  • Unter denjenigen, die sich mit den Gebieten der Audio- und Videosignaverarbeitung beschäftigen, besteht beträchtliches Interesse daran, die Menge an Information auf ein Minimum einzuschränken, die für die Darstellung eines Signals erforderlich ist, ohne daß es zu einem wahrnehmbaren Verlust an Signalqualität kommt. Durch eine Verringerung der Informationserfordernisse entlasten Signale die Informationskapazitätserfordernisse von Übermittlungskanälen und Speicherträgern.
  • So sind zum Beispiel die Informationskapazitätserfordernisse geringer bei Analogsignalen, die einer Audiokompression oder einer Einengung des Dynamikbereichs unterworfen wurden, als bei derartigen Signalen ohne Kompression. Für mit weniger binären Bits kodierte Digitalsignale sind geringere Informationskapazitätserfordernisse zu erfüllen als für kodierte Signale, bei denen für die Darstellung des Signals eine größere Anzahl Bits verwendet ist. Natürlich gibt es Grenzen, bis zu denen eine Minderung verfolgt werden kann, ohne daß die wahrgenommene Signalqualität leidet. Ein großer Teil der folgenden Erörterung befaßt sich mehr im einzelnen mit digitalen Techniken, obwohl bedacht werden sollte, daß ähnliche Erwägungen auch für analoge Techniken zutreffen. Die Anzahl der für die Darstellung jedes Abtastwertes eines digitalen Signals verfügbaren Bits legt die Genauigkeit der digitalen Signadarstellung fest. Niedrigere Bitraten bedeuten, daß für die Darstellung jedes Abtastwertes weniger Bits zur Verfügung stehen. Deshalb bedeuten niedrigere Bitraten implizit größere Quantisierungsungenauigkeiten oder Quantisierungsfehler. In vielen Anwendungsfällen zeigen sich Quantisierungsfehler als Quantisierungsrauschen, und wenn die Fehler eine hinreichende Größe erreichen, wird durch das Quantisierungsrauschen die subjektive Qualität des kodierten Signals verschlechtert.
  • Mit verschiedenen "Teilband"-Kodiertechniken versucht man, Informationserfordernisse ohne wahrnehmbare Qualitätsverschlechterung zu schmälern, indem man verschiedene psychisch wahrnehmbare Effekte ausnutzt. Bei akustischen Anwendungsfällen zeigt beispielsweise das menschliche Gehör Frequenzanalyseeigenschaften ähnlich denen von stark asymmetrisch abgestimmten Filtern, die variable Mittenfrequenzen und Bandbreiten haben, welche sich in Funktion der Mittenfrequenz ändern. Die Fähigkeit des menschlichen Gehörs, einzelne Töne zu unterscheiden, nimmt insgesamt mit zunehmendem Frequenzunterschied zwischen den Tönen zu. Allerdings bleibt die Auflösungsfähigkeit des menschlichen Gehörs bei Frequenzdifferenzen unterhalb der Bandbreite der oben genannten Filter im wesentlichen konstant. Also unterscheidet sich die Frequenzauflösungsfähigkeit des menschlichen Gehörs entsprechend der Bandbreite dieser Filter über das ganze Hörspektrum hinweg. Die effektive Bandbreite eines solchen Hörfilters bezeichnet man als "kritisches Band". Die wahrscheinlichkeit ist größer, daß ein dominantes Signal innerhalb eines kritischen Bandes die Hörbarkeit anderer Signale irgendwo innerhalb dieses kritischen Bandes überdeckt (maskiert) als daß andere Signale mit Frequenzen außerhalb des kritischen Bandes maskiert werden. Siehe insgesamt das Audio Engineering Handbook, K. Blair Benson ed., McGraw Hill, San Francisco, 1988, Seite 1.40-1.42 sowie 4.8-4.10.
  • Mit Audioteilbandkodiertechniken, die die Nutzsignal bandbreite in Frequenzbänder unterteilen, deren Bandbreiten den kritischen Bändern des menschlichen Gehörs angenähert sind, können psychoakustische Effekt besser ausgenutzt werden als mit Verfahren breiterer Bänder. Konzeptionsmäßig umfassen solche Teilbandkodiertechniken insgesamt das Unterteilen der Signalbandbreite mittels einer Filterbank, das Reduzieren der Informationserfordernisse des von jedem Filterband hindurchgelassenen Signals, so daß die Signalverschlechterung gerade noch nicht hörbar ist, sowie das Rekonstruieren einer Kopie des ursprünglichen Signals in einem Umkehrprozeß. Zwei derartige Techniken sind die Teilbandkodierung und die Transformationskodierung. Teilband- und Transformationskodierer können 1 nformationserfordernisse in bestimmten Frequenzbändern verringern, wenn die entstehenden Artefakte psychoakustisch durch eine oder mehr Spektralkomponenten überdeckt sind und deshalb die subjektive Qualität des kodierten Signals nicht verschlechtert wird.
  • Zur Verwirklichung einer Filterbank mit Analog- oder Digitalfiltern können Teilbandkodierer gemäß verschiedenen Techniken arbeiten. Bei digitalen Teilbandkodierern wird ein Eingangssignal, welches Signalabtastwerte aufweist, durch eine Bank digitaler Filter hindurchgeleitet. Jedes Teilbandsignal, welches ein entsprechendes Filter in der Filterbank durchläßt, wird entsprechend der Bandbreite des Filters dieses Teilbandes abwärtsgetastet. Der Kodierer versucht, jedes Teilbandsignal mit gerade so viel Bits zu quantisieren, daß das Quantisierungsrauschen nicht hörbar wird. Jedes Teilbandsignal weist Abtastwerte auf, die einen Teil des Eingangssignalspektrums darstellen.
  • Transformationskodierer können zur Verwirklichung einer Bank digitaler Filter verschiedene sogenannte Transformationen von der Zeitdomäne in die Frequenzdomäne anwenden. Einzelne, aus der Transformation erhaltene Koeffizienten oder zwei oder mehr zu einer Gruppe zusammengeschlossene Koeffizienten bestimmen "Teilbänder", deren effektive Bandbreiten Summen individueller Transformationskoeffizientenbandbreiten sind. Die Koeffizienten in einem Teilband bilden ein entsprechendes Teilbandsignal. Der Kodierer versucht, die Koeffizienten in jedem Teilband unter Verwendung von gerade genug Bits zu quantisieren, um das Quantisierungsrauschen nicht hörbar zu machen.
  • Im Verlauf der nachfolgenden Erörterung soll sich der Ausdruck "Teilbandkodierer" auf Teilbandkodierer, Transformationskodierer sowie weitere Teilbandkodiertechniken beziehen, die Teile der Nutzsignalbandbreite bearbeiten. Der Ausdruck "Teilband" soll auf diese Teile der Nutzsignalbandbreite zutreffen, gleichgültig ob mittels eines wahren Teilbandkodierers, eines Transformations kodierers oder eines anderen Verfahrens verwirklicht.
  • Wie zuvor erwähnt, bieten viele digitale Teilbandkodierer, in denen Prinzipien der Psychowahrnehmung ausgeutzt sind, ein Kodieren von hoher Qualität mit niedrigen Bitraten, indem sie eine Filterbank auf ein Eingangssignal zur Erzeugung von Teilbandsignalen anwenden, quantisierte Information durch den Versuch der Quantisierung der Teilbandsignale unter Verwendung einer solchen Anzahl von Bits erzeugen, daß das entstehende Quantisierungsrauschen aufgrund von Maskiereffekten der Psychowahrnehmung nicht hörbar ist, und die quantisierte Information zu einer zum Übertragen oder Speichern geeigneten Form zusammensetzen.
  • Ein komplementärer digitaler Teilbanddekodierer gewinnt eine Wiedergabe des ursprünglichen Eingangssignals durch Extrahieren quantisierter Information aus einem kodierten Signal, Dequantisieren der quantisierten Information zum Erhalt von Teilbandsignalen und Anlegen einer Umkehroder Synthesefilterbank an die Teilbandsignale zwecks Erzeugung der Wiedergabe des ursprünglichen Eingangssignals.
  • Die Zahl der zum Quantisieren der Teilbandsignale zugeteilten Bits muß dem Dekodierer zur Verfügung stehen, um eine exakte Dequantisierung zu ermöglichen. Ein "vorwärtsadaptiver" Kodierer benutzt eine Zuteilungsfunktion, um Zuteilungswerte festzusetzen und leitet diese Zuteilungswerte ausdrücklich als "Seiteninformation" an einen Dekodierer weiter. Ein "rückwärtsadaptiver" Kodierer legt Zuteilungswerte dadurch fest, daß er ausgewählte Information einer Zuteilungsfunktion aussetzt, und leitet die ausgewählte Information in dem kodierten Signal weiter, statt ausdrücklich die Zuteilungswerte weiterzugeben. Ein rückwärtsadaptiver Dekodierer setzt die Zuteilungswerte erneut dadurch fest, daß er die Zuteilungsfunktion an die ausgewählte Information anlegt, die er aus dem kodierten Signal extrahiert.
  • Bei einem Ausführungsbeispiel eines rückwärtsadaptiven Kodierer/Dekodierersystems bereitet ein Kodierer eine Schätzung der Spektralhüllkurve des Eingangssignals vor, legt Zuteilungswerte durch Anwenden einer Zuteilungsfunktion auf die Hülkurvenschätzung fest, skaliert Signalinformationen unter Verwendung von Elementen der Hüllkurvenschätzung als Skalierungsfaktoren, quantisiert die skalierte Signalinformation entsprechend den festgelegten Zuteilungswerten und assembliert die quantisierte Information und die Hülkurvenschätzung zu einem kodierten Signal. Ein rückwärtsadaptiver Dekodierer extrahiert die Hülkurvenschätzung und die quantisierte Information aus dem kodierten Signal, legt Zuteilungswerte durch Anwenden einer Zuteilungsfunktion auf die Hüllkurvenschätzung fest, dequantisiert die quantisierte Information und macht das Skalieren der Signalinformation rückgängig. Das Skalieren wird angewandt, um den Dynamikbereich von Information zu vergrößern, die durch die begrenzte Anzahl der für das Quantisieren verfügbaren Bits dargestellt werden kann. Zwei Beispiele eines rückwärtsadaptiven Audio-Kodierer/Dekodierersystems sind in den US-Patenten 4 790 016 und 5 109 417 offenbart.
  • Rückwärtsadaptive Techniken sind in vielen Kodiersystemen mit niedriger Bitrate reizvoll, weil zum Weiterleiten ausdrücklicher Zuteilungswerte keine Bits erforderlich sind. Der Dekodierer schafft die Zuteilungswerte neu durch Anlegen einer Zuteilungsfunktion an aus dem kodierten Signal extrahierte Information. Ein rückwärtsadaptiver Dekodierer muß eine Zuteilungsfunktion verwenden, die mit der vom Kodierer benutzten identisch oder mindestens genau gleichwertig ist, denn sonst ist eine exakte Dequantisierung im Dekodierer nicht gewährleistet. Folglich ist die Komplexität oder der Verwirklichungsaufwand des Dekodierers ähnlich dem des Kodierers. Jegliche Einschränkung hinsichtlich der Dekodiererkomplexität verursacht üblicherweise Einschränkungen der Komplexität der Zuteilungsfunktion sowohl für den Kodierer als auch den Dekodierer, wodurch die Gesamtleistung des Kodierer/Dekodierersystems begrenzt wird.
  • Allgemein gesagt, ist es wünschenswert, Zuteilungsfunktionen auf der Basis von Perzeptionsmodellen zu benutzen, die so hochentwickelt sind wie praktisch durchführbar. Dies liegt daran, daß komplexe Zuteilungsfunktionen auf der Basis hochentwickelter Psychoperzeptionsmodelle üblicherweise Zuteilungswerte festlegen können, die gleichwertige subjektive Kodierqualität bei niedrigeren Bitraten erzielen als die Zuteilungswerte, die durch weniger komplizierte Zuteilungsfunktionen festgelegt werden, welche auf einfacheren Modellen beruhen. Zusätzlich zur Verwendung besserer Perzeptionsmodelle kann eine Zuteilungsfunktion ferner die Kodierleistung dadurch verbessern, daß sie angemessene Möglichkeit für spektrale Verzerrungen schafft, die durch das Dekodierverfahren eingeführt werden. Diese Verzerrungen entstehen insgesamt aus mangelnder Perfektion von Synthesefilterbänken. Aufgrund praktischer Erwägungen für den Dekodierer können allerdings viele rückwärtsadaptive Kodiersysteme keine Zuteilungsfunktionen nutzen, die auf derartig rechenmäßig intensiven Modellen beruhen.
  • Vorwärtsadaptive Techniken sind in vielen Kodiersystemen hoher Qualität deshalb reizvoll, weil die Gesamtleistung des Systems nicht durch Einschränkungen auf die Zuteilungsfunktionskomplexität im Dekodierer eingeengt ist; der Dekodierer braucht keine Zuteilungsfunktion durchzuführen, um Zuteilungswerte festzulegen. Ein vorwärtsadaptiver Dekodierer kann vom Rechenaufwand her weniger komplex sein und braucht der vom Kodierer durchgeführten Zuteilungsfunktion keinerlei Einschränkungen aufzuerlegen. Darüber hinaus können verbesserte Zuteilungsfunktionen in Kodierer von vorwärtsadaptiven Kodiersystemen eingeschlossen werden, während Kompatibilität mit bestehenden Dekodierern erhalten bleibt. Die in einem Kodierer angewandte Zuteilungsfunktion kann das Ergebnis einer unabhängigen Konstruktionswahl sein.
  • Eine Verbesserungsmöglichkeit für die Zuteilungsfunktion bei einem Kodierer ist wichtig. Mit dem Fortschritt in der Technik der Signalkodierung und Signalverarbeitung werden zunehmend höher entwickelte Zuteilungsfunktionen wirtschaftlich durchführbar. Durch Verbesserung des Entwicklungsniveaus von Zuteilungsfunktionen können Bitraten bei gegebener Signalqualität verringert werden, oder es kann die Signalqualität bei gegebener Bitrate verbessert werden.
  • Trotz dieser Vorteile sind jedoch vorwärtsadaptive Kodiersysteme in vielen Anwendungsfällen mit niedriger Bitrate unter Umständen deshalb ungeeignet, weil sie eine bedeutsame Anzahl von Bits für das Übermitteln von Seiteninformationen erfordern. Insgesamt werden sogar mehr Bits für das Übermitteln von Seiteninformationen benötigt, wenn man versucht, mit Zuteilungsfunktionen die Kodierleistung dadurch zu verbessern, daß das Spektrum in schmalere und deshalb zahlreichere Teilbänder unterteilt wird. Außerdem stellt die Anzahl der als Träger dieser Seiteninformation benötigten Bits einen größeren Anteil des kodierten Signals dar, wenn verbesserte Kodiertechniken die Anzahl der als Träger des restlichen kodierten Signals erforderlichen Bits verringern.
  • Deshalb besteht der Wunsch, wirksame Zuteilungsfunktionen auf der Grundlage höherentwickelter Perzeptionsmodelle zu entwickeln, die für eine preisgünstige Verwirklichung von Kodiersystemem geeignet sind und durch den Dekodierprozeß erzeugte Spektralverzerrungen ordnungsgemäß berücksichtigen.
  • Ein ziemlich raffiniertes psychoakustisches Modell auf der Basis der Mechanik des menschlichen Gehörs ist von Schroeder, Atal und Hall beschrieben worden in "Optimizing Digital Speech Coders by Exploiting Masking Properties of the Human Ear", J. Acoust, Soc. Am., Dezember 1979, SS. 1647-1652. Zu dem Modell gehört (1) das Durchführen einer kurzfristigen Spektralanalyse eines Eingangssignals durch Anlegen einer kurzfristigen Fourier-Transformation, (2) das Erhalten der Dichten kritischer Bänder des Eingangssignals durch Abbilden der resultierenden Spektralkoeffizienten in kritischen Bändern x, und (3) das Erzeugen eines Basilarmembran-"Erregungsmusters", durch Faltung der Dichten kritischer Bänder mit einer Basilarmembran-"Ausbreitungsfunktion". Dieses Modell wird auf das Eingangssignal und ein Rauschsignal angewandt, welches Quantisierungsfehler darstellt, um ein "Signalerregungsmuster" bzw. ein "Rauscherregungsmuster" zu erzeugen. Die Lautheit des Eingangssignals und des Rauschsignals wird durch Integrationsfunktionen der jeweiligen Erregungsmuster errechnet. Die Lautheit des Eingangssignals und das Rauschsignal wird durch Integrationsfunktionen der jeweiligen Erregungsmuster errechnet. Die Lautheit des Eingangssignals und das Rauschsignal, dessen Erregungsmuster unter eine Maskierungsschwelle fällt, ist null, das bedeutet, daß es unhörbar ist. Die Maskierungsfunktion wird aus dem Produkt des Signalerregungs musters und einer "Empfindlichkeitsfunktion" erhalten, welche die Maskierungsschwelle bestimmt. Ein objektives Maß der Kodierleistung ist ein Verhältnis, welches durch Dividieren der Lautheit des Rauschsignals durch die Lautheit des Eingangssignals erhalten wird. Das Modell ist klar und einfach und bietet annehmbar gute Ergebnisse für spektrale Energie unterhalb etwa 5 kHz; es ist allerdings rechenmäßig intensiv und berücksichtigt keine Spektralverzerrungen des Dekodierers.
  • Selbst wenn eine Zuteilungsfunktion auf einem sehr hochentwickelten Perzeptionsmodell beruht, sind jedoch die resultierenden Zuteilungen nicht optimal, wenn nicht ordnungsgemäß Spektralverzerrungen Berücksichtigung finden, die in Analyse- und Synthesefilterbänken auftreten. Eine einzige Zuteilungsfunktion, die Alias-Verzerrungen in gewissem Maß berücksichtigt, ist in JP 41 77300 beschrieben. Ein Gegenstück dazu ist US 5 301 255. Zwei offenbarte Verfahren benutzen einen Gewichtungskoeffizienten zum Ändern des relativen Beitrags eines Rausch-Maske-Verhältnisses und eines Rausch-Signal-Verhältnisses, die eine Zuteilungsfunktion mittellen. Durch die Verwendung eines Gewichtungskoeffizienten mit kleinem Wert für niederfrequente Teilbänder können zum Beispiel die Auswirkungen der Alias-Verzerrung in jenen Teilbändern verringert werden, wo solche Verzerrungen mehr Schwierigkeiten verursachen, weil die kritische Bandbreite bei niedrigen Frequenzen insgesamt schmaler ist als die Bandbreite des Filterdurchlaßßbandes. Allerdings sind diese Spielräume, gemacht durch diese Techniken, nicht optimal, weil Zuteilungsentscheidungen auf geschätzter Quantisierungsrauschleistung über die gesamte Bandbreite des Signals beruhen statt innerhalb jedes einzelnen Teil bandes. Ferner wird kein Verfahren offenbart, um festzulegen, wie die Werte des Gewichtungskoeffizienten aussehen sollten.
  • Offenbarung der Erfindung
  • Es ist eine Aufgabe der vorliegenden Erfindung, eine wirkungsvolle, hochleistungsfähige Zuteilungsfunktion zu schaffen, die sich zur Verwendung in Kodier/Dekodiersystemen von niedriger Bitrate und hoher Qualität eignet und gleichfalls für Spektralverzerrungen des Dekodierers Spielraum schafft.
  • Gemäß den Lehren eines Aspektes der vorliegenden Erfindung teilt ein Kodierer ein Eingangssignal in eine Vielzahl von Teilbändern x auf, um Teilbandsignale zu erzeugen, quantisiert die Teilbandsignale entsprechend durch eine Zuteilungsfunktion festgelegten Zuteilungswerten und assembliert die quantisierte Information zu einer kodierten Darstellung des Eingangssignals. Die Zuteilungsfunktion legt Zuteilungswerte entsprechend Grundsätzen der Psychowahrnehmung fest sowie gemäß Eigenschaften gemäß der Spektralverzerrung des Dekodierers. Das Dekodiererverzerrungsmodell macht es möglich, daß die Zuteilungsfunktion anschließende spektrale Verzerrungen berücksichtigt, die vom Dekodierer hervorgerufen werden.
  • Bei einem ersten Ausführungsbeispiel berücksichtigt eine Zuteilungsfunktion Dekodiererverzerrung durch a) Festlegung eines Quantisierungsrauschspektrums Q(x), welches aus der Quantisierung von Teilbandsignalen resultiert, b) Schätzung dekodierten Signalrauschens N(x) durch Faltung Q(x) mit dem Frequenzgang D(x) einer Dekodiererfilterbank, c) Festlegung der Wahrnehmbarkeit von N(x) durch Vergleichen von N(x) mit einer festgelegten Maskierungsschwelle M(x), d) Festlegen, ob N(x) in allen Teilbändern x entweder nicht wahrnehmbar oder im wesentlichen auf ein Minimum eingeschränkt ist, e) Beenden des Prozesses, wenn das der Fall ist; ansonsten f) Identifizieren in jedem Teilband x, in welchem N(x) M(x) übersteigt, der größten Q(x)-Komponenten, die zu N(x) in diesem Teilband beitragen, und Erhöhen der Zuteilungswerte A(x) entsprechend jenen Q(x)- Komponenten, g) Wiederholung der vorstehenden Schritte.
  • Bei einem zweiten Ausführungsbeispiel für ein Audiokodiersystem berücksichtigt eine Zuteilungsfunktion nur in solchen Teilbändern des Quantisierungsrauschsspektrums eine Spektralverzerrung des Dekodierers, in denen eine Dekodiererfilterkurve eines entsprechenden Teilbandes mit einer Rate abrollt, die im wesentlichen der Rate gleicht, mit der die festgelegte Maskierungsschwelle abrollt, oder geringer ist als diese. Bei einer Verwirklichung dieses zweiten Ausführungsbeispiels senkt die Zuteilungsfunktion die festgelegte Maskierungsschwelle M(x) in jenen Teilbändern unterhalb etwa 3 kHz, in denen M(x) in Abwärtsfrequenzrichtung rascher abrollt als das niederfrequente Abrollen der Dekodiererfilterbankkurve. Das Ausmaß, um das M(x) in jenen Teil bändern erniedrigt wird, hängt von der Anzahl Teilbänder ab, über die die Schwelle rascher sinkt als das Abrollen der Filterkurve. Durch das Absenken der Maskierungsschwelle M(x) wird die Zuteilungsfunktion veranlaßt, zusätzliche Bits zum Quantisieren der Teilbandsignale in jenen betroffenen Teilbändern zuzuteilen, wodurch die erwartete Hörbarkeit des Quantisierungsrauschens in jenen Teilbändern vermindert wird.
  • Die Art und Weise, in der die Zuteilungsfunktion die Maskierungsschwelle festlegt, kann einen nennenswerten Einfluß auf die Leistung des Kodiersystems haben, aber für die praktische Durchführung der vorliegenden Erfindung ist keine besondere Art und Weise konzeptmäßig von kritischer Bedeutung. Bei bevorzugten Ausführungsbeispielen von Audiokodiersystemen wird die Maskierungsschwelle durch Abschätzen der Leistungsspektrumdichte (PSD) des Eingangssignals, Generieren eines Erregungsmusters durch Anlegen einer Ausbreitungsfunktion an die PSD, Einstellen des Erregungsmusters um einen Betrag, der einem frequenzabhängigen Rauschabstand (SNR)- Versatz gleicht, welcher zum Erzielen psychoakustischer Maskierung ausreicht, Vergleichen des Niveaus des eingestellten Musters mit der Hörschwelle und durch das Erzeugen einer Maskierungs schwelle festgelegt, die der größeren der beiden gleicht.
  • Bei rückwärtsadaptiven Kodiersystemen wird die PSD anhand von Informationen geschätzt, die gleichfalls in das kodierte Signal zusammengefügt sind. So kann zum Beispiel die PSD anhand von Skalierungsfaktoren geschätzt werden, die von einer Spektralhüllkurve abgeleitet sind. Bei vorwärtsadaptiven Kodiersystemen kann die PSD anhand von Informationen geschätzt werden, die in das kodierte Signal assembliert sind oder auch nicht. Beispielsweise kann die PSD anhand einer Hochauflösungs-Spektralhüllkurve des Eingangssignals geschätzt werden, auch wenn die Hochauflösungshüllkurve nicht in das kodierte Signal eingeschlossen ist.
  • Bei bevorzugten Ausführungsbeispielen wird ein Erregungsmuster durch Anlegen eines oder mehrerer Filter an Teilbandsignale in der Frequenzdomäne erzeugt. Diese Filter können durch rekursive oder IIR-(Infinite Impulse Response)-Techniken oder durch nichtrekursive oder (FIR)-(Finite Impulse Response)-Techniken verwirklicht werden. Die Heranziehung der einen oder anderen Technik ist für die praktische Durchführung der vorliegenden Erfindung nicht von kritischer Bedeutung.
  • Bei bevorzugten Ausführungsbeispielen modifiziert ein Kodierer einen oder mehrere die Ergebnisse der Zuteilungsfunktion beeinflussende Parameter in Abhängigkeit von Charakteristiken, die entweder im Eingangssignal und/oder den Teilbandsignalen erfaßt werden. So kann beispielsweise der oben genannte SNR-Versatz modifiziert werden, um die Gesamtkodierqualität zu beeinflussen. Seiteninformation, die einen Hinweis auf die modifizierten Parameter einschließt, wird in das kodierte Signal assembliert. Bei einer bestimmten Verwirklichung werden die modifizierten Zuteilungswerte, die aus der Verwendung modifizierter Parameter resultieren, als ausdrückliche Zuteilungswerte in das kodierte Signal assembliert.
  • Weitere Ausführungsbeispiele eines Kodierers gemäß den Lehren der vorliegenden Erfindung sind möglich, und zwar unter Einschluß eines Ausführungsbeispiels, welches eine Kombination der oben beschriebenen Ausführungsbeispiele beinhaltet, ohne jedoch darauf beschränkt zu sein. Ferner sind verschiedene Kombinationen der jeweils oben beschriebenen Verwirklichungen möglich.
  • Bei einem ersten Ausführungsbeispiel eines Audiodekodierers wird quantisierte Information aus einem kodierten Signal extrahiert, die quantisierte Information entsprechend durch eine Zuteilungsfunktion festgelegten Zuteilungswerten dequantisiert und ein Ausgangssignal in Abhängigkeit von der dequantisierten Information erzeugt. Die Zuteilungsfunktion legt Zuteilungswerte in Übereinstimmung mit psychoakustischen Grundsätzen auf der Grundlage einer Maskierungsschwelle fest. Die Maskierungsschwelle wird dadurch festgelegt, daß eine Schätzung der PSD des ursprünglichen Eingangssignals, wiedergegeben durch das kodierte Signal, erhalten wird, ein Erregungsmuster durch Anlegen einer Ausbreitungsfunktion an die PSD erzeugt wird, das Erregungsmuster um einen Betrag eingestellt wird, der einem zum Erzielen psychoakustischer Maskierung ausreichenden SNR-Versatz gleicht, das Niveau des eingestellten Musters mit der Hörschwelle verglichen und eine Maskierungsschwelle erzeugt wird, die dem größeren der beiden Werte gleicht.
  • Bei rückwärtsadaptiven Kodiersystemen kann die PSD anhand von Maßen der Teilbandsignalamplitude und/oder Leistung geschätzt werden, die aus dem kodierten Signal extrahiert werden. Bei vorwärtsadaptiven Kodiersystemen verwenden Dekodierer jedoch im allgemeinen keine Zuteilungsfunktion, weil ausdrückliche Zuteilungswerte in dem kodierten Signal weitergegeben werden.
  • Bei einem zweiten Ausführungsbeispiel eines Dekodierers werden ein oder mehrere, die Ergebnisse der Zuteilungsfunktion beeinflussende Parameter aus dem kodierten Signal extrahiert. Bei einer anderen Verwirklichung werden ausdrückliche Zuteilungswerte, welche modifizierte Zuteilungswerte darstellen, aus dem kodierten Signal extrahiert.
  • Weitere Ausführungsbeispiele eines Dekodierers entsprechend den Lehren der vorliegenden Erfindungen sind möglich, unter Einschluß eines Ausführungsbeispiels, welches eine Kombination der oben beschriebenen Ausführungsbeispiele beinhaltet, ohne jedoch darauf beschränkt zu sein. Ferner sind verschiedene Kombinationen der oben beschriebenen speziellen Verwirklichungen möglich.
  • Bei einem Kodiersystem, welches mit hybridadaptiver Zuteilung arbeitet, ist es möglich, daß Seiteninformation nur modifizierte Zuteilungswerte und/oder modifizierte Parameter übermittelt. Eine sowohl dem Kodierer als auch dem Dekodierer bekannte Zuteilungsfunktion bietet dem Dekodierer grundlegende Zuteilungswerte. Seiteninformation bietet Einstellungen der grundlegenden Zuteilungswerte nach Bedarf, um die gleichen Zuteilungswerte zu erhalten, die im Kodierer benutzt werden. Auf diese Weise kann die Zuteilungsfunktion in einem Kodierer geändert werden, ohne daß Kompatibilität mit bestehenden Dekodierern verlorengeht, und die Zahl der erforderlichen Bits für Seiteninformation, um die Kompatibilität zwischen dem Kodierer und dem Dekodierer beizubehalten, ist verringert.
  • Die vorliegende Erfindung läßt sich in Teilbandkodierern mit Filterbänken verwenden, die durch eine beliebige von verschiedenen Techniken verwirklicht sind. So sollte zum Beispiel bei Audiokodieranwendungen klar sein, daß die Benutzung von Teil bändern, deren Bandbreiten kritischen Bandbreiten des menschlichen Gehörs entsprechen, eine größere Ausnutzung psychoakustischer Effekte erlaubt; aber verschiedene Aspekte der vorliegenden Erfindung sind nicht derartig begrenzt. Deshalb sollte der Ausdruck "Teilband" und ähnliche hier verwendete, so verstanden werden, daß sie sich auf ein oder mehrere Frequenzbänder innerhalb der nutzbaren Bandbreite eines Eingangssignals beziehen. Die verschiedenen Merkmale der vorliegenden Erfindung und ihre bevorzugten Ausführungsbeispiele sind besser zu verstehen unter Hinweis auf die nachfolgende Erörterung und die beigefügten Zeichnungen, in denen gleiche Bezugszeichen sich auf gleiche Elemente in den unterschiedlichen Figuren beziehen. Der Inhalt der folgenden Erörterung und der Zeichnungen wird lediglich als Beispiel gegeben und sollte nicht so verstanden werden, als ob er Begrenzungen des Umfangs der vorliegenden Erfindung darstellte. So ist beispielsweise diese Erörterung spezieller auf Audiokodieranwendungsfälle gerichtet; aber die vorliegende Erfindung kann in einem größeren Rahmen von Psychoperzeptions-Kodieranwendungen, beispielsweise bei der Video kodierung praktiziert werden.
  • Kurzbeschreibung der Zeichnungen
  • Fig. 1 ist ein Blockschaltbild eines Ausführungsbeispiels eines Kodierers in einem Kodierer/Dekodierersystem mit vorwärtsadaptiver Zuteilung.
  • Fig. 2 ist ein Blockschaltbild eines Ausführungsbeispiels eines Dekodierers in einem Kodierer/Dekodierersystem mit vorwärtsadaptiver Zuteilung.
  • Fig. 3 ist ein Blockschaltbild eines weiteren Ausführungsbeispiels eines Kodierers in einem Kodierer/Dekodierersystem mit vorwärtsadaptiver Zuteilung.
  • Fig. 4 ist ein Blockschaltbild eines Ausführungsbeispiels eines Kodierers in einem Kodierer/Dekodierersystem mit rückwärtsadaptiver Zuteilung.
  • Fig. 5 ist ein Blockschaltbild eines Ausführungsbeispiels eines Dekodierers in einem Kodierer/Dekodierersystem mit rückwärtsadaptiver Zuteilung.
  • Fig. 6 ist ein Blockschaltbild eines Ausführungsbeispiels eines Kodierers in einem Kodierer/Dekodierersystem mit hybridadaptiver Zuteilung.
  • Fig. 7 ist ein Blockschaltbild eines Ausführungsbeispiels eines Dekodierers in einem Kodierer/Dekodierersystem mit hybridadaptiver Zuteilung.
  • Fig. 8 ist ein Blockschaltbild eines Ausführungsbeispiels eines Verfahrens, mit dem ein Erregungsmuster wirksam erhalten werden kann.
  • Fig. 9 ist ein Blockschaltbild eines Ausführungsbeispiels einer Zuteilungsfunktion, die ein bestimmtes Psychoperzeptionsmodell verwirklicht.
  • Fig. 10a- 10c sind hypothetische graphische Darstellungen von Impulsgängen einpoliger Filter, die der in Fig. 8 gezeigten Konstruktion einverleibt sein können.
  • Fig. 10d ist eine hypothetische graphische Darstellung des zusammengesetzten Impulsganges des in Fig. 8 gezeigten Ausführungsbeispiels mit Filtern, welche die in Fig. 10a-10c gezeigten Impulsgänge haben.
  • Fig. 11 a ist eine hypothetische graphische Darstellung eines Impulsganges für ein Filter mit einem Pol und einer oder mehreren Nullstellen.
  • Fig. 11 b ist eine hypothetische graphische Darstellung des zusammengesetzten Impulsganges eines Ausführungsbeispiels ähnlich dem in Fig. 8 gezeigten aber mit nur zwei Filtern, bei dem eines der Filter den in Fig. 11a gezeigten Impulsgang hat.
  • Fig. 12a- 12b sind hypothetische graphische Darstellungen von Bandpaßfilterfrequenzgängen.
  • Fig. 13a- 13d sind hypothetische schematische Darstellungen von Spektren, welche die Effekte von durch Analyse- und Synthesefilterbänken verursachten Spektralverzerrungen veranschaulichen.
  • Fig. 14 ist ein Fließschema, welches die Schritte in einem Ausführungsbeispiel eines Verfahrens darstellt, welches ein Modell für Spektralverzerrung eines Dekodierers beinhaltet.
  • Fig. 15a ist eine hypothetische graphische Darstellungen eines Bandpaßfilterfrequenzganges im Vergleich mit der psychoakustischen Maskierungsschwelle einer hochfrequenten Spektral komponente.
  • Fig. 15b ist eine hypothetische graphische Darstellungen eines Bandpaßfilterfrequenzganges im Vergleich mit der psychoakustischen Maskierungsschwelle einer Spektralkomponente von niedriger bis mittlerer Frequenz.
  • Art und Weise des Ausführens der Erfindung Vorwärtsadaptive Zuteilung
  • Fig. 1 veranschaulicht den Grundaufbau eines Ausführungsbeispiels eines Teilbandkodierers, der in einem die vorwärtsadaptive Zuteilung beinhaltenden Kodierer/Dekodierersystem verwendet ist. Eine Filterbank 102 erzeugt Teilbandsignale in Abhängigkeit von einem Eingangssignal, welches von einem Weg 100 empfangen wird. Eine Zuteilungsfunktion 110 legt Zuteilungswerte in Abhängigkeit von dem Eingangssignal fest und gibt die Zuteilungswerte längs eines Weges 111 an einen Quantisierer 104 und einen Formatierer 106 weiter. Der Quantisierer 104 erzeugt quantisierte Information druch Quantisieren der von der Filterbank 102 erhaltene Teilbandsignale unter Anwendung einer Quantisierungsfunktion, die in Abhängigkeit von den Zuteilungswerten angepaßt ist, und der Formatierer 106 setzt die quantisierte Information und die Zuteilungswerte zu einem kodierten Signal zusammen, dessen Format zum Übertragen oder Speichern geeignet ist. Das kodierte Signal wird längs eines Weges 108 an einen Übertragungskanal oder eine Speichervorrichtung, je nach Wunsch, weitergeleitet.
  • Fig. 2 veranschaulicht den Grundaufbau eines Ausführungsbeispiels eines Teilbanddekodierers, der in einem vorwärtsadaptive Zuteilung beinhaltenden Kodierer/Dekodierersystem benutzt ist. Ein Deformatierer 202 extrahiert quantisierte Information und Zuteilungswerte aus einem kodierten Signal, welches von einem Weg 200 empfangen wird. Die Zuteilungswerte werden längs eines Weges 211 und zu einem Dequantisierer 204 geleitet. Der Dequantisierer 204 erzeugt Teilbandsignale durch Dequantisieren der vom Deformatierer 202 empfangenen quantisierten Information unter Anwendung einer Dequantisierungsfunktion, die in Abhängigkeit von den Zuteilungswerten angepaßt ist. Eine Umkehrfilterbank 206 erzeugt längs eines Weges 208 ein Ausgangssignal in Abhängigkeit von den vom Dequantisierer 204 empfangenen dequantisierten Teilbandsignalen.
  • Es sind andere Ausführungsbeispiele des Kodierers und Dekodierers möglich. So kann zum Beispiel, wie in Fig. 3 gezeigt, ein vorwärtsadaptiver Kodierer Zuteilungswerte in Abhängigkeit von den von der Filterbank 102 erzeugten Teilbandsignalen festlegen. Bei noch einem weiteren Ausführungsbeispiel, welches in keiner Fig. gezeigt ist, können Zuteilungswerte in Abhängigkeit sowohl vom Eingangssignal als auch von den Teilbandsignalen festgelegt werden.
  • Da Zuteilungswerte ausdrücklich im kodierten Signal weitergegeben werden, kann, wie oben erörtert, die Zuteilungsfunktion bei einem vorwärtsadaptiven Kodierer geändert werden, ohne daß dabei die Kompatibilität mit bereits bestehenden vorwärtsadaptiven Dekodierern aufgegeben wird. Allein das Format des kodierten Signals muß erhalten bleiben.
  • Rückwärtsadaptive Zuteilung
  • Fig. 4 veranschaulicht den Grundaufbau eines Ausführungsbeispiels eines Teilbandkodierers, der in einem rückwärtsadaptive Zuteilung beinhaltenden Kodierer/Dekodierersystem verwendet ist. Eine Filterbank 102 erzeugt Teilbandsignale in Abhängigkeit von einem Eingangssignal, welches von einem Weg 100 empfangen wird. Ein Konverter 112 erzeugt eine Darstellung der Teilbandsignale, die X-Wörter und Y-Wörter aufweist. Die X-Wörter werden längs eines Weges 113 als Eingabe für eine Zuteilungsfunktion 110 und einen Formatierer 106 weitergegeben. Die Zuteilungsfunktion 110 legt Zuteilungswerte in Abhängigkeit von den X-Wörtern fest und gibt die Zuteilungswerte an einen Quantisierer 104 weiter. Der Quantisierer 104 erzeugt quantisierte Information durch das Quantisieren der von einem Weg 115 empfangenen Y-Wörter unter Anwendung einer Quantisierungsfunktion, die in Abhängigkeit von den Zuteilungswerten angepaßt ist, und ein Formatierer 106 setzt die quantisierte Information und die X-Wörter zu einem kodierten Signal zusammen, dessen Format für die Übertragung oder Speicherung geeignet ist. Das kodierte Signal wird längs eines Weges 108 an einen Übermittlungskanal oder eine Speichervorrichtung, je nach Wunsch, weitergegeben.
  • Fig. 5 veranschaulicht den Grundaufbau eines Ausführungsbeispiels eines Teilbanddekodierers, der in einem rückwärtsadaptive Zuteilung beinhaltenden Kodierer/Dekodierersystem verwendet ist. Ein Deformatierer 202 extrahiert quantisierte Information und X-Wörter aus einem kodierten Signal, welches von einem Weg 200 empfangen wird. Die X-Wörter werden längs eines Weges 203 zu einer Zuteilungsfunktion 210 weitergegeben. Die Zuteilungsfunktion 210 legt Zuteilungswerte in Abhängigkeit von den X-Wörtern fest und gibt die Zuteilungswerte an einen Dequantisierer 204 weiter. Der Dequantisierer 204 erzeugt Y-Wörter durch Dequantisieren der vom Deformatierer 202 empfangenen quantisierten Information unter Benutzung einer Dequantisierungsfunktion, die in Abhängigkeit von den Zuteilungswerten angepaßt ist. Ein Umkehrkonverter 212 erzeugt Teilbandsignale in Abhängigkeit von den X-Wörtern und den Y-Wörtern, und eine Umkehrfilterbank 206 erzeugt längs eines Weges 208 ein Ausgangssignal in Abhängigkeit von den vom Umkehrkonverter 212 empfangenen Teilbandsignalen.
  • Rückwärtsadaptive Kodiersysteme können den Overhead vermeiden, welcher für das Übermitteln von Seiteninformationen in dem kodierten Signal erforderlich ist, weil die Zuteilungswerte implizit von den X-Wörtern dargestellt werden, welche zu dem kodierten Signal zusammengesetzt sind. Ein rückwärtsadaptiver Dekodierer kann die Zuteilungswerte aus den X-Wörtern wiedergewinnen, indem er eine Zuteilungsfunktion durchführt, welche mit der zuvor in einem rückwärtsadaptiven Kodierer durchgeführten gleichwertig ist. Es sei darauf hingewiesen, daß es zum exakten Dekodieren des kodierten Signals nicht erforderlich ist, daß die Kodierer- und Dekodierer-Zuteilungsfunktionen selbst identisch sind; aber exaktes Dekodieren kann nur dann sichergestellt werden, wenn die beiden Funktionen identische Zuteilungswerte erhalten.
  • Hybridadaptive Zuteilung
  • Fig. 6 veranschaulicht den Grundaufbau eines Ausführungsbeispiels eines Teilbandkodierers in einem hybridadaptive Zuteilung beinhaltenden Kodierer/Dekodierersystem. Die Funktionen der verschiedenen Elemente innerhalb des oben erörterten, in Fig. 4 gezeigten Ausführungsbeispiels entsprechen den Funktionen der jeweiligen Elemente in dem in Fig. 6 gezeigten Aufbau. Zusätzlich modifiziert ein Adapter 120 einen oder mehrere der durch die Zuteilungsfunktion 110 festgelegten Zuteilungswerte unter Anwendung einer von zwei Grundtechniken oder beider. Die zum Verwirklichen beider Techniken benutzte Konstruktion ist in Fig. 6 dargestellt. Allerdings kann die eine oder andere Technik auch allein angewandt werden, und unnütze Funktionselemente können aus der dargestellten Konstruktion entfernt werden.
  • Bei der ersten oder "Parameter"-Technik modifiziert der Adapter 120 einen oder mehrere Parameter, die die Ergebnisse der Zuteilungsfunktion 110 beeinflussen. Die vom Adapter 120 bereitgestellten, modifizierten Parameter werden längs eines Weges 123 zu einer Zuteilungsfunktion 110 und einem Formatierer 106 weitergegeben. Der Formatierer 106 setzt einen Hinweis auf die modifizierten Parameter und die quantisierte Information zu einem kodierten Signal zusammen, dessen Format zum Übertragen oder Speichern geeignet ist.
  • Bei der zweiten oder "Wert"-Technik modifiziert der Adapter 1 20 einen oder mehrere Zuteilungswerte. Die vom Adapter 120 geschaffenen, modifizierten Werte werden längs eines Weges 121 zu einem Formatierer 106 und einem Verschmelzer 118 weitergegeben. Der Verschmezer 118 verschmilzt die modifizierten Werte mit den von der Zuteilungsfunktion 110 empfangenen Zuteilungswerten und leitet die verschmolzenen Zuteilungswerte an einen Quantisierer 104 weiter. Der Formatierer 106 setzt einen Hinweis auf die modifizierten Werte und die quantisierte Information zu einem kodierten Signal zusammen, dessen Format zur Übertragung oder Speicherung geeignet ist.
  • Das in Fig. 6 gezeigte Ausführungsbeispiel zeigt, daß der Adapter 120 auf das vom Weg 100 empfangene Eingangssignal, die vom Weg 103 empfangenen Teilbandsignale und die vom Weg 113 empfangenen X-Wörter anspricht. Bei anderen Ausführungsbeispielen eines hybridadaptiven Kodierers kann der Adapter 1 20 auf einen beliebigen der drei Wege ansprechen, auf eine beliebige Kombination der drei Wege ansprechen und/oder auf sonstige Informationen ansprechen.
  • Fig. 7 zeigt den Grundaufbau eines Ausführungsbeispiels eines Teilbanddekodierers in einem hybridadaptive Zuteilung beinhaltenden Kodierer/Dekodierersystem. Die Funktionen der verschiedenen Elemente innerhalb des oben erörterten, in Fig. 5 gezeigten Ausführungsbeispiels entsprechen den Funktionen der jeweiligen Elemente in dem in Fig. 7 gezeigten Aufbau. Zusätzlich findet eine Modifizierung eines oder mehrerer Zuteilungswerte unter Anwendung einer von zwei Grundtechniken oder beider statt. Der zum Verwirklichen beider Techniken benutzte Aufbau ist in Fig. 7 dargestellt. Allerdings kann jede der beiden Techniken auch allein angewandt werden, und unnütze Funktionselemente können aus dem dargestellten Aufbau entfernt werden.
  • Bei der ersten oder "Parameter"-Technik extrahiert ein Deformatierer 202 aus dem kodierten Signal einen oder mehrere modifizierte Parameter, welche die Ergebnisse einer Zuteilungsfunktion 210 beeinflussen, und gibt die modifizierten Parameter längs eines Weges 213 an die Zuteilungsfunktion 210 weiter.
  • Bei der zweiten oder "Wert"-Technik extrahiert der Deformatierer 202 einen oder mehrere modifizierte Werte aus dem kodierten Signal und gibt die modifizierten Werte längs eines Weges 205 zu einem Verschmelzer 218 weiter. Der Verschmelzer 218 verschmilzt die modifizierten Werte mit den von der Zuteilungsfunktion 210 empfangenen Zuteilungswerten und gibt die verschmolzenen Zuteilungswerte an einen Dequantisierer 204 weiter.
  • Verwirklichung
  • Die verschiedenen Blockschaltbilder, auf die unten Bezug genommen wird, veranschaulichen grundlegende Funktionsstrukturen von Kodierern und Dekodierern. Die unten erörterten Funktionen können als Hardware, Software oder Kombination der beiden verwirklicht werden.
  • Filterbank
  • Die in den Fig. 1-7 dargestellten Ausführungsbeispiele können durch eine große Vielfalt an Verwirklichungen in die Tat umgesetzt werden. So kann beispielsweise die Filterbank 102 und die Umkehrfilterbank 206 durch eine Vielfalt in der Technik bekannter digitaler Filtertechniken verwirklicht werden, zu denen, ohne darauf beschränkt zu sein, Quadraturspiegelfiter (QMF), Polyphasenfilter und verschiedene Fourier-Transformationen gehören. Ein bevorzugtes Ausführungsbeispiel benutzt die von Princen, Johnson und Bradley in "Subband/Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation", Proceedings Int. Conf. Acoust., Speech and Signal Proc., Mai 1987, SS. 2161-2164 offenbarte Time Domain Aliasing Cancellation (TDAC) Transformation. Ein Beispiel eines Transformationskodierer/Dekodierersystems, bei dem eine Filterbank mit der TDAC-Transformation verwirklicht ist, ist in dem oben genannten US-Patent 5 109 417 beschrieben.
  • Für die Ausführung der vorliegenden Erfindung ist keine spezielle Verwirklichung von kritischer Bedeutung. Auch wenn die gegebene Beschreibung der vorliegenden Erfindung sich spezieller mit digitalen Teilbandkodierverwirklichungen befaßt, sei darauf hingewiesen, daß ein Kodierer/Dekodierersystem, welches Aspekte der vorliegenden Erfindung beinhaltet, auch analoge Filterbänke verwenden kann. So kann zum Beispiel die Filterbank 102 eines oder mehrere Analogfilter und einen Analog/Digil-Umsetzer (ADC) aufweisen, der digitale Abtastwerte für jedes Teilbandsignal erzeugt. Die Umkehrfilterbank 206 kann einen Digital/Analog-Umsetzer (DAC) aufweisen, der analoge Teilbandsignale in Abhängigkeit von digitalen Abtastwerten erzeugt, sowie eine Komponente, welche die analogen Teilbandsignale zu einem zusammengesetzten analogen Ausgangssignal kombiniert.
  • Konverter
  • Auch der Konverter 112 und der Umkehrkonverter 212, die die X-Wörter und die Y-Wörter erzeugen und wiedergewinnen, können auf die verschiedenste Weise verwirklicht werden. Wie zuvor erörtert, sind die X-Wörter durch die Tatsache gekennzeichnet, daß sie sowohl dem Kodierer als auch dem Dekodierer zur Information über die Zuteilungsfunktion zur Verfügung stehen. Die X-Wörter können insgesamt Skalierungsfaktoren entsprechen, und die Y-Wörter können Werten entsprechen, die in Übereinstimmung mit den Skalierungsfaktoren skaliert sind. Bei Ausführungsbeispielen, die mit verschiedenen Fließpunktdarstellungen numerischer Mengen arbeiten, können die X-Wörter den Fließpunktexponenten entsprechen, während die Y-Wörter den Fließpunktmantissen entsprechen können.
  • Bei manchen Verwirklichungen sind Gruppen oder Blöcke von Y-Wörtern einem gemeinsamen X- Wortexponenten zugeordnet und bilden eine Blockfließpunkt-(BFP)-Darstellung. Bei einem bevorzugten Ausführungsbeispiel wird jedoch von den X-Wörtern eine Spektralhüllkurve höherer Auflösung dadurch erhalten, daß jede Y-Wortmantisse einem entsprechenden X-Wortexponenten zugeordnet wird.
  • Quantisierer
  • Die speziellen, vom Quantisierer 104 und vom Dequantisierer 204 angewandten Funktionen sind für die Durchführung der vorliegenden Erfindung nicht von kritischer Bedeutung; aber die beiden Funktionen sollten zueinander komplementär sein. Insgesamt ist bei den gleichen gegebenen Zuteilungswerten die Dequantisierungsfunktion d(x) invers zur Quantisierungsfunktion q(x), so daß die ursprüngliche Menge x d[q(x)]. Eine strenge Gleichheit wird nicht erwartet, weil eine Quantisierung üblicherweise zu einem gewissen Verlust an Genauigkeit führt.
  • In Reaktion auf die Zuteilungswerte kann der Quantisierer 104 seine Quantisierungsfunktion auf die eine oder andere Weise anpassen. So kann der Quantisierer 104 zum Beispiel die Zahl der Quantisierungsstufen entsprechend den Zuteilungswerten einstellen. Eine achtstufige Quantisierungsfunktion und eine vierstufige Quantisierungsfunktion könnten in Abhängigkeit von Werten benutzt werden, die eine Zuteilung von drei Bits bzw. zwei Bits anzeigen. Als weiteres Beispiel könnte der Quantisierer 104 eine Iogarithmische Quantisierungsfunktionen in Abhängigkeit von Zuteilungswerten benutzen, die größer sind als ein spezifiziertes Niveau oder diesem gleichen, beispielsweise sechs Bits, und in Abhängigkeit von kleineren Werten lineare Quantisierungsfunktionen anwenden.
  • Der Quantisierer 104 kann seine Quantisierungsfunktion auch durch Umschalten zwischen symmetrischen und asymmetrischen Funktionen oder durch adaptive Verwendung einer oder mehrerer Quantisierungsstufen zur Darstellung spezieller Amplitudenbereiche anpassen. So kann zum Beispiel eine N-Bit Quantisierungsfunktion eine ihrer 2N Quantisierungsstufen als eine "kleine Null" Quantisierungsstufe reservieren, wie zuvor erörtert. Eine solche Quantisierungsstufe, die ansonsten zur Darstellung großer Amplituden herangezogen wird, wird stattdessen zur Darstellung sehr kleiner Amplituden benutzt. Durch die Benutzung einer solchen Quantisierungsfunktion kann es ein Kodierer einem Dekodierer ermöglichen, ohne weiteres zwischen Signalen kleiner Amplitude, die auf einen Wert von Null quantisiert sind und Signalen sehr kleiner Amplitude zu unterscheiden, die auf die spezielle "kleine Null" Quantisierungsstufe quantisiert sind.
  • In Abhängigkeit von den Zuteilungswerten paßt der Dequantisierer 204 seine Dequantisierungsfunktion in einer Weise an, die zu derjenigen Art und Weise komplementär ist, in der der Quantisierer 104 seine Quantisierungsfunktion anpaßt.
  • Verschmelzer
  • Die vom Verschmelzer 118 und vom Verschmelzer 218 angewandten Methoden sind für die Verwirklichung der vorliegenden Erfindung nicht von kritischer Bedeutung. Vom Konzept her werden vom Verschmelzer 118 und Verschmelzer 219 die entsprechenden Werte aus einem Satz Zuteilungswerte und einem Satz modifizierter Werte zu einem einzigen Wertesatz kombiniert. Das kann auf vielerlei Art und Weise geschehen. So kann zum Beispiel ein Zuteilungswert durch einen entsprechenden modifizierten Wert ersetzt werden. Bei einem Teilbandkodierer stellt jeder Zuteilungswert die Anzahl Bits dar, die beim Quantisieren eines Teilbandsignals in einem entsprechenden Teilband zu verwenden sind. Jeder modifizierte Wert tritt an die Stelle des entsprechenden Zuteilungswertes und wird stattdessen vom Quantisierer benutzt.
  • Als weiteres Beispiel können die beiden Wertesätze durch Anwendung der modifizierten Werte zum Einstellen entsprechender Zuteilungswerte kombiniert werden. So kann zum Beispiel der modifizierte Wert eine inkrementale Menge darstellen, um die der entsprechende Zuteilungswert geändert werden sollte. Bei einem Teilbandkodierer könnte die zum Quantisieren des Teilbandsignals in einem speziellen Teilband benutzte Anzahl Bits durch die algebraische Summe des entsprechenden Zuteilungswertes und des entsprechenden modifizierten Wertes definiert werden, wenn der modifizierte Wert in dem kodierten Signal vorhanden ist. Als Alternative kann der modifizierte Wert einen Faktor darstellen, um den der entsprechende Zuteilungswert skaliert werden sollte.
  • Formatierer
  • Bei vielen Kodiersystemen, bei denen das kodierte Signal durch einen seriellen Bitstrom dargestellt ist, entsprechen die vom Formatierer 108 und Deformatierer 202 gebotenen Funktionen im wesentlichen dem Multiplexen bzw. Demultiplexen des seriellen Bitstroms. Auch wenn die Verwirklichung der Formatier- und Deformatierfunktionen für einen bestimmten Anwendungsfall wichtig sein mag, ist sie für die Ausführung der vorliegenden Erfindung nicht von kritischer Bedeutung. Jegliches Verfahren, welches das kodierte Signal in eine zur Übertragung oder Speicherung geeignete Form bringen kann und das kodierte Signal aus der formatierten Darstellung wiedergewinnen kann, ist geeignet.
  • Zuteilungsfunktion Überblick
  • Die Zuteilung 110 legt Zuteilungswerte so fest, daß das resultierende Quantisierungsrauschen im dekodierten Signal eine Maskierungsschwelle möglichst nicht übersteigt. Auch wenn die Erörterung hier spezieller auf Audiokodiersysteme gerichtet ist, lassen sich die dargestellten Konzepte doch in einem größeren Anwendungsbereich, beispielsweise beim Video kodieren verwenden. Bei Videokodieranwendungen können diese Ideen zum Beispiel auf ein psychovisuelles Modell angewandt werden, welches eine Maskierungsschwelle in Abhängigkeit von einer Vielfalt von Eigenschaften festlegt, beispielsweise dem scheinbaren Farbton, der Sättigung, Helligkeit und Größe eines visueller Reize, entsprechenden Eigenschaften anderer Reize innerhalb des Gesichtsfeldes sowie der Natur anderer Reize, die vor den gegenwärtigen angesehen wurden.
  • Die Maskierungsschwelle wird durch Anlegen eines Modells menschlicher Wahrnehmung festgelegt. Eine große Vielfalt von Modellen kann benutzt werden. Fig. 9 ist ein Blockschaltbild, welches ein Ausführungsbeispiel darstellt, das verschiedene Schritte aufweist, mit denen ein psychoakustisches Modell ähnlich dem oben zitierten, von Schroeder et al. beschriebenen verwirklicht wird. Bei diesem Ausführungsbeispiel schätzt eine Leistungsspektrumdichte 402 die Leistungsspektrumdichte (PSD) eines von einem Weg 400 empfangenen Eingangssignals, eine kritische Banddichte 404 erhält die Dichte kritischer Bänder des Eingangssignals durch Abbilden der PSD in kritischen Bändern, ein Erregungsmuster 406 erzeugt ein Basilarmembran-Erregungsmuster durch Anlegen einer Basilarmembran-Ausbreitungsfunktion an die Information über die Dichte kritischer Bänder, eine Empfindlichkeitsfunktion 408 erzeugt eine vorläufige Maskierungsschwelle durch Einstellen des Erregungsmusters um einen Betrag, der einem Rauschabstand (SNR)-Versatz gleicht, welcher ausreicht zum Erzielen psychoakustischer Maskierung, eine Wahrnehmungsschwelle 410 erzeugt eine Maskierungsschwelle, die der größeren der vorläufigen Maskierungsschwelle sowie einer Schwelle menschlicher Hörbarkeit gleicht, und Zuteilungswerte 41 2 legt Zuteilungswerte in Abhängigkeit von der Hörbarkeitsschwelle sowie von einem Weg 405 empfangener Information über die Dichte kritischer Bänder fest und gibt diese längs eines Weges 414 weiter.
  • Einige dieser in Fig. 9 dargestellten Schritte können kombiniert oder in anderer Reihenfolge durchgeführt werden. So können zum Beispiel die Leistungsspektrumdichte 402 und die kritische Banddichte 404 in gewisser Weise dadurch umgekehrt werden, daß zunächst die Spektralkomponenten eines Eingangssignals zu kritischen Bändern abgebildet und dann die Dichte kritischer Bänder erzeugt wird, indem die Leistungsspektrumdichte der abgebildeten Komponenten geschätzt wird. Als weiteres Beispiel können die Schritte 404 bis einschließlich 408 zu einem einzigen Schritt kombiniert werden, um eine vorläufige Maskierungsschwelle zu erzeugen, indem eine geeignete Ausbreitungsfunktion unmittelbar an die Eingangssignal-PSD angelegt wird.
  • Die nachfolgende Erörterung richtet sich spezieller auf Ausführungsbeispiele, welche Variationen der oben aufgezählten und in Fig. 9 gezeigten Schritte beinhalten. Eine Erörterung dieser Schritte wird benutzt, um verschiedene Gedanken zu erläutern; aber die Schritte selbst sind zum Durchführen der vorliegenden Erfindung nicht erforderlich. Verschiedene Ausführungsbeispiel können andere Perzeptionsmodelle beinhalten, die andere Schritte aufweisen.
  • Die Ideen, die einer Zuteilungsfunktion zugrundeliegen, welche nur auf einem Perzeptionsmodell beruht, werden als erstes erörtert. Aber wegen Spektrumverzerrungen des Kodiersystems sind die Zuteilungswerte nicht immer korrekt, die durch Zuteilungsfunktionen festgelegt wurden, welche allein auf Perzeptionsmodellen beruhen. Im Anschluß an die anfängliche Erörterung von Zuteilungsfunktionen wird die Natur von Spektrumverzerrungen des Kodiersystems sowie einige Möglichkeiten beschrieben, mit denen für solche Verzerrungen Spielraum geschaffen werden kann.
  • Leistungsspektrumdichte
  • Kodierer in vorwärtsadaptiven Systemen, wie den in Fig. 1 und 3 gezeigten, können die PSD eines Eingangssignals anhand von Informationen schätzen, die vom Weg 100 und/oder vom Weg 103 empfangen werden. In Systemen mit Filterbänken, die durch eine schnelle Fourier-Transformation (FFT) verwirklicht sind, kann zum Beispiel die PSD aus dem Quadrat der Größe jedes der resultierenden Transformationskoeffizienten erhalten werden. Allerdings schätzen Kodierer in rückwärtsadaptiven Systemen, wie dem in Fig. 4 gezeigten, die PSD im allgemeinen anhand der vom Weg 113 empfangenen X-Wörter.
  • Bei einer Verwirklichung, bei der die Amplitude jeder Spektral komponente C in einer konventionellen binären Fließpunktform dargestellt ist, welche einen Exponenten X und eine Mantisse Y aufweist, kann die Leistung der Spektralkomponenten in dB unmittelbar anhand der Werte der Exponenten abgeschätzt werden. Der Wert jedes Exponenten ist die Potenz von zwei, die zur Normierung der zugehörigen Mantisse benutzt wird, oder C = Y 2-x Aus dieser Darstellung kann die Leistung jeder Spektralkomponente aus einem Ausdruck wie
  • i ≈ 6(Xi+0.5)dB. (1)
  • abgeschätzt werden, worin
  • i = Leistung der Spektralkomponente Ci, und
  • Xi = Wert des Fließpunktexponenten für die Spektralkomponente Ci.
  • Bei einem bevorzugten Ausführungsbeispiel ist jede Spektralkomponente C in Fließpunktform dargestellt, die eine normierte Mantisse Y und einen Exponenten X aufweist. Die PSD wird geschätzt durch Gruppieren einer oder mehrerer Spektralkomponenten zu Bändern und durch Erhalten der "log-Summe" der Exponenten für die Spektralkomponenten in jedem Band. Eine Möglichkeit der Berechnung einer log-Summe wird nachfolgend erörtert.
  • Konzeptionell ist kein bestimmtes Verfahren zum Schätzen der PSD für die Ausführung der vorliegenden Erfindung von kritischer Bedeutung. Praktisch gesehen kann jedoch die Genauigkeit des Verfahrens die Leistung des Kodiersystems signifikant beeinflussen.
  • Dichte kritischer Bänder
  • Teilbandkodiersysteme sind meistens besser in der Lage, psychoakustische Effekte durch Unterteilen des Eingangssignals in Teilbänder auszunutzen, deren Bandbreiten nicht mehr als die Hälfte der kritischen Bandbreiten ausmachen. Das ist meistens nötig, weil Kodiersystemteibänder feste Mittenfrequenzen haben im Gegensatz zum menschlichen Gehör, wo die kritischen Bänder variable Mittenfrequenzen haben. Manchmal wird unrichtigerweise davon ausgegangen, daß eine dominante Spektralkomponente andere Spektralkomponenten niedrigen Pegels über ein ganzes Teilband von kritischer Bandbreite bei einem Teilbandkodierer überdeckt. Diese Annahme trifft unter Umständen nicht zu, weil die Maskiereffekte einer dominanten Spektralkomponente außerhalb des Frequenzintervalls einer Hälfte einer kritischen Bandbreite an jeder Seite der Spektral komponente abnehmen. Wenn nun diese dominante Spektralkomponente am Rand eines Kodiersystemteilbandes auftritt, können andere Spektralkomponenten in dem Teilband außerhalb der tatsächlichen kritischen Bandbreite auftreten, es sei denn, daß die Bandbreite des Teilbandes nicht mehr jene eine Hälfte einer kritischen Bandbreite ist.
  • Bei einem Ausführungsbeispiel wird die Eingangssignal-PSD in Bändern abgebildet, die jeweils eine Bandbreite von etwa einer kritischen Bandbreite des menschlichen Gehörs haben. Jedes der Bänder hat eine Breite von einem Bark. Bei einem bevorzugten Ausführungsbeispiel wird die Eingangssignal- PSD in "unterkritischen Bändern" abgebildet, deren Bandbreiten etwa einer Hälfte der kritischen Bandbreiten des menschlichen Gehörs betragen oder Breiten von etwa einem halben Bark. Diese bevorzugte Abbildung wird durch die in Tabelle 1 gezeigten Einträge wiedergegeben.
  • Andere Abbildungsfunktionen und Bandbreiten können angewandt werden, ohne von den Ideen der vorliegenden Erfindung abzuweichen. So kann zum Beispiel nach Schroeder et al. eine Frequenz f unterhalb etwa 5 kHz in kritischen Bändern durch den Ausdruck
  • f = 650 sinh x/7 (2)
  • abgebildet werden, wo x = kritische Bandzahl.
  • Um die nachfolgende Erörterung zu erleichtern, soll der Ausdruck "dichte kritischer Bänder" sich auf eine Eingangssignal-PSD beziehen, die in Frequenzbändern irgendeiner zweckmäßigen Bandbreite, einschließlich kritischer Bandbreiten und unterkritischer Bandbreiten abgebildet ist. Die Dichte kritischer Bänder des Eingangssignals kann von der richtigen Abbildungsfunktion gemäß
  • S(x) = [f(x)] df/dx (3)
  • erhalten werden, wo
  • (x) = Leistungsspektrumdichte des Eingangssignals und
  • S(x) = Dichte kritischer Bänder des Eingangssignals.
  • In einigen Ausführungsbeispielen digitaler Teilbandkodiersysteme ist S(x) eine gesonderte Funktion der log-Leistung der Dichte des kritischen Bandes des Signals mit Werten, die Mehrfache von etwa 6 dB sind. Information über die Dichte kritischer Bänder kann wirksam differentiell kodiert werden, wenn man die Werte von S(x) so einengt, daß die Änderung zwischen benachbarten Teilbändern x ± 1 2 dB nicht übersteigt. Differentielles Kodieren von Spektralinformation ist in der US Patentanmeldung Nr.08/115 513, eingereicht am 31. August 1993 mehr im einzelnen offenbart.
  • Erregungsmuster
  • Ein Erregungsmuster beschreibt annähernd die Energieverteilung längs der Basilarmembran, die sich aus der akustischen Leistung ergibt, welche von einem Intervall des Eingangssignals dargestellt ist.
  • Ein Erregungsmuster kann aus der Faltung
  • E(x) = S(x) * B(x) (4)
  • errechnet werden, wo
  • E(x) = das aus dem Eingangssignal resultierende Erregungsmuster und
  • B(x) = eine Basilarmembran-Ausbreitungsfunktion.
  • Schroeder et al. bieten einen zweckmäßigen analytischen Ausdruck für eine Ausbreitungsfunktion über Frequenzbänder hinweg, die kritische Bandbreiten haben. Der Ausdruck, der das Niveau für die Ausbreitung in einem Frequenzband x bietet, welches von einer Spektralkomponente im Frequenzband x&sub0; resultiert, ist
  • 10log&sub1;&sub0;B(Δx) = 15.81 + 7.5(Δx + 0.474) - 17.5 [1 + (Δx + 0.474)²] dB (5)
  • wo Δx = x-x&sub0;.
  • Die Faltung der Dichte kritischer Bänder des Eingangssignals S(x) und der Ausbreitungsfunktion B(x) ist vom Rechenaufwand her intensiv und hat eine rechenmäßige Komplexität in der Größenordnung von N M, wo N die Zahl der Punkte in S(x) und M die Zahl der Punkte in B(x) ist. Infolgedessen ist es bei vielen Kodiersystemen, insbesondere bei rückwärtsadaptiven Kodiersystemen nicht praktisch, das Schroeder-Modell zu benutzen.
  • Ein praktischer Ansatz erhält ein Erregungsmuster durch Filtern einer spektralen Darstellung eines Eingangssignals. Das Filtern erfolgt in einer "spektralen Domäne", wie den hier erörterten abgebildeten und nicht abgebildeten Frequenzdomänen.
  • Fig. 8 veranschaulicht ein Ausführungsbeispiel eines Prozesses, mit dem das Erregungsmuster wirksamer erhalten werden kann, wobei eine rechenmäßige Komplexität in der Größenordnung von N besteht. Gemäß diesem Ausführungsbeispiel wird Information, welche die Dichte kritischer Bänder des Eingangssignals übermittelt, von einem Weg 300 erhalten, durch drei Filter geleitet und zu dem Erregungsmuster kombiniert.
  • Die PSD kann als lineare, Iogarithmische oder sonstige Darstellung von Leistung skaliert werden. Wenn die PSD eine lineare Darstellung der Eingangssignalleistung ist, und wenn die Bänder höherer Frequenz x eine Bandbreite, ausgedrückt in Bark, haben, die im wesentlichen konstant ist, dann können diese Filter als ein einpoliges IIR-Filter mit einer Übertragungsfunktion verwirklicht werden, die durch den rekursiven Ausdruck
  • Fi(x) = ai(x) S(x) + bix) Fi(x-1) (6)
  • dargestellt ist, wo
  • ai(x) = Verstärkungsfaktor für Filter 4
  • bi(x) = Abklingrate für Filter 4
  • F&sub1;(x) = Ausgangssignal des Filters 302 bei Frequenzband x,
  • F&sub2;(x) = Ausgangssignal des Filters 304 bei Frequenzband x, und
  • F&sub3;(x) = Ausgangssignal des Filters 310 bei Frequenzband x.
  • Hypothetische Impulsgänge des Filters 302, des Filters 304 und des Filters 310 sind jeweils in den entsprechenden Fig. 10a-10c dargestellt.
  • Wenn die PSD eine logarithmische Darstellung der Eingangssignalleistung ist, können Filterberechnungen effizienter in der logarithmischen Leistungsdomäne durchgeführt werden. Eine Möglichkeit, wie diese Rechnungen durchgeführt werden können, wird nachfolgend erörtert.
  • Wenn die Bänder höherer Frequenz x keine in Bark ausgedrückten Bandbreiten haben, die im wesentlichen konstant sind, ist unter Umständen eine komplexere Übertragungsfunktion für einen oder mehrere der Filter erforderlich. Wenn zum Beispiel diese Frequenzbänder eine konstante Bandbreite haben, hat das Filter 302 vorzugsweise eine oder mehrere Nullstellen mit einer Übertragungsfunktion, beispielsweise
  • wo Ri(x) = Anzahl der Nullstellen für das Filter F, bei Frequenzband x.
  • Wirkungsmäßig verzögert der dritte Term im Ausdruck 7 das exponentielle Abklingen im Impulsgang. Ein hypothetischer Impulsgang ist in Fig. 11a gezeigt. Jede Nullstelle fügt eine "Verzögerung" eines Frequenzbandes hinzu. Insgesamt werden mehr Nullstellen für Bänder höherer Frequenz benutzt. Wenn zum Beispiel jedes Element im PSD eines Eingangssignals einer Bandbreite von 20 kHz einem Transformationskoeffizienten entspricht, der von einer 512-Punkt Transformation generiert wird, dann sind unter Umständen bis zu zehn Nullstellen erforderlich für die Bänder der höchsten Frequenz, während keine Nullstellen nötig sind für Bänder unterhalb etwa 500 Hz.
  • Die Genauigkeit der Ausbreitungsfunktion läßt sich auf Kosten einer größeren Rechenkomplexität verbessern, wenn Filterkoeffizienten verwendet werden, die Funktionen der Frequenzbandzahl x sind. Vorzugsweise bietet der rekursive Ausdruckkoeffizient bi(x) mehr Ausbreitung für Spektralkom ponenten bei höheren Frequenzen. Durch das Abbilden der Eingangssignal-PSD in einem Satz von Frequenzbändern entsprechender Bandbreiten kann jedoch eine Ausbreitungsfunktion mit vernünftiger Genauigkeit erhalten werden, wenn ein rekursiver Ausdruckkoeffizient bi benutzt wird, der im wesentlichen unveränderlich ist. Eine gewisse Veränderung im Koeffizienten bi ist bei vielen Kodiersystemen mit größerer Wahrscheinlichkeit nötig für Bänder niedrigerer Frequenz, weil die kritischen Bandbreiten viel schmaler sind.
  • Die Filtercharakteristiken lassen sich entsprechend dem Bedarf der Kodieranwendung festlegen. Es sei jedoch betont, daß diese Filter in einer Frequenzbanddomäne arbeiten, bei der es sich um eine abgebildete Frequenzdomäne handelt. Der Abklingausdruck für die Filter stellt eine Ausbreitung akustischer Energie längs der Basilarmembran dar und bietet eine Wirkung ähnlich derjenigen, die durch Faltung mit einer Ausbreitungsfunktion erzielt wird.
  • Unter Hinweis auf Fig. 8 führt ein Umkehrer 308 eine Frequenzbandumkehr der von einem Weg 300 empfangenen Information vor dem Filtern mittels eines Filters 310 durch, und ein Umkehrer 312 flihrt eine Frequenzbandumkehr der gefilterten Ausgabe durch. Die beiden Umkehrelemente und das zwischengeschaltete Filter stellen die Ausbreitungsfunktion längs der Basilarmembran bei Frequenzen unterhalb einer Reizfrequenz dar.
  • Eine Komponente 306 und eine Komponente 314 ermitteln die Summe ihrer jeweiligen Eingangssignale. Die von der Komponente 314 resultierende Summe, bei der es sich um das berechnete Erregungsmuster handelt, wird längs eines Weges 316 weitergeleitet. Fig. 10d gibt die zusammengesetzte Filterkurve der in Fig. 8 veranschaulichten Konstruktion wieder, welche Filter mit den in Fig. 10a-10c dargestellten Kurven beinhaltet. Wenn die Information über die Dichte kritischer Bänder, die vom Weg 300 empfangen wird, in der logarithmischen Leistungsdomäne ausgedrückt wird, sind die von der Komponente 306 und der Komponente 314 berechneten Summen log- Summen. Eine Möglichkeit zum Berechnen von log-Summen wird nachfolgend erörtert.
  • Es sind viele alternative Ausführungsbeispiele möglich. Zum Beispiel kann ein Ausführungsbeispiel von geringerer rechenmäßiger Komplexität nur Filter 302, Filter 304 und Komponente 306 aufweisen, und die Komponente 306 kann die beiden gefilterten Ausgangssignale einfach durch das Wählen des größeren der beiden kombinieren. Die mit diesem einfacheren Ausführungsbeispiel erhaltenen Ergebnisse sind in vielen Kodieranwendungsfälen von hoher Qualität akzeptabel. So zeigt beispielsweise Fig. 11b einen hypothetischen zusammengesetzten Impulsgang dieses Ausführungsbeispiels, bei dem das Filter 302 den in Fig. 11a gezeigten Impulsgang und das Filter 304 den in Fig. 10b gezeigten Impulsgang hat. Die Tabelle II zeigt Filterkoeffizienten a&sub1;(x) und b&sub1;(x) für Filter 302 und Koeffizienten a&sub2;(x) und b&sub2;(x) für Filter 304, die zur Verwendung bei einem Ausführungsbeispiel geeignet sind, bei dem die in Tabelle 1 gezeigte PSD-Abbildung verwendet ist. Die Koeffizienten sind zur Verwendung in der logarithmischen Leistungsdomäne in dB ausgedrückt, können aber ohne weiteres in Koeffizienten zur Verwendung in der linearen Leistungsdomäne umgewandelt werden, indem die Einträge in der Tabelle durch zehn dividiert und der Antilogarithmus des Quotienten genommen wird.
  • Die Filter können beispielsweise als IIR-Filter, FIR-Filter oder Gitterfiter verwirklicht werden. IIR-Filter werden aber im allgemeinen bevorzugt, weil sie üblicherweise vom Rechenaufwand her leistungsfähiger sind. Die rechenmäßige Komplexität läßt sich weiter verringern, wenn man die Filterberechnungen in der logarithmischen Leistungsdomäne durchführt. Die zum Berechnen des Ausdrucks 6 in der Leistungsdomäne erforderlichen Multiplikationen können als Additionen in der logarithmischen Leistungsdomäne verwirklicht werden oder
  • logA = log(ai(x) S(x)] = Iogai(x) + log S(x) (8)
  • logB = log[bi(x) Fi(x-1)] = logbi(x) + log Fi(x-1). (9)
  • Die Addition der beiden Termini im Ausdruck 6 kann in der logarithmischen Leistungsdomäne nicht gradeheraus durchgeführt werden. Diese Addition, die als eine "log-Summe" bezeichnet wird, kann unter Verwendung der Identität
  • log(A+B) = max(logA, logB) + log[1 + exp(- logA - logB )] (10)
  • durchgeführt werden, wo exp(y) = Antilogarithmus der Menge y. Durch Konstruieren einer Nachschlagetabelle des Ausdrucks
  • log[1 + exp(- logA - logB )] (11)
  • für einen geeigneten Wertebereich log A - log B , kann die Addition im Ausdruck 6 in der logarithmischen Leistungsdomäne durchgeführt werden, indem (1) der absolute Wert der Differenz zwischen log A und log B herausgefunden wird, (2) ein Wert aus der Nachschlagetabelle unter Verwendung dieser Differenz als Schlüssel erhalten wird, und 3)@ der erhaltene Wert aus der Nachschlagetabelle zum größeren des log A und log B addiert wird. Diese Verwirklichung ist für die praktische Ausführung der vorliegenden Erfindung nicht wesentlich, aber sie ist bei vielen Ausführungsbeispielen nützlich, um die Komplexität des Rechenaufwandes weiter zu verringern.
  • Die Nachschlagetabelle kann hinreichend kompakt sein, weil der kleinere Ausdruck für Unterschiede in log A - log B größer als ca. 24 dB im wesentlichen vernachlässigbar ist. Anders ausgedrückt, können hinreichend exakte Annäherungen der log-Summe für Unterschiede von mehr als etwa 24 db erhalten werden, wenn man davon ausgeht, daß der Eintrag in der Tabelle Null gleicht.
  • Empfindlichkeitsfunktion
  • Die Grundlage psychoakustischer Maskiereffekte beruht in der Tatsache, daß das menschliche Gehör durch das Vorhandensein akustischer Energie entsensibilisiert wird. Ein Signal niedrigen Pegels, welches, wenn isoliert, hörbar ist, kann in Begleitung eines viel lauteren Signals unter Umständen nicht hörbar sein. Die "Empfindlichkeitsfunktion" w(x) von Schroeder et al. entspricht ungefähr dem Grad, bis zu dem das menschliche Gehör entsensibilisiert wird. Diese Funktion, die den notwendigen SNR bietet, um die psychoakustische Maskierung innerhalb eines kritischen Bandes x zu gewährleisten, läßt sich ausdrücken als
  • 10log&sub1;&sub0;w(x) = -(15.5 + x) dB. (12)
  • Ein einfacherer Ansatz arbeitet mit einer Empfindlich keitsfunktion von w(x) = -20 dB, womit einfach der erforderliche SNR auf unveränderlich 20 dB gesetzt wird.
  • Bei einem bevorzugten Ausführungsbeispiel, bei dem der maximale digitale Wert 105 dB SPL darstellt, wird ein konservativer Pegel angewandt, um eine Maskierung durch Spektralkomponenten niedriger Amplitude selbst dann sicherzustellen, wenn eine Lautstärkensteuerung in einem Wiedergabesystem auf einen sehr hohen Pegel eingestellt ist. Diese Empfindlichkeitsfunktion, dargestellt durch den Ausdruck
  • w(x) = -40 dB for 1 &le; x < 36
  • w(x) = 1.923x-107.308 dB for 36 &le;x < 49
  • w(x) = -15 dB for 49 &le;x (13)
  • eignet sich zur Verwendung bei einem Ausführungsbeispiel, bei dem die in Tabelle 1 gezeigte PSD- Abbildung verwendet ist.
  • Eine vorläufige Maskierungsschwelle Z(x) wird in bezug auf das Erregungsmuster E(x), versetzt um den durch die Empfindlichkeitsfunktion w(x) spezifizierten Betrag, definiert. Die vorläufige Schwelle wird erhalten aus dem Ausdruck
  • Z(x) = w(x) + E(x) (14)
  • in der logarithmischen Leistungsdomäne oder aus dem Ausdruck
  • Z(x) = w(x) E(x) (15)
  • in der linearen Leistungsdomäne.
  • Maskierungsschwelle
  • Alle akustische Energie unterhalb der Schwelle des Hörens ist per definitionem unhörbar. Folglich braucht der zum Sicherstellen der Maskierung des Quantisierungsrauschens erforderliche SNR das Quantisierungsrauschen nicht unter die Hörschwelle zu unterdrücken. Die Schwelle des Hörens ist in der Technik gut definiert. Siehe zum Beispiel ISO Norm 226, die Informationen bereithält, die zu Konturen gleicher Lautheit eines "mindestens hörbaren Feldes" gehören, im ISO Standards Handbook, Acoustics, 1990, SS. 20-25. Die Funktion &Theta;(x) wird hier verwendet, um einen analytischen Ausdruck dieser Schwelle wiederzugeben.
  • Die psychoakustische Maskierungsschwelle M(x) ist zu erhalten durch einen Vergleich der Hörschwelle mit der vorläufigen Maskierungsschwelle und durch Wählen der größeren der beiden Schwellen Punkt für Punkt. Dies läßt sich darstellen als
  • M(x) = max[Z(x),&theta;(x)]. (16)
  • Zuteilungswerte
  • Bei einem einfachen Ausführungsbeispiel können Bits mit einer Rate von einem Bit für jeweils 6 dB des erforderlichen SNR oder
  • A(x) = [S(x) - M(x)]/6 for S(x) &ge; M(x)
  • A(x) = 0 for S(x) < M(x) (17) zugeteilt werden, wo A(x) = Zuteilungswert für jede Spektralkomponente im Frequenzband x.
  • Bei bevorzugten Ausführungsbeispielen wird durch Nachschlagen in einer Tabelle eine wirksamere Zuteilung erhalten. Der erforderliche SNR der geschätzten spektralen Leistung S(x) für die Maskierungsschwelle M(x) wird als Schlüssel für die Nachschlagetabelle herangezogen, und jeder Eintrag in der Tabelle gibt die Zahl der Quantisierungsstufen wieder, die zum Erzielen des erforderlichen SNR nötig ist.
  • Die Einträge in der Nachschlagetabelle können auf in der Technik allgemein bekannten und in verschiedenen bekannten Kodiersystemen bereits benutzten Quantisierungsbeziehungen beruhen. Konzeptionell ist keine besondere Nachschlagetabelle für die praktische Ausführung der vorliegenden Erfindung von kritischer Bedeutung; aber praktisch gesehen können die Einträge in der Nachschlagetabelle die Leistung von Kodiersystemen signifikant beeinflussen.
  • Eine Möglichkeit, um Einträge in der Tabelle für ein spezielles Kodiersystem abzuleiten, besteht darin, den SNR zu messen, der aus jenem Kodiersystem resultiert, unter Einschluß von Quantisierungsfunktionen, die gezwungen sind, Spektralinformation zu einer gegebenen Zahl von Quantisierungspegeln zu quantisieren. So zeigt beispielsweise die Tabelle III an, daß ein SNR von 8,21 dB und 11,62 dB mit einem bestimmten Ausführungsbeispiel eines Kodiersystems erhalten wird, welches mit einer Quantisierungsfunktion arbeitet, welche drei Quantisierungsstufen bzw. fünf Quantisierungsstufen hat. Entsprechend den Einträgen in dieser Tabelle sollten Spektralkom ponenten, die einen SNR von mehr als 8,21 dB aber weniger als oder gleich 11,62 dB erfordern, genügend Bits zugeteilt werden, um zu fünf Niveaus quantisiert zu werden.
  • Bei dieser Verwirklichung ist die untere Grenze der Tabelle Null Quantisierungsstufen bei 0 dB, und die obere Grenze der Tabelle wird auf eine maximale Zahl von Bits gesetzt, die hier als "Zuteilungsdecke" bezeichnet wird. Gemäß dem in der Tabelle III gezeigten Beispiel entspricht die Zuteilungsdecke 65 536 Quantisierungsstufen, die durch 16 Bits dargestellt werden können.
  • Bei vielen Kodiersystemen ist die Gesamtheit der Zuteilungswerte durch eine bestimmte Anzahl von Bits begrenzt. Diese Anzahl wird hier als "Bit-Budget" bezeichnet. Wenn die Gesamtzahl der zugeteilten Bits das Bit-Budget übersteigt, muß die Zuteilungsfunktion die Zuteilungswerte entsprechend revidieren. Ist die Gesamtzahl der zugeteilten Bits geringer als das Bit-Budget, werden vorzugsweise die Zuteilungswerte durch die Zuteilungsfunktion revidiert, um die Verwendung der restlichen Bits zu optimieren.
  • Bei manchen Ausführungsbeispielen werden die Zuteilungswerte durch Einstellen des Niveaus der Maskierungsschwelle M(x) und Neu berechnen der Zuteilungswerte verfeinert. Vorzugsweise wird die Hörschwelle berücksichtigt, wenn die Maskierungsschwelle angehoben und abgesenkt wird. Bei einem Ausführungsbeispiel geschieht dies durch Anheben und Absenken der vorläufigen Maskierungsschwelle Z(x) über einen Teil des Spektrums oder das ganze Spektrum und erneutes Festsetzen der Maskierungsschwelle gemäß dem Ausdruck 16, bis die Gesamtzahl zugeteilter Bits dem Bit-Budget ausreichend nahekommt. Um die Erörterung zu erleichtern, wird die Bezeichnung M&sub0;(x) benutzt, um Bezug zu nehmen auf eine anfängliche oder "ideale" Maskierungsschwelle, die aus einem Wahrnehmungsmodell erhalten wird, ehe irgendwelche Einstellungen zur Verfeinerung von Zuteilungswerten vorgenommen werden.
  • Bei einem Ausführungsbeispiel kann die Maskierungsschwelle in bezug auf die M&sub0;(x) Maskierungs schwelle um bis zu 72 dB abgesenkt und um bis zu 24 dB angehoben werden. Diese Einstellungen entsprechen der Zuteilung von etwa 12 zusätzlichen Bits bzw. 4 Bits weniger pro Spektralkomponente. Anfangs wird die Maskierungsschwelle auf einen Pegel von 24 dB unterhalb M&sub0;(x) gesetzt, was in der Mitte zwischen den beiden extremen Werten von 72 dB und -24 dB liegt. Die Zuteilungswerte werden errechnet und mit dem Bit-Budget verglichen. Eine binäre Suchtechnik nimmt grobe Einstellungen an der Maskierungsschwelle vor, um die Gesamtbitzuteilung auf einen Wert konvergieren zu lassen, der dem Bit-Budget gleicht oder kleiner ist als dieses. Das binäre Suchen wiederholt die groben Einstellungen, bis entweder die Gesamtbitzuteilung dem Bit-Budget gleicht oder bis die inkrementelle Einstellung der Maskierungsschwelle weniger beträgt als 1,5 dB. Im Anschluß an diese groben Einstellungen nimmt das binäre Suchen Feineinstellungen an der Maskierungsschwelle vor, um einen Pegel von bis zu 6 dB niedriger festzulegen, der die Gesamtbitzuteilung näher an das Bit-Budget konvergieren läßt. Dieses binäre Suchen wiederholt die Feineinstellungen bis entweder die Gesamtbitzuteilung dem Bit-Budget gleicht oder bis die inkrementelle Einstellung der Maskierungsschwelle weniger beträgt als 0,375 dB. Der Unterschied zwischen der eingestellten Schwelle und M&sub0;(x) kann in dem kodierten Signal weitergegeben werden, was es dem Dekodierer ermöglicht, die Zuteilungswerte unmittelbar festzusetzen, ohne den Konvergenzprozeß zu wiederholen.
  • Dieses gleiche Verfahren der Grob/Feineinstellung kann auch in Mehrfachkanalkodiersystemen verwendet werden, bei denen Bits in allen Kanälen aus einem gemeinsamen Bitpool den Spektralkomponenten zugeteilt werden. Bei einem alternativen Ausführungsbeispiel werden Grobeinstellungen nur an einer Maskierungsschwelle vorgenommen, die allen Kanälen gemeinsam ist. Nachdem die Gesamtzuteilung für alle Kanäle ausreichend konvergiert vorliegt, werden Feineinstellungen an Maskierungsschwellen vorgenommen, die einzelnen Kanälen zugeordnet sind, bis die Summe zugeteilter Bits dem Bit-Budget gleicht oder ihm ausreichend nahekommt. Die Feineinstellungen erfolgen durch: (1) Vervollständigen einer Einstellung für jeden Kanal der Reihe nach an einer entsprechenden Maskierungsschwelle, wobei über alle Kanäle hinweg bis zur Konvergenz eingestellt wird, oder (2) Einstellen einer entsprechenden Maskierungsschwelle für jeden Kanal der Reihe nach bis zur Konvergenz, ausgehend von einem Kanal mit der höchsten Priorität und fortlaufend bis zu einem Kanal mit der niedrigsten Priorität.
  • Ein Verfahren ähnlich dem gerade für Mehrfachkanalkodiersysteme beschriebenen kann bei anderen Kodiersystemen mit einem oder mehreren Kanälen angewandt werden. Bits können aus einem gemeinsamen Bitpool über eine verlängerte Zeitspanne hinweg Spektralkomponenten zugeteilt werden. Bei einem Transformationskodiersystem werden beispielsweise Grobeinstellungen an Zuteilungen über mehrere Blöcke von Transformationskoeffizienten hinweg vorgenommen, bis die Gesamtzuteilung für die mehrfachen Blöcke ausreichend nahe an das Bit-Budget konvergiert. Die Feineinstellungen können durch Einstellen der entsprechenden Maskierungsschwelle für jeden Block der Reihe nach vorgenommen werden, wobei eine Einstellung über alle Blöcke hinweg bis zur Konvergenz erfolgt. Dieses Verfahren ist auch für andere Teilbandkodiersysteme anwendbar, beispielsweise für ein Unterbandkodiersystem. Es läßt sich auch zur Verwendung in Mehrfachkanalkodiersystemen anpassen.
  • Wie diese Beispiele zeigen, sind viele Abänderungen im Konvergenzverfahren möglich. Wenn bei einer bestimmten Verwirklichung eine Zuteilungsdecke angewandt wird, sollte der Konvergenzprozeß nicht erlauben, daß ein Zuteilungswert diese Decke überschreitet.
  • Wird die Maskierungsschwelle angehoben, um die Gesamtbitzuteilung innerhalb eines Bit-Budgets unterzubringen, ist es möglich, daß eine oder mehrere spektrale "zwischen" Komponenten die anfängliche Schwelle M&sub0;(x) übersteigen, aber nicht die eingestellte Schwelle M(x) übersteigen. Gemäß dem Ausdruck 17 werden diesen spektralen Zwischen komponenten keine Bits zugeteilt, so daß sie folglich aus dem kodierten Signal ausgeschlossen bleiben. Dieser Ausschluß ist unter Umständen hörbar, insbesondere wenn der Ausschluß intermittierend ist. So können beispielsweise die Oberwelen einer langangehaltenen Note während Intervallen, die an anderer Stelle im Spektrum eine beträchtliche akustische Energie haben, intermittierend ausgeschlossen werden.
  • Wenn diesen spektralen Zwischenkomponenten Bits zugeteilt werden, läßt sich das Bit-Budget dadurch ausgleichen, daß die Zuteilung zu größeren Spektralkomponenten verringert wird. Allerdings ist dann wahrscheinlich die resultierende Verschlechterung der Kodierqualität der größeren Spektralkomponenten wahrnehmbar. Vorzugsweise sollten Bits so zugeteilt werden, daß ein Ausgleich zwischen den wahrnehmbaren Effekten des Ausschlusses spektraler Zwischenkomponenten einerseits und der Verschlechterung der Kodierqualität größerer Spektralkomponenten andererseits erhalten wird.
  • Bei einem Ausführungsbeispiel wird ein Versuch unternommen, einen derartigen Ausgleich dadurch zu erzielen, daß nur eine minimale Anzahl Bits allen spektralen Zwischenkomponenten zugeteilt wird. Bei einer speziellen Verwirklichung wird dies durch Quantisieren aller spektralen Zwischenkomponenten unter Verwendung der Quantisierungsfunktion erreicht, welche die Mindestanzahl Quantisierungsstufen hat.
  • Bei einem anderen Ausführungsbeispiel wird ein Ausgleich dadurch versucht, daß eine Mindestanzahl Bits nur denjenigen spektralen Zwischenkomponenten zugeteilt wird, die innerhalb eines begrenzten Frequenzbereiches liegen. Dieser Bereich erstreckt sich von der Spektralkomponente mit der höchsten Frequenz, welche die eingestellte Maskierungsschwelle übersteigt, bis zur Obergrenze der kodierten Signalbandbreite.
  • Bei noch einem anderen Ausführungsbeispiel kann ein Ausgleich dadurch versucht werden, daß Bits nur jenen spektralen Zwischenkomponenten zugeteilt werden, die nicht mehr als um ein bestimmtes Niveau, sagen wir 9 dB unterhalb der eingestellten Maskierungsschwelle liegen. In Abwandlung dieses Ausführungsbeispiels wird das Niveau unterhalb der eingestellten Schwelle modifiziert, um zu gewährleisten, daß die spektralen Zwischenkomponenten zugeteilte Bitanzahl einen Prozentsatz des Bit-Budgets nicht übersteigt. Als weiteres Beispiel kann die Zahl der diesen spektralen Zwischenkomponenten zugeteilten Bits dadurch ausgeglichen werden, daß die Bandbreite des Frequenzbereiches gesteuert wird, innerhalb dessen diese Zuteilungen stattfinden können.
  • Die wahrnehmbaren Konsequenzen der Zuteilung von Bits zu diesen spektralen Zwischenkomponenten lassen sich verringern, wenn man die Geschwindigkeit steuert, mit der diese Zuteilungen geändert werden können. So können beispielsweise spektrale Zwischenkomponenten dadurch von der Zuteilung ausgeschlossen werden, daß die Zuteilungsbandbreite über ein Intervall von einigen hundert Millisekunden reduziert wird. Abänderungen an Kriterien, die zum Ausschluß spektraler Zwischenkomponenten herangezogen werden, unterliegen wirkungsmäßig einem Tiefpaßfilter
  • Zuteilung von restlichen Bits
  • Wenn die Anzahl der bisher zugeteilten Bits erheblich geringer ist als das Bit-Budget, können die verbliebenen Bits auf verschiedenerlei Weise zugeteilt werden. Bei einem Ausführungsbeispiel wird ein zweistufiges Verfahren angewandt: (1) Ausgehend von dem Band der niedrigsten Frequenz und fortschreitend in der Frequenz nach oben wird die Zuteilung für ein Frequenzband erhöht, wenn entweder (a) der entsprechende Zuteilungswert größer ist als Null und niedriger als die Zuteilungsdecke oder (b) der Zuteilungswert null ist und der Zuteilungswert für das eine oder andere benachbarte Frequenzband bei Beginn des Schritts 1 mehr als Null betrug, und (2) solange noch Bits verfügbar sind, wird, ausgehend vom Band der niedrigsten Frequenz und in der Frequenz aufwärtsgehend der Zuteilungswert für jedes Frequenzband erhöht, wenn der entsprechende Zuteilungswert niedriger liegt als die Zuteilungsdecke. Schritt 2 wird wiederholt, bis keine restlichen Bits verbleiben.
  • Die Zuteilung restlicher Bits läßt sich vermeiden oder auf ein Minimum einschränken, wenn man es dem Konvergenzprozeß erlaubt, ausreichend nahe zum Bit-Budget zu konvergieren, so daß es nur sehr wenige, wenn überhaupt restliche Bits gibt.
  • Dekodiererspektralverzerrung Überblick
  • Die in verschiedenen Teilbandkodiersystemen benutzten Analyse- und Synthesefilterbänke kann man sich als eine Vielzahl von Bandpaßfiltern vorstellen. Fig. 12a veranschaulicht den Frequenzgang eines idealen Bandpaßfilters mit einer einheitlichen Verstärkung im Durchlaßband 500, unendlich steilen Übergängen 502 und 504 an den Durchlaßbandgrenzfrequenzen sowie einer Nullverstärkung in Sperrbereichen 506 und 508.
  • Fig. 12b veranschaulicht den Frequenzgang eines reallen Bandpaßfilters. Anders als das ideale Bandpaßfilter haben viele realle Bandpaßfilter eine Hauptkeule 500 mit varuerender Verstärkung im Durchlaßband, Durchlaßbandränder 502 und 504 mit begrenzter Neigung in den Übergangsbereichen zwischen dem Durchlaßband und den Sperrbereichen sowie Sperrbereiche 506 und 508, möglicherweise mit Seiten keulen, die ein veränderliches Maß an Verstärkung zur Verfügung stellen. Die Breite des Durchlaßbandes, die Geschwindigkeit des Abrolens in den Übergangsbereichen, sowie das Niveau der Sperrbereichszurückweisung sind Filterkurveneigenschaften, die durch die Filterausegung gegeneinander ausgewogen werden können.
  • Die Fig. 13a und 13b bieten eine hypothetische graphische Darstellung der durch eine Analysefilterbank verursachten Wirkungen, die Bandpaßfilter aufweist, deren Frequenzgänge ähnlich dem in Fig. 12b gezeigten sind. Fig. 13a veranschaulicht das wahre Spektrum eines Signals, welches zwei Spektralkomponenten 600 und 610 aufweist. Fig. 13b veranschaulicht von der Analysefilterbank hindurchgelassene Spektren 602 und 612 in Abhängigkeit von den wahren Spektralkomponenten 600 bzw. 610. Die Gestalt der Spektren läßt sich anhand der Faltung der Analysefilterbankkurve mit dem wahren Spektrum des Originalsignals festlegen. Der nicht ideale Frequenzgang der Bandpaßfilter verursacht, daß die Analysefilterbank die Gestalt der wahren Spektralkomponenten verwischt.
  • Die Charakteristiken von bei der Signaanalyse verwendeten nicht idealen Filterbänken sind insgesamt ganz gut bekannt. So werden beispielsweise die Wirkungen von Analysefenstern auf den Frequenzgang einer einzelnen Fourier-Transformation von Harris erörtert in "On the Use of Windows for Harmonic Analysis with the Discrete Fourier Transform", Proc. of IEEE, Bd. 66, Januar 1978, SS. 51-83. Die Filterkurven verschiedener digitaler Quadraturfilter sind von Barnwell in "Subband Coder Design Incorporating Recursive Quadrature Filters and Optimum ADPCM Coders", IEEE Trans. Acoust., Speech and Signal Proc., Bd. ASSP-30, Oktober 1982, SS. 751-65 sowie Rothweiler "Poly-phase Quadrature Filters--A New Subband Coding Technique"Proc. Inc. Conf. Acoust., Speech and Signal Proc., 1983, SS. 1280-1283 erörtert.
  • Im Prinzip braucht das Spektrumverwischen durch die Analysefilterbank keine Schwierigkeit hervorzurufen, da eine komplementäre Synthesefilterbank die Effekte des Verwischens umkehren und das exakte Originaignal wiedergewinnen kann. Dies gilt allerdings nur im Prinzip, denn die Synthesefilterbank kann das genaue ursprüngliche Signal nur dann wiedergewinnen, wenn ihr das genaue Ausgangssignal der Analysefilterbank zur Verfügung gestellt wird. Bei Kodiersystemen auf der Basis der Psychowahrnehmung werden von der Analysefilterbank erhaltene Teilbandsignale quantisiert, um die Informationserfordernisse zu verringern, und der dabei entstehende Quantisierungsfehler verhindert, daß die Synthesefilterbank das genaue Originalsignal wiedergewinnt.
  • Die Auswirkungen von Synthesefilterbänken lassen sich anhand der nachfolgenden Erörterung und unter Hinweis auf Fig. 13c und 13d besser verstehen, die eine hypothetische graphische Darstellung der durch eine Synthesefilterbank verursachten Spektralverzerrung bieten. Fig. 13c stellt die verwischten Spektren 602 und 612 dar, die eine Analysefilterbank hindurchgelassen hat, mit zusätzlichen Rauschkomponenten 604 und 614, die dem jeweils verwischten Spektrum hinzugefügt wurden. Die Rausch komponenten geben den Quantisierungsfehler wieder, der aus dem Quantisieren nur einer hauptsächlichen Komponente in jedem der verwischten Spektren resultiert. Alle anderen Komponenten werden nicht quantisiert. Bei einem wirklichen Teilbandkodiersystem werden, anders als bei der Darstellung gemäß 13c, alle Komponenten des Analysefilterbankausgangssignals des Kodierers quantisiert. Bei diesem hypothetischen Beispiel jedoch wird nur eine Hauptkomponente in jedem verwischten Spektrum quantisiert, um die Effekte der Spektralverzerrung der Synthesefilterbank des Dekodierers deutlicher aufzuzeigen.
  • Fig. 13d veranschaulicht die spektrale Gestalt des Signals, welches mittels einer Dekodierersynthesefilterbank in Abhängigkeit von dem in Fig. 13c dargestellten Signal wiedergewonnen wurde. Spektralkomponenten 608 und 618 entsprechen wahren Spektralkomponenten 600 und 610 im Originalsignal, und Artefakte 606 und 616 sind Spektralverzerrungen, die von der Synthesefilterbank in Abhängigkeit von Quantisierungsrauschkomponenten 604 bzw. 614 erzeugt werden. Die Gestalt der Artefakte 606 und 616 kann anhand der Faltung der Synthesefilterbankkurve mit Rauschkomponenten 604 und 614 festgelegt werden. Bei tatsächlichen Teilbandkodiersystemen ist die Spektralverzerrung sogar noch größer, weil alle Komponenten des Analysefilterbankausgangssignals quantisiert werden.
  • Auch wenn viele tatsächliche Teilbandkodiersysteme Teilbandsignale nicht gleichförmig quantisieren, kann es hilfreich sein, darauf hinzuweisen, daß die Verzerrung des wahren Spektrums eines Signals mittels eines eine gleichförmige Quantisierung anwendenden Kodiersystems durch die Faltung der Analysefilterbankkurve mit der Synthesefilterbankkurve modelliert werden kann.
  • Dieses Verzerrungsmodell ist allerdings in praktisch verwendeten Kodiersystemen nicht besonders nützlich, weil das wahre Spektrum des Signals nicht zur Verfügung steht. Stattdessen ist eine verwischte Darstellung des wahren Spektrums von der Analysefilterbank verfügbar. Und es ist diese verwischte Darstellung, die einer Minderung der Informationserfordernisse, beispielsweise durch Quantisieren unterworfen wird. Die quantisierten Teilbandsignale in einem Kodierer reflektieren beispielsweise bereits denjenigen Teil der Gesamtverzerrung des Kodiersystems, der durch die Analysefilterbank verursacht wurde. Die von der Synthesefilterbank verursachte Verzerrung kann durch Faltung des Spektrums der Quantisierungsstörung mit dem Frequenzgang der Synthesefilterbank erhalten werden.
  • Die Spektralverzerrung der Synthesefilterbank ist dafür verantwortlich, warum Zuteulungsfunktionen, die allein auf Perzeptionsmodellen beruhen, nicht immer richtige Zuteilungswerte erhalten können. Viele Perzeptionsmodelle beruhen auf empirischen Versuchen, mit denen angestrebt wird, Maskierungseigenschaften von Signalen festzulegen, die entweder eine Sinuswelle einer einzigen Frequenz oder ein sehr schmales Störungsband aufweisen. Diese Maskierungsmodelle beruhen auf der wahren Spektralgestalt sowohl des Maskierungssignals als auch der maskierten Signale. Solche Perzeptionsmodelle sind nicht dafür verantwortlich, daß die Synthesefilterbank das Störspektrum verwischt, welches durch die Quantisierung entsteht. Infolgedessen können Zuteilungsfunktionen, deren Zuteilungsentscheidungen allein auf solchen Perzeptionsmodellen beruhen, nicht immer richtige Zuteilungswerte erhalten, weil das Perzeptionsmodell Maskierauswirkungen überschätzt.
  • Einige Zuteilungsfunktionen versuchen durch Hinzufügen einer Marge zu den von Perzeptionsmodellen vorgeschlagenen Informationserfordernissen sicherzustellen, daß sämtliche Kodierungsartefakte nicht wahrnehmbar sein werden. Bei einem Ausführungsbeispiel liefert beispielsweise ein Kodierer ein Perzeptionsmodell zur Festlegung von Informationserfordernissen und teilt dann ein oder mehrere Bits zu, um zu gewährleisten, daß Quantisierungsrauschen überdeckt wird. Diese marginale Zuteilung ist weniger als optimal, wenn nicht Verzerrungseffekte der Synthesefilterbank ordnungsgemäß berücksichtigt werden.
  • Eine Zuteilungsfunktion kann für Spektralverzerrung des Dekodierers auf verschiedenerlei Art und Weise Spielraum schaffen, beispielsweise durch Anpassen des Psychowahrnehmungsmodells, durch Ändern der festgelegten Maskierungsschwelle und/oder durch Einstellen von Zuteilungswerten. Informationserfordernisse können beispielsweise erhöht werden, um Spektralverzerrungen des Dekodierers zu erlauben, indem (1) Teile des aus dem Ausdruck 4 erhaltenen Erregungsmusters E(x) reduziert werden, (2) Teile der in den Ausdrücken 14 und 15 verwendeten Empfindlichkeitsfunktion w(x) reduziert werden, (3) Teile der im Ausdruck 16 verwendeten vorläufigen Maskierungsschwelle Z(x) reduziert werden, (4) Teile der aus dem Ausdruck 1 6 erhaltenen, festgelegten Maskierungsschwelle M(x) reduziert werden, oder (5) ausgewählte Zuteilungswerte A(x) erhöht werden.
  • Die Ausdrücke "Einstellen der Bitzuteilung" und ähnliche werden in der folgenden Erörterung als allgemeine Ausdrücke für solche Berücksichtigungen benutzt. Bei bevorzugten Ausführungsbeispielen ist Berücksichtigung vorgesehen durch ein Anpassen des Erregungsmusters E(x)). Aus diesem Grund veranschaulichen die nachfolgend erörterten Ausführungsbeispiele, wie das Erregungsmuster eingestellt wird. Es sei jedoch darauf hingewiesen, daß diese Ausführungsbeispiele geändert werden können, um irgendeine der anderen oben aufgezählten Möglichkeiten anzuwenden.
  • Komplexer Prozeß
  • Fig. 14 veranschaulicht die Schritte in einem Ausführungsbeispiel eines Prozesses, der ein Modell der Spektralverzerrung eines Dekodierers beinhaltet. Bei ENTRY 700 hat eine Zuteilungsfunktion bereits vorbereitende Zuteilungswerte entsprechend Grundsätzen der Psychowahrnehmung festgelegt.
  • NOISE 702 legt ein Quantisierungsstörspektrum Q(x) entsprechend den festgelegten Zuteilungswerten fest. Ein hypothetisches Beispiel des von einer Analysefilterbank erhaltenen Quantisierungsstörspektrums, welches aus der Quantisierung von Teilbandsignalen resultiert, ist in Fig. 13c dargestellt. Anders als dieses hypothetische Beispiel werden jedoch alle Komponenten der Teilbandsignale quantisiert.
  • DISTORTION 704 schätzt die Wirkungen des Dekodierens spektraler Verzerrung durch Faltung einer Bandpaßfilterkurve D(x) der Synthesefilterbank mit dem Quantisierungsstörspektrum Q(x), um ein Dekodiererverzerrungsspektrum N(x) zu erhalten.
  • Die Faltung ist vom Rechenaufwand her intensiv. Ein ähnlicher Prozeß wie der zuvor erörterte zum Erhalten eines Erregungsmusters, für den ein Ausführungsbeispiel in Fig. 8 dargestellt ist, kann auch benutzt werden, um ein wirksames Verfahren zum Schätzen der Dekodierspektralverzerrung zu verwirklichen.
  • CHECK 706 legt fest, ob irgendein Teil von N(x) in dem vom Dekodierer wiedergewonnenen Signal wahrnehmbar sein wird, indem hier N(x) mit einer festgelegten Maskierungsschwelle M(x) hier verglichen wird. Wenn irgendein Teil von N(x) einen entsprechenden Teil von M(x) übersteigt, wird vermutet, daß jener Teil von N(x) wahrnehmbar ist.
  • TERM 708 bestimmt, ob die vorangegangenen Schritte wiederholt werden sollen. Wenn N(x) M(x) nirgends übersteigt, ist keine weitere Verarbeitung nötig, denn vom ganzen N(x) wird erwartet, daß es nicht wahrnehmbar ist. EXIT 712 wird als nächstes durchgeführt.
  • Wenn N(x) M(x) in im wesentlichen gleichförmiger Weise über das Spektrum hinweg übersteigt und keine zusätzlichen Bits zur Zuteilung verfügbar sind, wird nicht erwartet, daß eine weitere Bearbeitung die Wahrnehmbarkeit von N(x) reduziert. EXIT 712 wird als nächstes durchgeführt.
  • Ansonsten wird als nächstes ADJUST 710 durchgeführt.
  • ADJUST 710 stellt die Bitzuteilung für ausgewählte Spektralkomponenten ein, um die Wahrnehmbarkeit von Kodierartefakten zu verringern. Das läßt sich erreichen durch das Identifizieren von Q(x)- Komponenten, die einen großen Beitrag zu den Teilen von N(x) leisten, welche M(x) übersteigen, sowie das Erhöhen der Bitzuteilung zu ausgewählten Q(x)-Komponenten, welche die größten Beiträge leisten.
  • Eine Möglichkeit, die den größten Beitrag leistenden Komponenten zu identifizieren kann abgeleitet werden, wenn man sich zunächst daran erinnert, daß das Dekodiererverzerrungsspektrum N(x) von der Faltung Q(x)*D(x) erhalten wird, was ausgedrückt werden kann als
  • Die größten Q(x)-Beisteuerer zu einem bestimmten Teil des Verzerrungsspektrums, sagen wir N(x&sub0;), können dadurch identifiziert werden, daß herausgefunden wird, für welche Teilbänder x die Ausdrücke Q(x) D(x&sub0;-x) am größten sind. Das ist gleichwertig mit dem Gewichten jeder Q(x)- Komponente mit dem Frequenzgang D(-x), zentriert um ein Teilband x&sub0;, in welchem N(x) vermutlich wahrnehmbar ist, und dem Auswählen der den größten Gewichtungen entsprechenden Q(x)- Komponenten.
  • Wenn die Gesamtbitzuteilung ein Bit-Budget übersteigt, werden Zuteilungen für Q(x)-Komponenten verringert, die entweder zu Teilen von N(x) beitragen, welche die Schwelle M(x) nicht übersteigen oder die am wenigsten zu Teilen von N(x) beitragen, welche M(x) nicht übersteigen. Der Prozeß wiederholt sich durch Rückkehr zum Schritt NOISE 702.
  • Bei Audiokodiersystemen, die das oben erörterte psychoakustische Modell anwenden, erfolgen diese Einstellungen vorzugsweise durch Anpassen des Erregungsmusters E(x).
  • Bei EXIT 712 ist der Prozeß der Berücksichtigung für Spektralverzerrungen des Dekodierers beendet.
  • Vereinfachter Prozeß
  • Mit einem einfacheren Prozeß können gute Ergebnisse durch Ausnutzen der Tatsache erzielt werden, daß die Wirkungen der Spektralverzerrung des Dekodierers normalerweise nicht wahrnehmbar sind, wenn nicht die Synthesefilterbank das Quantisierungsrauschen in der Frequenz breiter verschmiert als es durch die wahren Spektralkomponenten des kodierten Signals überdeckt werden kann. Es ist wahrscheinlicher, daß diese Bedingung zutrifft, wenn die Maskierungsschwelle, die anhand von durch die Analysefilterbank hindurchgelassenen Spektralkomponenten festgelegt wurde, rascher abrollt als die Synthesefilterbankkurve.
  • Bei vielen Verwirklichungen von Filterbänken kann das Abrollen der Geschwindigkeit des Frequenzganges erhöht werden, aber als Folge dessen wird die Tiefe der Sperrbereichszurückweisung verringert. Für viele Verwirklichungen von Synthesefiterbänken verhindern selbst minimale Anforderungen an die Sperrbereichszurückweisung, daß das Abrollen der Reaktionskurve dem Abrollen einer festgelegten Maskierungsschwelle für niederfrequenteres Maskieren durch nieder- bis mittelfrequente Spektral komponenten gleicht oder es übersteigt. Zum Beispiel kann eine Filterbank, die durch eine 512-Punkttransformation mit einer Abtastrate von 48 kHz verwirklicht ist, im allgemeinen keine Filterkurve mit einem Abrollen von mehr als etwa 12 dB pro Koeffizient oder 93.75 Hz (48 kHz/512) erzielen, ohne daß das Niveau der Sperrbereichszurückweisung auf unter etwa 100 dB reduziert wird.
  • Im Vergleich zur Filterkurve rollt eine Maskierungsschwelle für Spektral komponenten oberhalb etwa 4 kHz mit etwa 2 dB pro Koeffizient für eine Abwärtsfrequenzmaskierung ab. Im Gegensatz dazu rollt eine Maskierungsschwelle von Spektralkomponenten innerhalb des Bereichs von etwa 400 Hz bis etwa 3 kHz mit ungefähr 10 bis 15 dB pro Koeffizient für Abwärtsfrequenzmaskierung ab. Aus diesem Grund sollten Kodiersysteme mit Synthesefilterbänken, deren Charakteristiken den gerade beschriebenen ähnlich sind, Spielraum bieten für Spektralverzerrungen des Dekodierers bei Frequenzen unterhalb etwa 3 kHz, brauchen aber vermutlich keine Berücksichtigung für höhere Frequenzen vorzusehen.
  • Unter Hinweis auf die Fig. 15a stellt die Schwelle 802 eine psychoakustische Maskierungsschwelle einer hochfrequenten Spektralkomponente dar, und Filterkurve 800 stellt einen Frequenzgang eines entsprechenden Bandpaßfilters in einer hypothetischen Synthesefilterbank dar. Die Maskierungsschwelle 802 rollt weniger rasch ab als die Filterkurve 800. Es ist nicht wahrscheinlich, daß die Spektralverzerrung des Dekodierers hochfrequente Kodierartefakte so stark verwischt, daß sie wahrnehmbar werden. Deshalb kann die Zuteilungsfunktion unbeschadet Spektralverzerrungen des Dekodierers für höhere Frequenzen ignorieren.
  • Fig. 15b zeigt eine Schwelle 806, die die psychoakustische Maskierungsachwelle für nieder- bis mittelfrequente Spektral komponenten wiedergibt, und eine Filterkurve 804 stellt einen Frequenzgang eines entsprechenden Bandpaßfilters in einer hypothetischen Synthesefilterbank dar. Für Frequenzen unterhalb der Maskierungskomponente rollt die Maskierungsschwelle 806 rascher ab als die Filterkurve 804. Es ist viel wahrscheinlicher, daß die Spektralverzerrung des Dekodierers nieder- bis mittelfrequente Kodierartefakte so stark verwischt, daß sie wahrnehmbar werden. Aus diesem Grund darf die Zuteilungsfunktion Spektralverzerrungen des Dekodierers für niedrigere Frequenzen nicht unbeschadet ignorieren. Das in Fig. 15b veranschaulichte Beispiel weist darauf hin, daß Quantisierungsrauschen an der niederfrequenten Seite dominanter Spektralkomponenten reduziert 45 werden muß, um zu gewährleisten, daß Artefakte des Kodiersystems unhörbar sind.
  • Ob Spektralverzerrungen des Dekodierers berücksichtigt werden müssen oder nicht, hängt von der Maskierungsschwelle ab, die in Abhängigkeit von der Spektralform des zu kodierenden Signals festgelegt wird. Es ist wichtig, daran zu erinnern, daß Maskierungsschwellen, wie die in Fig. 15a und 15b gezeigten zu den Maskierungscharakteristiken von Spektral komponenten einer einzigen Frequenz oder sehr schmaler Störungsbänder gehören. Die Maskierungscharakteristiken eines komplexen Signals mit vielen Spektralkomponenten ist ganz anders. Zum Beispiel ist die Maskierungsschwelle weißen Rauschens ziemlich flach, und deshalb macht die Spektralverzerrung des Dekodierers für Signale mit im wesentlichen flachen Spektralformen keine besondere Sorge.
  • Ein vereinfachter Prozeß identifiziert potentielle Situationen, wie die in Fig. 15b dargestellte, durch Prüfen der kritischen Banddichte S(x) von durch eine Analysefilterbank durchgelassenen Teilbandsignalen für nieder- und mittelfrequente Teilbänder. Wenn Änderungen in S(x) über den unteren Teil des Spektrums hinweg im wesentlichen der Geschwindigkeit des Abrollens des Frequenzganges für entsprechende Bandpaßfilter in der Synthesefilterbank gleichen oder größer sind als diese, dann werden Spektralverzerrungen des Dekodierers berücksichtigt.
  • Die Ideen des vereinfachten Prozesses können in einer Vielfalt von Verwirklichungen und Ausführungsbeispielen angewandt werden, aber die hier beschriebenen Ausführungsbeispiele beruhen auffolgenden Annahmen: (1) die Verwirklichungen sind für digitale Audiokodiersysteme, (2) Annäherung an die kritische Banddichte erfolgt mittels einer diskreten log-Leistungsfunktion S(x), die auf Mehrfache von 6 dB Wachstumsschritten zwischen einander benachbarten Teilbändern von nicht mehr als ± 12 dB begrenzt ist, (3) die Synthesefilterbank wird durch eine Transformation verwirklicht, die ein Durchlaßband von etwa 94 Hz, ein Abrollen des Frequenzganges von etwa 12 dB pro Koeffizient und eine Sperrbereichszurückweisung von etwa 100 dB hat, (4) die Zahl der zum Quantisieren der Teilbandsignale unbeachtlich von Spektralverzerrungen des Dekodierers zugeteilten Bits ist gerade groß genug, um das Quantisierungsrauschen bis unter die festgelegte Maskierungsschwelle zu verringern, und (5) die Maskierungsschwelle wird entsprechend dem genauesten psychoakustischen Modell festgelegt, welches in die Praxis umgesetzt werden kann.
  • Erstes Ausführungsbeispiel
  • Das folgende Programmfragment veranschaulicht ein erstes Ausführungsbeispiel eines vereinfachten Prozesses, der einer Zuteilungsfunktion einverleibt werden kann, um Spektralverzerrung eines Dekodierers zu berücksichtigen.
  • (101) for i from 0 to 25
  • (102) if S(i+l) - S(i) = 12 then
  • (103) set j = i + 1
  • (104) set k = 0
  • (105) while k = 0 and j < 26
  • (106) if S(j+1) - S(j) &ne; 12 then
  • (107) set k = j - i
  • (108) endif
  • (109) set j = j + 1
  • (110) endwhile
  • (111) if k < 3 and k &ne; 0 then
  • (112) set a = 6
  • (113) else
  • (114) set a = 12
  • (115) endif
  • (116) for i from j + 1 to j - 1
  • (117) set E(i) = E(i) - a
  • (118) if E(i) < 0 then
  • (119) set E(i) = 0
  • (120) endif
  • (121) endfor
  • (122) if S(j) - S(j-1) = 6 then
  • (123) set E(j) = E(j-1)
  • (124) endif
  • (125) set i = j
  • (126) endif
  • (127) endfor
  • Zeile (101) wiederholt den in Zeilen (102) bis (127) durchgeführten Prozeß für Teilbänder Null bis fünfundzwanzig, die das Spektrum unterhalb etwa 2,4 kHz abdecken. Wenn die Zeile (102) feststellt, daß die kritische Banddichte um 12 dB für Teil band i bis i + 1 zunimmt, werden die Zeilen (103) bis (126) durchgeführt, ansonsten fährt der Prozeß mit Zeile (102) fort und prüft das nächste Teil band.
  • 35 In Zeile (103) bezieht sich die Variable i auf das erste Teilband in einem möglichen Intervall von Teilbändern, wo die kritische Banddichte um 12 dB zunimmt. Zeile (103) initialisiert die Variable zum Verweis auf das folgende Teilband, und Zeile (104) initialisiert die Variable k auf Null.
  • Zeile (105) wiederholt den Prozeß in den Zeilen (106) bis (110), bis entweder die Variable k auf einen Wert von nicht Null gesetzt wird oder bis die Variable j nicht mehr weniger als 26 ist. Die Zeilen (106) bis (110) legen die Anzahl Teilbänder in dem Intervall fest, über das die kritische Banddichte um 12 dB zunimmt. Wenn Zeile (106) feststellt, daß die Zunahme zwischen Teilband j + 1 und Teil band j nicht 12 dB beträgt, dann setzt Zeile (107) die Variable k so, daß sie der Anzahl Teilbänder in dem Intervall gleicht. Dies veranlaßt Zeile (1 05), mit der Wiederholung der Zeilen (106) 45 bis (110) aufzuhören. Die Zeile (109) inkrementiert die Variable j zum Verweis auf das nächste Teil band.
  • Wenn Zeile (111) feststellt, daß die Länge des Intervalls kleiner ist als drei, setzt Zeile (112) die Variable a auf sechs, ansonsten setzt Zeile (114) die Variable a auf zwölf. Die Variable a gibt das Ausmaß in dB wieder, um das das Erregungsmuster E(x) reduziert wird, um die Spektralverzerrung des Dekodierers zu berücksichtigen. Das Muster wird für längere Intervalle von Teilbändern reduziert, in denen die kritische Banddichte um + 12 dB zunimmt, weil stärkere Ausmaße spektraler Verwischung während längerer Intervalle auftritt. Der Grund für die zusätzliche Reduktion wird verständlich, wenn man sich daran erinnert, daß die Spektralverzerrung modelliert werden kann durch Faltung der Synthesefiterkurve mit dem Quantisie-rungsstörspektrum und daß die Synthesefilterkurve mit etwa 12 dB pro Transformations koeffizient (oder pro kritischem Band bei niedrigeren Frequenzen) abrollt, was im wesentlichen das gleiche ist wie die Steigerungsrate in der kritischen Banddichte. Die Faltung verwischt das Quantisierungsstörspektrum über einen breiteren Bereich in der Frequenz während längerer Intervalle.
  • Zeile (116) wiederholt den in Zeilen (117) bis (121) durchgeführten Prozeß, bei dem E(i) um die Menge reduziert wird, welche durch die Variable a spezifiziert ist. Die Teilbänder, in denen das Muster reduziert wird, entsprechen den Teilbändern im Intervall, über das hinweg die kritische Banddichte um 12 dB zunimmt. Wenn Zeile (118) feststellt, daß das Erregungsmuster für irgendein Teilband auf weniger als Null reduziert wurde, wird in der Zeile (119) das Muster für dieses Teilband wieder auf Null gesetzt.
  • Wenn Zeile (122) bestimmt, daß die Zunahme der kritischen Banddichte im Anschluß an das Intervall 6 dB beträgt, wird das Erregungsmuster gleichfalls in jenem folgenden Teilband eingestellt.
  • Zeile (125) setzt die Variable i auf den gleichen Wert wie die Variable j. Das veranlaßt die Wiederholung der Zeilen (102) bis (127), um mit dem Teilband im Anschluß an Teilband fortzufahren.
  • Verschiedene Tabellen veranschaulichen die Ergebnisse des gerade beschriebenen Verfahrens. Die Tabelle IV gibt ein Intervall von zwei Teilbändern wieder, über die die kritische Banddichte S(x) um 12 dB zunimmt. Auf dieses Intervall folgt eine Zunahme, die nicht 6 dB beträgt. Die Reihe für (x) zeigt die Änderung in der kritischen Banddichte zwischen einander benachbarten Teilbändern. Die Reihe für e(x) zeigt das Ausmaß an Einstellung, welches an das Erregungsmuster angelegt würde.
  • Tabelle V stellt ein Intervall von drei Teil bändern dar, über die die kritische Banddichte um 12 dB zunimmt. Auf das Intervall mit den Zunahmen um 12 dB folgt eine Zunahme, die nicht 6 dB ist. Tabelle VI gibt ein Intervall von zwei Teilbändern wieder, über die die kritische Banddichte um 12 dB zunimmt. Auf das Intervall der Zunahmen um 12 dB folgt eine Zunahme, die 6 dB gleicht.
  • Tabelle VII gibt ein Intervall von drei Teilbändern wieder, über die die kritische Banddichte um 12 dB zunimmt. Auf das Intervall der Zunahmen um 12 dB folgt eine Zunahme, die 6 dB gleicht.
  • Zweites Ausführungsbeispiel
  • Das folgende Programmfragment veranschaulicht ein zweites Ausführungsbeispiel eines vereinfachten Verfahrens, welches in eine Zuteilungsfunktion eingearbeitet werden kann, um Spektralverzerrung eines Dekodierers zu berücksichtigen. Auch wenn die mit diesem zweiten Ausführungsbeispiel erhaltenen Ergebnisse insgesamt nicht so gut sind wie die mit dem ersten Ausführungsbeispiel erzielten, ist das zweite Ausführungsbeispiel in gewissen Verwirklichungen reizvoll, weil es vom Rechenaufwand her effizienter ist.
  • (201) a = 0
  • (202) for i from 0 to 25
  • (203) if S(i+1) - S(i) = 12 then
  • (204) if a < 18 then
  • (205) set a = a+6
  • (206) endif
  • (207) set E(i) = E(i) - a
  • (208) else
  • (209) if S(i + 1) - S(i) &le; -6 then
  • (210) if a > 0 then
  • (211) set a = a - 6
  • (212) endif
  • (213) set E(i) = E(i) - a
  • (214) endif
  • (215) endif
  • (216) endfor
  • Zeile (201) initialisiert die Variable a auf Null. Zeile (202) wiederholt den in Zeilen (203) bis (216) durchgeführten Prozeß für Teubänder Null bis fünfundzwanzig.
  • Wenn Zeile (203) feststellt, daß die Änderung in der kritischen Banddichte von Teilband i zu Teilband i + 1 + 12 dB beträgt, erhöhen die Zeilen (204) bis (206) die Variable a um 6 dB bis zu einem Maximum von 18 dB. Die Variable a gibt das Ausmaß in dB wieder, um welches das Erregungsmuster E(x) reduziert wird, um Spektralverzerrung des Dekodierers zu berücksichtigen. Dieses Ausmaß nimmt für längere Intervalle von Teilbändern zu, in denen die kritische Banddichte um 12 dB steigt, weil größere Ausmaße an spektraler Verwischung während längerer Intervalle auftritt. Es wird auf die obige Erörterung des ersten Ausführungsbeispiels verwiesen, wo mehr Einzelheiten angegeben sind. Zeile (207) reduziert E(i) um das durch die Variable a spezifizierte Ausmaß.
  • Wenn Zeile (203) feststellt, daß die Änderung der kritischen Banddichte von Teilband i zu Teilband i + 1 nicht + 12 dB beträgt, stellt Zeile (209) fest, ob die Änderung -6 dB oder weniger ist. Ist das der Fall, verringern Zeilen (210) bis (212) die Variable a um 6 dB bis herab zu einem Minimum von dB. Zeile (213) reduziert E(i) um das durch die Variable a spezifizierte Ausmaß.
  • Drittes Ausführungsbeispiel
  • Das folgende Programmfragment veranschaulicht ein drittes Ausführungsbeispiel eines vereinfachten Verfahrens, welches in eine Zuteilungsfunktion eingearbeitet werden kann, um Spektralverzerrung des Dekodierers zu berücksichtigen.
  • (301) a = 0
  • (302) for i from 0 to 25
  • (303) switch
  • (304) case S(i+l) - S(i) = 12:
  • (305) set a = a + 6
  • (306) case S(i+1) - S(i) = 6:
  • (307) if S(i+2) - S(i+1) = 12 then
  • (308) set a = a - 3
  • (309) else
  • (310) set a = a - 6
  • (311) endif
  • (312) case S(i+1) - S(i) = 0:
  • (313) set a = a - 6
  • (314) case S(i+1) - S(i) = -6:
  • (315) if S(i+2) - S(j+1) = 12 then
  • (316) set a = a - 6
  • (317) else
  • (318) set a = a - 9
  • (319) endif
  • (320) case S(i+1) - S(i) = -12
  • (321) set a = a - 12
  • (322) endswitch
  • (323) if a > 18 then
  • (324) set a = 18
  • (325) endif
  • (326) if a < 0 then
  • (327) set a = 0
  • (328) endif
  • (329) set E(1) = E(i) - a
  • (330) endfor
  • Zeile (301) initialisiert die Variable a auf Null. Zeile (302) wiederholt den in Zeilen (303) bis (330) durchgeführten Prozeß für Teilbänder Null bis fünfundzwanzig. Die Zeilen (303) bis (322) stellen den Wert der Variablen a entsprechend Änderungen in der kritischen Banddichte zwischen einander benachbarten Teilbändern ein. Zum Beispiel verringert Zeile (313) die Variable a um 6, wenn die kritische Banddichte sich zwischen dem Teil band i und dem Teilband i + 1 nicht ändert. Wenn sich, als weiteres Beispiel, die kritische Banddichte um +6 dB von Teilband i zu Teilband i + 1 ändert, dann verringern die Zeilen (307) bis (311) entweder die Variable a um 3, wenn sich die kritische Banddichte um 12 dB vom Teilband i + 1 zum Teil band i +2 ändert, oder im anderen Fall verringern sie die Variable a um 6. Die Zeilen (323) bis (328) stellen sicher, daß die Variable a nicht größer als 18 und nicht kleiner als Null ist. Zeile (329) reduziert das Erregungsmuster E(i) um das durch die Variable a spezifizierte Ausmaß.
  • Dieses Ausführungsbeispiel "schaut voraus" auf die nächsten höherfrequenten Teibänder. Andere Ausführungsbeispiele können noch weiter vorausschauen. Wenn es die Rechenmöglichkeiten erlauben, könnte ein Ausführungsbeispiel die Änderung der kritischen Banddichte über alle oder im wesentlichen alle interessierenden Teilbänder analysieren, ehe das Erregungsmuster eingestellt wird.
  • Adapter
  • Bei Teilbandkodiersystemen, die mit Zuteilungsfunktionen arbeiten, welche auf verschiedenen Psychoperzeptionseffekten beruhen, kann jeglicher, das zugrundeliegende Psychowahrnehmungsmodell beeinflussende Parameter modifiziert werden, um die Zuteilungsfunktion anzupassen. Bei akustischen Kodieranwendungsfällen gehört zu solchen Parametern beispielsweise (1) die Filterkoeffizienten der Gleichung 6 oder Gleichung 7, welche das Niveau psychoakustischer Maskierung oberhalb und/oder unterhalb eines Maskiertones modellieren, (2) die Charakteristiken der Empfindlichkeitsfunktion, welche den SNR-Versatz gegenüber dem Erregungsmuster bietet, (3) das Niveau der Zwischenkanamaskierung in einem Mehrfachkanalsystem, (4) die Bandbreite des Eingangssignals, (5) die Mindestanzahl der Teilbandsignalen als Funktion der Frequenz zuzuteilenden Bits, (6) die Zuteilungsdecke, möglicherweise als eine Funktion der Frequenz und (7) die Anzahl der einer Spektralkomponente zusätzlich zuzuteilenden Bits für jede inkrementelle Zunahme der Amplitude als Funktion der Spektralamplitude und (8) das Ausmaß, um das ein Erregungsmuster einzustellen ist, wenn zu erwarten ist, daß Spektralverzerrungen des Dekodierers wahrnehmbar sind. Empirischer Beweis deutet an, daß ein höherer SNR erforderlich ist, um eine Maskierung bei höheren Amplituden zu erzielen. Deshalb kann eine Zuteilung eines zusätzlichen Bits pro 6 dB Amplituden steigerung bei hohen Amplituden erforderlich sein, während eine Zuteilung von nur einem Bit pro 12 db Zunahme bei niedrigeren Amplituden angemessen sein kann.
  • Zum Anpassen der Ergebnisse der Zuteilungsfunktion kann der Adapter 120 entweder die "Parameter"-Technik oder die "Wert"-Technik oder beide anwenden. Die Parameter-Technik bringt das Modifizieren eines oder mehrerer Parameter, wie der oben erörterten mit sich. Die Wert-Technik bringt das Erzeugen eines oder mehrerer modifizierter Werte mit sich, die mit den von der Zuteilungsfunktion erhaltenen Zuteilungswerten verschmolzen werden.
  • Der zum Verwirklichen der einen oder anderen Technik angewandte spezielle Prozeß ist für die praktische Durchführung der vorliegenden Erfindung nicht von kritischer Bedeutung. Bei einem Ansatz wird eine alternative Zuteilungsfunktion durchgeführt, es werden die Ergebnisse der alternativen Funktion mit den "Grundwerten" verglichen, die von der grundlegenden Zuteilungsfunktion 110 erhalten werden, und es werden modifizierte Werte für jeden Alternativwert gebildet, wo die Differenz zwischen ihm und dem entsprechenden Grundwert signifikant ist. Die Komplexität der grundlegenden Zuteilungsfunktion läßt sich einschränken, um den Dekodierer zu vereinfachen, aber andererseits kann die alternative Zuteilungsfunktion so komplex sein wie gewünscht. Bei akustischen Kodieranwendungsfällen kann zum Beispiel die alternative Funktion ein höher entwickeltes psychoakustisches Modell benutzen, welches die Berücksichtigung von Signalcharakteristiken, wie die Flachheit des Eingangssignalspektrums, die durchschnittliche oder Spitzenamplitude des Eingangssignals und die Tatsache, ob eine Maskierungskomponente tonähnlich oder rauschähnlich ist einschließt.
  • Ein weiterer beispielhafter Anpassungsprozeß vermeidet es, eine vollständige Zuteilungsfunktion durchzuführen und erzeugt lediglich Einstellungen an grundlegenden Zuteilungswerten in Abhängigkeit von der Erfassung verschiedener Signalmerkmale. So können zum Beispiel die grundlegenden Zuteilungswerte in Abhängigkeit von der Wahrnehmung tonähnlicher Maskierungskomponenten erhöht werden, oder die grundlegenden Zuteilungswerte können in Abhängigkeit von der Feststellung, daß das Eingangssignalspektrum im wesentlichen flach ist, erniedrigt werden.
  • Wie oben erörtert, kann der Adapter 120 auf das Eingangssignal, die von der Filterbank 102 erhaltenen Teil bandsignale, die vom Konverter 112 erhaltenen X-Wörter oder sonstige Informationen von Bedeutung für den jeweiligen Anwendungsfall ansprechen. Bei einem Kodiersystem für ein Telefonfernleitungsnetz kann zum Beispiel der Adapter 120 auf Informationen zum Datum, zur Tageszeit oder zum Wochentag ansprechen, um eine Zuteilungsfunktion bereitzustellen, welche Bitzuteilungen reduziert, wodurch eine Kompensation zwischen geringeren Informationserfordernissen und größerer Wiedergabetreue beim Kodieren in Vorwegnahme vorhergesagter Steigerungen des Verkehrs über das Netzwerk gemacht wird.
  • Bei einem digitalen Videoanzeigesystem kann der Adapter 120 beispielsweise eine Zuteilungs funktion zur Verfügung stellen, die auf die Eingabe seitens einer Bedienungsperson anspricht, wodurch es der Bedienungsperson erlaubt ist, einen Ausgleich zwischen kürzeren Ansprechzeiten für die Anzeige und höheren Bildauflösungen vorzunehmen.
  • Wie diese Beispiele zeigen, kann der Adapter 120 auf jede beliebige Information ansprechen, die in einem bestimmten Anwendungsfall erwünscht ist. Die Wahl dieser Information ist für die praktische Durchführung der vorliegenden Erfindung nicht von kritischer Bedeutung.
  • Es sei darauf hingewiesen, daß die vorliegende Erfindung innerhalb zahlreicher Ausführungsbeispiele praktiziert werden kann, die durch eine große Vielfalt von Techniken verwirklicht werden. Tabellen Table I Abbildung kritischer Bänder Table II Filter-Koeffizienten Table III Zuteilungs-Nachschlagetabelle Table IV Schwelleneinstellung Table V Schwelleneinstellung Table VI Schwelleneinstellung Table VII Schwelleneinstellung

Claims (20)

1. Kodierverfahren zur Schaffung einer kodierten Darstellung eines Eingangssignals zum Dekodieren durch ein Dekodierverfahren, wobei das Kodierverfahren folgendes umfaßt:
Generieren von Teilbandsignalen durch Anwenden einer Vielzahl von Filtern auf das Eingangssignal;
Erzeugen kodierter Information in Abhängigkeit von den Teilbandsignalen, die geringere Informationserfordernisse hat als die Teilbandsignale, wobei die geringeren Informationserfordernisse entsprechend Grundsätzen der Psychowahrnehmung und dadurch erzielt werden, daß durch das Dekodierverfahren eingeführte Spektralverzerrungen berücksichtigt werden, wobei das Berücksichtigen von Spektralverzerrungen folgendes umfaßt:
(a) Festlegen von Zuteilungswerten gemäß einem Psychoperzeptionsmodell,
(b) Festlegen eines Rauschspektrums gemäß den Zuteilungswerten,
(c) Schätzen von Wahrnehmungswirkungen der Dekodier-Spektralverzerrung durch Generieren eines Dekodier-Verzerrungsspektrums in Abhängigkeit von dem Rauschspektrum;
(d) Anpassen des Psychoperzeptionsmodells in Abhängigkeit von den geschätzten Wahrnehmungswirkungen der Dekodier-Spektralverzerrung, und
(e) Wiederholen der Schritte (a) bis (d) nach Bedarf, und Assemblieren der kodierten Information zu der kodierten Darstellung.
2. Kodierverfahren zur Schaffung einer kodierten Darstellung eines Eingangssignals zum Dekodieren durch ein Dekodierverfahren, wobei das Dekodierverfahren folgendes umfaßt:
Generieren von Teilbandsignalen durch Anwenden einer Vielzahl von Filtern auf das Eingangssignal;
Erzeugen kodierter Information in Abhängigkeit von den Teilbandsignalen, die geringere Informationserfordernisse hat als die Teilbandsignale, wobei die geringeren Informationserfordernisse entsprechend Grundsätzen der Psychowahrnehmung und dadurch erzielt werden, daß durch das Dekodierverfahren eingeführte Spektralverzerrungen berücksichtigt werden, wobei das Berücksichtigen von Spektralverzerrungen folgendes umfaßt:
Festlegen von Zuteilungswerten gemäß einem Psychoperzeptionsmodell,
Festlegen eines Rauschspektrums gemäß den Zuteilungswerten,
Schätzen von Wahrnehmungswirkungen der Dekodier-Spektralverzerrung durch Generieren eines Dekodier-Verzerrungsspektrums in Abhängigkeit von dem Rauschspektrum; und
Anpassen der Zuteilungswerte in Abhängigkeit von den geschätzten Wahrnehmungswirkungen der Dekodier-Spektralverzerrung, und
Assemberen der kodierten Information zu der kodierten Darstellung.
3. Kodierverfahren nach Anspruch 1 oder 2 zur Verwendung bei dem Dekodierverfahren welches eine Vielzahl von Synthesefiltern anwendet, wobei das Schätzen von Wahrnehmungswirkungen folgendes umfaßt:
Generieren des Dekodier-Verzerrungsspektrums durch Faltung des Rauschspektrums mit einem jeweiligen Frequenzgang eines jeweiligen der Vielzahl von Synthesefiltern, und Schätzen der Wahrnehmungswirkungen durch Festlegen, welche, wenn irgendwelche, Teile des Dekodier-Verzerrungsspektrums eine Maskierungsschwelle übersteigt.
4. Kodierverfahren nach Anspruch 3, wobei das Anpassen des Psychoperzeptionsmodells und/oder der Zuteilungswerte folgendes umfaßt:
Auswählen von Rauschspektrumkomponenten, die große Beisteuerer zu Teilen des Dekodier-Verzerrungsspektrums sind, welche die Maskierungsschwelle übersteigen, und Erhöhen der Informationserfordernisse kodierter Information entsprechend den ausgewählten Rauschspektrum komponenten.
5. Kodierverfahren nach Anspruch 4, wobei das Auswählen von Rauschspektrumkomponenten folgendes umfaßt:
Gewichten des Rauschspektrums mit einer in der Frequenz umgekehrten Darstellung des jeweiligen Frequenzganges, zentriert um jedes Teilband, in welchem das Dekodier-Verzerrungsspektrum die Maskierungsschwelle übersteigt,
Generieren eines gewichteten Rauschspektrums durch Summieren der Resultate des Gewichtens für jede Rauschspektrumkomponente, und
Auswählen von Rauschspektrumkomponenten entsprechend großen gewichteten Rauschspektrum komponenten.
6. Kodierverfahren nach Anspruch 3, bei dem das Psychoperzeptionsmodell die Maskierungsschwelle umfaßt, bei dem das Anpassen das Psychoperzeptionsmodell anpaßt, um eine Reduzierung der Schwelle zu erzielen, wodurch die Informationserfordernisse der kodierten Information erhöht werden, die Teilen, falls vorhanden, des Dekodier-Verzerrungsspektrums entsprechen, welche die Maskierungsschwelle übersteigen.
7. Kodierverfahren zur Schaffung einer kodierten Darstellung eines Eingangssignals zum Dekodieren durch ein Dekodierverfahren, welches eine Vielzahl von Synthesefiltern anwendet, die jeweilige Frequenzgänge mit einem Abfall haben, wobei das Kodierverfahren folgendes umfaßt:
Generieren von Teilbandsignalen durch Anwenden einer Vielzahl von Filtern auf das Eingangssignal,
Erzeugen kodierter Information in Abhängigkeit von den Teilbandsignalen, die geringere Informationserfordernisse hat als die Teilbandsignale, wobei die geringeren Informationserfordernisse entsprechend Grundsätzen der Psychowahrnehmung und dadurch erzielt werden, daß durch das Dekodierverfahren eingeführte Spektralverzerrungen berücksichtigt werden, wobei das Berücksichtigen von Spektralverzerrungen folgendes umfaßt:
Schätzen einer Spektralhüllkurve des Eingangssignals,
Vergleichen der Spektralhüllkurve mit den jeweiligen Frequenzgängen,
Identifizieren von Teilen der Spektralhüllkurve, die sich mit einer Rate ändern, welche im wesentlichen dem Abfall der jeweiligen Frequenzgänge gleicht oder größer ist, Anpassen eines Psychoperzeptionsmodells, wodurch ausgewählter kodierter Information entsprechend den besagten Teilen der Spektralhüllkurve höhere Informationserfordernisse auferlegt werden, und
Festlegen von Informationserfordernissen der ausgewählten kodierten Information entsprechend dem Psychoperzeptionsmodell und
Assemberen der kodierten Information zu der kodierten Darstellung.
8. Kodierverfahren nach einem der Ansprüche 1 bis 7, bei dem die Vielzahl von Filtern durch eines oder mehrere Digitalfilter verwirklicht wird.
9. Kodierverfahren nach einem der Ansprüche 1 bis 7, bei dem die Vielzahl von Filtern durch eine oder mehrere digitale Transformationen verwirklicht wird.
10. Kodierverfahren nach einem der Ansprüche 1 bis 9, bei dem die Teilbandsignale durch eine erste Anzahl Bits dargestellt werden, und bei dem das Erzeugen die kodierte Information durch Quantisieren der Teilbandsignale unter Verwendung einer zweiten Anzahl adaptiv zugeteilter Bits erzeugt, wobei die zweite Anzahl Bits kleiner ist als die erste Anzahl Bits.
11. Vorrichtung zur Schaffung einer kodierten Darstellung eines Eingangssignals zum Dekodieren durch einen Dekodierer, wobei die Vorrichtung folgendes aufweist:
eine Einrichtung (102) zum Generieren von Teilbandsignalen durch Anwenden einer Vielzahl von Filtern auf das Eingangssignal,
eine Einrichtung zum Erzeugen kodierter Information in Abhängigkeit von den Teilbandsignalen, die geringere Informationserfordernisse hat als die Teilbandsignale, wobei die Einrichtung zum Erzeugen kodierter Information folgendes aufweist:
eine Einrichtung (104) zum Erzielen der niedrigeren Informationserfordernisse entsprechend Grundsätzen der Psychowahrnehmung, und
eine Einrichtung zum Berücksichtigen von durch den Dekodierer eingeführten Spektralverzerrungen mit
(a) einer Einrichtung (110) zum Festlegen von Zuteilungswerten gemäß einem Psychoperzeptionsmodell,
(b) einer Einrichtung (110) zum Festlegen eines Rauschspektrums gemäß den Zuteilungswerten,
(c) einer Einrichtung (110) zum Schätzen von Wahrnehmungswirkungen von Dekodier- Spektralverzerrung durch Generieren eines Dekodier-Verzerrungsspektrums in Abhängigkeit von dem Rauschspektrum,
(d) einer Einrichtung (120) zum Anpassen des Psychoperzeptionsmodells in Abhängigkeit von den geschätzten Wahrnehmungswirkungen der Dekodier-Spektralverzerrung, und
(e) einer Einrichtung zum Wiederholen von (a) bis (d) nach Bedarf, und eine Einrichtung (106) zum Assemblieren der kodierten Information zu der kodierten Darstellung.
12. Vorrichtung zur Schaffung einer kodierten Darstellung eines Eingangssignals zum Dekodieren durch einen Dekodierer, wobei die Vorrichtung folgendes aufweist: eine Einrichtung (102) zum Generieren von Teilbandsignalen durch Anwenden einer Vielzahl von Filtern auf das Eingangssignal,
eine Einrichtung zum Erzeugen kodierter Information in Abhängigkeit von den Teilbandsignalen, die geringere Informationserfordernisse hat als die Teilbandsignale, wobei die Einrichtung zum Erzeugen kodierter Information folgendes aufweist:
eine Einrichtung (104) zum Erzielen der niedrigeren Informationserfordernisse entsprechend Grundsätzen der Psychowahrnehmung, und
eine Einrichtung zum Berücksichtigen von durch den Dekodierer eingeführten Spektralverzerrungen mit
einer Einrichtung (110) zum Festlegen von Zuteilungswerten gemäß einem Psychoperzeptionsmodell,
einer Einrichtung (110) zum Festlegen eines Rauschspektrums gemäß den Zuteilungswerten,
einer Einrichtung (110) zum Schätzen von Wahrnehmungswirkungen von Dekodier-Spektralverzerrung durch Generieren eines Dekodier-Verzerrungsspektrums in Abhängigkeit von dem Rauschspektrum, und
einer Einrichtung (120) zum Anpassen des Psychoperzeptionsmodells in Abhängigkeit von den geschätzten Wahrnehmungswirkungen der Dekodier-Spektralverzerrung, und
eine Einrichtung (106) zum Assemblieren der kodierten Information zu der kodierten Darstellung.
13. Vorrichtung nach Anspruch 11 oder 12 zur Verwendung bei dem Dekodierer, der eine Vielzahl von Synthesefiltern anwendet, wobei die Einrichtung zum Schätzen von Wahrnehmungswirkungen folgendes aufweist:
eine Einrichtung zum Generieren des Dekodier-Verzerrungsspektrums durch Faltung des Rauschspektrums mit einem jeweiligen Frequenzgang eines jeweiligen der Vielzahl von Synthesefiltern, und
eine Einrichtung zum Schätzen der Wahrnehmungswirkungen durch Festlegen, welche, wenn irgendwelche, Teile des Dekodier-Verzerrungsspektrums eine Maskierungsschwelle übersteigt.
14. Vorrichtung nach Anspruch 13, bei der die Einrichtung zum Anpassen folgendes aufweist: eine Einrichtung zum Auswählen von Rauschspektrumkomponenten, die große Beisteuerer zu Teilen des Dekodier-Verzerrungsspektrums sind, welche die Maskierungsschwelle übersteigen, und eine Einrichtung zum Erhöhen von Informationserfordernissen kodierter Information entsprechend den ausgewählten Rauschspektrumkomponenten.
15. Vorrichtung nach Anspruch 14, bei der die Einrichtung zum Auswählen von Rauschspektrumkomponenten folgendes aufweist:
eine Einrichtung zum Gewichten des Rauschspektrums mit einer in der Frequenz umgekehrten Darstellung des jeweiligen Frequenzganges, zentriert um jedes Teuband, in welchem das Dekodier-Verzerrungsspektrum die Maskierungsschwelle übersteigt,
eine Einrichtung zum Generieren eines gewichteten Rauschspektrums durch Summieren der Resultate des Gewichtens für jede Rauschspektrumkomponente, und
eine Einrichtung zum Auswählen von Rauschspektrumkomponenten entsprechend großen gewichteten Rauschspektrumkomponenten.
16. Vorrichtung nach Anspruch 13, bei der das Psychoperzeptionsmodell die Maskierungsschwelle umfaßt, bei der die Einrichtung zum Anpassen das Psychoperzeptionsmodell zum Erzielen einer Reduzierung in der Schwelle anpaßt, wodurch Informationserfordernisse der kodierten Information erhöht werden, die Teilen, falls vorhanden, des Dekodier-Verzerrungsspektrums entsprechen, welche die Maskierungsschwelle übersteigen.
17. Vorrichtung zur Schaffung einer kodierten Darstellung eines Eingangssignals zum Dekodieren durch einen Dekodierer, der eine Vielzahl von Synthesefiltern anwendet, die jeweils Frequenzgänge mit einem Abfall haben, wobei die Vorrichtung folgendes aufweist: eine Einrichtung (102) zum Generieren von Teilbandsignalen durch Anwenden einer Vielzahl von Filtern auf das Eingangssignal,
eine Einrichtung zum Erzeugen kodierter Information in Abhängigkeit von den Teilbandsignalen, die geringere Informationserfordernisse hat als die Teilbandsignale, wobei die Einrichtung zum Erzeugen kodierter Information folgendes aufweist:
eine Einrichtung (104) zum Erzielen der niedrigeren Informationserfordernisse entsprechend Grundsätzen der Psychowahrnehmung, und
eine Einrichtung zum Berücksichtigen von durch den Dekodierer eingeführten Spektralverzerrungen mit
einer Einrichtung (110) zum Schätzen einer Spektralhüll kurve des Eingangssignals,
einer Einrichtung (110) zum Vergleichen der Spektralhüllkurve mit den jeweiligen Frequenzgängen,
einer Einrichtung (110) zum Identifizieren von Teilen der Spektralhüllkurve, die sich mit einer Rate ändern, die dem Abfall der jeweiligen Frequenzgänge im wesentlichen gleicht oder größer ist als dieser,
einer Einrichtung (120) zum Anpassen des Psychoperzeptionsmodells, wodurch ausgewählter kodierter Information entsprechend den besagten Teilen der Spektralhüllkurve höhere Informationserfordernisse auferlegt werden, und
einer Einrichtung (110) zum Festlegen von Informationserfordernissen der ausgewählten kodierten Information gemäß dem Psychoperzeptionsmodell, und eine Einrichtung (106) zum Assemblieren der kodierten Information zu der kodierten Darstellung.
18. Vorrichtung nach einem der Ansprüche 11 bis 17, bei der die Vielzahl von Filtern durch eines oder mehrere Digitalfilter verwirklicht ist.
19. Vorrichtung nach einem der Ansprüche 11 bis 17, bei der die Vielzahl von Filtern durch eine oder mehrere digitale Transformationen verwirklicht ist.
20. Vorrichtung nach einem der Ansprüche 11 bis 19, bei der die Einrichtung zum Generieren die Teilbandsignale mit einer ersten Anzahl Bits darstellt, und bei der die Einrichtung zum Erzeugen die kodierte Information durch Quantisieren der Teilbandsignale unter Verwendung einer zweiten Anzahl adaptiv zugeteilter Bits erzeugt, wobei die zweite Anzahl Bits kleiner ist als die erste Anzahl Bits.
DE69401959T 1993-07-16 1994-07-15 Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und einrichtung mit toleranz für dekoderspektralverzerrungen Expired - Lifetime DE69401959T2 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US9226993A 1993-07-16 1993-07-16
US08/145,975 US5632003A (en) 1993-07-16 1993-11-01 Computationally efficient adaptive bit allocation for coding method and apparatus
US08/190,655 US5623577A (en) 1993-07-16 1994-01-28 Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
PCT/US1994/007976 WO1995002929A1 (en) 1993-07-16 1994-07-15 Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions

Publications (2)

Publication Number Publication Date
DE69401959D1 DE69401959D1 (de) 1997-04-10
DE69401959T2 true DE69401959T2 (de) 1997-07-31

Family

ID=27377179

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69401959T Expired - Lifetime DE69401959T2 (de) 1993-07-16 1994-07-15 Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und einrichtung mit toleranz für dekoderspektralverzerrungen

Country Status (10)

Country Link
EP (1) EP0709006B1 (de)
JP (1) JP3297050B2 (de)
AT (1) ATE149766T1 (de)
AU (1) AU677688B2 (de)
CA (1) CA2165450C (de)
DE (1) DE69401959T2 (de)
DK (1) DK0709006T3 (de)
ES (1) ES2098974T3 (de)
SG (1) SG66294A1 (de)
WO (1) WO1995002929A1 (de)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0722225A3 (de) * 1994-11-17 2000-06-07 Deutsche Thomson-Brandt Gmbh Audiosignalkodierung mittels Kurzzeitspektren und einem psychoakustischen Modell
US6363338B1 (en) * 1999-04-12 2002-03-26 Dolby Laboratories Licensing Corporation Quantization in perceptual audio coders with compensation for synthesis filter noise spreading
CN1288625C (zh) * 2002-01-30 2006-12-06 松下电器产业株式会社 音频编码与解码设备及其方法
US20060025993A1 (en) * 2002-07-08 2006-02-02 Koninklijke Philips Electronics Audio processing
KR100738109B1 (ko) * 2006-04-03 2007-07-12 삼성전자주식회사 입력 신호의 양자화 및 역양자화 방법과 장치, 입력신호의부호화 및 복호화 방법과 장치
CN101425293B (zh) * 2008-09-24 2011-06-08 天津大学 一种高效感知音频比特分配方法
US9378748B2 (en) 2012-11-07 2016-06-28 Dolby Laboratories Licensing Corp. Reduced complexity converter SNR calculation
US10332527B2 (en) 2013-09-05 2019-06-25 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio signal
JP6398607B2 (ja) 2014-10-24 2018-10-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
CN113933590A (zh) * 2020-07-14 2022-01-14 森兰信息科技(上海)有限公司 波的频谱的计算方法、系统、介质及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2906646B2 (ja) * 1990-11-09 1999-06-21 松下電器産業株式会社 音声帯域分割符号化装置
JP4177300B2 (ja) 2004-07-27 2008-11-05 三菱電機株式会社 電子ビーム表面処理方法、および電子ビーム表面処理装置

Also Published As

Publication number Publication date
AU677688B2 (en) 1997-05-01
JP3297050B2 (ja) 2002-07-02
CA2165450C (en) 2005-10-11
DK0709006T3 (da) 1997-09-01
EP0709006B1 (de) 1997-03-05
EP0709006A1 (de) 1996-05-01
ATE149766T1 (de) 1997-03-15
CA2165450A1 (en) 1995-01-26
SG66294A1 (en) 1999-07-20
JPH09500502A (ja) 1997-01-14
AU7335794A (en) 1995-02-13
ES2098974T3 (es) 1997-05-01
WO1995002929A1 (en) 1995-01-26
DE69401959D1 (de) 1997-04-10

Similar Documents

Publication Publication Date Title
DE69401514T2 (de) Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und kodiereinrichtung
DE69401512T2 (de) Hybride adaptive bitzuteilung für audiokoder und -dekoder
EP0290581B1 (de) Verfahren zum übertragen digitalisierter tonsignale
DE69107841T2 (de) Transformationskodierer und -dekodierer mit adaptiver blocklänge, adaptiver transformation und adaptivem fenster für hochwertige tonsignale.
DE69122648T2 (de) Digitale Teilbandkodierungsvorrichtung
DE69401517T2 (de) Teilbandkodierer mit differentiell kodierten skalenfaktoren
DE2818052C2 (de) Quantisierung eines Signals mit einem sich über ein gegebenes Frequenzband erstreckendem Spetkrum
DE69105551T2 (de) Verfahren zur Kodierung und Dekodierung durch orthogonale Transformation.
DE69116476T2 (de) Digitaler Signalverschlüssler
DE69121606T2 (de) Gerät zur Kodierung digitaler Signale
DE60310716T2 (de) System für die audiokodierung mit füllung von spektralen lücken
DE60207061T2 (de) Audiokompression
DE69122306T2 (de) Digitales Teilbandsignalkodiergerät
DE60303689T2 (de) Audiodecodierungsvorrichtung und -verfahren
DE69333394T2 (de) Hochwirksames Kodierverfahren und -gerät
DE69210064T2 (de) Teilbandkodierer und Sender unter Verwendung dieses Kodierers
DE4320990B4 (de) Verfahren zur Redundanzreduktion
DE3710664C2 (de)
EP0414838B1 (de) Verfahren zur übertragung eines signals
EP0978172B1 (de) Verfahren zum verschleiern von fehlern in einem audiodatenstrom
DE69106580T2 (de) Codieranordnung mit einem Unterbandcoder und Sender mit der Codieranordnung.
DE69015105T2 (de) Kompressionseinrichtung für transformiertes, digitales Audiosignal mit adaptiver Quantisierung auf Grund eines psycho-akustischen Kriteriums.
EP0611516B1 (de) Verfahren zur reduzierung von daten bei der übertragung und/oder speicherung digitaler signale mehrerer abhängiger kanäle
DE69217590T2 (de) Verfahren und Einrichtung zur Kodierung eines digitalen Audiosignals
DE69107511T2 (de) Codierverfahren und Codieranordnung mit einem Unterbandcoder und Sender mit der Codieranordnung.

Legal Events

Date Code Title Description
8364 No opposition during term of opposition