DE19811039A1

DE19811039A1 - Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen

Info

Publication number: DE19811039A1
Application number: DE19811039A
Authority: DE
Inventors: Lin Yin
Original assignee: Nokia Mobile Phones Ltd
Current assignee: Nokia Technologies Oy
Priority date: 1997-03-14
Filing date: 1998-03-13
Publication date: 1998-09-17
Anticipated expiration: 2018-03-14
Also published as: JPH10282999A; CN1195930A; SE9800776L; CN1135721C; WO1998042083A1; JP3391686B2; SE521129C2; JP2003140697A; FR2761801B1; US7194407B2; ES2164414T3; AU6216498A; US6721700B1; GB2323759B; EP0966793B1; SE9800776D0; FR2761801A1; FI971108A; FI971108A0; GB2323759A

Description

Die Erfindung betrifft Verfahren und eine Vorrichtung zum Codieren von Audiosignalen sowie ein Verfahren und eine Vor richtung zum Decodieren derartiger Signale.

Es ist wohlbekannt, daß die Übertragung von Daten in digi taler Form für erhöhte Signal/Rauschsignal(S/R)-Verhältnisse und erhöhte Informationskapazität entlang einem Übertra gungskanal sorgt. Es existiert jedoch dauernd der Wunsch, die Kanalkapazität dadurch weiter zu erhöhen, daß digitale Signale immer stärker komprimiert werden. Hinsichtlich Au diosignalen werden herkömmlich zwei grundlegende Kompressi ons-Grundprinzipien angewandt. Das erste derselben umfaßt das Beseitigen statistischer oder determinierter Redundanzen im Quellensignal, während es das zweite beinhaltet, im Quel lensignal Elemente zu unterdrücken oder zu beseitigen, die insoweit redundant sind, als das menschliche Wahrnehmungs vermögen betroffen ist. In jüngerer Zeit wurde das letztere Prinzip bei Audioanwendungen hoher Qualität vorherrschend, und es beinhaltet typischerweise die Aufteilung eines Audio signals in seine Frequenzkomponenten (manchmal als "Unter bänder" bezeichnet), von denen jede mit einer Datengenauig keit analysiert und quantisiert wird, die so bestimmt ist, daß irrelevante (für den Hörer) Daten entfernt werden. Der ISO(International Standard Organisation)-MPEG(Moving Pic tures Expert Group)-Audiocodierungsstandard sowie andere Audiocodierungsstandards verwenden dieses Prinzip und legen es weiter fest. Jedoch verwendet der MPEG-Standard (und an dere Standards) auch eine Technik, die als "adaptive Vorher sage" bekannt ist, um eine noch weitere Verringerung der Datenrate zu erzielen.

Die Funktion eines Codierers gemäß dem neuen MPEG-2-AAC- Standard ist im einzelnen im internationalen Standardent wurfdokument ISO/IEC DIS 13818-7 beschrieben. Dieser neue MPEG-2-Standard verwendet lineare Vorhersage in Rückwärts richtung mit 672 von 1024 Frequenzkomponenten. Es ist ins Auge gefaßt, daß der neue MPEG-4-Standard ähnliche Erfor dernisse aufweist. Jedoch führt eine derartig große Anzahl von Frequenzkomponenten zu einem großen Berechnungsoverhead aufgrund der Komplexität des Vorhersagealgorithmus, und dies erfordert auch die Verfügbarkeit großer Mengen an Speicher, um die berechneten sowie Zwischenkoeffizienten zu speichern. Es ist wohlbekannt, daß es dann, wenn Einrichtungen dieses Typs für adaptive Vorhersage in Rückwärtsrichtung in der Frequenzdomäne verwendet werden, schwierig ist, die Rechner belastung und die Speichererfordernisse weiter zu verrin gern. Dies, da die Anzahl der Vorhersageeinrichtungen in der Frequenzdomäne so groß ist, daß sogar ein sehr einfacher adaptiver Algorithmus immer noch zu großer Komplexität bei der Berechnung und zu großem Speicherbedarf führt. Während es bekannt ist, dieses Problem unter Verwendung von Einrich tungen zur adaptiven Vorhersage in Vorwärtsrichtung zu ver meiden, wobei eine Aktualisierung im Codierer und eine Über tragung an den Decodierer erfolgt, führt die Verwendung von Einrichtungen zur adaptiven Vorhersage in Vorwärtsrichtung in der Frequenzdomäne in unvermeidlicher Weise zu einer gro ßen Menge an "Neben"-Information, da die Anzahl der Vorher sageeinrichtungen so groß ist.

Der Erfindung liegt die Aufgabe zugrunde, Verfahren und Vor richtungen zum Codieren und Decodieren von Audiosignalen zu schaffen, die ohne komplexe Berechnungsabläufe und großen Speicherbedarf realisierbar sind.

Diese Aufgabe ist hinsichtlich des Codierungsverfahrens durch Anspruch 1, mit abhängigen Ansprüchen 2 und 3, hin sichtlich des Decodierungsverfahrens durch Anspruch 4, hin sichtlich der Codierungsvorrichtung durch Anspruch 5, mit abhängigen Ansprüchen 6 und 7, und hinsichtlich der Decodie rungsvorrichtung durch Anspruch 8 gelöst. Es wird ein Audio signal unter Verwendung von Abweichungssignalen codiert, um Redundanz in jedem von einer Vielzahl von Frequenz-Unterbän dern des Audiosignals zu beseitigen, wobei zusätzlich Lang zeit-Vorhersagekoeffizienten in der Zeitdomäne erzeugt wer den, die es ermöglichen, einen aktuellen Rahmen des Audiosi gnals aus einem oder mehreren früheren Rahmen vorherzusagen.

Beim Codierungsverfahren gemäß Anspruch 1 wird eine Kompres sion eines Audiosignals unter Verwendung einer Einrichtung für adaptive Vorhersage in Vorwärtsrichtung in der Zeitdomä ne vorgenommen. Für jeden Zeitrahmen eines empfangenen Si gnals ist es nur erforderlich, einen einzelnen Satz von Koeffizienten für adaptive Vorhersage in Vorwärtsrichtung zu erzeugen und an den Decodierer zu übertragen. Dies steht im Gegensatz zu bekannten Techniken für adaptive Vorhersage in Vorwärtsrichtung, die die Erzeugung eines Satzes von Vorher sagekoeffizienten für jedes Frequenzunterband jedes Zeitrah mens erfordern. Im Vergleich mit den Vorhersagegewinnen, wie sie durch die Erfindung erzielt werden, ist die Nebeninfor mation der Langzeit-Vorhersageeinrichtung vernachlässigbar.

Bestimmte Ausführungsformen der Erfindung ermöglichen eine Verringerung der Komplexität der Rechenvorgänge und des Speicherbedarfs. Insbesondere besteht im Vergleich mit der Verwendung von adaptiver Vorhersage in Rückwärtsrichtung kein Erfordernis, die Vorhersagekoeffizienten im Decodierer neu zu berechnen. Bestimmte Ausführungsformen der Erfindung können auch schneller auf Signaländerungen als herkömmliche Einrichtungen für adaptive Vorhersage in Rückwärtsrichtung reagieren.

Beim Verfahren gemäß Anspruch 2 wird das quantisierte Audio signal x dadurch erzeugt, daß das vorhergesagte Signal und das quantisierte Abweichungssignal entweder in der Zeitdomä ne oder der Frequenzdomäne aufsummiert werden.

Vorzugsweise wird die Quantisierung der Abweichungssignale gemäß einem psychoakustischen Modell ausgeführt.

Ausführungsformen des erfindungsgemäßen Decodierungsverfah rens sind insbesondere dann anwendbar, wenn nur ein Unter satz aller möglichen quantisierten Abweichungssignale (k) empfangen wird, wobei einige Unterbanddaten direkt durch die Übertragung der Audiounterbandsignale X(k) übertragen wer den. Die Signale (k) und X(k) werden geeignet kombiniert, bevor die Frequenz-Zeit-Transformation ausgeführt wird.

Für ein besseres Verständnis der Erfindung und um zu veran schaulichen, wie dieselbe realisierbar ist, wird nun bei spielhaft auf die beigefügten Zeichnungen Bezug genommen.

Fig. 1 zeigt schematisch einen Codierer zum Codieren eines empfangenen Audiosignals;

Fig. 2 zeigt schematisch einen Codierer zum Decodieren eines mit dem Codierer von Fig. 1 codierten Audiosignals;

Fig. 3 zeigt den Codierer von Fig. 1 einschließlich eines Vorhersagewerkzeugs des Codierers mit größeren Einzelheiten;

Fig. 4 zeigt den Codierer von Fig. 2 einschließlich eines Vorhersagewerkzeugs des Codierers mit größeren Einzelheiten; und

Fig. 5 zeigt im einzelnen eine Modifizierung des Codierers von Fig. 1, wobei ein alternatives Vorhersagewerkzeug ver wendet ist.

In Fig. 1 ist ein Blockdiagramm eines Codierers dargestellt, der eine Codierungsfunktion ausübt, die allgemein gemäß dem MPEG-2-AAC-Standard definiert ist. Das Eingangssignal des Codierers ist ein abgetastetes, einphasiges Signal x, dessen Abtastpunkte in Zeitrahmen oder Blöcke von 2N Punkten grup piert sind, d. h.:

x_m = (x_m(0),x_m(1), . . .,x_m(2N-1))^T (1)

wobei m der Blockindex ist und T einen Transponiervorgang bezeichnet. Die Gruppierung der Abtastpunkte wird durch ein Filterbank-Werkzeug 1 ausgeführt, das auch eine modifizier te, diskrete Cosinustransformation (MDCT) an jedem indivi duellen Rahmen des Audiosignals ausführt, um einen Satz von Frequenzunterband-Koeffizienten zu erzeugen:

X_m = (X_m(0),X_m(1), . . .,X_m(N-1))^T (2)

Die Unterbänder sind im MPEG-Standard definiert. Die MDCT in Vorwärtsrichtung ist wie folgt definiert:

wobei f(i) das Analyse-Synthese-Fenster ist, bei dem es sich um ein symmetrisches Fenster handelt, so daß ein Additi ons-Überlappungs-Effekt die Einheitsverstärkung für das Si gnal erzeugt.

Die Frequenzunterband-Signale X(k) werden ihrerseits an einem Vorhersagewerkzeug 2 (das unten detaillierter be schrieben wird) gegeben, das versucht, Langzeitredundanz in jedem der Unterbandsignale zu beseitigen. Das Ergebnis ist ein Satz von Frequenzunterband-Abweichungssignalen:

E_m(k)=(E_m(0),E_m(1), . . .,E_m(N-1))^T (4)

die Langzeitänderungen in jeweiligen Unterbändern anzeigen, sowie ein Satz von Koeffizienten A für adaptive Vorhersage in Vorwärtsrichtung für jeden Rahmen.

Die Unterband-Abweichungssignale E(k) werden an eine Quanti sierungseinrichtung 3 gegeben, die jedes Signal mit einer Anzahl von Bits quantisiert, die durch ein psychoakustisches Modell bestimmt ist. Dieses Modell wird durch eine Steuerung 4 angewandt. Wie erörtert, wird ein psychoakustisches Modell zum Nachbilden des maskierenden Verhaltens des menschlichen Hörsystems verwendet. Die quantisierten Abweichungssignale (k) und die Vorhersagekoeffizienten A werden dann in einem Bitstrommultiplexer 5 zur Übertragung über einen Übertra gungskanal 6 kombiniert.

Fig. 2 zeigt die allgemeine Anordnung eines Decodierers zum Decodieren eines mit dem Codierer von Fig. 1 codierten Au diosignals. Ein Bitstrom-Demultiplexer 7 trennt zunächst die Vorhersagekoeffizienten A von den quantisierten Abweichungs signalen (k) ab, und er teilt die Abweichungssignale in die gesonderten Unterbandsignale auf. Die Vorhersagekoeffizien ten A und die quantisierten Abweichungs-Unterbandsignale (k) werden an ein Vorhersagewerkzeug 8 geliefert, das den im Codierer ausgeführten Vorhersageprozeß umkehrt, d. h., daß das Vorhersagewerkzeug die im Codierer herausgenommene Redundanz wieder einführt, um rekonstruierte quantisierte Unterbandsignale (k) zu erzeugen. Ein Filterbank-Werkzeug 9 gewinnt dann das Signal in der Zeitdomäne durch inverse Transformation hinsichtlich der empfangenen Version (k) wieder, was wie folgt beschrieben ist:

wobei _k(i), i = 0, . . . 2N-1 die Invers-Transformierte von ist:

was eine Annäherung an das ursprüngliche Audiosignal x dar stellt.

Fig. 3 veranschaulicht das Vorhersageverfahren des Codierers von Fig. 1 in detaillierterer Weise. Unter Verwendung der quantisierten Frequenzunterband-Abweichungssignale (k) wird durch eine Signalverarbeitungseinheit 10 ein Satz quanti sierter Frequenzunterband-Signale X(k) erzeugt. Diese Signa le X(k) werden ihrerseits an eine Filterbank 11 gegeben, die an den Signalen eine inverse, modifizierte, diskrete Cosi nustransformation (IMDCT) ausführt, um ein quantisiertes Signal x in der Zeitdomäne zu erzeugen. Dieses Signal x wird dann an ein Werkzeug 12 für Langzeitvorhersage gegeben, das auch das Audioeingangssignal x empfängt. Dieses Vorhersage werkzeug 12 verwendet eine Langzeit(LT)-Vorhersageeinrich tung zum Entfernen der Redundanz im Audiosignal, wie sie im aktuellen Rahmen m+1 vorliegt, auf Grundlage der zuvor quan tisierten Daten. Die Übertragungsfunktion P dieser Vorhersa geeinrichtung ist die folgende:

wobei α eine Langzeitverzögerung im Bereich von 1 bis 1024 Abtastwerten repräsentiert und b_k Vorhersagekoeffizienten sind. Für m₁ = m₂ = 0 entspricht die Vorhersageeinrichtung einer Stufe, während sie für m₁ = m₂ = 1 drei Stufen ent spricht.

Die Parameter α und b_k werden durch Minimieren der mittleren quadratischen Abweichung nach der LT-Vorhersage über eine Periode von 2N Abtastwerten bestimmt. Für eine Vorhersage einrichtung mit einer Stufe ist der LT-Vorhersagerest r(i) wie folgt gegeben:

wobei x das Audiosignal in der Zeitdomäne ist und das quantisierte Signal in der Zeitdomäne ist. Der mittlere quadratische Rest R ist wie folgt gegeben:

Wenn ∂R/∂b = 0 gesetzt wird, ergibt sich:

und wenn b in die Gleichung (7) eingesetzt wird, ergibt sich:

Ein Minimieren von R bedeutet ein Maximieren des zweiten Terms auf der rechten Seite der Gleichung (9). Dieser Term wird für alle möglichen Werte von α über seinen spezifizier ten Bereich berechnet, und es wird derjenige Wert von α ge wählt, der diesen Term maximiert. Die Energie im Nenner der Gleichung (9), die mit Ω bezeichnet wird, kann leicht aus der Verzögerung (α-1) auf α aktualisiert werden, anstatt daß eine neue Berechnung erfolgt, wenn folgendes verwendet wird:

Wenn eine LT-Vorhersageeinrichtung mit einer Stufe verwendet wird, wird die Gleichung (8) dazu verwendet, den Vorhersage koeffizienten b_j zu berechnen. Für eine Vorhersageeinrich tung mit j Stufen wird zunächst die LT-Vorhersageverzögerung αdadurch bestimmt, daß der zweite Term der Gleichung (9) maximiert wird, und dann wird ein Satz von j×j Gleichungen gelöst, um die j Vorhersagekoeffizienten zu berechnen.

Die LT-Vorhersageparameter A sind die Verzögerung α und der Vorhersagekoeffizient b_j. Die Verzögerung wird abhängig vom verwendeten Bereich mit 9 bis 11 Bits quantisiert. Am üb lichsten werden 10 Bits verwendet, mit 1024 möglichen Werten im Bereich von 1 bis 1024. Um die Anzahl der Bits zu verrin gern, können die LT-Vorhersageverzögerungen in geradzahligen Rahmen mit 5 Bits delta-codiert werden. Versuche zeigen, daß es ausreichend ist, den Gewinn mit 3 bis 6 Bits zu quantisieren. Aufgrund der ungleichförmigen Verteilung des Gewinns muß eine ungleichförmige Quantisierung verwendet werden.

Beim obenbeschriebenen Verfahren ist nicht immer die Stabi lität des LT-Synthesefilters 1/P(z) garantiert. Für eine Vorhersageeinrichtung mit einer Stufe ist die Stabilitätsbe dingung |b| ≦ 1. Daher kann Stabilisierung leicht ausgeführt werden, wenn immer dann |b| = 1 eingestellt wird, wenn |b| ≦ 1 vorliegt. Bei einer Vorhersageeinrichtung mit drei Stufen kann ein anderer Stabilisierungsablauf verwendet wer den, wie er von R. P. Ramachandran und P. Kabel in "Stabili ty and performance analysis of pitch filters in speech co ders", IEEE Trans. ASSP, Vol. 35, No. 7, S. 937-946, Juli 1987 beschrieben ist. Jedoch ist die Instabilität des LT-Synthesefilters nicht allzu schädlich hinsichtlich der Qua lität des wiederhergestellten Signals. Ein instabiles Filter dauert für einige wenige Rahmen an (was die Energie erhöht), jedoch werden schließlich stabile Perioden angetroffen, so daß das Ausgangssignal nicht dauernd mit der Zeit ansteigt.

Nachdem die Koeffizienten der LT-Vorhersageeinrichtung be stimmt sind, kann das vorhergesagte Signal für den Rahmen (m+1) bestimmt werden:

Dann wird das vorhergesagte Signal in der Zeitdomäne an eine Filterbank 13 gegeben, die eine MDCT am Signal aus führt, um vorhergesagte spektrale Koeffizienten _m+1(k) für den Rahmen (m+1) zu erzeugen. Die vorhergesagten spektralen Koeffizienten (k) werden dann in einem Subtrahierer 14 von den spektralen Koeffizienten X(k) subtrahiert.

Um sicherzustellen, daß eine Vorhersage nur dann verwendet wird, wenn sie zu einem Codierungsgewinn führt, ist eine ge eignete Steuerung für die Vorhersageeinrichtung erforder lich, und es muß eine kleine Menge an Steuerungsinformat ion für die Vorhersageeinrichtung an den Decodierer über tragen werden. Diese Funktion wird im Subtrahierer 14 ausge führt. Das Steuerungsschema für die Vorhersageeinrichtung ist dasselbe wie dasjenige für eine Vorrichtung für adaptive Vorhersage in Rückwärtsrichtung, wie es gemäß MPEG-2-Advanc ed Audio Coding (AAC) verwendet wurde. Die Steuerungsinfor mation für die Vorhersageeinrichtung für jeden Rahmen, wie sie als Nebeninformation übertragen wird, wird in zwei Schritten bestimmt. Als erstes wird für jedes Skalierungs faktorband bestimmt, ob eine Vorhersage zu einem Codierungs gewinn führt oder nicht, und falls ein Gewinn erzielt wird, wird das Bit predictor_used für dieses Skalierungsfaktorband auf Eins gesetzt. Nachdem dies für alle Skalierungsfaktor bänder erfolgte, wird ermittelt, ob der Gesamtcodierungsge winn durch Vorhersage in diesem Rahmen zumindest den zusätz lichen Bitbedarf für die Nebeninformation für die Vorhersa geeinrichtung kompensiert. Falls ja, wird das Bit predictor data_present auf Eins gesetzt, und es wird die vollständige Nebeninformation einschließlich derjenigen, die zum Rückset zen der Vorhersageeinrichtung erforderlich ist, übertragen, und der Wert der Vorhersageabweichung wird an den Quantisie rer geliefert. Andernfalls wird das Bit predictor_data_pre sent auf Null gesetzt, und die Bits prediction_used werden alle auf Null rückgesetzt und nicht übertragen. In diesem Fall wird der Spektralkomponentenwert an den Quantisierer 3 geliefert. Wie oben beschrieben, arbeitet die Steuerung für die Vorhersageeinrichtung als erstes für alle Vorhersageein richtungen für ein Skalierungsfaktorband, worauf ein zweiter Schritt über alle Skalierungsfaktorbänder folgt.

Es ist ersichtlich, daß es das Ziel der LT-Vorhersage ist, den größten Gesamtvorhersagegewinn zu erzielen. Mit G₁ sei der Vorhersagegewinn im Frequenzunterband 1 bezeichnet. Der Gesamtvorhersagegewinn in einem vorgegebenen Rahmen kann dann wie folgt berechnet werden:

Wenn der Gewinn den zusätzlichen Bitbedarf für die Informa tion auf der Seite der Vorhersageeinrichtung kompensiert, d. h., wenn G < T (dB) gilt, wird die vollständige Nebenin formation übertragen, und es werden die Vorhersageeinrich tungen eingeschaltet, die positive Gewinne erzeugen. Andern falls werden die Vorhersageeinrichtungen nicht verwendet.

Die durch das vorstehend dargelegte Verfahren erhaltenen LP- Parameter stehen nicht in direktem Zusammenhang mit einer Gewinnmaximierung. Wenn jedoch der Gewinn für jeden Block und für jede Verzögerung innerhalb des ausgewählten Bereichs (1 bis 1024 bei diesem Beispiel) berechnet wird, und wenn diejenige Verzögerung ausgewählt wird, die den größten Ge samtvorhersagegewinn erzeugt, ist der Vorhersageprozeß op timiert. Die ausgewählte Verzögerung α und die entsprechen den Koeffizienten b werden als Nebeninformation mit den quantisierten Abweichungs-Unterbandsignalen übertragen. Wäh rend die Komplexität der Berechnung seitens des Codierers erhöht ist, ergibt sich am Decodierer keine Erhöhung der Komplexität.

Fig. 4 zeigt den Decodierer von Fig. 2 mit mehr Einzelhei ten. Das codierte Audiosignal wird durch den Bitstrom-Demul tiplexer 7 vom Übertragungskanal 6 empfangen, wie oben be schrieben. Der Bitstrom-Demultiplexer 7 trennt die Vorhersa gekoeffizienten A und die quantisierten Abweichungssignale (k), und er liefert diese an das Vorhersagewerkzeug 8. Die ses Werkzeug umfaßt eine Kombiniereinrichtung 24, die die quantisierten Abweichungssignale (k) und ein vorhergesagtes Audiosignal (k) in der Frequenzdomäne kombiniert, um ein wiederhergestelltes Audiosignal (k) ebenfalls in der Fre quenzdomäne zu erzeugen. Die Filterbank 9 setzt das wieder hergestellte Signal (k) aus der Frequenzdomäne in die Zeit domäne um, um ein wiederhergestelltes Audiosignal in der Zeitdomäne zu erzeugen. Dieses Signal wird seinerseits an ein Langzeit-Vorhersagewerkzeug rückgeführt, das ebenfalls die Vorhersagekoeffizienten A empfängt. Dieses Langzeit-Vor hersagewerkzeug 26 erzeugt einen vorhergesagten, aktuellen Zeitrahmen aus dem zuvor wiederhergestellten Zeitrahmen un ter Verwendung der Vorhersagekoeffizienten für den aktuellen Rahmen. Eine Filterbank 25 transformiert das vorhergesagte Signal .

Es ist ersichtlich, daß die vom Codierer übertragene Steue rungsinformation für die Vorhersageeinrichtung seitens des Decodierers dazu verwendet werden kann, den Decodierungsvor gang zu steuern. Insbesondere können in der Kombinierein richtung 24 die Bits predictor_used dazu verwendet werden, zu ermitteln, ob in irgendeinem vorgegebenen Frequenzband Vorhersage verwendet wurde oder nicht.

In Fig. 5 ist eine alternative Realisierung des Audiosignal codierers von Fig. 1 dargestellt, bei der das zu codierende Audiosignal durch einen Komparator 15 mit dem vorhergesagten Signal in der Zeitdomäne verglichen wird, um ein Abwei chungssignal e ebenfalls in der Zeitdomäne zu erzeugen. Ein Filterbank-Werkzeug 16 setzt dann das Abweichungssignal von der Zeitdomäne in die Frequenzdomäne um, um einen Satz von Frequenzunterband-Abweichungssignalen E(k) zu erzeugen. Die se Signale werden dann durch eine Quantisierungseinrichtung 17 quantisiert, um einen Satz quantisierter Abweichungssi gnale (k) zu erzeugen.

Dann wird eine zweite Filterbank 18 dazu verwendet, die quantisierten Abweichungssignale (k) wieder in die Zeitdo mäne zurückzutransformieren, was zu einem Signal führt. Dieses in der Zeitdomäne quantisierte Abweichungssignal wird dann in einer Signalverarbeitungseinheit 19 mit dem vorhergesagten Audiosignal in der Zeitdomäne kombiniert, um ein quantisiertes Audiosignal zu erzeugen. Ein Vorher sagewerkzeug 20 führt dieselbe Funktion wie das Werkzeug 12 des Codierers von Fig. 3 aus, nämlich die Erzeugung des vor hergesagten Audiosignals und des Vorhersagekoeffizienten A. Die Vorhersagekoeffizienten und die quantisierten Abwei chungssignale werden in einem Bitstrommultiplexer 21 zur Übertragung über den Übertragungskanal 22 kombiniert. Wie oben beschrieben, werden die Abweichungssignale durch eine Steuerung 23 gemäß einem psychoakustischen Modell quanti siert.

Die obenbeschriebenen Audiosignal-Codierungsalgorithmen er möglichen die Kompression von Audiosignalen bei niedrigen Bitraten. Die Technik beruht auf Langzeit(LT)-Vorhersage. Im Vergleich mit bekannten Techniken für adaptive Vorhersage in Rückwärtsrichtung liefern die hier beschriebenen Techniken höhere Vorhersagegewinne für Musiksignale von Einzelinstru menten und für Sprachsignale, während sie nur geringe Kom plexität der Rechenvorgänge erfordern.

Claims

1. Verfahren zum Codieren eines Audiosignals, gekennzeich net durch die folgenden Schritte:

- Empfangen eines zu codierenden Audiosignals;
- Erzeugen eines quantisierten Audiosignals aus dem emp fangenen Audiosignal x;
- Erzeugen eines Satzes von Langzeitvorhersage-Koeffizienten A, die dazu verwendet werden können, einen aktuellen Zeit rahmen des empfangenen Audiosignals unmittelbar aus mindes tens einem vorigen Zeitrahmen des quantisierten Audiosignals vorherzusagen;
- Verwenden der Vorhersagekoeffizienten A zum Erzeugen eines vorhergesagten Audiosignals ;
- Vergleichen des empfangenen Audiosignals x mit dem vorher gesagten Audiosignal und Erzeugen eines Abweichungssignals E(k) für jedes von mehreren Frequenzunterbändern;
- Quantisieren der Abweichungssignale (k) zum Erzeugen eines Satzes quantisierter Abweichungssignale (k); und
- Kombinieren der quantisierten Abweichungssignale E(k) und der Vorhersagekomponenten A zum Erzeugen eines codierten Audiosignals.

2. Verfahren nach Anspruch 1, gekennzeichnet durch:

- Transformieren des im Rahmen x_m empfangenen Audiosignals x aus der Zeitdomäne in die Frequenzdomäne, um einen Satz von Frequenzunterband-Signalen X(k) zu erzeugen; und
- Transformieren des vorhergesagten Audiosignals aus der Zeitdomäne in die Frequenzdomäne, um einen Satz vorhergesag ter Frequenzunterband-Signale (k) zu erzeugen;
- wobei der Vergleich zwischen dem empfangenen Audiosignal x und dem vorhergesagten Audiosignal in der Frequenzdomäne ausgeführt wird und die jeweiligen Unterbandsignale mitein ander verglichen werden, um die Frequenzunterband-Abwei chungssignale E(k) zu erzeugen.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Vergleich zwischen dem empfangenen Audiosignal x und dem vorhergesagten Audiosignal in der Zeitdomäne ausgeführt wird, um ein Abweichungssignal e ebenfalls in der Zeitdomäne zu erzeugen, und das Abweichungssignal e aus der Zeit- in die Frequenzdomäne umgesetzt wird, um die mehreren Frequenz unterband-Abweichungssignale E(k) zu erzeugen.

4. Verfahren zum Decodieren eines codierten Audiosignals, gekennzeichnet durch die folgenden Schritte:

- Empfangen eines codierten Audiosignals, das ein quanti siertes Abweichungssignal (k) für jedes einer Vielzahl von Frequenzunterbändern des Audiosignals sowie, für jeden Zeit rahmen des Audiosignals, einen Satz von Vorhersagekoeffi zienten A enthält, die dazu verwendet werden können, einen aktuellen Zeitrahmen x_m des empfangenen Audiosignals unmit telbar aus mindestens einem vorigen Zeitrahmen eines wieder hergestellten, quantisierten Audiosignals vorherzusagen;
- Erzeugen des wiederhergestellten, quantisierten Audiosi gnals x aus den quantisierten Abweichungssignalen E(k);
- Verwenden der Vorhersagekoeffizienten A und des quanti sierten Audiosignals zum Erzeugen eines vorhergesagten Audiosignals ;
- Transformieren des vorhergesagten Audiosignals aus der Zeitdomäne in die Frequenzdomäne, um einen Satz vorhergesag ter Frequenzunterband-Signale (k) für Kombination mit den quantisierten Abweichungssignalen (k) zu erzeugen, um einen Satz wiederhergestellter Frequenzunterband-Signale (k) zu erzeugen; und
- Ausführen einer Transformation von der Frequenz- in die Zeitdomäne an den wiederhergestellten Frequenzunterband-Si gnalen (k), um das wiederhergestellte, quantisierte Audio signal zu erzeugen.

5. Vorrichtung zum Codieren eines Audiosignals, gekenn zeichnet durch:

- einen Eingang zum Empfangen eines zu codierenden Audiosi gnals;
- eine Verarbeitungseinrichtung (2, 3; 15-19), die mit dem Eingang verbunden ist, um aus dem empfangenen Audiosignal x ein quantisiertes Audiosignal zu erzeugen;
- eine Vorhersageeinrichtung (12; 19), die mit der Verarbei tungseinrichtung (3) verbunden ist, um einen Satz von Lang zeitvorhersage-Koeffizienten A zu erzeugen, die dazu verwen det werden können, einen aktuellen Zeitrahmen des empfange nen Audiosignals unmittelbar aus mindestens einem vorigen Zeitrahmen des quantisierten Audiosignals vorherzusagen;
- eine Erzeugungseinrichtung (10-14; 20, 15) zum Erzeugen eines vorhergesagten Audiosignals unter Verwendung der Vorhersagekoeffizienten A und zum Vergleichen des empfange nen Audiosignals x mit dem vorhergesagten Audiosignal und Erzeugen eines Abweichungssignals E(k) für jedes von mehre ren Frequenzunterbändern;
- eine Quantisierungseinrichtung (3; 17) zum Quantisieren der Abweichungssignale E(k) zum Erzeugen eines Satzes quan tisierter Abweichungssignale (k); und
- eine Kombiniereinrichtung (5; 21) zum Kombinieren der quantisierten Abweichungssignale (k) und der Vorhersagekom ponenten A zum Erzeugen eines codierten Audiosignals.

6. Vorrichtung nach Anspruch 5, dadurch gekennzeichnet, daß die Erzeugungseinrichtung eine erste Transformations einrichtung (11) zum Transformieren des empfangenen Audiosi gnals x aus der Zeitdomäne in die Frequenzdomäne sowie eine zweite Transformationseinrichtung (13) zum Transformieren des vorhergesagten Audiosignals aus der Zeit- in die Fre quenzdomäne sowie eine Vergleichseinrichtung (14) aufweist, die so ausgebildet ist, daß sie die sich ergebenden Signale in der Frequenzdomäne innerhalb der Frequenzdomäne ver gleicht.

7. Vorrichtung nach Anspruch 6, dadurch gekennzeichnet, daß die Erzeugungseinrichtung so ausgebildet ist, daß sie das empfangene Audiosignal x und das vorhergesagte Audiosi gnal in der Zeitdomäne vergleicht.

8. Vorrichtung zum Decodieren eines codierten Audiosignals x, das ein quantisiertes Abweichungssignal (k) für jedes einer Vielzahl von Frequenzunterbändern des Audiosignals sowie, für jeden Zeitrahmen des Audiosignals, einen Satz von Vorhersagekoeffizienten A enthält, die dazu verwendet werden können, einen aktuellen Zeitrahmen x_m des empfangenen Audio signals unmittelbar aus mindestens einem vorigen Zeitrahmen eines wiederhergestellten, quantisierten Audiosignals vor herzusagen; gekennzeichnet durch:

- einen Eingang zum Empfangen des codierten Audiosignals;
- eine Erzeugungseinrichtung (24, 25, 9) zum Erzeugen des wiederhergestellten, quantisierten Audiosignals aus den quantisierten Abweichungssignalen (k);
- eine Signalverarbeitungseinrichtung (26) zum Erzeugen eines vorhergesagten Audiosignals aus den Vorhersagekoeffi zienten A und dem wiederhergestellten Audiosignal ;
- wobei die Erzeugungseinrichtung eine erste Transformati onseinrichtung (25) zum Transformieren des vorhergesagten Audiosignals aus der Zeitdomäne in die Frequenzdomäne zum Erzeugen eines Satzes vorhergesagter Frequenzunterband-Si gnale (k), eine Kombiniereinrichtung (24) zum Kombinieren des Satzes vorhergesagter Frequenzunterband-Signale X(k) mit den quantisierten Abweichungssignalen (k) zum Erzeugen ei nes Satzes wiederhergestellter Frequenzunterband-Signale (k) sowie eine zweite Transformationseinrichtung (9) zum Ausführen einer Transformation von der Frequenz- in die Zeitdomäne hinsichtlich der wiederhergestellten Frequenzun terband-Signale (k) zum Erzeugen des wiederhergestellten, quantisierten Audiosignals aufweist.