DE4492048C2

DE4492048C2 - Vektorquantisierungs-Verfahren

Info

Publication number: DE4492048C2
Application number: DE4492048A
Authority: DE
Inventors: Ira A Gerson; Mark A Jasiuk; Matthew A Hartman
Original assignee: Motorola Inc
Current assignee: BlackBerry Ltd
Priority date: 1993-03-26
Filing date: 1994-03-07
Publication date: 1997-01-02
Anticipated expiration: 2014-03-08
Also published as: SE518319C2; CA2135629C; SE9404086L; SG47025A1; AU6084396A; BR9404725A; GB9802900D0; JP3042886B2; CN1150516C; AU678953B2; US5675702A; DE4492048T1; WO1994023426A1; SE0201109D0; SE0201109L; AU668817B2; FR2706064A1; CN1166019A; US5826224A; FR2706064B1

Description

Die vorliegende Erfindung betrifft ein Vektorquantisierungsverfahren für VSELP-Codierung (Vector-Sum Excited Linear Predictive Coding).

Unter CELP-Codierung (Code Excited Linear Predictive Coding) wird eine Sprachcodierungstechnik ver standen, die zur Erzeugung qualitativ hochwertiger synthe tischer Sprache benutzt wird. Diese Klasse von Sprachcodie rung ist auch als vektorerregte Linear Prediction-Codie rung bekannt, wie sie in vielen Sprachkommunikations- und Sprachsyntheseanwendungen verwendet wird. CELP ist dabei insbesondere für digitale Sprachverschlüsselung und digitale Funktelefonkommunikationssysteme geeignet, bei denen Sprach qualität, Datenraten, Größe und Kosten bedeutende Kriterien sind.

Bei einem CELP-Sprachcodierer werden die Langzeit-(Klangfarbe; pitch) und die Kurzzeit-(formant)Vorhersager (predictors), welche die Charakteristika des Eingangssprachsignals model lieren, in einen Satz zeitlich variabler Filter eingebracht. Insbesondere können Langzeit- und Kurzzeit-Filter verwendet werden. Ein Anregungssignal für die Filter wird aus einem Codebuch mit gespeicherten Innovationssequenzen oder Code vektoren ausgewählt.

Für jeden Sprachframe (Sprachrahmen) wird ein optimales Anregungssignal (excitation signal) gewählt. Der Sprachcodierer fügt einen individuellen Codevektor den Filtern zu, um ein rekonstruier tes Sprachsignal zu erzeugen. Das rekonstruierte Sprachsignal wird mit dem ursprünglichen Eingangssprachsignal verglichen, um dadurch ein Fehlersignal zu erzeugen. Das Fehlersignal wird dann gewichtet, indem es durch einen Spektralrauschbe wertungsfilter (spectral noise weighting filter) geführt wird. Der Spektralrauschbewertungsfilter weist eine Antwort auf, die der menschlichen Hörfähigkeit nachgebildet ist. Das optimale Anregungssignal besteht aus einem ausgewählten Codevektor, wel cher das bewertete Fehlersignal mit minimaler Energie in bezug auf den momentanen Sprachframe erzeugt.

Typischerweise wird LPC (linear predictive coding) verwendet, um die Kurzzeitsignalkorrelation über einen Block von Abtastun gen zu modellieren, wobei dies auch als Kurzzeitfilterung be zeichnet wird. Die Kurzzeitsignalkorrelation stellt die Reso nanzfrequenzen des Sprachtraktes (vocal tract) dar. Die LPC- Koeffizienten bestehen aus einem Satz von Sprachmodellparame tern. Andere Parametersätze können verwendet werden, um das An regungssignal, das dem Kurzzeitvorhersagefilter (short term predictor filter) zugeführt wird, zu charakterisieren. Diese anderen Sprachmodellparameter können beinhalten: LSF (Line Spectral Frequencies), cepstrale Koeffizienten, Reflexionskoef fizienten, Log-Bereichsverhältnisse und Arcussinus.

Ein Sprachcodierer vektorquantisiert typischerweise das Anre gungssignal, um die Anzahl der Bits, die notwendig sind, um das Signal zu charakterisieren, zu reduzieren. Die LPC-Koeffi zienten können in die anderen obengenannten Parametersätze umgewandelt werden, bevor die Quantisierung beginnt. Die Koeffizienten können individuell quantisiert werden (skalare Quantisierung) oder sie können als Satz quantisiert werden (Vektorquantisierung). Die skalare Quantisierung ist nicht so effizient, wie die Vektorquantisierung, jedoch ist die skalare Quantisierung hinsichtlich der Berechnung und der Speicheranforderungen günstiger als die Vektorquantisierung. Die Vektorquantisierung von LPC-Parametern wird bei Anwen dungen verwendet, bei denen die Codierungseffizienz von be sonderer Bedeutung ist.

Multi-Segmentvektorquantisierung kann verwendet werden, um die Codiereffizienz, die Vektorquantisierungssuchkomplexi tät und die Vektorquantisierungsspeicheranforderungen in ein angemessenes Verhältnis zu bringen. Der erste Typ von Multisegmentvektorquantisierung unterteilt einen N_p-Element- LPC-Parametervektor in n-Segmente. Jedes der n-Segmente wird separat vektorquantisiert. Ein zweiter Typ von Multi segmentvektorquantisierung teilt den LPC-Parameter auf n-Vectorcodebücher auf, wobei jedes Vektorcodebuch alle N_p-Vektorelemente aufspannt. Zur Verdeutlichung der Vektor quantisierung sei angenommen, daß N_p = 10 Elemente vorhanden sind und jedes Element durch zwei Bits repräsentiert wird. Herkömmliche Vektorquantisierung würde dazu 2²⁰ Codevektoren mit jeweils 10 Elementen benötigen, um alle möglichen Code vektormöglichkeiten darstellen zu können. Der erste Typ von Multi-Segmentvektorquantisieurung mit zwei Segmenten würde 2¹⁰ + 2¹⁰ Codevektoren mit jeweils fünf Elementen benötigen. Der zweite Typ von Multi-Segmentvektorquantisierung mit zwei Segmenten würde 2¹⁰ + 2¹⁰ Codevektoren mit jeweils fünf Ele menten benötigen. Jedes dieser Verfahren zur Vektorquantisie rung bietet unterschiedliche Vorteile hinsichtlich der Codie rungseffizienz, der Suchkomplexität und hinsichtlich der Speicheranforderungen. Somit wäre es vorteilhaft, wenn ein herkömmlicher Sprachcodierer aufgrund eines Vektorquantisie rungsverfahrens seine Codierungseffizienz vergrößern könnte und sich die Suchkomplexität und die Speicheranforderungen dabei nicht verändern würden.

Aus den US-Patentschriften 4 817 157 und 4 896 361 sind Sprach kodierer unter Verwendung eines Codebuchspeichers für Codevek toren bekannt. Ein Satz von M-Basisvektoren werden zusammen mit Signalcodewörtern verwendet, um das Codebuch von Anregungsvek toren gemäß einer Vektorsummentechnik zu bilden.

Die US-PS 5 119 423 offenbart einen Sprachcodierer, welcher vorangehend gespeicherte Vektoren einer Geräuschquelle verwen det, um synthetische Sprache zu erzeugen. Eine Auswahlschaltung zum Auswählen des Vektors, welcher minimale Verzerrung besitzt, arbeitet mit einer Berechnungsschaltung zur Bildung einer Vek torproduktsumme zusammen, welche an ihrem Eingang das Eingangs sprachsignal empfängt. Die Vektoren der Geräuschquelle werden in einer Vielzahl von Codebüchern anstelle eines einzigen groß formatigen Codebuches gespeichert.

Aufgabe der vorliegenden Erfindung ist es, ein Vektorquantisie rungsverfahren anzugeben, welches eine weniger komplexe Berech nungsschaltung und geringen Speicherbedarf erfordert.

Diese Aufgabe wird von einem Verfahren mit den Schritten des Patentanspruchs 1 gelöst. Bevorzugte Ausführungsformen des Ver fahrens sind Gegenstand mehrerer Unteransprüche.

Im folgenden wird eine bevorzugte Ausführungsform der vor liegenden Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen näher erläutert. Dabei zeigen die Zeichnungen im einzelnen

Fig. 1 zeigt ein Blockschaltbild eines Funkkommunikations systems mit einem Sprachcodierer gemäß der vorliegenden Erfindung;

Fig. 2 zeigt ein Blockschaltbild eines Sprachcodierers gemäß der vorliegenden Erfindung; und

Fig. 3 zeigt eine Arcussinusfunktion, wie sie gemäß der vor liegenden Erfindung eingesetzt wird.

Eine Abwandlung der CELP-Codierung, die als VSELP (Vector- Sum Excited Linear Predictive Coding) bezeichnet wird, stellt eine bevorzugte Ausführungsform für die vorliegende Erfindung dar. VSELP verwendet ein Anregungs-Codebuch mit einer vorge gebenen Struktur, so daß die Berechnungen, die für das Code buch-Suchverfahren benötigt werden, deutlich reduziert werden. Dieser VSELP-Sprachcodierer verwendet einen Einzel- oder Multi segmentvektorquantisierer mit Reflexionskoeffizienten, basie rend auf FLAT (Fixed-Point-Lattice-Technique). Zusätzlich ver wendet dieser Sprachcodierer einen Vorquantisierer, um die Vektorcodebuchsuchkomplexität zu verringern und verwendet wei terhin einen Skalarquantisierer mit hoher Auflösung, um die Größe des Speichers, der benötigt wird, um die Reflexions koeffizentvektorcodebücher zu speichern, zu reduzieren. Dies führt zu einem Vektorquantisierer mit verbesserten Eigenschaf ten und Reflexionskoeffizienten, welcher auch hinsichtlich der Berechnung effizienter arbeitet und geringere Speicheran forderungen stellt.

Fig. 1 zeigt ein Blockschaltbild eines Funkkommunikations systems 100. Das Funkkommunikationssystem 100 enthält zwei Sende/Empfangseinrichtungen 101, 113, welche Sprachdaten über tragen und empfangen. Die zwei Sende/Empfangseinrichtungen 101, 113 können Teil eines Bündelfunksystems (trunked radio system) oder eines Funktelefonkommunikationssystems oder Teil eines anderen Funkkommunikationssystems sein, welches Sprachdaten überträgt und empfängt. Bei dem Übertrager werden die Sprachsignale in ein Mikrofon 108 eingegeben, und der Sprachcodierer wählt die Quantisierungsparameter des Sprach modells aus. Diese Codes für die quantisierten Parameter wer den dann an die andere Sende/Empfangseinrichtung 113 über tragen. Bei der anderen Sende/Empfangseinrichtung 113 werden die übertragenen Codes für die quantisierten Parameter bei 121 empfangen und verwendet, um die Sprache in dem Sprachde coder 123 zu regenerieren. Die regenerierte Sprache wird an den Lautsprecher 124 ausgegeben.

Fig. 2 ist ein Blockschaltbild eines VSELP-Sprachcodierers 200. Ein VSELP-Sprachcodierer 200 verwendet einen empfangenen Code, um zu bestimmen, welcher Anregungsvektor von dem Code buch benutzt werden soll. Der VSELP-Codierer verwendet ein Anregungscodebuch mit 2^M Codevektoren, welches aus M-Basis vektoren konstruiert ist. Wenn v_m(n) als der m-te Basisvektor und u_i(n) als der i-te Codevektor in dem Codebuch definiert wird, so gilt:

wobei 0 i 2^M-1; 0 n N-1 gilt. Mit anderen Worten, wird jeder Codevektor in dem Codebuch als lineare Kombination von M-Basisvektoren konstruiert. Die linearen Kombinationen werden durch die Θ-Parameter definiert. Θ_im ist wie folgt definiert:

Θ_im = +1, falls das Bit m des Codeworts i = 1 ist
Θ_im = -1, falls das Bit in des Codeworts i = 0 ist. Im

Der Codevektor i wird als Summe der M-Basisvektoren konstruiert, wobei das Vorzeichen (plus oder minus) eines jeden Basisvektors durch den Zustand des korrespondierenden Bits in dem Codewort i bestimmt wird. Zu beachten ist, daß für den Fall, daß die Bits in dem Codewort i komplementiert werden, das korrespondie rende Codewort das Negative des Codewortes i darstellt. Daher ist für jeden Codevektor sein negatives Komplement auch ein Codevektor in dem Codebuch. Diese Paare werden als komplemen täre Codevektoren bezeichnet.

Nachdem der geeignete Vektor ausgewählt worden ist, skaliert der Gewinnblock (gain block) 205 den gewählten Vektor durch den Gewinnausdruck γ. Der Ausgang des Gewinnblocks 205 wird einem Satz von linearen Filtern 207 und 209 zugeführt, um N- Abtastungen für die rekonstruierte Sprache zu erhalten. Die Filter enthalten einen Langzeit(pitch)-Filter 207, welcher Abstände (pitches) periodisch in die Anregung einsetzt. Der Ausgang des Langzeitfilters 207 wird dann dem Kurzzeit (oder formant)-Filter 209 zugeführt. Der Kurzzeitfilter 209 addiert die spektrale Hülle zu dem Signal.

Der Langzeitfilter 207 weist einen LTP-Koeffizienten (long term predictor coefficient) auf. Der Langzeitfilter 207 ver sucht, die nächste Ausgabeabtastung aufgrund einer oder meh rerer Abtastungen aus der Vergangenheit vorherzusagen. Wenn nur vorausgegangene Abtastungen in dem Vorhersager (predictor) verwendet werden, so ist der Predictor ein Einzelabgriffpre dictor (single-tap predictor). Typischerweise werden ein bis drei Abgriffe verwendet. Die Übertragungsfunktion für einen Langzeitfilter 207 mit einem Einzelabgriff-Langzeitvorher sager wird durch Formel 1.1 angegeben.

B(z) wird durch die zwei Größen L und β charakterisiert. L wird als Verzögerung (lag) bezeichnet. Für gesprochene Sprache ist L typischerweise die "pitch"-Periode oder ein Vielfaches davon. L kann auch eine nicht ganze Zahl sein. Falls L keine ganze Zahl ist, wird ein FIR-Filter verwendet, um fraktional verzögerte Abtastungen zu erzeugen. β ist der Langzeit(oder "pitch")-Pre dictorkoeffizient.

Der Kurzzeitfilter 209 enthält die Kurzzeitpredictor-Koeffi zienten α₁, durch welche die nächste Ausgabeabtastung von den vorhergehenden N_p-Ausgangsabtastungen vorhergesagt wird. N_p bewegt sich typischerweise zwischen 8 bis 12. in einer typischen Ausführungsform ist N_p gleich 10. Der Kurzzeitfilter 209 ist gleich einem herkömmlichen LPC-Synthesefilter. Die Übertragungsfunktion für den Kurzzeitfilter 209 ist durch 1.2 angegeben.

Der Kurzzeitfilter 209 wird durch die α_i-Parameter charakte risiert, welche die direkten Filterkoeffizienten für den All- Pol-Synthesefilter darstellen. Details hinsichtlich der α_i- Parameter sind weiter unten angegeben. Die verschiedenen Parameter (Code-, Gewinn-, Filter-Parameter) werden nicht alle mit der gleichen Geschwindigkeit an den Synthesizer (Sprach decoder) übertragen. Typischerweise werden die Kurzzeitpara meter weniger oft erneuert als der Code. Die Kurzzeitpara metererneuerungsgeschwindigkeit wird im folgenden als "frame"- Rate bezeichnet, und das Intervall zwischen den Erneuerungen (updates) wird als "frame" bezeichnet. Die Codeerneuerungs rate wird durch die Vectorlänge N bestimmt. Die Codeerneue rungsrate wird als "subframe"-Rate und das Codeerneuerungs intervall als "subframe" bezeichnet. Ein Frame besteht übli cherweise aus einer ganzzahligen Anzahl von Subframes. Die Gewinn- und Langzeit-Parameter können entweder mit der Sub frame-Rate, der Frame-Rate oder einer Rate, die vom Sprachco diererdesign abhängt, erneuert werden.

Die Codebuchsuchprozedur besteht aus dem Ausprobieren eines jeden Codevektors als mögliche Anregung für den CELP-Synthe sizer. Die synthetisierte Sprache s′ (n) wird bei 211 mit der eingegebenen Sprache s(n) verglichen und ein Differenzsignal e_i erzeugt. Das Differenzsignal e_i (n) wird dann durch den Spektralbewertungsfilter W(z) 213 gefiltert (und möglicher weise durch ein weiteres zweites Bewertungsfilter C(z)), um ein bewertetes Fehlersignal e (n) zu erzeugen. Die Leistung für e (n) wird in der Energieberechnungseinheit 215 berech net. Der Codevektor, der die minimale bewertete Fehlerlei stung erzeugt, wird als Codevektor für diesen Subframe ausgewählt. Der Spektralbewertungsfilter 213 dient zum Be werten des Fehlerspektrums, basierend auf Wahrnehmungsüber legungen (perceptual considerations). Dieses Bewertungsfilter 213 ist eine Funktion des Sprachspektrums und kann als α-Para meter des Kurzzeit(spectral)-Filters 209 ausgedrückt werden.

Es gibt zwei Möglichkeiten zum Berechnen des Gewinns γ. Der Gewinn kann vor der Codebuchsuche bestimmt werden, basierend auf Restenergie. Dieser Gewinn würde dann für die Codebuch suche beibehalten werden. Eine andere Möglichkeit besteht darin, den Gewinn für jeden Codevektor während der Codebuch suche zu optimieren. Der Codevektor, welcher den minimalen bewerteten Fehler erzielt, würde ausgewählt werden, und sein entsprechender optimaler Gewinn würde für γ verwendet werden. Die zuletzt angesprochene Möglichkeit erzielt im allgemeinen bessere Ergebnisse, da der Gewinn für jeden Codevektor opti miert ist. Diese Möglichkeit schließt auch mit ein, daß der Gewinnausdruck mit der Subframe-Rate erneuert werden muß. Der optimale Code und Gewinn für diese Technik kann wie folgt berechnet werden:

1. Berechne das bewertete Eingangssignal y(n) für den Sub frame.
2. Berechne d(n), die Null-Eingangsantwort der B(z)- und W(z)- (und C(z)-falls verwendet) -Filter für den Subframe. (Die Nulleingangsantwort ist die Antwort der Filter ohne Eingang; der Abfall der Filterzustände).
3. p(n) = y(n) - d(n) über dem Subframe (0 n N-1).
4. Für jeden Code i
- a. Berechne g_i(n), die Nullzustandsantwort von B(z) und W(z) (und C(z), falls verwendet) für den Codevektor i. (Die Nullzustandsantwort ist der Filterausgang, bei dem die ursprünglichen Filterzustände auf Null gesetzt sind).
- b. Berechne die Kreuzkorrelation zwischen den gefilterten Codevektoren i und p(n)
- c. Berechne die Leistung in dem gefiltertem Codevektor i.
5. Wähle das i, welches maximiert
6. Erneuere die Filterzustände von B(z) und W(z) (und von C(z), falls verwendet) unter Verwendung des gewählten Code wortes und seines korrespondierenden Quantisierungsgewinns. Dies wird gemacht, um die gleichen Filterzustände zu erhalten, die der Synthesizer am Beginn des nächsten Subframes für Schritt 2 aufweisen würde.

Der optimale Gewinn für den Codevektor i wird durch 1.8 ange geben.

Und der gesamte gewichtete Fehler für den Codevektor i unter Verwendung des optimalen Gewinns γi wird durch 1.9 gegeben.

Die Kurzzeitprediktorparameter sind die αi′s des Kurzzeit filters 209 der Fig. 2. Diese stellen Standard-LPC-Direkt formfilterkoeffizienten dar, und es kann jede beliebige An zahl von LPC-Analysetechniken verwendet werden, um diese Koeffizienten zu bestimmen. In einer bevorzugten Ausführungs form wurde ein FLAT (fast fixed point covariance lattice)- Algorithmus verwendet. Der FLAT weist alle Vorteile der Gitter algorithmen auf einschließlich einer garantierten Filterstabi lität, einer Non-Windowed-Analyse und der Fähigkeit zum Quanti sieren der Reflexionskoeffizienten innerhalb der Rekursion. Zu sätzlich ist FLAT numerisch robust und kann auf einen Fest punktprozessor leicht implementiert werden.

Die Kurzzeitprediktorparameter werden von der Eingangssprache berechnet. Es wird keine Vorbewertung verwendet. Die Analyse länge für die Berechnung der Parameter beträgt 170 Abtastun gen (N_A = 170). Die Größe des Prediktors ist 10 (N_p = 10).

Dieser Abschnitt wird die Details des FLAT-Algorithmus be schreiben. Angenommen, die Abtastungen der Eingangssprache, welche in das Analyseintervall fallen, werden repräsentiert durch s(n); 0 n N_A - 1.

Da FLAT ein Gitteralgorithmus ist, kann man diese Technik als Versuch ansehen, ein optimales (das heißt mit minimaler Rest energie) invertiertes Gitterfilter Stufe um Stufe aufzubauen.

Wird b_j (n) als Rückwärtsrest aus der Stufe j des invertierten Gitterfilters (inverse lattice filter) und f_j (n) als Vor wärtsrest aus der Stufe j des inversen Gitterfilters ange sehen, so kann definiert werden:

wobei dies die Autokorrelation von f_j (n) ist;

Die Autokorrelation von b_j (n-1) und:

die Kreuzkorrelation zwischen f_j (n) und b_j (n-1). Sei r_j der Reflexionskoeffizient für die Stufe j des invertier ten Gitters, so gilt:

und

Die Formulierung, die für die Bestimmung von r_j gewählt wurde, kann wie folgt ausgedrückt werden:

Der FLAT-Algorithmus kann nun wie folgt angegeben werden:

1. Berechne zuerst die Covarianz (autocorrelations)-Matrix der Eingangssprache: für 0 i,k NP.
2. F0(i,k) = f(i,k) 0 i,k NP-1 (2.9)
B0(i,k) = f(i+1, k+1) 0 i,k NP-1 (2.10)
C0(i,k) = f(i,k+1) 0 i,k NP-1 (2.11)
3. Setze j = 1
4. Berechne r_j unter Verwendung von (2.7)
5. Falls j = NP ist Ende.
6. Berechne Fj(i,k) 0 i,k NP-j-1 unter Verwendung von (2.4)
Berechne Bj (i,k) 0 i,k NP-j-1 unter Verwendung von (2.5)
Berechne Cj (i,k) 0 i,k NP-j-1 unter Verwendung von (2.6)
7. j = j+1; gehe zu 4.

Vor dem Auflösen der Reflexionskoeffizienten, kann das Φ- Gitter modifiziert werden, indem die Autokorrelations funktionen überstrichen werden (windowing).

Φ′(i,k) = Φ(i,k)w(|i-k|) (2.12)

Das überstreichen der Autokorrelationsfunktion vor der Reflexionskoeffizientenberechnung wird als spektrale Glättung (spectral smoothing) (SST) bezeichnet.

Von den Reflexionskoeffizienten r_j können die Kurzzeit-LPC- Prediktorkoeffizienten α_i berechnet werden.

Ein 28-Bit-Dreisegmentvektorquantisierer der Reflexionskoeffi zienten wird verwendet. Die Segmente des Vektorquantisierers spannen Reflexionskoeffizienten r1-r3, r4-r6 und r7-r10 auf. Die Bitzuweisung für die Vektorquantisierersegmente ergibt sich wie folgt:

Q1 11 Bits
Q2 9 Bits
Q3 8 Bits.

Um die Berechnungskomplexität für eine umfangreiche Vektor quantisierersuche zu vermeiden, wird ein Reflexionskoeffi zientenvektorvorquantisierer für jedes Segment verwendet. Die Vorquantisierergröße für jedes Segment ist folgender maßen:

P1 6 Bits
P2 5 Bits
P3 4 Bits

Bei einem gegebenen Segment wird der Restfehler aufgrund eines jeden Vektors von dem Vorquantisierer berechnet und in einen Zwischenspeicher gespeichert. Diese Liste wird durch sucht, um die vier Vorquantisierervektoren zu identifizieren, welche die geringste Verzerrung aufweisen. Der Index eines jeden ausgewählten Vorquantisierungsvektors wird verwendet, um in die Vektorquantisierungstabelle einen Offset zu berechnen, bei dem ein fortlaufender Untersatz von Quantisierungsvektoren, die mit dem Vorquantisierungsvektor assoziiert sind, beginnt. Die Größe eines jeden Vektorquantisierungsuntersatzes am k-ten Segment ergibt sich wie folgt:

Die vier Untersätze von Quantisierungsvektoren, die mit den ausgewählten Vorquantisierungsvektoren assoziiert sind, werden nach dem Quantisierungsvektor durchsucht, der zu dem geringsten Restfehler führt. Somit werden bei dem ersten Segment 64 Vorquantisierungsvektoren und 128 Quantisierungsvektoren be wertet, bei dem zweiten Segment werden 32 Vorquantisierungs vektoren und 64 Quantisierungsvektoren bewertet, und bei dem dritten Segment werden 16 Vorquantisierungsvektoren und 64 Quantisierungsvektoren bewertet. Die optimalen Reflexionskoef fizienten, die mittels der FLAT-Technik mit der bandbreiten Ex pansion berechnet wurden, wie dies oben beschrieben wurde, wer den in einen Autokorrelationsvektor vor der Vektorquantisierung umgewandelt.

Die Autokorrelationsversion des FLAT-Algorithmus, die als AFLAT bezeichnet wird, wird verwendet, um die Restfehlerenergie für einen Reflexionskoeffizientenvektor zu berechnen, welcher be wertet wird. Wie bei FLAT, weist dieser Algorithmus die Fähig keit auf, teilweise den Reflexionskoeffizientenquantisierungs fehler von vorausgegangenen Gitterstufen zu kompensieren, wenn optimale Reflexionskoeffizienten berechnet werden oder ein Reflexionskoeffizientenvektor von einem Vektorquantisierer bei einem momentanen Segment gewählt wird. Diese Verbesserung kann für Frames mit hoher Reflexionskoeffizientenquantisierungsver zerrung von großem Ausmaß sein. Der AFLAT-Algorithmus in Zu sammenhang mit der Multisegmentvektorquantisierung mit Vor quantisierern wird nun im folgenden beschrieben:
Es muß die Autokorrelationssequenz R(i) von den optimalen Reflexionskoeffizienten über einen Bereich 0 i N_p berechnet werden. Alternativ kann die Autokorrelationssequenz von anderen LPC-Parameterdarstellungen berechnet werden, wie beispielsweise der direkten Form der LPC-Prediktorkoeffizienten α_i oder direkt von der Eingangssprache.

Es werden die Anfangsbedingungen für die AFLAT-Rekursion wie folgt definiert:

Es wird der Vektorquantisierungssegmentindex k initialisiert:

k = 1 (2.16)

Es sei I₁(k) als Index für die erste Gitterstufe in dem k-ten Segment und I_h(k) als Index der letzten Gitterstufe in dem k-ten Segment gewählt. Die Rekursion zum Bewerten des Rest fehlers aus der Gitterstufe I_h(k) am k-ten Segment mit gege benem r ergibt den unten angegebenen Reflexionskoeffizienten vektor von dem Vorquantisierer oder den Reflexionskoeffizien tenvektor von dem Quantisierer.

Initialisiere j, den Index der Gitterstufe, um auf den Anfang des k-ten Segments zu zeigen:

j = I₁(k) (2.17)

Setze die Anfangsbedingungen von Pj-1 und Vj-1 zu:

Berechne die Werte für die Vj und Pj-Gitter wie folgt:

Inkrementiere j:

j = j + 1 (2.22)

Falls j I_h(k), gehe zur Formel (2.20).

Der Restfehler aus der Gitterstufe i_h(k) mit gegebenem Refle xionskoeffizientenvektor r ergibt sich zu:

E_r = (2.23)

Wird die angegebene AFLAT-Rekursion, wie oben erwähnt, verwen det, so wird der Restfehler aufgrund jedes Vektors von dem Vorquantisierer am k-ten Segment bewertet, die vier Unter sätze vom Quantisierungsvektor zum Suchen identifiziert und der Restfehler aufgrund eines jeden Quantisierungsvektors von den ausgewählten vier Untersätzen berechnet. Der Index von r, der den Quantisierungsvektor angibt, welcher E_r über alle Quantisierungsvektoren in den vier Untersätzen minimiert, wird mit Q_k-Bits codiert.

Falls k < 3, müssen die Anfangsbedingungen für die Rekursion am Segment k+1 berechnet werden. Wird j, der Gitterstufenin dex, wie folgt gesetzt:

j = I₁(k) (2.24)

Berechne:

Inkrementiere j,

j = j + 1 (2.27)

falls j i_h(k), gehe zu (2.25).

Inkrementiere k, den Vektorquantisierungssegmentindex:

k = k + 1 (2.28)

Falls k 3, gehe zu (2.17). Andernfalls werden die Indizes für die Reflexionskoeffizientenvektoren für die drei Segmente ausgewählt und die Suche nach dem Reflexionskoeffizientenvek torquantisierer ist beendet.

Um die Speicheranforderungen für den Reflexionskoeffizien tenvektorquantisierer zu minimieren, werden Acht-Bit-Codes für die individuellen Reflexionskoeffizienten in der Vektor quantisierungstabelle gespeichert, anstelle der momentanen Reflexionskoeffizientenwerte. Die Codes werden verwendet, um die Werte der Reflexionskoeffizienten aus einer skalaren Quantisierungstabelle mit 256 Eintragungen herauszufinden. Die Acht-Bit-Codes repräsentieren Reflexionskoeffizienten werte, wie sie durch gleichmäßiges Abtasten einer Arkus sinusfunktion, wie sie in Fig. 3 gezeigt ist, erhalten werden. Die Reflexionskoeffizientenwerte variieren von -1 bis +1. Die nichtlineare Beabstandung der Reflexionskoeffi zienten (X-Achse) stellt eine größere Präzision für die Reflexionskoeffizienten zur Verfügung, wenn die Werte nahe den Extremwerten von +/-1 sind und weisen eine geringere Präzision auf, wenn die Werte nahe bei Null sind. Dies redu ziert die spektrale Verzerrung aufgrund von Skarlarquantisie rern der Reflexionskoeffizienten mit 256 Quantisierungspegeln, im Vergleich zum gleichmäßigen Abtasten der Reflexionskoeffi zienten.

Claims

1. Verfahren zum Vektorquantisieren eines Reflexionskoeffizien tenvektors mit M Elementen, wobei der Reflexionskoeffizientenvektor ein Eingangssprachsignal repräsentiert, mit folgenden Schritten:

a) Segmentieren des Reflexionskoeffizientenvektors in zumindest ein erstes und ein zweites Segment;
b) Bereitstellen eines ersten Feldes aus vorbestimmten Vektoren von Reflexionskoeffizienten, wobei jeder Vektor eine Vielzahl von L Elementen aufweist, wobei L < M ist;
c) Auswählen eines ersten ausgewählten Vektors aus dem ersten Feld von vorbestimmten Vektoren;
d) Berechnen des Restfehlers, der mit dem ersten ausgewählten Vektor korrespondiert;
e) Wiederholen der Schritte c) und d) für jeden Vektor des ersten Feldes;
f) Auswählen eines Vektors aus dem ersten Feld, welcher den ge ringsten Restfehler aufweist, um einen ersten ausgewählten Vek tor zu bilden;
g) Definieren von Anfangsbedingungen für das zweite Segment, in Antwort auf den ersten ausgewählten Vektor;
h) Bereitstellen eines zweiten Feldes von vorbestimmten Vekto ren von Reflexionskoeffizienten, wobei jeder Vektor mehrfache Elemente aufweist; und
i) Wiederholen der Schritte c) bis f) für das zweite Segment unter Verwendung des zweiten Feldes von vorbestimmten Vektoren und Bilden eines zweiten ausgewählten Vektors.

2. Verfahren nach Anspruch 1, gekennzeichnet durch den weiteren Schritt:

j) Kombinieren des ersten ausgewählten Vektors und des zweiten ausgewählten Vektors, um einen quantisierten Reflexionskoeffi zientenvektor zu bilden.

3. Verfahren nach Anspruch 2, gekennzeichnet durch den weiteren Schritt des Initialisierens von ersten Segment-Korrelationen auf der Grundlage von Korrelationen des Eingangssprachsignals und dadurch, daß der Schritt d) den Schritt des Berechnens des Restfehlers umfaßt, welcher dem ersten ausgewählten Vektor und den ersten Segment-Korrelationen entspricht.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß der Schritt des Initialisierens der ersten Segment-Korrelationen den Schritt des Berechnens einer Autokorrelationssequenz umfaßt, welche dem Eingangssprachsignal entspricht.

5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß der Schritt des Definierens der Anfangsbedingungen für das zweite Segment den Schritt des Berechnens einer Auto-Korrelationsse quenz in Antwort auf den ersten ausgewählten Vektor und die ersten Segment-Korrelationen umfaßt.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß der Schritt des Definierens der Anfangsbedingungen für das zweite Segment die Verwendung einer Autokorrelation-Gitter-Rekursions technik umfaßt in Antwort auf die ersten Segment-Korrelationen.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß die Autokorrelation-Gitter-Rekursionstechnik eine Festpunkt-Gitter- Rekursionstechnik umfaßt.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß der Schritt des Berechnens des Restfehlers die Verwendung einer Autokorrelation-Gitter-Rekursionstechnik umfaßt.

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß die Autokorrelation-Gitter-Rekursionstechnik eine Festpunkt-Gitter- Rekursionstechnik umfaßt.

10. Verfahren nach einem der Ansprüche 3 bis 9, dadurch gekenn zeichnet, daß das Verfahren die folgenden weiteren Schritte um faßt:

k) Definieren eines Satzes von dritten Segment-Korrelationen in Antwort auf den zweiten ausgewählten Vektor und die Anfangsbe dingungen für das zweite Segment;
l) Bereitstellen eines dritten Feldes von vorbestimmten Refle xionskoeffizientenvektoren, wobei jeder vorbestimmte Vektor eine Anzahl P von Elementen besitzt, wobei L + K + P M ist;
m) Auswählen eines dritten ausgewählten Vektors aus dem dritten Feld von vorbestimmten Vektoren;
n) Berechnen eines dritten Segmentrestfehlers, welcher dem dritten ausgewählten Vektor und dem Satz von dritten Segment- Korrelationen entspricht;
o) Wiederholen der Schritte m) und n) für jeden vorbestimmten Vektor im dritten Feld; und
p) Auswählen eines Vektors aus dem dritten Feld, welcher den geringsten dritten Segmentrestfehler besitzt, wodurch ein drit ter ausgewählter Vektor gebildet wird,

wobei der Kombinationsschritt das Kombinieren des dritten aus gewählten Vektors mit dem ersten und zweiten ausgewählten Vek tor umfaßt, um den quantisierten Reflexionskoeffizientenvektor zu bilden.

11. Verfahren nach einem der Ansprüche 1 bis 10, dadurch ge kennzeichnet, daß das Bereitstellen des ersten Feldes von vor bestimmten Vektoren das Aufbauen eines ersten Codebuches für Segment-Reflexionskoeffizienten umfaßt und worin das Bereit stellen des zweiten Feldes von vorbestimmten Vektoren den Auf bau eines zweiten Codebuches für Segment-Reflexionskoeffizien tenvektoren umfaßt.