DE69029232T2

DE69029232T2 - System und Methode zur Sprachkodierung

Info

Publication number: DE69029232T2
Application number: DE69029232T
Authority: DE
Inventors: Patrick William Elliott; Timothy James Moulsley
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1989-08-16
Filing date: 1990-08-10
Publication date: 1997-04-30
Anticipated expiration: 2010-08-11
Also published as: CA2023167A1; FI903990A0; HUT58157A; US5140638A; CA2023167C; JPH0395600A; GB2235354A; KR100275054B1; AU6100090A; BR9003987A; EP0413391A3; EP0413391B1; KR910005589A; AU648479B2; GB8918677D0; EP0413391A2; JP3392412B2; HU904991D0; US5140638B1; DE69029232D1

Description

Die Erfindung bezieht sich auf ein Sprachcodierungssystem und auf ein Verfahren zur Sprachcodierung und insbesondere auf einen codegesteuerten Sprachcodierer, der Anwendung findet in digitalisierten Sprachübertragungssystemen.
Beim Übertragen digitalisierter Sprache ist ein dabei auftretendes Problem, wie über einen bandbreitenbegrenzten Kommunikationskanal Sprache hoher Qualität erhalten werden kann. In jüngster Zeit ist eine vielversprechende Annäherung dieses Problems eine "Code-Excited Linear Prediction" (CELP), die imstande ist, synthetische Sprache hoher Qualität mit miedriger Bitrate zu schaffen. Fig. 1 der Zeichnung ist ein Blockschaltbild eines Vorschlags zum Implementieren von CELP und ist beispielsweise in einem Artikel "Fast CELP Coding Based on Algebraic Codes" von J-P Adoul, P. Mabilleau, M. Delprat und S. Morisette erschienen und bei der "International Conference on Acoustics Speech and Signal Processing (ICASSP)", 1987 vorgelesen und ist veröffentlicht worden auf den Seiten 1957 bis 1960 von ICASSP87. Zusammenfassend ist CELP eine Sprachcodierungstechnik, die daraus besteht, daß ein Restsignal durch eine optimale zeitliche Wellenform eines Codebuches in bezug auf subjektive Fehlerkriterien dargestellt wird. Insbesondere wird eine Codebuch-Folge ck selektiert, welche die Energie in einem perzeptuell gewichteten Signal y(n) dadurch minimiert, daß beispielsweise ein MSE-Kriterium verwendet wird, zum Selektieren der Folge. In Fig. 1 ist ein zweidimensionales Codebuch 10, das beliebige Vektoren ck(n) speichert, mit einer Verstärkungsstufe 12 gekoppelt. Das Ausgangssignal r(n) der Verstärkungsstufe 12 wird einem ersten inversen Filter 14 zugeführt, das einen Langzeitprädiktor bildet und eine Kennlinie 1/8(z) hat, wobei das Filter 14 zum Synthetisieren eines Mittenabstandes verwendet wird. Ein zweites inverses Filter 16, das einen Kurzzeitprädiktor bildet und eine Kennlinie 1/A(z) hat, ist derart geschaltet, daß es das Ausgangssignal e(n) des ersten Filters 14 erhält. Das zweite Filter synthtisiert die spektrale Umhüllende und schafft ein Ausgangssignal s(n), das einem invertierenden Eingang einer Summierungsstufe 18 zugeführt wird. Eine Quelle der ursprünglichen Sprache 20 ist mit einem nicht-invertierenden Eingang der Summierungsstufe 18 verbunden. Das Ausgangssignal x(n) der Summierungsstufe wird einem Gewichtungsfilter 22 mit einer Kennlinie W(z) zugeführt, wobei dieses Filter ein Ausgangssignal y(n) liefert.
Im Betrieb wird die Sprache höherer Qualität bei niedriger Bitrate erreicht durch eine Analyse-durch-Synthese-Prozedur, wobei die Kurzzeit- sowie die Langzeitprädiktion angewandt wird. Diese Prozedur besteht daraus, daß die beste Folge in dem Code-Buch gefünden wird, die in bezug auf ein subjektives Fehlerkriterium optimal ist. Jedes Codewort oder Folge ck wird durch einen optimalen Verstärkungsfaktor Gk skaliert und wird über das erste und zweite inverse Filter 14, 16 verarbeitet. Die Differenz x(n) zwischen dem ursprünglichen und dem synthetischen Signal, d.h. s(n) und wird in dem Gewichtungsfilter 22 verarbeitet und die "beste" Folge wird danach gewählt zum Minimieren der Energie des Fehlersignals y(n). Zwei Nachteile des in Fig. 1 dargestellten Vorschlags sind die Vielzahl Berechnungen, herrührend aus der Suchprozedur zum Herausfinden der besten Folge und die Berechnungen zum Filtern aller Folgen über die Langzeit- sowie Kurzzeitprädiktoren.
Die obengenannte Veröffentlichung auf den Seiten 1957 bis 1960 von ICASSP 87 schlägt mehrere Ideen vor zur Verringerung der Anzahl Berechnungen.
Eine blockschematische Implementierung einer dieser Ideen ist in Fig. 2 der Zeichnung dargestellt, wobei zur Bezeichnung entsprechender Teile dieselben Bezugszeichen wie in Fig. 1 benutzt worden sind. Diese Implementierung ist hergeleitet von dem Ausdrück des Gewichtungsfilters 22 (Fig. 1) als
W(z) = A(z)/A(z/γ)
wobei γ der Gewichtungskoeffizient (um 0,8 herum gewählt) und A(z) ein lineares Prädiktionsfilter ist:
A(z) = Σiaiz-i.
Im Vergleich zu Fig. 1 kann das Gewichtungsfilter W(z) zu den Signaleingangsstrecken zur Summierungsstufe 18 geschoben werden. Auf diese Weise wird die ursprüngliche Sprache von der Quelle 20 über ein Analysenfilter 24 mit einer Kennlinie A(z) verarbeitet, wobei ein Restsignal e(n) entsteht, von dem Pitch-Parameter hergeleitet werden.
Das Restsignal e(n) wird über ein inverses Filter 26 mit einer Kennlinie a/A(z/γ) verarbeitet, was ein Signal s'(n) ergibt, das dem nicht-invertierenden Eingang der Summierstufe 18 zugeführt wird.
In der anderen Strecke wird der durch das zweite inverse Filter 16 (Fig. 1) gebildete Kurzzeitprädiktor durch ein inverses Filter 28 mit einer Kennlinie 1/A(z/γ) ersetzt, was ein Ausgangssignal '(n) ergibt.
Der Langzeitprädiktor, das Filter 14, kann als Prädiktor mit nur einem Abgriff gewählt werden:
B(z) = 1-bz-T -(1)
wobei b die Verstärkung ist und T als Pitch-Periode bezeichnet wird. Der Ausdruck des Ausgangssignals ê(n) des Pitch-Prädiktors 1/B(z) läßt sich aus der obenstehenden Gleichung (1) herleiten:
ê(n) = r( ) + bê(n-T) -(2)
wobei r(n) = Gkck(n) ist, wobei n = 0, N -1 und N die Blockgröße oder Länge der Codewörter ist, wobei k der Codebuch-Index und Gk ein Verstärkungsfaktor ist.
Während der Suchprozedur ist das Signal ê(n-T) bekannt und ist nicht abhängig von dem Codewort, das zu der Zeit getestet wird, wenn T immer größer als N sein soll. Auf diese Weise ist es möglich, daß der Pitch-Prädiktor 1/B(z) aus der Signalstrecke von dem zweidimensionalen Codebuch 10 entfernt wird, wenn das Signal bê(n-T) von dem Restsignal in der Strecke von der Sprachquelle 20 subtrahiert wird. Unter Verwendung des Ausdrucks (2) wird das Signal ê(n-T) dadurch erhalten, daß das verzögerte Signal (n-T) über den Pitch-Prädiktor 1/B(z) verarbeitet wird; und n-T wird aus den bereits bekannten Codewörtern berechnet, gwählt für vorhergehende Blöcke, unter der Bedingung, daß die Pitch-Periode T auf Werte begrenzt wird, die größer sind als die Blockgröße N. Die Wirkungsweise des Pitch-Prädiktors kann auch in Termen eines dynamischen adaptiven Codebuches betrachtet werden.
In dieser Veröffentlichung wird auch ein Schema beschrieben, wobei der Langzeitprädiktor 1/B(z) und der Speicher des Kurzzeitprädiktors 1/A(z/γ) aus der Signalstrecke von dem Codebuch 10 entfernt werden.
Dadurch ist es möglich, zwei Filtervorgänge an jedem Codewort zu einer einzigen speicherfteien Filterung je Codewort mit einer wesentlichen Verringerung des Rechenaufwands zurückzubringen.
Eine andere Veröffentlichung "On Different Vector Predictive Coding Schemes and Their Application to Low Bit Rates Speech Coding" von F. Bottau, C. Galand, M. Rosso und J. Menez, Seiten 871 bis 874 von EURASIP 1988 beschreibt eine Annäherung zu CELP-Codierung, wodurch die Sprachqualität beibehalten werden kann, unter der Voraussetzung eines bestimmten Pegels des Rechenaufwands ohne Zunahme der Speichergröße.
Diese Veröffentlichung beschreibt eine Unterteilung eines Rahmens mit 160 Abtastwerten in 6 oder 8 Blöcke zum Schaffen eines Codebuches mit 256 Folgen. Jede Folge besteht aus Restsignal, das einfach (N+L) Abtastwerte aufweist, wobei N die Anzahl Folgen ist und L die zu codierende Blocklänge; XO(n) n = 1, ... (N+L). In dem neuen Codebuch oder "Zeilencode" weichen zwei aufeinanderfolgende Codewörter nur um einen Abtastwert voneinander ab. Das erste Codewort besteht aus den ersten L Abtastwerten des Zeilencodes:
CB(1, n) = XO(n) n = 1,L
Das nächste Codewort wird dann durch die letzten (L - 1) Abtastwerte des vorhergehenden und des nächsten Abtastwertes des Zeilencodes definiert:
CB(2, n) = XO(n + 1) n = 1, L und
CB(k, n) = XO(n + k - n) n = 1, L
Es ist nicht notwendig die Energien jeder in betracht kommender Folge zu bewerten oder zu speichern, da es möglich ist, sie auf einen einzigen Wert zu normalisieren. Die genannten Vorteile dieses Codebuchs sind, daß das Format einen geringeren Speicher- und Rechenaufwand ermöglicht.
Obschon in den beiden Veröffentlichungen Verfahren zur Verbesserung der Implementierung der CELP-Technik beschrieben sind, gibt es dennoch Raum zur Verbesserung.
Nach einem ersten Aspekt der vorliegenden Erfindung wird ein Sprachcodierungssystem geschaffen mit Mitteln zum Filtern digitalisierter Sprachabtastwerte zum Bilden wahrnehmbar gewichteter Sprachabtastwerte, gekennzeichnet durch ein eindimensionales Codebuch, Mittel zum Filtern von Eingangswerten, ausgelesen aus dem eindimensionalen Codebuch zum Liefern eines gefilterten Codebuchs, zusammengesetzt aus allen genannten gelesenen Eingangswerten, und Mittel zum Vergleichen von Eingangswerten des gefilterten Codebuchs mit den wahrnehmbar gewichteten Sprachabtastwerten zum Erhalten eines Codebuchindexes, der den minimalen wahrnehmbar gewichteten Fehler ergibt, wenn die Sprache neu-synthetisiert wird.
Nach einem zweiten Aspekt der vorliegenden Erfindung wird ein Verfahren zum Codieren von Sprache geschaffen, wobei digitalisierte Sprachabtastwerte gefiltert werden zum Erzeugen wahrnehmbar gewichteter Sprachabtastwerte, gekennzeichnet durch Filterung eines eindimensionalen Codebuches als Ganzes zum Bilden eines gefilterten Codebuchs und durch Vergleichung der wahrnehmbar gewichteten Sprachabtastwerte mit Eingangswerten von dem gefilterten Codebuch zum Erhalten eines Codebuchindexes, der den minimalen wahrnehmbar gewichteten Fehler ergibt, wenn die Sprache neu-synthetisiert wird.
Durch Verwendung eines eindimensionalen Codebuches wird eine wesentliche Verringerung des Rechenaufwands des CELP-Codierers erzielt, weil die Verarbeitung aus der Filterung dieses Codebuchs als Ganzes besteht, wobei das wahrnehmbar gewichtete Synthesefilter einmal für jeden Satz durch lineare prädiktive Analyse der digitalisierten Sprachabtastwerte erzeugter Filterkoeffizienten benutzt wird. Das Aktualisieren der Filterkoeffizienten kann einmal je vier Rahmen digitalisierter Sprachabtastwerte erfolgen, wobei jeder Rahmen eine Dauer von beispielsweise 5 ms hat. Das gefilterte Codebuch wird danach untersucht zum Herausfinden der optimalen Rahmenlängenfolge, die den Fehler zwischen der wahrnehmbar gewichteten Eingangssprache und der gewählten Folge minimiert.
Gewünschtenfalls kann jeder p. Eingangswert des gefilterten Codebuchs untersucht werden, wobei p größer als eins ist. Da benachbarte Eingangswerte in dem gefilterten Codebuch korreliert sind, kann dadurch, daß nicht jeder Eingangswert untersucht wird, der Rechenaufwand verringert werden, ohne daß dadurch die Qualität der Sprache beeinträchtigt wird oder als Alternative kann ein längeres Codebuch mit demselben Rechenaufwand untersucht werden, wodurch die Möglichkeit einer besseren Sprachqualität geschaffen wird.
In einer Ausführungsform der vorliegenden Erfindung erfolgt die Vergleichung durch Berechnung der Summe der Kreuzprodukte unter Anwendung der nachfolgenden Gleichung:
wobei Ek der Gesamtfehler-Term ist
N die Anzahl digitalisierter Abtastwerte in einem Rahmen ist,
n die Abtastwertnummer ist,
x das Signal ist, das dem Codebuch entspricht,
gk die nicht-skalierte gefilterte Codebuchfolge ist und
k der Codebuchindex ist.
Dies entspricht dem Untersuchungsvorgang zum Suchen des Codebuchindexes k für einen Maximalwert des Ausdrucks:
Die Rechenarbeit läßt sich reduzieren (einigermaßen auf Kosten der Sprachqualität) durch Bewertung jedes m. Terms dieses Kreuzproduktes und durch Maximierung
wobei m eine ganze Zahl mit einem niedrigen Wert ist.
Das Sprachcodierungssystem kann weiterhin Mittel aufweisen zum Bilden eines Langzeitprädiktors unter Verwendung eines dynamisch adaptiven Codebuchs mit skalierten Eingangswerten, selektiert aus dem gefilterten Codebuch, zusammen mit Eingangswerten von dem dynamisch adaptiven Codebuchs, Mittel zum Vergleichen von Eingangswerten aus dem dynamisch adaptiven Codebuch mit wahrnehmbar gewichteten Sprachabtastwerten, Mittel zum Bestimmen eines Indexes, der die kleinste Differenz zwischen dem dynamisch adaptiven Codebucheingangswert und den wahrnehmbar gewichteten Sprachabtastwerten ergibt, Mittel zum Subtrahieren des festgestellten Eingangswertes von den wahrnehmbar gewichteten Sprachabtastwerten, und Mittel zum Vergleichen des Differenzsignals, erhalten aus der Subtraktion mit Eingangswerten von dem gefilterten Codebuch zum Erhalten des gefilterten Codebuchindexes, was zu der besten Anpassung führt.
Es können Mittel vorgesehen sein zum Kombinieren des gefilterten Codebucheingangswertes, was die beste Anpassung ergibt, mit dem entsprechenden dynamisch adaptiven Codebucheingangswert zum Bilden codierter wahrnehmbar gewichteter Sprachabtastwerte, und zum Filtern der codierten wahrnehmbar gewichteten Sprachabtastwerte zum Schaffen synthetisierter Sprache.
Das dynamisch adaptive Codebuch kann eine FIFO-Speicheranordnung einer vorbestimmter Kapazität aufweisen, wobei die Eingangssignale zu der Speicheranordnung die codierten wahrnehmbar gewichteten Sprachabtastwerte enthalten.
Die Filtermittel zum Filtern der codierten wahrnehmbar gewichteten Abtastwerte können Mittel aufweisen zum Erzeugen einer inversen Übertragungsfunktion im Vergleich zu der Übertragungsfunktion, die zum Erzeugen der wahrnehmbar gewichteten Sprachabtastwerte benutzt wird.
Nach einem dritten Aspekt der vorliegenden Erfindung wird ein Verfahren geschaffen zum Herleiten van Sprache, wobei dieses Verfahren die nachfolgenden Verfahrensschritte umfaßt: das Bilden eines gefilterten Codebuchs durch Filterung eines eindimensionalen Codebuchs unter Verwendung eines Filters, dessen Koeffizienten in einem Eingangssignal spezifiziert sind, das Selektieren einer vorbestimmten Folge, spezifiziert durch einen Codebuchindex in dem Eingangssignal. das Einstellen der Amplitude der selektierten vorbestimmten Folge in Antwort auf ein Verstärkungssignal in dem Eingangssignal, das Wiederherstellen des Pitches der selektierten vorbestimmten Folge in Antwort auf den Pitch-Prädiktorindex und Verstärkungssignal in dem Eingangssignal, und das Zuführen der im Pitch wiederhergestellten Folge zu Entgewichtungs- und inversen Synthesefiltern zum Erzeugen eines Sprachsignals.
Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im folgenden näher beschrieben. Es zeigen:
Fig. 1 und 2 je ein Blockschaltbild der bekannten CELP-Systeme,
Fig. 3 ein Blockschaltbild einer Ausführungsform der vorliegenden Erfindung,
Fig. 4 ein Blockschaltbild eines Empfängers.
In der Zeichung werden für entsprechende Elemente dieselben bezugszeichen verwendet.
In Fig. 3 ist eine Sprachquelle 20 mit einer Stufe 30 gekoppelt, welche die Sprache quantisiert und in Rahmen von 5 ms segmentiert. Die segmentierte Sprache s(n) wird einem Analusenfilter 24 zugeführt, das eine Übertragungsfunktion A(z) hat, sowie einem linearen prädiktiven Codierer (LPC) 32, der die Filterkoefflzienten ai berechnet. Das Restsignal r(n) vom Filter 24 wird danach in einem wahrnehmbar gewichteten Synthesenfilter 26 mit einer Übertragungsfunktion 1/A(z/γ) verarbeitet. Das wahrnehmbar gewichtete Restsignal sw(n) wird einem nicht-invertierenden Eingang einer Subtraktionsstufe 34 zugeführt (die als Summierstufe mit invertierenden und nicht-invertierenden Eingängen ausgebildet ist). Das Ausgangssignal der Summierstufe 34 wird einem nicht-invertierenden Eingang einer anderen Subtrahierstufe 36 zugeführt.
Ein eindimensionales (1-D) Codebuch 110 mit weißen Gausschen Zufallsnummerfolgen ist mit einem wahrnehmbar gewichteten Synthesefilter 28 verbunden, das die Codebucheingangswerte filtert und die Ergebnisse einem 1-D gefilterten Codebuch 37 zuführt, das ein einstweiliges Master-Codebuch bildet. Die Codebuchfolgen werden an sich wieder einer Verstärkungsstufe 12 mit einer Verstärkung G zugeführt. Die skalierten codierten Folgen von der Verstärkungsstufe 12 werden dem invertierenden Eingang der Subtrahierstufe 36 und einem Eingang einer Summierstufe 38 zugeführt. Das Ausgangssignal der Stufe 38 weist ein Pitch-Prädiktionssignal auf, das der Pitch-Verzögerungsstufe 40 zugeführt wird, die eine vorselektierte Verzögerung T einführt, sowie einer Stufe 42 zum Decodieren der Sprache. Die Pitch-Verzögerungsstufe 40 kann eine FIFO-Speicheranordnung aufweisen. Das verzögerte Pitch-Prädiktionssignal wird einer Verstärkungsstufe 44 zugeführt, die eine Verstärkung b hat. Das skalierte Pitch-Prädiktionssignal wird einem Eingang der Summierstufe 38 und einem invertierenden Eingang der Subtrahierstufe 34 zugeführt.
Eine erste Statischer-Gesamtfehlerstufe 46 ist ebenfalls mit dem Ausgang der Subtrahierstufe 34 verbunden und schafft ein Femersignal EA, das zum Minimieren von Schwankungen in bezug auf Pitch-Prädiktion verwendet wird. Eine zweite Statischer-Gesamtfehlerstufe 48 ist mit dem Ausgang der Subtrahierstufe 36 verbunden zum Erzeugen eines wahrnehmbaren Fehlersignals EB, das zum Minimieren der Schwankung in bezug auf das gefilterte Codebuch 37 verwendet wird.
In der dargestellten Ausführungsform wird Sprache von der Quelle 20 in Rahmen von 40 Abtastwerten segmentiert, wobei jeder Rahmen eine Dauer von 5 ms hat. Jeder Rahmen geht durch die Analysen-und-Gewichtungsfilter 24, 26; wobei die Koeffizienten ai für diese Filter durch lineare prädiktive Analyse der digitalisierten Sprachabtastwerte abgeleitet werden. In einer typischen Anwendung sind zehn Prädiktionskoeffizienten erforderlich und diese werden alle 20 ms aktualisiert (Blockrate). Das Gewichtungsfilter introduziert eine gewisse subjektive Gewichtung in den Codierungsprozeß. Es hat sich herausgestellt, daß ein Wert von γ = 0,65 gute Resultate ergibt. In der Subtrahierstufe 34 wird die skalierte (Langzeit) Pitchprädiktion von den wahrnehmbar gewichteten Restsignalen sw(n) vom Filter 26 subtrahiert. Solange die skalierte Pitch-Prädiktion nur Information von vorher verarbeiteter Sprache benutzt, läßt sich die optimale Pitch-Verzögerung T und Verstärkung b (Stufe 44) berechnen zum Minimieren des Fehlers EA am Ausgang der MSE-Stufe 46.
Das 1-D Codebuch 110 enthält 1024 Elemente, die alle einmal je 20 ms Block durch das wahrnehmbare Gewichtungsfilter 28 gefiltert werden, dessen Koeffizienten denen des Filters 26 entsprechen. Die Codebuchuntersuchung erfolgt durch Prüfungsvektoren, zusammengesetzt aus 40 benachbarten Elementen von dem gefilterten Codebuch 37. Während der Untersuchung wird die Ausgangsposition des Vektors um eins oder mehr für jeden Codebucheingangswert erhöht und der Wert der Verstärkung G (Stufe 12) wird berechnet zum Ergeben des minimalen Fehlers EB am Ausgang der MSE 48. Auf diese Weise werden der Codebuchindex und die Verstärkung G für den minimalen wahrnehmbaren Fehler gefunden. Diese Information wird danach in der Synthese der Ausgangssprache verwendet unter Verwendung beispielsweise der Stufe 42, dieein entwichtetes Analysenfilter 50, ein inverses Synthesefilter 52, einen Ausgangswandler 54, und, ggf. ein globales Nachfilter 56 aufweist. Die Koeffizienten der Filter 50 und 52 werden von dem LPC 32 hergeleitet. In einer praktischen Situation enthält die übertragene Information die LPC-Koeffizienten, den Codebuch-Index, die Codebuch-Verstärkung, den Pitch-Prädiktorindex und die Pitch-Prädiktorverstärkung. Am Ende einer Kommunikationsstrecke kann ein Empfänger mit einer Kopie des nichtgefilterten 1-D Codebuchs das gefilterte Codebuch für jeden Sprachblock aus den empfangenen Filterkoeffizienten regenerieren und danach die ursprüngliche Sprache synthetisieren.
Zur Verringerung der Anzahl Bits erforderlich zum Darstellen der LPC- Koeffizienten, wurden diese Koeffizienten als "log-area ratios" (L.A.R.) quantisiert, was ebenfalls die Empfindlichkeit für Quantisierungsverzerrung minimierte. Auf alternative Weise können diese Koeffizienten durch Verwendung von Zeilenspektralpaaren (line spectral pairs) (LSP) quantisiert werden. Im vorliegenden Beispiel kann ein Block van 10 LPC Koeffizienten, quantisiert als LAR als 40 Bits je 20 ms dargestellt werden. Die Zahl von 40 Bits entsteht durch Quantisierung der 1. und 2. LPC-Koeffizienten unter Verwendung von jeweils 6 Bits, der 3. und 4. LPC-Koeffizienten unter Verwendung von jeweils 5 Bits, der 5. und 6. LPC-Koeffizienten unter Verwendung von jeweils 4 Bits, der 7. und 8. LPC-Koeffizienten unter Verwendung von jeweils 3 Bits und der 9. und 10. LPC-Koeffizienten unter Verwendung von jeweils 2 Bits. Auf diese Weise ist die Anzahl Bits je Sekunde 2000. Außerdem weist die Rahmen-Rate, die alle 5 ms aktualisiert wird, den Codebuch-Index - 10 Bits, die Codebuch-Verstärkung, die logarithmisch quantisiert wurde, - 5 Bits + 1 Vorzeichen-Bit, den Pitch-Prädiktor- index - 7 Bits und die Pitch-Prädiktorverstärkung - 4 Bits auf. Diese 27 Bits insgesamt entsprechen 5400 Bits/Sekunde. Die Gesamtbitrate (2000 + 5400) beträgt also 7400 Bits/Sekunde.
Das in den Fig. 1 und 2 beschriebene zweidimensionale Codebuch könnte wie folgt dargestellt werden:
c(ij) = d(i,j)
wobei c(ij) das j. Element des i. Codebucheingangswertes ist und d eine zweidimensionale Anordnung von Zufallszahlen ist. Im Gegensatz dazu kann das in Fig. 3 verwendete Codebuch wie folgt dargestellt werden:
c(ij) = d(i+j)
wobei d eine eindimensionale Anordnung von Zufallszahlen ist. Typisch ist 1< i< 1024 und 1< j< 40.
Der Hauptteil der Rechenarbeit in CELP liegt in der Codebuchuntersuchung und ein wesentlicher Teil davon bezieht sich auf das Filtern des Codebuches. Unter Verwendung eines 1-dimensionalen Codebuches, wie anhand der Fig. 3 beschrieben, reduziert die Codebuch-Filterung um einen Faktor gleich der Länge des Sprachsegmentes.
Die Vergleichung der Folgen des gefilterten Codebuchs mit dem Pitchfreien wahrnehmbar gewichteten Restsignal am Ausgang der Subtrahierstufe 34 erfolgt durch Berechnung der Summe der Kreuzprodukte unter Anwendung der Gleichung:
wobei Ek der Gesamtfehler-Term ist
N die Anzahl digitalisierter Abtastwerte in einem Rahmen ist,
n die Abtastwertnummer ist,
x das Signal ist, das dem Codebuch entspricht,
gk die nicht-skalierte gefilterte Codebuchfolge ist und
k der Codebuchindex ist.
Die Herleitung dieser Gleichung basiert auf den Gleichungen auf Seite 872 von EURASIP, 1988, wie obengenannt.
Vollständigkeitshalber zeigt Fig. 4 einen Empfänger. Da der Empfänger Eigenschaften aufweist, die auch in der Ausführungsform nach Fig. 3 dargestellt sind, sind entsprechende Teile durch dieselben Bezugszeichen mit einem Akzent angegeben.
Die von dem Empfänger empfangenen Daten werden die LPC-Koeffizienten aufweisen, die einem Anschluß 60 zugeführt werden, den Codebuch-Index und -Verstärkung, die den Anschlüssen 62 bzw. 64 zugeführt werden, und den Pitch-Prädiktor-Index und - Verstärkung, die den Anschlüssen 66 bzw. 68 zugeführt werden. Ein eindimensionales Codebuch 110' wird in einem wahrnehmbar gewichteten Syntehsefilter 28' gefiltert und die Ausgangswerte werden zum Bilden eines gefilterten Codebuchs 37' verwendet. Die geeignete Folge von dem gefilterten Codebuch 37' wird in Antwort auf das Codebuchindexsignal selektiert und wird einer Verstärkungsstufe zugeführt, deren Verstärkung in dem empfangenen Signal spezifiziert ist. Die verstärkungsgeregelte Folge wird dem Pitch-Prädiktor 40' zugeführt, dessen Verzögerung durch den Pitch-Prädiktor-Index eingestellt wird und dessen Ausgangssignal einer Verstärkungsstufe 44' zugeführt wird, dessen Verstärkung durch das Pitch-Prädiktor-Verstärkungssignal spezifiziert wird. Die Folge mit der wiederhergestellten Pitch-Prädiktion wird einem entwichteten Analysenfilter 50' mit einer Kennlinie A/z/γ) zugeführt. Das Ausgangssignal rdw(n) vom Filter 50' wird einem inversen Synthesefilter 52' zugeführt, das eine Kennlinie 1/A(z) hat. Die Koeffizienten für die Filter 50', 52' werden in dem empfangenen Signal spezifiziert und jedes Block (oder alle vier Rahmen) aktalisiert. Das Ausgangssignal des Filters 52' kann unmittelbar einem Ausgangswandler 54' oder mittelbar über ein globales Nachfilter 56', das die Sprachqualität verbessert durch Verbesserung der Störungsunterdrückung auf Kosten einer gewissen Sprachverzerrung.
Die in Fig. 3 dargestellte Ausführungsform kann geändert werden um die Konstruktion zu vereinfachen, um den Rechenaufwand zu reduzieren oder um die Sprachqualität zu verbessern ohne daß der Rechenaufwand dazu zunimmt.
So kann beispielsweise die Größe des eindimensionalen Codebuchs verringert werden.
Die wahrnehmbare Fehlerschätzung kann an einer unterabgetasteten Version des wahrnehmbaren Fehlersignals durcheführt werden. Dies würde den für den Längzeitprädiktor und für die Codebuchuntersuchung erforderlichen Rechenaufwand reduzieren.
Eine vollständige Untersuchung des gefilterten Codebuchs kann überflüssig sein, da benachbarte Eingangswerte korreliert sind. Auf alternative Weise könnte ein längeres Codebuch untersucht werden, was eine bessere Sprachqualität ergeben wurde. In beiden Fällen wird jeder p. Eingangswert untersucht, wobei p größer ist als eins.
Die Filterrechenarbeit könnte reduziert werden, wenn zwei halblange Codebücher verwendet würden. Das eine könnte mit dem Gewichtungsfilter aus dem aktuellen Rahmen gefiltert werden, das andere könnte von dem vorhergehenden Rahmen zurückgehalten werden. Auf gleiche Weise könnte eines dieser halblangen Codebücher aus den vorher selektierten Codebucheingangswerten hergeleitet werden.
Gewünschtenfalls kann ein festes Gewichtungsfilter zur Filterung des Codebuchs verwendet werden.
Die in Fig. 3 dargestellte Ausführungsform der Erfindung setzt voraus, daß die Übertragungsfunktionen der wahrnehmbar gewichteten Synthesefilter 26, 28 sieselben sind. Es wurde aber gefunden, daß es möglich ist, eine bessere Sprachqualität dadurch zu erhalten, wenn diese Filter verschiedene Übertragungsfunktionen haben. Insbesondere ist der Wert von γ für die Filter 26 und 50 derselbe, aber abweichend von dem des Filters 28.
Die Zahlenwerte in der Beschreibung der Wirkungsweise der Ausführungsform nach Fig. 3 sind nur zur Erläuterung gegeben und im Rahmen der Erfindung können auch andere Werte verwendet werden.
Dem Fachkundigen werden nach der Lektüre der vorliegenden Beschreibung leicht weitere Abwandlungen einfallen. Solche Abwandlungen können andere Merkmale betreffen, die bereits im Entwurf und in der Fertigung und in der Verwendung von CELP-Systemen und Teilen davon bekannt sind und die anstelle der hier bereits beschriebenen Merkmale oder ergänzend dazu verwendet werden können.

Claims

1. Sprachcodierungssystem mit Mitteln (24, 26) zum Filtern digitalisierter Sprachabtastwerte zum Bilden wahrnehmbar gewichteter Sprachabtastwerte, gekennzeichnet durch ein eindimensionales Codebuch (110), Mittel (28) zum Filtern von Eingangswerten, ausgelesen aus dem eindimensionalen Codebuch zum Liefern eines gefilterten Codebuchs (37), zusammengesetzt aus allen genannten gelesenen Eingangswerten, und Mittel (34, 36, 48) zum Vergleichen von Eingangswerten des gefilterten Codebuchs mit den wahrnehmbar gewichteten Sprachabtastwerten zum Erhalten eines Codebuchindexes, der den minimalen wahrnehmbar gewichteten Fehler ergibt, wenn die Sprache neu-synthetisiert wird.

2. System nach Anspruch 1, dadurch gekennzeichnet, daß die Mittel zum Filtern der aus dem eindimensionalen Codebuch ausgelesenen Eingangswerte ein Filter (28) zur wahrnehmaren Gewichtung aufweist.

3. System nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Mittel zum Filtern der digitalisierten Sprachabtastwerte einen Kurzzeitprädiktor (24) aufweisen mit einer Übertragungsfunktion A(z) und ein Filter (26) mit einer Übertragungsfunktion 1/A(z/γ), wobei γ ein wahrnehmbare Gewichtungskoeffizient ist, und daß Mittel (32) vorgesehen sind zum Herleiten der Koeffizienten für den Kurzzeitprädiktor und das Filter durch lineare prädiktive Analyse der digitalisierten Sprachabtastwerte.

4. System nach Anspruch 3, wenn abhängig von Anspruch 2, dadurch gekennzeichnet daß die Übertragungsfunktion des Filters (28) für wahrnehmbare Gewichtung 1/A(z/γ&sub2;) ist, wobei γ&sub2; von γ in der Übertragungsfunktion 1/A(z/γ) abweicht.

5. System nach Anspruch 4, dadurch gekennzeichnet daß die Mittel (34, 36, 48) zum Vergleichen der Eingangswerte des gefilterten Codebuchs mit den wahrnahmbar gewichteten Sprachabtastwerten jeden p. Eingangswert untersucht, wobei p größer ist als eins.

6. System nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die genannten Mittel (34, 36, 48) zum Vergleichen die Vergleichung durchführen durch Berechnung der Summe der Kreuzprodukte unter Anwendung des nachfolgenden Ausdrucks:

wobei N die Anzahl digitalisierter Abtastwerte in einem Rahmen ist,

n die Abtastwertnummer ist,

x das Signal ist, das dem Codebuch entspricht,

gk die nicht-skalierte gefilterte Codebuchfolge ist und

k der Codebuchindex ist.

7. System nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß Mittel vorgesehen sind zum Bilden eines dynamisch adaptiven Codebuchs aus skalierten Eingangswerten, selektiert aus dem gefilterten Codebuch, Mittel zum Vergleichen von Eingangswerten aus dem dynamisch adaptiven Codebuch mit wahrnehmbar gewichteten Sprachabtastwerten, Mittel zum Bestimmen eines Indexes, der die kleinste Differenz zwischen dem dynamisch adaptiven Codebucheingangswert und den wahrnehmbar gewichteten Sprachabtastwerten ergibt, Mittel zum Subtrahieren des festgestellten Indexes von den wahrnehmbar gewichteten Sprachabtastwerten, und Mittel zum Vergleichen des Differenzsignals, erhalten aus der Subtraktion mit Eingangswerten von dem gefilterten Codebuch zum Erhalten des gefilterten Codebuchindexes, was zu der besten Anpassung führt.

8. System nach Anspruch 7, dadurch gekennzeichnet, daß Mittel vorgesehen sind zum Kombinieren des gefilterten Codebucheingangswertes, was die beste Anpassung ergibt, mit dem entsprechenden dynamisch adaptiven Codebucheingangswert zum Bilden codierter wahrnehmbar gewichteter Sprachabtastwerte, und Mittel (50, 52 oder 50', 52') zum Filtern der codierten wahrnehmbar gewichteten Sprachabtastwerte zum Schaffen synthetisierter Sprache.

9. System nach Anspruch 8, dadurch gekennzeichnet, daß das dynamisch adaptive Codebuch eine FIFO-Speicheranordnung einer vorbestimmter Kapazität aufweist und daß die Eingangssignale zu der Speicheranordnung die codierten wahrnehmbar gewichteten Sprachabtastwerte enthalten.

10. System nach Anspruch 8 oder 9, dadurch gekennzeichnet, daß die Filtermittel zum Filtern der codierten wahrnehmbar gewichteten Abtastwerte Mittel aufweisen zum Erzeugen einer inversen Übertragungsfunktion im Vergleich zu der Übertragungsfunktion, die zum Erzeugen der wahrnehmbar gewichteten Sprachabtastwerte benutzt wird.

11. Verfahren zum Codieren von Sprache, wobei digitalisierte Sprachabtastwerte gefiltert werden zum Erzeugen wahrnehmbar gewichteter Sprachabtastwerte, gekennzeichnet durch Filterung eines eindimensionalen Codebuches als Ganzes zum Bilden eines gefilterten Codebuchs und durch Vergleichung der wahrnehmbar gewichteten Sprachabtastwerte mit Eingangswerten von dem gefilterten Codebuch zum Erhalten eines Codebuchindexes, der den minimalen wahrnehmbar gewichteten Fehler ergibt, wenn die Sprache neu-synthetisiert wird.

12. Verfahren nach Anspruch 11, dadurch gekennzeichnet, daß die Codebuch- Eingangswerte unter Verwendung eines Filters zur wahrnehmbaren Gewichtung gefiltert werden.

13. Verfahren nach Anspruch 11 oder 12, dadurch gekennzeichnet, daß die digitalisierten Sprachabtastwerte unter Verwendung eines Kurzzeitprädiktors mit einer Übertragungsfunktion A(z) und eines Filters mit einer Übertragungsfunktion 1/A(z/γ), wobei γder wahrnehmbare Gewichtungskoeffizient ist, gefiltert werden und daß die Koeffizienten für den Kurzzeitprädiktor und das Filter durch lineare prädiktive Analyse der digitalisierten Sprachabtastwerte hergeleitet werden.

14. Verfahren nach Anspruch 13, wenn abhängig von Anspruch 12, dadurch gekennzeichnet daß die Übertragungsfunktion des Filters zur wahrnehmbaren Gewichtung 1/A(z/γ&sub2;) ist, wobei γ&sub2; von γ in der Übertragungsfunktion 1/A(z/γ) abweicht.

15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, daß jeder p. Eingangswert des gefilterten Codebuchs untersucht wird, wobei p größer als eins ist.

16. Verfahren nach einem der Ansprüche 11 bis 15, dadurch gekennzeichnet, daß die Vergleichung durch Berechnung der Summe der Kreuzprodukte unter Anwendung der nachfolgenden Gleichung erfolgt:

wobei N die Anzahl digitalisierter Abtastwerte in einem Rahmen ist,

n die Abtastwertnummer ist,

x das Signal ist, das dem Codebuch entspricht,

gk die nicht-skalierte gefilterte Codebuchfolge ist und

k der Codebuchindex und

m eine ganze Zahl niedrigen Wertes ist.

17. Verfahren nach einem der Ansprüche 11 bis 16, gekennzeichnet durch die Bildung eines dynamisch adaptiven Codebuchs aus skalierten Eingangswerten, selektiert aus dem gefilterten Codebuch, das Vergleichen von Eingangswerten aus dem dynamisch adaptiven Codebuch mit wahrnehmbar gewichteten Sprachabtastwerten, das Bestimmen eines Indexes, der die kleinste Differenz zwischen dem dynamisch adaptiven Codebucheingangswert und den wahrnehmbar gewichteten Sprachabtastwerten ergibt, das Subtrahieren des festgestellten Eingangswertes aus den wahrnehmbar gewichteten Sprachabtastwerten, und das Vergleichen des Differenzsignals, erhalten aus der Subtraktion mit Eingangswerten von dem gefilterten Codebuch zum Erhalten des gefilterten Codebuchindexes, was zu der besten Anpassung führt.

18. Verfahren nach Anspruch 17, gekennzeichnet durch das Kombinieren des gefilterten Codebucheingangswertes, was die beste Anpassung ergibt, mit dem entsprechenden dynamisch adaptiven Codebucheingangswert zum Bilden codierter wahrnehmbar gewichteter Sprachabtastwerte, und das Filtern der codierten wahrnehmbar gewichteten Sprachabtastwerte zum Schaffen synthetisierter Sprache.

19. Verfahren nach Anspruch 18, dadurch gekennzeichnet, daß die codierten wahrnehmbar gewichteten Abtastwerte unter Anwendung einer Übertragungsfunktion gefiltert werden, welche die Inverse von deijenigen ist, die vorgesehen ist zum Erzeugen der wahrnehmbar gewichteten Sprachabtastwerte.

20. Verfahren zum Herleiten von Sprache mit den nachfolgenden Verfahrensschritten: das Bilden eines gefilterten Codebuchs durch Filterung eines eindimensionalen Codebuchs unter Verwendung eines Filters, dessen Koeffizienten in einem Eingangssignal spezifiziert sind, das Selektieren einer vorbestimmten Folge aus dem gefilterten Codebuch, wobei diese Folge durch einen Codebuchindex in dem Eingangssignal spezifrziert ist, das Einstellen der Amplitude der selektierten vorbestimmten Folge in Antwort auf ein Verstärkungssignal in dem Eingangssignal, das Wiederherstellen des Pitches der selektierten vorbestimmten Folge in Antwort auf den Pitch-Prädiktorindex und Verstärkungssignal in dem Eingangssignal, und das Zuführen der im Pitch wiederhergestellten Folge zu Entgewichtungs- und inversen Synthesefiltern zum Erzeugen eines Sprachsignals.