DE69630177T2

DE69630177T2 - Sprachkodierer mit der Fähigkeit zur wesentlichen Vergrösserung der Codebuchgrösse ohne aber die Zahl der übertragenen Bits zu vergrössern

Info

Publication number: DE69630177T2
Application number: DE69630177T
Authority: DE
Inventors: Shin-ichi Minato-ku Taumi; Kazunori Minato-ku Ozawa
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1995-07-27
Filing date: 1996-07-26
Publication date: 2004-05-19
Anticipated expiration: 2016-07-27
Also published as: EP0756268A3; EP0756268B1; JPH0944195A; US6006178A; DE69630177D1; JP3616432B2; CA2182159A1; EP0756268A2; CA2182159C

Description

Die Erfindung betrifft einen mit kurzer Verarbeitungserzögerung betriebsfähigen Sprachcodierer zum Codieren eines Sprachsignals mit hoher Güte bei kurzer Rahmendauer bzw. -länge von höchstens 5 ms bis 10 ms.
Ein herkömmliches Sprachcodiersystem wird beispielsweise in einem Beitrag von K. Ozawa et al . zu IEICE Trans. Commun., Bd. E77-B, Nr. 9 (September 1994), S. 1114–1121 unter dem Titel "M-LCELP Speech Coding at 4 kb/s with Multi-Mode and Multi-Codebook" (MLCELP-Sprachcodierung bei 4 lb/s mit mehreren Moden und mehreren Codebüchern) (Lit. 1) offenbart.
Nach dem oben zitierten herkömmlichen System wird ein Sprachsignal auf einer Sendeseite wie folgt codiert. Unter Anwendung der linearen Prädiktionscodierung (LPC) werden Spektralparameter, die Spektraleigenschaften darstellen, in jedem Rahmen mit eine Rahmendauer von beispielsweise 40 ms aus dem Sprachsignal extrahiert. Für Signalrahmen oder gewichtete Signalrahmen, die man durch perzeptorische Gewichtung der Signalrahmen erhält, wird eine Berechnung von Merkmalsgrößen ausgeführt. Die Merkmalsgrößen werden bei der Entscheidung über Moden (zum Beispiel Vokal- und Konsonantensegmente) zur Erzeugung von Modenentscheidungsergebnissen verwendet. Unter Bezugnahme auf die Modenentscheidungsergebnisse werden ein Algorithmus oder Codebücher geschaltet.
In einem Codierteil wird jeder Rahmen in Sprachteilrahmen mit einer Teilrahmendauer von beispielsweise 8 ms unterteilt. Adaptive Parameter (Verzögerungsparameter, die Tonhöhenperioden entsprechen, und Gewinnparameter) werden aus einem adaptiven Codebuch für jeden Sprachteilrahmen in Bezug auf ein vorhergehendes Erregungssignal extrahiert. Durch Verwendung des adaptiven Codebuchs wird eine Tonhöhen- bzw. Pitch- Prädiktion für die Sprachteilrahmen ausgeführt. Für ein durch die Tonhöhenprädiktion erhaltenes Restsignal wird ein optimaler Erregungscodevektor aus einem Erregungscodebuch (Vektorquantisierungscodebuch) ausgewählt, das aus Rauschsignalen einer vorgegebenen Art besteht. Erregungssignale werden durch Berechnung eines optimalen Gewinns quantisiert.
Der Erregungscodevektor wird so gewählt, daß er eine Fehlerpotenz zwischen dem Restsignal und einem Signal minimiert, das aus einem ausgewählten Rauschsignal besteht. Ein Muliplexer wird zur Erzeugung eines Sendesignals benutzt, das aus einer Kombination von Indizes besteht, welche die Art des so gewählten Erregungscodevektors, Gewinne, die Spektralparameter und die adaptiven Parameter des adaptiven Codebuchs anzeigen.
Das herkömmliche Sprachcodiersystem ist jedoch ungünstig, da wegen einer eingeschränkten Codebuchgröße keine ausreichende Sprachqualität erzielt werden kann.
EP-A-0 607 989 lehrt ein Sprachcodierersystem, das einen Modenklassifikator 245 aufweist, der Sprachsignale in einem Rahmen durch Berechnen vorgegebener Merkmalsgrößen der Sprachsignale in mehrere Moden klassifiziert. Dies ist dem weiter oben beschriebenen Stand der Technik ähnlich.
WO-A-9 305 502 offenbart ein Fehlerkontrollcodierverfahren, das einen Eingangsdatenstrom von Sprachcodiererbits in Bitfelder trennt. Ein erstes Feld 302 weist Sprachcodiererbits auf, die einen Fehlerschutz benötigen, während ein zweites Feld 303 Sprachcodiererbits aufweist, die nicht fehlergeschützt werden.
Eine Aufgabe der vorliegenden Erfindung besteht darin, einen Sprachcodierer mit einer Funktion bereitzustellen, die der Einbeziehung eines mehrfach größeren Codebuchs ist als dem eines herkömmlichen Sprachcodierers äquivalent ist, ohne die Anzahl der übertragenen Bits zu vergrößern.
Weitere Aufgaben der vorliegenden Erfindung werden im Verlauf der Beschreibung deutlich werden.
Die Aufgaben der vorliegenden Erfindung werden mit den Merkmalen der Ansprüche gelöst.
Es wird ein Sprachcodierer bereitgestellt, der aufweist: eine Rahmenunterteilungseinrichtung zum Unterteilen eines Eingangssprachsignals in Sprachrahmen von einer vorgegebenen Rahmendauer, eine Modenentscheidungseinrichtung, die als Reaktion auf das Eingangssprachsignal mindestens eine Art von ersten Merkmalsgrößen zur Erzeugung von Modenentscheidungsergebnissen berechnet, eine Codiereinrichtung zum Codieren des Eingangssprachsignals als Reaktion auf die Modenentscheidungsergebnisse, und eine Codebuchschalteinrichtung, die als Reaktion auf mindestens eine Art von aus dem Eingangssprachsignal berechneten zweiten Merkmalsgrößen bei Auswahl eines vorgegebenen Modus mehrere vorgespeicherte Codebücher schaltet.
Die zweiten Merkmalsgrößen können ein zeitliches Änderungsverhältnis von mindestens einer Art der Merkmalsgrößen einschließen.
Die zweiten Merkmalsgrößen können ein Verhältnis der zwei Merkmalsgrößen von irgend zwei Rahmen enthalten, die unter einem aktuellen Rahmen und mindestens einem vorhergehenden Rahmen ausgewählt sind.
Die zweiten Merkmalsgrößen können mindestens einen der Tonhöhenprädiktionsgewinne, kurzfristigen Prädiktionsgewinne, Pegel und Tonhöhen einschließen.
Die mehreren Codebücher können mehrere RMS-Codebücher, mehrere LSP-Codebücher, mehrere adaptive Codebücher, mehrere Erregungscodebücher oder mehrere Gewinncodebücher aufweisen.
1 zeigt ein Blockdiagramm eines Sprachcodierers nach einer Ausführungsform der vorliegenden Erfindung;
2 zeigt ein Blockdiagramm einer in 1 dargestellten Gewinnquantisiererschaltung;
3 zeigt ein Blockdiagramm einer Modifikation der in 1 dargestellten Gewinnquantisiererschaltung;
4 zeigt ein Blockdiagramm einer anderen Modifikation der in 1 dargestellten Gewinnquantisiererschaltung;
5 zeigt ein Blockdiagramm einer weiteren Modifikation der in 1 dargestellten Gewinnquantisiererschaltung;
6 zeigt ein Blockdiagramm eines Sprachcodierers nach einer weiteren Ausführungsform der vorliegenden Erfindung; und
7 zeigt ein Blockdiagramm einer in 6 dargestellten Gewinnquantisiererschaltung.
Nachstehend wird die vorliegende Erfindung unter Bezugnahme auf die Zeichnungen näher erläutert. Als Beispiel wird ein Fall beschrieben, wo mehrere Gewinncodebücher in einem vorgegebenen Modus geschaltet werden.
1 zeigt einen Sprachcodierer nach einer ersten Ausführungsform der vorliegenden Erfindung. In der nachstehenden Beschreibung werden Gewinncodebücher in einem vorgegebenen Modus unter Verwendung von zweiten Merkmalsgrößen geschaltet.
Wie aus 1 erkennbar, wird ein Eingangssprachsignal über einen Eingangsanschluß 100 einer Rahmenunterteilungsschaltung 110 zugeführt. Die Rahmenunterteilungsschaltung 110 segmentiert oder unterteilt das Eingangssprachsignal in Sprachrahmen mit einer vorgegebenen Rahmendauer oder -länge von beispielsweise 5 ms. Eine mit den Sprachrahmen gespeiste Teilrahmenunterteilungsschaltung 120 unterteilt jeden einzelnen Sprachrahmen weiter in Sprachteilrahmen, die jeweils eine Teilränmendauer von beispielsweise 2,5 ms aufweisen, die kürzer ist als die Rahmendauer.
Eine Spektralparameterberechnungsschaltung 200 berechnet Spektralparameter des Eingangssprachsignals bis zu einer vorgegebenen Ordnung, wie z. B. bis zur zehnten Ordnung (P = 10) durch Anwendung eines Fensters mit einer Fensterdauer bzw. -länge (zum Beispiel 24 ms), die länger ist als die Teilrahmendauer, auf mindestens einen der Sprachteilrahmen, um das Eingangssprachsignal zu extrahieren. Hierbei können die Spektralparameter gemäß der dem Fachmann bekannten LPC-Analyse (linearen Prädiktionscodierungsanalyse) oder der Burg-Analyse berechnet werden. In dem dargestellten Beispiel wird die Burg-Analyse angewandt. Die Burg-Analyse wird zum Beispiel auf S. 82 bis 87 eines Buchs von Nakamizo ausführlich beschrieben, das 1988 von Korona-sha unter dem Titel "Signal Analysis and System Identification" (Signalanalyse und Systemidentifikati on) veröffentlicht wurde (Lit. 2), und wird hierin nicht beschrieben.
Nach der Berechnung der linearen Prädiktionskoeffizienten α_i (i = 1, ..., 10) durch Anwendung der Burg-Analyse wandelt die Spektralparameterberechnungsschaltung 200 die linearen Prädiktionskoeffizienten α_i in LSP-Parameter (lineare Spektralpaar-Parameter) um, die sich für die Quantisierung und Interpolation eignen. Eine solche Umwandlung aus den linearen Prädiktionskoeffizienten in die LSP-Parameter wird in einem Beitrag von Sugamura et al. zu Transactions of the Institute of Electronics and Communication Engineers of Japan, J64-A (1981), S. 599 bis 606, unter dem Titel "Speech Data Compression by Linear Spectral Pair (LSP) Speech Analysis-Synthesis Techni-que" (Verdichtung von Sprachdaten durch lineares Spektralpaar-(LSP-)Sprachanalyse-Syntheseverfahren) (Lit. 3) beschrieben.
Konkret besteht in dem beschriebenen Beispiel jeder Sprachrahmen aus ersten und zweiten Teilrahmen. Die linearen Prädiktionskoeffizienten werden nach der Burg-Analyse für die zweiten Teilrahmen berechnet und in die LSP-Parameter umgerechnet. Für den ersten Teilrahmen werden die LSP-Parameter durch lineare Interpolation der LSP-Parameter der zweiten Teilrahmen berechnet und in die linearen Prädiktionskoeffizienten zurücktransformiert. Auf diese Weise erzeugt die Spektralparameterberechnungsschaltung 200 die linearen Prädiktionskoeffizienten α_iI (i = 1, ..., 10, I = 1, ..., S) für die ersten und zweiten Teilrahmen und übergibt die linearen Prädiktionskoeffizienten α_iI an die perzeptorische Gewichtungsschaltung 230. Andererseits übergibt die Spektralparameterberechnungsschaltung 200 die LSP-Parameter für die ersten und zweiten Teilrahmen an eine Spektralparameterquantisiererschaltung 210.
Die Spektralparameterquantisiererschaltung 210 dient zur rationellen Quantisierung von LSP-Parametern eines vorgegebenen Teilrahmens. In der folgenden Beschreibung wird angenommen, daß die LSP-Parameter des zweiten Teilrahmens durch Anwendung der Vektorquantisierung quantisiert werden. Für die Vektorquantisierung der LSP-Parameter können verschiedene be kannte Verfahren angewandt werden. Eine solche Vektorquantisierung wird zum Beispiel ausführlich in der ungeprüften japanischen Patentveröffentlichung Nr. 171500/1992 (Lit. 4), der ungeprüften japanischen Patentveröffentlichung Nr. 363000/ 1992) (Lit. 5), der ungeprüften japanischen Patentveröffentlichung Nr. 6199/1993 (Lit. 6) und in einem Beitrag von T. Nomura et al. zu Proc. Mobile Multimedia Communications, S. B.2.5-1 bis B2.5–4 (1993) unter dem Titel "LSP Coding Using VQ-SVQ with Interpolation in 4.075 kbps M-LCELP Speech Coder" (LSP-Codierung mittels VQ-SVQ mit Interpolation in einem 4,075 kb/s M-LCELP-Sprachcodierer) (Lit. 7) beschrieben. Daher wird hierin keine ausführliche Beschreibung gegeben.
Die Spektralparameterquantisiererschaltung 210 reproduziert die LSP-Parameter für die ersten und zweiten Teilrahmen aus den in Verbindung mit jedem zweiten Teilrahmen quantisierten LSP-Parametern. Hierbei werden die LSP-Parameter für die ersten und zweiten Teilrahmen durch lineare Interpolation zwischen den quantisierten LSP-Parametern des zweiten Teilrahmens eines aktuellen Rahmens und den quantisierten LSP-Parametern des zweiten Teilrahmens eines vorhergehenden Rahmens reproduziert,-der eine Rahmendauer vor dem aktuellen Rahmen liegt.
Genauer gesagt, die LSP-Parameter für die ersten und zweiten Teilrahmen können durch lineare Interpolation reproduziert werden, nachdem ein einzelner Codevektor so ausgewählt wird, daß eine Fehlerpotenz zwischen den LSP-Parametern vor und nach der Quantisierung minimiert wird. Um eine höhere Effizienz zu erreichen, können mehrere Codevektorkandidaten für die Minimierung der Fehlerpotenz ausgewählt werden, um kumulative Verzerrungen in Verbindung mit diesen Kandidaten zu beurteilen und eine Kombination aus einem der Kandidaten, der die kumulativen Verzerrungen minimiert, und interpolierten LSP-Parametern auszuwählen.
Die Spektralparameterquantisiererschaltung 210 wandelt die so reproduzierten LSP-Parameter für die ersten und zweiten Teilrahmen und die quantisierten LSP-Parameter des zweiten Teilrahmens in konvertierte lineare Prädiktionskoeffizienten α'_iI (i = 1, ..., 10, I = 1, ..., 5) für jeden Teilrahmen um. Die umgewandelten linearen Prädiktionskoeffizienten α'_iI wer den an eine Impulsantwortberechnungsschaltung 310 übergeben. Außerdem speist die Spektralparameterquantisiererschaltung 210 einen Multiplexer 400 mit Indizes, welche die Codevektoren für die quantisierten LSP-Parameter des zweiten Teilrahmens anzeigen.
Anstelle der linearen Interpolation in der vorstehenden Beschreibung können Interpolations-LSP-Muster für eine vorgegebene Bitzahl, wie z. B. zwei Bits, vorher erzeugt werden, um die LSP-Parameter der ersten und zweiten Teilrahmen für jedes Muster zu reproduzieren und eine Kombination aus einem der Codevektoren, der die kumulativen Verzerrungen minimiert, und den Interpolationsmustern auszuwählen. In diesem Fall erhöht sich unvermeidlich die Menge der übertragenen Informationen entsprechend der Bitzahl der Interpolationsmuster. Jedoch können zeitliche Änderungen der LSP-Parameter in jedem Sprachrahmen genauer dargestellt werden.
Die Interpolationsmuster können durch vorbereitendes Lernen von LSP-Trainingsdaten erzeugt werden. Alternativ können vorgegebene Muster als Interpolationsmuster gespeichert werden. Solche vorgegebenen Muster werden beispielsweise in einem Beitrag von T. Taniguchi et al. zu Proc. ICLSP (1992), S. 41 bis 44, unter dem Titel "Improved CELP Speech Coding at 4 kbits/s and below" (Verbesserte CELP Sprachcodierung bei 4 kbit/s und darunter) (Lit. 8) beschrieben. Alternativ können zur weiteren Leistungsverbesserung die Interpolationsmuster vorgewählt werden, um ein Fehlersignal zwischen tatsächlichen Werten der LSP-Parameter und interpolierten LSP-Werten für einen vorgegebenen Teilrahmen zu berechnen und das Fehlersignal unter Verwendung eines Fehlercodebuchs darzustellen.
Die perzeptorische Gewichtungsschaltung 230 wird von der Spektralparameterberechnungsschaltung 200 vor der Quantisierung teilrahmenweise mit den linearen Prädiktionskoeffizienten α_iI (i = 1, ..., 10, I = 1, ..., 5) gespeist. Nach dem in der obenerwähnten Literaturstelle 1 beschriebenen Verfahren belegt die perzeptorische Gewichtungsschaltung 230 die Sprachteilrahmen mit perzeptorischen oder akustischen Gewichten, um ein perzeptorisch gewichtetes Signal zu erzeugen.
Eine Modenentscheidungsschaltung 250, die von der perzeptorischen Gewichtungsschaltung 230 rahmenweise mit dem perzeptorisch gewichteten Signal gespeist wird, bestimmt Tonhöhenprädiktionsgewinne und Moden (zum Beispiel Vokal- und Konsonantensegmente) in Bezug auf einen vorgegebenen Schwellwert. Die perzeptorische Gewichtungsschaltung 230 übergibt ein Modenentscheidungsergebnis an eine adaptive Codebuchschaltung 500 und eine Erregungsquantisiererschaltung 350.
Wie wieder aus 1 erkennbar, wird eine Antwortsignalberechnungsschaltung 240 von der Spektralparameterberechnungsschaltung 200 teilrahmenweise mit den linearen Prädiktionskoeffizienten α_iI gespeist. Zusätzlich wird die Antwortsignalberechnungsschaltung 240 von der Spektralparameterquantisiererschaltung 210 teilrahmenweise mit den umgewandelten, nach der Quantisierung und Interpolation reproduzierten linearen Prädiktionskoeffizienten α_iI gespeist. Unter Verwendung eines gespeicherten Filterspeicherwerts berechnet die Antwortsignalberechnungsschaltung 240 als Reaktion auf das durch d(n) = 0 gegebene Eingangssignal für jeden einzelnen Teilrahmen ein Antwortsignal x_z(n) und übergibt das Antwortsignal an einen Subtrahierer 235. Das Antwortsignal x_z(n) wird dargestellt durch:
wobei γ einen Gewichtungsfaktor darstellt, der das perzeptorische Gewicht steuert, und einen Wert hat, der durch die weiter unten angegebene Gleichung (3) gegeben ist.
Der Subtrahierer 235 subtrahiert das Antwortsignal von dem perzeptorisch gewichteten Signal für einen Teilrahmen, um ein Teilrahmendifferenzsignal x'_w(n) zu erzeugen, das an die adaptive Codebuchschaltung 500 übergeben wird. Das Teilrahmendifferenzsignal x'_w(n) ist gegeben durch: x'w(n) = xw(n) – xz(n) (2)
Die Impulsantwortberechnungsschaltung 310 berechnet in einer vorgegebenen Anzahl L von Punkten Impulsantworten h_w(n) eines gewichteten Filters. Die Impulsantworten h_w(n) werden an die adaptive Codebuchschaltung 500 und die Erregungsquantisiererschaltung 350 übergeben. Die Z-Transformierte der Impulsantworten h_w(n) ist gegeben durch:
Die adaptive Codebuchschaltung 500 berechnet Tonhöhenparameter auf die in Literaturstelle 2 ausführlich beschriebene Weise. Die adaptive Codebuchschaltung 500 führt außerdem eine Tonhöhenprädiktion durch, um für das adaptive Codebuch ein Prädiktionsdifferenzsignal z(n) zu erzeugen, das gegeben ist durch z(n) = x'w(n) – b(n) (4)wobei b(n) ein Tonhöhenprädiktionssignal für das adaptive Codebuch darstellt, das durch b(n) = β v(n – T)*hw(n) (5)definiert ist, wobei ß und T den Gewinn der adaptiven Codebuchschaltung 500 bzw. eine Verzögerung darstellen. v(n) stellt einen adaptiven Codevektor dar. Das Symbol * bezeichnet eine Faltung.
Ein dünnbesetztes Codebuch 351 von einem Typ mit unregelmäßiger Impulszahl speichert Erregungscodevektoren mit un terschiedlicher Anzahl von nichtverschwindenden Vektorkomponenten.
Für alle oder einen Teil der in dem Erregungscodebuch 351 gespeicherten Erregungscodevektoren wählt die Erregungsquantisiererschaltung 350 optimale Erregungscodevektoren c_j(n) aus, um die j-ten Differenzen D_j zu minimieren. Hierbei ist die Auswahl einer einzigen Art der optimalen Codevektoren möglich. Alternativ können zwei oder mehrere Arten der optimalen Codevektoren ausgewählt werden, um nach Quantisierung der Gewinne eine Art endgültig auszuwählen. Hier wird angenommen, daß zwei oder mehrere Arten von Codevektoren ausgewählt werden. Die j-ten Differenzen D_j sind gegeben durch:
wobei z(n) das Prädiktionsdifferenzsignal bezüglich der ausgewählten adaptiven Codevektoren darstellt.
Falls Gleichung (6) auf einen Teil der Erregungscodevektoren allein angewandt wird, ist es möglich, vorher mehrere Erregungscodevektoren auszuwählen und Gleichung (6) auf die zuvor ausgewählten Erregungscodevektoren anzuwenden.
Eine Gewinnquantisiererschaltung 365, die von der Modenentscheidungsschaltung 230 mit der Modenentscheidungsinformation und von der Spektralparameterberechnungsschaltung 200 mit den Spektralparametern gespeist wird, wählt unter Verwendung der zweiten Merkmalsgrößen eines der Gewinncodebücher 371 und 372 aus, wenn die Modenentscheidungsinformation einen vorgegebenen Modus anzeigt. Die Gewinnquantisiererschaltung 365 liest Gewinncodevektoren aus dem ausgewählten Gewinncodebuch 371 bzw. 372 ein und übergibt die Indizes, welche die Erregungs- und die Gewinncodevektoren anzeigen, an den Multiplexer 400.
Nachstehend wird unter Bezugnahme auf 2 die Gewinnquantisiererschaltung 365 beschrieben. Eine Berechnungsschaltung 1110 für kurzfristige Prädiktionsgewinne G wird über einen Eingangsanschluß 1040 mit den Spektralparametern gespeist und berechnet als zweite Merkmalsgrößen kurzfristige Prädiktionsgewinne G, die an einen Gewinncodebuchschaltkreis 1120 übergeben werden. Die kurzfristigen Prädiktionsgewinne G sind gegeben durch:
Der Gewinncodebuchschaltkreis 1120, der von der Berechnungsschaltung 1110 für kurzfristige Prädiktionsgewinne mit den kurzfristigen Prädiktionsgewinnen und über einen Eingangsanschluß 1050 mit der Modeninformation gespeist wird, vergleicht den kurzfristigen Prädiktionsgewinn mit einem vorgegebenen Schwellwert, wenn die Modeninformation einen vorgegebenen Modus anzeigt. Als Vergleichsergebnis erzeugt der Gewinncodebuchschaltkreis 1120 eine Gewinncodebuchschaltinformation, die an eine Gewinnquantisiererschaltung 1130 übergeben wird. Die Gewinnquantisiererschaltung 1130 wird über einen Eingangsanschluß 1010 mit den adaptiven Codevektoren, über einen Eingangsanschluß 1020 mit den Erregungscodevektoren und über einen Eingangsanschluß 1030 mit der Impulsantwortinformation gespeist. Die Gewinnquantisiererschaltung 1130 wird außerdem von dem Gewinncodebuchschaltkreis 1120 mit der Gewinncodebuchschaltinformation und von dem Gewinncodebuch 371 oder 372 (1), das mit einem der Eingangsanschlüsse 1060 und 1070 verbunden ist, der durch die Gewinncodebuchschaltinformation ausgewählt wird, mit den Gewinncodevektoren gespeist. Für die ausgewählten Erregungscodevektoren wählt die Gewinnquantisiererschaltung 1130 Kombinationen der Erregungscodevektoren und der Gewinncodevektoren in dem durch die Gewinncodebuchschaltinformation ausgewählten Gewinncodebuch aus, um die (j,k)-ten Differenzen zu minimieren, die durch
definiert sind, wobei β'k und γ'k einen k-ten zweidimensionalen Codevektor darstellen, der in dem durch die Gewinncodebuchschaltinformation ausgewählten Gewinncodebuch gespeichert ist. Die Gewinnquantisiererschaltung 1130 übergibt die Indizes, welche die ausgewählten Kombinationen der Erregungscodevektoren und der Gewinncodevektoren anzeigen, an einen Ausgangsanschluß 1080.
Wie wieder aus 1 erkennbar, liest eine Gewichtungssignalberechnungsschaltung 360, die mit den Ausgangsparametern der Spektralparameterberechnungsschaltung 200 zusammen mit ihren Indizes gespeist wird, die Codevektoren unter Bezugnahme auf ihre Indizes ein und berechnet ein Treibererregungssignal v(n) gemäß: v(n) = β'k v(n – T) + γ'k cj (n) (9)Anschließend berechnet die Gewichtungssignalberechnungsschaltung 360 unter Verwendung der Ausgangsparameter der Spektralparameterberechnungsschaltung 200 und der Ausgangsparameter der Spektralparameterquantisiererschaltung 210 ein Gewichtungssignal s_w(n) für jeden Teilrahmen nach der Formel:
um das Gewichtungssignal an die Antwortsignalberechnungsschaltung 240 zu übergeben.
Als nächstes wird ein Sprachcodierer nach einer zweiten Ausführungsform der vorliegenden Erfindung beschrieben.
Der Sprachcodierer gemäß dieser Ausführungsform ist von ähnlicher Struktur wie derjenige der ersten Ausführungsform, mit der Ausnahme, daß die Gewinnquantisiererschaltung 365 durch eine Gewinnquantisiererschaltung 2365 ersetzt wird. Im folgenden wird ausschließlich die Gewinnquantisiererschaltung 2365 unter Bezugnahme auf 3 beschrieben.
Wie in 3 erkennbar, wird eine Berechnungsschaltung 2110 für kurzfristige Prädiktionsgewinne über einen Eingangsanschluß 2040 mit den Spektralparametern gespeist und berechnet als zweite Merkmalsgrößen kurzfristige Prädiktionsgewinne G, die an eine Berechnungsschaltung 2140 für kurzfristige Prädiktionsgewinnverhältnisse und an eine Laufzeit- bzw. Verzögerungseinheit 2150 übergeben werden. Die kurzfristigen Prädiktionsgewinne G sind durch die obige Gleichung (7) gegeben, die in Bezug auf die erste Ausführungsform beschrieben wurde.
Die Berechnungsschaltung 2140 für kurzfristige Prädiktionsgewinnverhältnisse, die von der Berechnungsschaltung 2110 für kurzfristige Prädiktionsgewinne mit dem kurzfristigen Prädiktionsgewinn eines aktuellen Rahmens und von der Verzögerungseinheit 2150 mit dem kurzfristigen Prädiktionsgewinn eines vorhergehenden Rahmens (eine Rahmendauer vor dem aktuellen Rahmen) gespeist wird, berechnet ein kurzfristiges Prädiktionsgewinnverhältnis als Zeitverhältnis und übergibt das kurzfristige Prädiktionsgewinnverhältnis an einen Gewinncodebuchschaltkreis 2120. Der Gewinncodebuchschaltkreis 2120, der von der Berechnungsschaltung 2140 für kurzfristige Prädiktionsgewinnverhältnisse mit dem kurzfristigen Prädiktionsgewinnverhältnis und über einen Eingangsanschluß 2050 mit der Modeninformation gespeist wird, vergleicht das kurzfristige Prädiktionsgewinnverhältnis mit einem vorgegebenen Schwellwert, wenn die Modeninformation einen vorgegebenen Modus anzeigt. Als Vergleichsergebnis erzeugt der Gewinncodebuchschaltkreis 2120 eine Gewinncodebuchschaltinformation, die an eine Gewinnquantisiererschaltung 2130 übergeben wird. Die Gewinnquantisiererschaltung 2130 wird über einen Eingangsanschluß 2010 mit den adaptiven Codevektoren, über einen Eingangsanschluß 2020 mit den Erregungscodevektoren und über einen Eingangsanschluß 2030 mit der Impulsantwortinformation gespeist. Die Gewinnquanti siererschaltung 2130 wird außerdem vom Gewinncodebuchschaltkreis 2120 mit der Gewinncodebuchschaltinformation und von dem Gewinncodebuch 371 oder 372 (1), das mit einem der Eingangsanschlüsse 2060 und 2070 verbunden ist, der durch die Gewinncodebuchschaltinformation ausgewählt wird, mit den Gewinncodevektoren gespeist. Für die ausgewählten Erregungscodevektoren wählt die Gewinnquantisiererschaltung 2130 Kombinationen der Erregungscodevektoren und der Gewinncodevektoren in dem durch die Gewinncodebuchschaltinformation ausgewählten Gewinncodebuch aus, um die (j,k)-ten Differenzen zu minimieren, die durch die obige, in Bezug auf die erste Ausführungsform beschriebene Gleichung (8) definiert sind. In dieser Ausführungsform übergibt die Gewinnquantisiererschaltung 2130 die Indizes, welche die ausgewählten Kombinationen der Erregungscodevektoren und der Gewinncodevektoren anzeigen, an einen Ausgangsanschluß 2080.
Nachstehend wird ein Sprachcodierer nach einer dritten Ausführungsform der vorliegenden Erfindung beschrieben.
Der Sprachcodierer gemäß dieser Ausführungsform ist von ähnlicher Struktur wie derjenige der ersten Ausführungsform, mit der Ausnahme, daß die Gewinnquantisiererschaltung 365 durch eine Gewinnquantisiererschaltung 3365 ersetzt wird. Im folgenden wird ausschließlich die Gewinnquantisiererschaltung 3365 unter Bezugnahme auf 4 beschrieben.
Wie in 4 erkennbar, wird eine Berechnungsschaltung 3110 für kurzfristige Prädiktionsgewinne über einen Eingangsanschluß 3040 mit den Spektralparametern gespeist und berechnet als zweite Merkmalsgrößen kurzfristige Prädiktionsgewinne G, die an eine Berechnungsschaltung 3140 für kurzfristige Prädiktionsgewinnverhältnisse und an eine Verzögerungseinheit 3150 übergeben werden. Die kurzfristigen Prädiktionsgewinne G sind durch die obige Gleichung (7) gegeben, die in Bezug auf die erste Ausführungsform beschrieben wurde.
Die Berechnungsschaltung 3140 für kurzfristige Prädiktionsgewinnverhältnisse, die von der Berechnungsschaltung 3110 für kurzfristige Prädiktionsgewinne mit dem kurzfristigen Prädiktionsgewinn eines aktuellen Rahmens und von der Verzögerungseinheit 3160 mit dem kurzfristigen Prädiktionsgewinn ei nes vorhergehenden Rahmens (zwei Rahmendauern vor dem aktuellen Rahmen) gespeist wird, berechnet ein kurzfristiges Prädiktionsgewinnverhältnis und übergibt das kurzfristige Prädiktionsgewinnverhältnis an einen Gewinncodebuchschaltkreis 3120. Der Gewinncodebuchschaltkreis 3120, der von der Berechnungsschaltung 3140 für kurzfristige Prädiktionsgewinnverhältnisse mit dem kurzfristigen Prädiktionsgewinnverhältnis und über einen Eingangsanschluß 3050 mit der Modeninformation gespeist wird,vergleicht das kurzfristige Prädiktionsgewinnverhältnis mit einem vorgegebenen Schwellwert, wenn die Modeninformation einen vorgegebenen Modus anzeigt. Als Vergleichsergebnis erzeugt der Gewinncodebuchschaltkreis 3120 eine Gewinncodebuchschaltinformation, die an eine Gewinnquantisiererschaltung 3130 übergeben wird. Die Gewinnquantisiererschaltung 3130 wird über einen Eingangsanschluß 3010 mit den adaptiven Codevektoren, über einen Eingangsanschluß 3020 mit den Erregungscodevektoren und über einen Eingangsanschluß 2030 mit der Impulsantwortinformation gespeist. Die Gewinnquantisiererschaltung 3130 wird außerdem vom Gewinncodebuchschaltkreis 3120 mit der Gewinncodebuchschaltinformation und von dem Gewinncodebuch 371 oder 372 (1), das mit einem der Eingangsanschlüsse 3060 und 3070 verbunden ist, der durch die Gewinncodebuchschaltinformation ausgewählt wird, mit den Gewinncodevektoren gespeist. Für die ausgewählten Erregungscodevektoren wählt die Gewinnquantisiererschaltung 3130 Kombinationen der Erregungscodevektoren und der Gewinncodevektoren in dem durch die Gewinncodebuchschaltinformation ausgewählten Gewinncodebuch aus, um die (j,k)-ten Differenzen zu minimieren, die durch die obige, in Bezug auf die erste Ausführungsform beschriebene Gleichung (8) definiert sind. In dieser Ausführungsform übergibt die Gewinnquantisiererschaltung 3130 die Indizes, welche die ausgewählten Kombinationen der Erregungscodevektoren und der Gewinncodevektoren anzeigen, an einen Ausgangsanschluß 3080.
Als nächstes wird ein Sprachcodierer nach einer vierten Ausführungsform der vorliegenden Erfindung beschrieben.
Der Sprachcodierer gemäß dieser Ausführungsform ist von ähnlicher Struktur wie derjenige der ersten Ausführungsform, mit der Ausnahme, daß die Gewinnquantisiererschaltung 365 durch eine Gewinnquantisiererschaltung 4365 ersetzt wird. Im folgenden wird ausschließlich die Gewinnquantisiererschaltung 4365 unter Bezugnahme auf 5 beschrieben.
Wie in 5 erkennbar, wird eine Berechnungsschaltung 4110 für kurzfristige Prädiktionsgewinne über einen Eingangsanschluß 4040 mit den Spektralparametern gespeist und berechnet als zweite Merkmalsgrößen kurzfristige Prädiktionsgewinne G, die an Verzögerungseinheiten 4170 und 4150 übergeben werden. Die kurzfristigen Prädiktionsgewinne G sind durch die obige Gleichung (7) gegeben, die in Bezug auf die erste Ausführungsform beschrieben wurde.
Die Berechnungsschaltung 4140 für kurzfristige Prädiktionsgewinnverhältnisse, die von der Verzögerungseinheit 4170 mit dem kurzfristigen Prädiktionsgewinn eines vorhergehenden Rahmens (eine Rahmendauer vor dem aktuellen Rahmen) und von der Verzögerungseinheit 4160 mit dem kurzfristigen Prädiktionsgewinn eines weiteren vorhergehenden Rahmens (zwei Rahmendauern vor dem aktuellen Rahmen) gespeist wird, berechnet ein kurzfristiges Prädiktionsgewinnverhältnis und übergibt das kurzfristige Prädiktionsgewinnverhältnis an einen Gewinncodebuchschaltkreis 4120. Der Gewinncodebuchschaltkreis 4120, der von der Berechnungsschaltung 4140 für kurzfristige Prädiktionsgewinnverhältnisse mit dem kurzfristigen Prädiktionsgewinnverhältnis und über einen Eingangsanschluß 4050 mit der Modeninformation gespeist wird, vergleicht das kurzfristige Prädiktionsgewinnverhältnis mit einem vorgegebenen Schwellwert, wenn die Modeninformation einen vorgegebenen Modus anzeigt. Als Vergleichsergebnis erzeugt der Gewinncodebuchschaltkreis 4120 eine Gewinncodebuchschaltinformation, die an eine Gewinnquantisiererschaltung 4130 übergeben wird. Die Gewinnquantisiererschaltung 4130 wird über einen Eingangsanschluß 4010 mit den adaptiven Codevektoren, über einen Eingangsanschluß 4020 mit den Erregungscodevektoren und über einen Eingangsanschluß 4030 mit der Impulsantwortinformation gespeist. Die Gewinnquantisiererschaltung 4130 wird außerdem vom Gewinncodebuchschaltkreis 4120 mit der Gewinncodebuchschaltinformation und von dem Gewinncodebuch 371 oder 372 (1), das mit einem der Ein gangsanschlüsse 4060 und 4070 verbunden ist, der durch die Gewinncodebuchschaltinformation ausgewählt wird, mit den Gewinncodevektoren gespeist. Für die ausgewählten Erregungscodevektoren wählt die Gewinnquantisiererschaltung 4130 Kombinationen der Erregungscodevektoren und der Gewinncodevektoren in dem durch die Gewinncodebuchschaltinformation ausgewählten Gewinncodebuch aus, um die (j,k)-ten Differenzen zu minimieren, die durch die obige, in Bezug auf die erste Ausführungsform beschriebene Gleichung (8) definiert sind. In dieser Ausführungsform übergibt die Gewinnquantisiererschaltung 4130 die Indizes, welche die ausgewählten Kombinationen der Erregungscodevektoren und der Gewinncodevektoren anzeigen, an einen Ausgangsanschluß 4080.
Nachstehend wird ein Sprachcodierer nach einer fünften Ausführungsform der vorliegenden Erfindung beschrieben.
Der Sprachcodierer gemäß dieser Ausführungsform ist von ähnlicher Struktur wie derjenige der ersten Ausführungsform, mit der Ausnahme, daß die Gewinnquantisiererschaltung 365 durch eine Gewinnquantisiererschaltung 9365 ersetzt wird und daß die Gewinncodebücher 371 und 372 durch Gewinncodebücher 9371, 9372 und 9373 ersetzt werden. Im folgenden wird der Sprachcodierer nach der fünften Ausführungsform unter Bezugnahme auf die 6 und 7 beschrieben.
Die Gewinnquantisiererschaltung 9365, die von der Modenentscheidungsschaltung 250 mit der Modenentscheidungsinformation und von der Spektralparameterberechnungsschaltung 200 mit den Spektralparametern gespeist wird, wählt unter Verwendung der zweiten Merkmalsgrößen eines der Gewinncodebücher 9371, 9372 und 9373 aus, wenn die Modenentscheidungsinformation einen vorgegebenen Modus anzeigt. Die Gewinnquantisiererschaltung 9365 liest die Gewinncodevektoren aus einem ausgewählten der Gewinncodebücher 9371 bis 9373 aus und führt die Indizes, welche die Erregungs- und die Gewinncodevektoren anzeigen, dem Multiplexer 400 zu.
Wie in 7 erkennbar, wird eine Berechnungsschaltung 5110 für kurzfristige Prädiktionsgewinne über einen Eingangsanschluß 5040 mit den Spektralparametern gespeist und berechnet als zweite Merkmalsgrößen kurzfristige Prädiktionsgewinne G, die an Verzögerungseinheiten 5170 und 5150 übergeben werden. Die kurzfristigen Prädiktionsgewinne G sind durch die obige Gleichung (7) gegeben, die in Bezug auf die erste Ausführungsform beschrieben wurde.
Die Berechnungsschaltung 5140 für kurzfristige Prädiktionsgewinnverhältnisse, die von der Verzögerungseinheit 5170 mit dem kurzfristigen Prädiktionsgewinn eines vorhergehenden Rahmens (eine Rahmendauer vor dem aktuellen Rahmen) und von der Verzögerungseinheit 5160 mit dem kurzfristigen Prädiktionsgewinn eines weiteren vorhergehenden Rahmens (zwei Rahmendauern vor dem aktuellen Rahmen) gespeist wird, berechnet ein kurzfristiges Prädiktionsgewinnverhältnis und übergibt das kurzfristige Prädiktionsgewinnverhältnis an einen Gewinncodebuchschaltkreis 5120. Der Gewinncodebuchschaltkreis 5120, der von der Berechnungsschaltung 5140 für kurzfristige Prädiktionsgewinnverhältnisse mit dem kurzfristigen Prädiktionsgewinnverhältnis und über einen Eingangsanschluß 5050 mit der Modeninformation gespeist wird, vergleicht das kurzfristige Prädiktionsgewinnverhältnis mit einem vorgegebenen Schwellwert, wenn die Modeninformation einen vorgegebenen Modus anzeigt. Als Vergleichsergebnis erzeugt der Gewinncodebuchschaltkreis 5120 eine Gewinncodebuchschaltinformation, die an eine Gewinnquantisiererschaltung 5130 übergeben wird. Die Gewinnquantisiererschaltung 5130 wird über einen Eingangsanschluß 5010 mit den adaptiven Codevektoren, über einen Eingangsanschluß 5020 mit den Erregungscodevektoren und über einen Eingangsanschluß 5030 mit der Impulsantwortinformation gespeist. Die Gewinnquantisiererschaltung 5130 wird außerdem vom Gewinncodebuchschaltkreis 5120 mit der Gewinncodebuchschaltinformation und von dem Gewinncodebuch 9371, 9372 oder 9373, das mit einem der Eingangsanschlüsse 5060, 5070 und 5090 verbunden ist, der durch die Gewinncodebuchschaltinformation ausgewählt wird, mit den Gewinncodevektoren gespeist. Für die ausgewählten Erregungscodevektoren wählt die Gewinnquantisiererschaltung 5130 Kombinationen der Erregungscodevektoren und der Gewinncodevektoren in dem durch die Gewinncodebuchschaltinformation ausgewählten Gewinncodebuch aus, um die (j,k)-ten Differenzen zu minimieren, die durch die obige, in Bezug auf die erste Ausführungsform beschriebene Gleichung (8) definiert sind. In dieser Ausführungsform übergibt die Gewinnquantisiererschaltung 5130 die Indizes, welche die ausgewählten Kombinationen der Erregungscodevektoren und der Gewinncodevektoren anzeigen, an einen Ausgangsanschluß 5080.
Wie oben beschrieben, werden in einem vorgegebenen Modus mehrere Codebücher geschaltet. Daher weist der erfindungsgemäße Sprachcodierer eine Funktion auf, die der Einbeziehung eines mehrfach größeren Codebuchs als dem des herkömmlichen Sprachcodierers äquivalent ist, ohne die Anzahl der übertragenen Bits zu vergrößern. Dies ermöglicht eine Verbesserung der Sprachqualität.

Claims

Sprachcodierer, der aufweist: eine Rahmenunterteilungseinrichtung (110, 120) zum Unterteilen eines Eingangssprachsignals in Sprachrahmen von einer vorgegebenen Rahmendauer, eine Modenentscheidungseinrichtung (250), die als Reaktion auf das Eingangssprachsignal rahmenweise erste Merkmalsgrößen zur Erzeugung von Modenentscheidungsergebnissen berechnet, eine Codiereinrichtung (500, 350) zum Codieren des Eingangssprachsignals als Reaktion auf die Modenentscheidungsergebnisse und mehrere Gewinncodebücher (371, 372), dadurch gekennzeichnet, daß der Sprachcodierer ferner aufweist: eine Codebuchschalteinrichtung (365, 1110, 1120, 1130), die als Reaktion auf aus dem Eingangssprachsignal berechnete zweite Merkmalsgrößen eines der Gewinncodebücher steuerbar in Abhängigkeit von den Modenentscheidungsergebnissen schaltet; und daß die ersten Merkmalsgrößen einen Tonhöhenprädiktionsgewinn und die durch die Modenentscheidungseinrichtung für den aktuellen Rahmen festgesetzten Moden einschließen, während die zweiten Merkmalsgrößen kurzfristige Prädiktionsgewinne sind, die aus Spektralparametern des Eingangssprachsignals für die aktuellen und vorhergehenden Rahmen berechnet werden.
Sprachcodierer nach Anspruch 1, dadurch gekennzeichnet, daß die zweiten Merkmalsgrößen ein zeitliches Änderungsverhältnis mindestens einer Art von Merkmalsgrößen einschließen.
Sprachcodierer nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die zweiten Merkmalsgrößen ein Verhältnis der zwei Merkmalsgrößen von irgend zwei Rahmen einschließen, die unter einem aktuellen und mindestens einem vorhergehenden Rahmen ausgewählt sind.