DE60028500T2 - Sprachdekodierung - Google Patents

Sprachdekodierung Download PDF

Info

Publication number
DE60028500T2
DE60028500T2 DE60028500T DE60028500T DE60028500T2 DE 60028500 T2 DE60028500 T2 DE 60028500T2 DE 60028500 T DE60028500 T DE 60028500T DE 60028500 T DE60028500 T DE 60028500T DE 60028500 T2 DE60028500 T2 DE 60028500T2
Authority
DE
Germany
Prior art keywords
circuit
gain
signal
vector
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60028500T
Other languages
English (en)
Other versions
DE60028500D1 (de
Inventor
Atsushi Minato-ku Murashima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of DE60028500D1 publication Critical patent/DE60028500D1/de
Application granted granted Critical
Publication of DE60028500T2 publication Critical patent/DE60028500T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

  • GEBIET DER ERFINDUNG
  • Diese Erfindung betrifft ein Verfahren zum Codieren und Decodieren eines Sprachsignals bei einer niedrigen Bitrate. Insbesondere betrifft die Erfindung ein Sprachsignal-Decodierungsverfahren und eine entsprechende Vorrichtung, ein Sprachsignal-Codierungs-/Decodierungsverfahren und eine entsprechende Vorrichtung, und ein Programmerzeugnis zur Verbesserung der Qualität von Schall in Rauschsegmenten.
  • HINTERGRUND DER ERFINDUNG
  • Ein Verfahren zum Codieren eines Sprachsignals durch Aufteilen des Sprachsignals auf ein Linearprädiktionsfilter und sein Ansteuererregungssignal (Erregungssignal, Erregungsvektor) verwendet man weithin als ein Verfahren zum wirksamen Codieren eines Sprachsignals bei mittleren bis niedrigen Bitraten. Ein typisches derartiges Verfahren ist CELP (Code-erregte Linearprädiktion). Bei CELP wird ein Linearprädiktionsfilter, für welches Linearprädiktionskoeffizienten gesetzt worden sind, die die Frequenzcharakteristik von Eingangssprache repräsentieren, durch ein Erregungssignal (Erregungsvektor) angesteuert, das durch die Summe eines Tonhöhensignals (Tonhöhenvektors, "pitch vector"), welches die Tonhöhenperiode ("pitch period") von Sprache repräsentiert, und eines Schallquellensignals (Schallquellenvektors), das eine Zufallszahl oder einen Impulszug aufweist, repräsentiert wird, wodurch ein synthetisiertes Sprachsignal (rekonstruiertes Signal, rekonstruierter Vektor) erhalten wird. In diesem Zeitpunkt werden das Tonhöhensignal und das Schallquellensignal mit jeweiligen Verstärkungen (Tonhöhenverstärkung und Schallquellenverstärkung) multipliziert. Für eine Erörterung der CELP siehe das Dokument (nachfolgend als "Literatur 1" bezeichnet) "Code excited linear Prediction: High quality speech at very low bit rates" von M. Schroeder et al. (Proc. of IEEE Int. Conf. on Acoust., Speech and Signal Processing, S. 937-940, 1985).
  • Mobilkommunikation wie z.B. mit einem Zellulartelefon erfordert gute Sprachqualität in verrauschter Umgebung, für die Stau in verkehrsreichen Straßen und das Innere eines fahrenden Kraftfahrzeugs typisch ist. Ein Problem bei Sprachcodierung auf CELP-Basis ist eine merkliche Abnahme der Tonqualität für Sprache, welcher Rauschen überlagert ist (solche Sprache wird unten als "Sprache mit Hintergrundrauschen" bezeichnet).
  • Ein Verfahren zur Glättung der Verstärkung einer Schallquelle in einem Decoder ist ein Beispiel für eine bekannte Technik zur Verbesserung der codierten Sprachqualität von Sprache mit Hintergrundrauschen. In Übereinstimmung mit diesem Verfahren wird eine zeitliche Änderung der Kurzzeit-Durchschnittsleistung eines Schallquellensignals, das mit der oben erwähnten Schallquellenverstärkung multipliziert worden ist, durch Glättung der Schallquellenverstärkung geglättet. Als Folge wird auch eine zeitliche Änderung der Kurzzeit-Durchschnittsleistung des Erregungssignals geglättet. Dieses Verfahren verbessert die Tonqualität durch Verminderung von extremen Schwankungen (Fluktuationen) der Kurzzeit-Durchschnittsleistung in decodiertem Rauschen, was eine Ursache für verschlechterte Tonqualität ist.
  • Hinsichtlich eines Verfahrens zur Glättung der Verstärkung eines Schallquellensignals siehe Abschnitt 6.1 von "Digital Cellular Telecommunication System; Adaptive Multi-Rate Speech Transcoding" (ETSI Technical Report, GSM 06.90 Version 2.0.0) (als "Literatur 2" bezeichnet).
  • 8 ist ein Blockdiagramm, das ein Beispiel für die Struktur eines konventionellen Sprachsignal-Decoders zeigt, welcher die Codierqualität von Sprache mit Hintergrundrauschen durch Glättung der Verstärkung eines Schallquellensignals verbessert. Es wird hier angenommen, dass die Eingabe einer Bitsequenz in einer Periode (Rahmen, Datenübertragungsblock) von Tfr ms (z.B. 20 ms) stattfindet und dass die Berechnung eines rekonstruierten Vektors in einer Periode (Unterrahmen) von Tfr/Nsfr ms (z.B. 5 ms) durchgeführt wird, wobei Nsfr eine ganze Zahl ist (z.B. 4). Eine Rahmen-Länge sei Lfr Abtastwerte (z.B. 320 Abtastwerte), und eine Unterrahmen-Länge sei Lsfr Abtastwerte (z.B. 80 Abtastwerte). Die Zahlen dieser Abtastwerte werden durch die Abtastfrequenz (z.B. 16 kHz) des Eingangssprachsignals bestimmt.
  • Unter Bezugnahme auf 8 werden nun die Komponenten des konventionellen Sprachsignaldecodierers beschrieben.
  • Der Code der Bitsequenz tritt von einem Eingangsanschluss (Eingabeendgerät) 10 ein. Eine Codeeingabeschaltung 1010 teilt den vom Eingangsanschluss 10 eingegebenen Code der Bitsequenz auf und setzt ihn in Indizes um, die einer Vielzahl von Decodie rungsparametern entsprechen. Ein Index entsprechend einem Zeilenspektrumpaar (LSP), welches die Frequenzcharakteristik des Eingangssignals repräsentiert, wird an eine LSP-Decodierungsschaltung 1020 ausgegeben, ein Index entsprechend einer Verzögerung Lpd, die die Tonhöhenperiode des Eingangssignals repräsentiert, wird an eine Tonhöhensignal-Decodierungsschaltung 1210 ausgegeben, ein Index entsprechend einem Schallquellenvektor umfassend eine Zufallszahl oder einen Imopulszug wird an eine Schallquellensignal-Decodierungsschaltung 1110 ausgegeben, ein Index entsprechend einer ersten Verstärkung wird an eine erste Verstärkungsdecodierungsschaltung 1220 ausgegeben, und ein Index entsprechend einer zweiten Verstärkung wird an eine zweite Verstärkungsdecodierungsschaltung 1120 ausgegeben.
  • Die LSP-Decodierungsschaltung 1020 enthält eine Tabelle (nicht gezeigt), in welcher mehrere Sätze von LSPs gespeichert worden sind. Die LSP-Decodierungsschaltung 1020 empfängt als ein Eingangssignal den von der Codeeingabeschaltung 1010 ausgegebenen Index, liest das diesem Index entsprechende LSP aus der Tabelle aus und erhält LSP ^qj (Nsfr)(n) im Nsfr -ten Unterrahmen des momentanen Rahmens (des n-ten Rahmens), wobei NP den Grad der Linearprädiktion repräsentiert.
  • Die LSP eines (Nsfr-1)-ten Unterrahmens von dem ersten Unterrahmen wird durch lineare Interpolation von ^qj (Nsfr)(n) und Ssfr(i) erhalten (wobei i = 0,..., Lsf).
  • LSP ^qj (Nsfr)(n)(worin j = 1,..., Np, m = 1,..., Nsfr) wird an eine Linearprädiktionskoeffizienten-Umsetzungsschaltung 1030 und an eine Glättungskoeffizienten-Berechnungsschaltung 1310 ausgegeben.
  • Die Linearprädiktionskoeffizienten-Umsetzungsschaltung 1030 empfängt als ein Eingangssignal ein von der LSP ^qj (m)(n)(worin j = 1,..., Np, m = 1,..., Nsfr) Decodierungsschaltung 1020 ausgegebenes Signal.
  • Die Linearprädiktionskoeffizienten-Umsetzungsschaltung 1030 setzt das eingegebene LSP ^qj (m)(n) in einen Linearprädiktionskoeffizienten ^αj (m)(n)(worin j = 1,..., Np, m = 1,..., Nsfr) um und gibt ^αj (m)(n) an ein Synthesefilter 1040 aus. Zur Umsetzung des LSP in einen Linearprädiktionskoeffizienten wird ein bekanntes Verfahren wie z.B. das in Abschnitt 5.2.4 von Literatur 2 beschriebene Verfahren verwendet.
  • Die Schallquellensignal-Decodierungsschaltung 1110 enthält eine Tabelle (nicht gezeigt), in der eine Vielzahl von Schallquellenvektoren gespeichert worden sind. Die Schallquellensignal-Decodierungsschaltung 1110 empfängt als ein Eingangssignal den von der Codeeingabeschaltung 1010 ausgegebenen Index, liest den Schallquellenvektor, der diesem Index entspricht, aus der Tabelle aus und gibt diesen Vektor an eine zweite Verstärkungsschaltung 1130 aus.
  • Die zweite Verstärkungsdecodierungsschaltung 1120 enthält eine Tabelle (nicht gezeigt), in der eine Vielzahl von Verstärkungen gespeichert worden sind. Die zweite Verstärkungsdecodierungsschaltung 1120 empfängt als ein Eingangssignal den Index, der von der Codeeingabeschaltung 1010 ausgegeben wird, liest eine zweite Verstärkung, die diesem Index entspricht, aus der Tabelle aus und gibt ihn an eine Glättungsschaltung 1230 aus.
  • Die zweite Verstärkungsschaltung 1130, welche als Eingangssignale den von der Schallquellensignal-Decodierungsschaltung 1110 ausgegebenen ersten Schallquellenvektor und die von der Glättungsschaltung 1230 ausgegebene zweite Verstärkung empfängt, multipliziert den ersten Schallquellenvektor mit der zweiten Verstärkung, um einen zweiten Schallquellenvektor zu erzeugen, und gibt den zweiten Schallquellenvektor an einen Addierer 1050 aus.
  • Eine Speicherschaltung 1240 hält einen vom Addierer 1050 darin eingegebenen Erregungsvektor. Die Speicherschaltung 1240, die den ihr früher zugeführten Erregungsvektor hält, gibt den Vektor an eine Tonhöhensignal-Decodierungsschaltung 1210 aus.
  • Die Tonhöhensignal-Decodierungsschaltung 1210 empfängt als Eingangssignale den früheren, von der Speicherschaltung 1240 gehaltenen Erregungsvektor und den von der Codeeingabeschaltung 1010 ausgegebenen Index. Der Index spezifiziert eine Verzögerung Lpd. In Bezug auf diesen früheren Erregungsvektor schneidet die Tonhöhensignal-Decodierungsschaltung 1210 die Vektoren von Lsfr Abtastwerten entsprechend der Vektorlänge von einem Punkt Lpd, Abtastwerte vor dem Startpunkt des momentanen Rahmens ab und erzeugt ein erstes Tonhöhensignal (Vektor). Im Falle von ^αj (m)(n) schneidet die Tonhöhensignal-Decodierungsschaltung 1210 die Vektoren von Lsfr Abtastwerten aus, verbindet die Lpd, Abtastwerte wiederholt und erzeugt einen ersten Tonhöhenvektor, welcher ein Abtastwert der Vektorlänge Lsfr ist. Die Tonhöhensignal- Decodierungsschaltung 1210 gibt den ersten Tonhöhenvektor an eine erste Verstärkungsschaltung 1230 aus.
  • Die erste Verstärkungsdecodierungsschaltung 1220 enthält eine Tabelle (nicht gezeigt), in der eine Vielzahl von Verstärkungen gespeichert worden sind. Die erste Verstärkungsdecodierungsschaltung 1220 empfängt als ein Eingangssignal den von der Codeeingabeschaltung 1010 ausgegebenen Index, liest eine erste Verstärkung, die diesem Index entspricht, aus der Tabelle aus und gibt diese Verstärkung an die erste Verstärkungsschaltung 1230 aus.
  • Die erste Verstärkungsschaltung 1230, welche als Eingangssignale den von der Tonhöhensignal-Decodierungsschaltung 1210 ausgegebenen Tonhöhenvektor und die von der ersten Verstärkungsdecodierungsschaltung 1220 ausgegebene erste Verstärkung empfängt, multipliziert den eingegebenen ersten Tonhöhenvektor mit der ersten Verstärkung, um einen zweiten Tonhöhenvektor zu erzeugen, und gibt den erzeugten zweiten Tonhöhenvektor an den Addierer 1050 aus.
  • Der Addierer 1050, in den der von der ersten Verstärkungsschaltung 1230 ausgegebene zweite Tonhöhenvektor und der von der zweiten Verstärkungsschaltung 1130 ausgegebene zweite Schallquellenvektor eingegeben werden, addiert diese Eingangssignale und gibt die Summe als einen Erregungsvektor an das Synthesefilter 1040 aus.
  • Die Glättungskoeffizienten-Berechnungsschaltung 1310, in die das von der LSP-Decodierungsschaltung 1020 ausgegebene LSP ^qj (m)(n)) eingeben wird, berechnet ein durchschnittliches LSP q0j(n) im n-ten Rahmen in Übereinstimmung mit Gleichung (1) unten.
    Figure 00050001
  • Als Nächstes berechnet die Glättungskoeffizienten-Berechnungsschaltung 1310 in Bezug auf jeden Unterrahmen m den Schwankungsbetrag d0(m) des LSP in Übereinstimmung mit Gleichung (2) unten.
  • Figure 00060001
  • Ein Glättungskoeffizient k0(m) im Unterrahmen m wird in Übereinstimmung mit Gleichung (3) unten berechnet. k0(m) = min(0,25, max(0, d0(m) – 0,4))/0,25 (3)worin min (x, y) eine Funktion ist, in welcher der kleinere Wert von x und y als der Wert angenommen wird, und max (x, y) eine Funktion ist, in welcher der größere Wert von x und y als der Wert angenommen. Die Glättungskoeffizienten-Berechnungsschaltung 1310 gibt schließlich den Glättungskoeffizienten k0(m) an die Glättungsschaltung 1320 aus.
  • Der von der Glättungskoeffizienten-Berechnungsschaltung 1310 ausgegebene Glättungskoeffizient k0(m) und die von der zweiten Verstärkungsdecodierungsschaltung 1120 ausgegebene zweite Verstärkung werden in die Glättungsschaltung 1320 eingegeben. Die Letztere berechnet dann eine durchschnittliche Verstärkung g0(m) in Übereinstimmung mit Gleichung (4) unten aus der zweiten Verstärkung ^g0(m) im Unterrahmen m.
  • Figure 00060002
  • Als Nächstes wird die zweite Verstärkung ^g0(m) in Übereinstimmung mit Gleichung (5) unten ersetzt. ĝ0(m) = ĝ0·k0(m) + g 0(m)·(1 – k0(m)) (5)
  • Schließlich gibt die Glättungsschaltung 1320 die zweite Verstärkung ^g0(m) an die zweite Verstärkungsschaltung 1130 aus.
  • Der vom Addierer 1050 ausgegebene Erregungsvektor und der von der Linearprädik tionskoeffizienten-Umsetzungsschaltung 1030 ausgegebene Linearprädiktionskoeffizient ^αj (m)(n) (worin j = 1,..., Np, m = 1,..., Nsfr) werden in das Synthesefilter 1040 eingegeben. Das Letztere steuert ein Synthesefilter 1/A(z), für welches die Linearprädiktionskoeffizienten gesetzt worden sind, durch den Erregungsvektor an, um dadurch den rekonstruierten Vektor zu berechnen, welcher aus einem Ausgangsanschluss (Ausgabeendgerät) 20 ausgegeben wird. Die Transferfunktion 1/A(z) des Synthesefilters 1040 wird durch Gleichung (6) unten dargestellt, wobei angenommen wird, dass der Linearprädiktionskoeffizient durch αi (i = 1,..., NP) dargestellt wird.
  • Figure 00070001
  • 9 ist ein Blockdiagramm, das ein Beispiel für die Struktur eines Sprachsignalcodierers in einer konventionellen Sprachsignal-Codierungs-/Decodierungsvorrichtung veranschaulicht. Der Sprachsignalcodierer wird nun unter Bezugnahme auf 9 beschrieben. Man beachte, dass die erste Verstärkungsschaltung 1230, die zweite Verstärkungsschaltung 1130, der Addierer 1050 und die Speicherschaltung 1240 dieselben sind wie jene, die in Verbindung mit der in 8 gezeigten Sprachsignal-Decodierungsvorrichtung beschrieben wurden, und nicht noch einmal beschrieben werden müssen.
  • Der Codierer weist einen Eingangsanschluss 30 auf, dem ein Eingangssignal (Eingangsvektor) zugeführt wird, wobei der Eingangsvektor erzeugt wird, indem ein Sprachsignal abgetastet wird und eine Vielzahl von Abtastwerten zu einem (Zahlwort) Vektor als ein (Zahlwort) Rahmen kombiniert werden.
  • Der Eingangsvektor vom Eingangsanschluss 30 wird einer Linearprädiktionskoeffizienten-Berechnungsschaltung 5510 zugeführt, welche damit fortfährt, den Eingangsvektor einer Linearprädiktionsanalyse zu unterziehen und Linearprädiktionskoeffizienten zu gewinnen. Ein bekanntes Verfahren zur Durchführung von Linearprädiktionsanalyse ist beschrieben in Kapitel 8 "Linear Predictive Coding of Speech" in L. R. Rabiner et al. "Digital Processing of Speech Signals" (Prentice-Hall, 1978) (als "Literatur 3" bezeichnet).
  • Die Linearprädiktionskoeffizienten-Berechnungsschaltung 5510 gibt den Linearprädiktionskoeffizienten an eine LSP-Umsetzungs-/Quantisierungsschaltung 5520 aus.
  • Bei Empfang des von der Linearprädiktionskoeffizienten-Berechnungsschaltung 5510 ausgegebenen Linearprädiktionskoeffizienten setzt die LSP-Umsetzungs-/Quantisierungsschaltung 5520 den Linearprädiktionskoeffizienten in ein LSP um und quantisiert das LSP, um ein quantisiertes LSP zu gewinnen. Ein Beispiel für ein bekanntes Verfahren zur Umsetzung von Linearprädiktionskoeffizienten in ein LSP ist jenes, das in Abschnitt 5.2.3 von Literatur 2 beschrieben ist. Ein Beispiel für ein Verfahren zur Quantisierung eines LSP ist das in Abschnitt 5.2.5 von Literatur 2 beschriebene.
  • Wie in Verbindung mit der LSP-Decodierungsschaltung von 8 beschrieben, wird das quantisierte LSP als ein quantisiertes LSP ^qj (Nsfr)(n) im Nsfr -ten Unterrahmen des momentanen Rahmens (des n-ten Rahmens) (worin j = 1,..., Np) angenommen.
  • Das quantisierte LSP eines (Nsfr-1)-ten Unterrahmens vom ersten Unterrahmen wird durch lineare Interpolation von ^qj (Nsfr)(n) und Ssfr(i) (worin j = 1,..., Lsf) erhalten. Weiterhin wird dieses LSP als LSP ^qj (Nsfr)(n)(j = 1,..., Np) im Nsfr-ten Unterrahmen des momentanen Rahmens (des n-ten Rahmens) angenommen. Das LSP des (Nsfr-1)-ten Unterrahmens vom ersten Unterrahmen wird durch lineare Interpolation von qj (Nsfr)(n) und qj (Nsfr)(n-1) erhalten.
  • Die LSP-Umsetzungs-/Quantisierungsschaltung 5520 gibt das LSP qj (m)(n) (worin j = 1, ..., Np, m = 1,..., Nsfr) und das quantisierte LSP ^qj (m)(n) (worin j = 1,..., Np, m = 1,..., Nsfr) an eine Linearprädiktionskoeffzienten-Umsetzungsschaltung 5030 aus und gibt einen Index entsprechend dem quantisierten LSP ^qj (Nsfr)(n) (worin j = 1,..., Np) an eine Codeausgabeschaltung 6010 aus.
  • Das LSP ^qj (m)(n) (worin j = 1,..., Np, m = 1,..., Nsfr) und das quantisierte LSP ^qj (m)(n)(worin j = 1,..., Np, m = 1,..., Nsfr), die die LSP-Umsetzungs-/Quantisierungsschaltung 5520 ausgegeben hat, werden in die Linearprädiktionskoeffizienten-Umsetzungsschaltung 5030 eingegeben, welche damit fortfährt, qj (m)(n) in einen Linearprädiktions(LP)-Koeffizienten αj (m)(n) (worin j = 1,..., Np, m = 1,..., Nsfr) umzusetzen, αj (m)(n) in einen Linearprädiktionskoeffizienten ^αj (m)(n) (worin j = 1,..., Np, m = 1,..., Nsfr) umzusetzen, den Linearprädiktionskoeffizienten ^αj (m)(n) an ein Gewichtungsfilter 5050 und an ein Gewichtungsynthese filter 5040 auszugeben und den Linearprädiktionskoeffizienten ^αj (m)(n) an das Gewichtungsynthesefilter 5040 auszugeben.
  • Ein Beispiel für ein bekanntes Verfahren zur Umsetzung eines LSP in Linearprädiktions(LP)-Koeffizienten und zur Umsetzung eines quantisierten LSP in quantisierte Linearprädiktionskoeffizienten ist das in Abschnitt 5.2.4 von Literatur 2 beschriebene.
  • Der Eingangsvektor vom Eingangsanschluss 30 und die Linearprädiktionskoeffizienten von der Linearprädiktionskoeffizienten-Umsetzungsschaltung 5030 werden in das Gewichtungsfilter 5050 eingegeben. Das Letztere verwendet diese Linearprädiktionskoeffizienten zur Erzeugung eines Gewichtungsfilter W(z), das der Charakteristik des menschlichen Gehörsinns entspricht, und steuert dieses Gewichtungsfilter durch den Eingangsvektor an, wodurch ein gewichteter Eingangsvektor erhalten wird. Der gewichtete Eingangsvektor wird an ein Subtrahierglied 5060 ausgegeben. Die Transferfunktion W(z) des Gewichtungsfilters wird durch Gleichung (7) unten dargestellt. W(z) = Q(z/r1)/Q(z/r2) (7)worin das Folgende gilt.
  • Figure 00090001
  • Hier sind r1 und r2 Konstanten, z.B. r1 = 0,9, r2 = 0,6. Für die Details des Gewichtungsfilters siehe Literatur 1 usw.
  • Der vom Addierer 1050 ausgegebene Erregungsvektor und der Linearprädiktionskoeffizient αj (m)(n)(worin j = 1,..., Np, m = 1,..., Nsfr) und der Linearprädiktionskoeffzient ^αj (m)(n) (worin j = 1,..., Np, m = 1,..., Nsfr), wie von der Linearprädiktionskoeffizienten-Umsetzungsschaltung 5030 ausgegeben, werden in das Gewichtungsynthesefilter 5040 eingegeben.
  • Das Gewichtungsynthesefilter 5040 steuert das Gewichtungssynthesefilter, für welches αj (m)(n), α j (m)(n) gesetzt worden sind, nämlich H(z)W(z) = Q(z/r1)/[A(z)Q(z/r2)] (9)durch den oben erwähnten Erregungsvektor an, wodurch ein gewichteter rekonstruierter Vektor erhalten wird.
  • Die Transferfunktion H(z) = 1/A(z) des Synthesefilters wird durch Gleichung (10) unten dargestellt.:
    Figure 00100001
  • Der vom Gewichtungsfilter 5050 ausgegebene gewichtete Eingangsvektor und der vom Gewichtungsynthesefilter 5040 ausgegebene gewichtete rekonstruierte Vektor werden in das Subtrahierglied 5060 eingegeben. Das Letztere berechnet die Differenz zwischen diesen Vektoren und gibt die Differenz als einen Differenzvektor an eine Minimierungsschaltung 5070 aus.
  • Die Minimierungsschaltung 5070 gibt aufeinander folgend Ausgangsindizes entsprechend allen Schallquellenvektoren, die in einer Schallquellensignal-Erzeugungsschaltung 5110 gespeichert worden sind, an die Schallquellen-Signalerzeugungsschaltung 5110 aus, gibt aufeinander folgend Indizes entsprechend allen Verzögerungen Lpd innerhalb eines festgelegten Bereichs in einer Tonhöhensignal-Erzeugungsschaltung 5210 an die Tonhöhensignal-Erzeugungsschaltung 5210 aus, gibt aufeinander folgend Indizes entsprechend allen ersten Verstärkungen, die in einer ersten Verstärkungserzeugungsschaltung 6220 gespeichert worden sind, an die erste Verstärkungserzeugungsschaltung 6220 aus und gibt aufeinander folgend Indizes entsprechend allen zweiten Verstärkungen, die in einer zweiten Verstärkungserzeugungsschaltung 6120 gespeichert worden sind, an die zweite Verstärkungserzeugungsschaltung 6120 aus.
  • Außerdem treten vom Subtrahierglied 5060 ausgegebene Differenzvektoren aufeinander folgend in die Minimierungsschaltung 5070 ein. Die Letztere berechnet die Normen dieser Vektoren, wählt einen Schallquellenvektor, eine Verzögerung Lpd, eine erste Verstärkung und eine zweite Verstärkung aus, die die Normen minimieren werden, und gibt diesen entsprechende Indizes an die Codeausgabeschaltung 6010 aus. Die von der Minimierungsschaltung 5070 ausgegebenen Indizes treten aufeinander folgend in die Tonhöhensignal-Erzeugungsschaltung 5210, die Schallquellensignal-Erzeugungsschaltung 5110, die erste Verstärkungserzeugungsschaltung 6220 und die zweite Verstärkungserzeugungsschaltung 6120 ein.
  • Mit Ausnahme der Verdrahtungen (Verbindungen) in Bezug auf Eingang und Ausgang sind die Tonhöhensignal-Erzeugungsschaltung 5210, die Schallquellensignal-Erzeugungsschaltung 5110, die erste Verstärkungserzeugungsshaltung 6220 und die zweite Verstärkungserzeugungsschaltung 6120 identisch mit der Tonhöhensignal-Decodierungsschaltung 1210, der Schallquellensignal-Decodierungsschaltung 1110, der ersten Verstärkungsdecodierungsschaltung 1220 und der zweiten Verstärkungsdecodierungsschaltung 1120, die in 8 gezeigt sind. Dementsprechend müssen diese Schaltungen nicht noch einmal erläutert werden.
  • Der dem von der Umsetzungs-/Quantisierungsschaltung 5520 ausgegebenen quantisierten LSP entsprechende Index wird in die Codeausgabeschaltung 6010 eingegeben, und ebenso die von der Minimierungsschaltung 5070 ausgegebenen Indizes, die dem Schallquellenvektor, der Verzögerung Lpd, der ersten Verstärkung und der zweiten Verstärkung entsprechen. Die Codeausgabeschaltung 6010 wandelt diese Indizes in den Code einer Bitsequenz um und gibt den Code aus einem Ausgangsanschluss 40 aus.
  • KURZE DARSTELLUNG DER ERFINDUNG
  • Im Laufe von eifrigen Untersuchungen in Richtung auf die vorliegende Erfindung ist man verschiedenen Problemen begegnet.
  • Ein Problem bei dem oben beschriebenen konventionellen Codierer und Decodierer ist, dass es Fälle gibt, in denen anomaler Schall in Rauschsegmenten erzeugt wird, wenn die Schallquellenverstärkung (die zweite Verstärkung) geglättet wird. Dies liegt daran, dass die in den Rauschsegmenten geglättete Schallquellenverstärkung einen Wert annehmen kann, der viel größer als die Schallquellenverstärkung vor der Glättung ist.
  • Der Grund dafür ist, dass es, da es Fälle gibt, in denen die Schallquellenverstärkung sogar in einem Sprachsegment geglättet wird, vorkommt, dass, wenn eine in der Vergangenheit erhaltene Schallquellenverstärkung verwendet wird, um die zuerst erwähnte Schallquellenverstärkung in einem Rauschsegment zeitlich zu glätten, der Einfluss einer Verstärkung mit einem großen Wert, der einem früheren Sprachsegment entspricht, ein Faktor wird.
  • Dementsprechend ist es eine Aufgabe der vorliegenden Erfindung in einem ihrer Aspekte, eine Vorrichtung und ein Verfahren und ein Computerprogramm bereitzustellen, durch die es möglich ist, das Auftreten von anomalem Schall in Rauschsegmenten zu vermeiden, wobei solcher Schall verursacht wird, wenn bei der Glättung der Schallquellenverstärkung (der zweiten Verstärkung) die in einem Rauschsegment geglättete Schallquellenverstärkung einen viel größeren Wert als jener der Schallquellenverstärkung vor der Glättung annimmt.
  • Die vorliegende Erfindung ist in den unabhängigen Ansprüchen angegeben.
  • Die abhängigen Ansprüche geben besondere Ausführungsformen der Erfindung an.
  • In Übereinstimmung mit einer Ausführungsform kann das Computerprogrammerzeugnis von einem geeigneten Medium getragen werden, welches ein dynamisches und/oder statisches Medium umfasst, wie z.B. ein Aufzeichnungsmedium und/oder eine Trägerwelle usw.
  • Weitere Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung ergeben sich für den Fachmann aus der folgenden Beschreibung in Verbindung mit den begleitenden Zeichnungen, wobei überall in deren Figuren gleiche Bezugszeichen dieselben oder ähnliche Teile bezeichnen.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Blockdiagramm, das den Aufbau einer Sprachsignal-Decodierungsvorrichtung in Übereinstimmung mit einer ersten Ausführungsform der vorliegenden Erfindung zeigt;
  • 2 ist ein Blockdiagramm, das den Aufbau einer Sprachsignal-Decodierungsvorrichtung in Übereinstimmung mit einer zweiten Ausführungsform der vorliegenden Erfindung zeigt;
  • 3 ist ein Blockdiagramm, das den Aufbau einer Sprachsignal-Decodierungsvorrichtung in Übereinstimmung mit einer dritten Ausführungsform der vorliegenden Erfindung zeigt;
  • 4 ist ein Blockdiagramm, das den Aufbau einer Sprachsignal-Decodierungsvorrichtung in Übereinstimmung mit einer vierten Ausführungsform der vorliegenden Erfindung zeigt;
  • 5 ist ein Blockdiagramm, das den Aufbau einer Sprachsignal-Decodierungsvorrichtung in Übereinstimmung mit einer fünften Ausführungsform der vorliegenden Erfindung zeigt;
  • 6 ist ein Blockdiagramm, das den Aufbau einer Sprachsignal-Decodierungsvorrichtung in Übereinstimmung mit einer sechsten Ausführungsform der vorliegenden Erfindung zeigt;
  • 7 ist ein Blockdiagramm, das den Aufbau einer Sprachsignal-Decodierungsvorrichtung in Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung zeigt;
  • 8 ist ein Blockdiagramm, das den Aufbau einer Sprachsignal-Decodierungsvorrichtung in Übereinstimmung mit dem Stand der Technik zeigt; und
  • 9 ist ein Blockdiagramm, das den Aufbau einer Sprachsignal-Codierungsvorrichtung in Übereinstimmung mit dem Stand der Technik zeigt;
  • BEVORZUGTE AUSFÜHRUNGSFORMEN DER ERFINDUNG
  • Es werden nun bevorzugte Arten beschrieben, die vorliegende Erfindung in die Praxis umzusetzen.
  • Bei der vorliegenden Erfindung glättet eine Glättungsschaltung (1320 in 1) die Schallquellenverstärkung (zweite Verstärkung) in einem Rauschsegment unter Verwendung einer früher erhaltenen Schallquellenverstärkung, und eine Glättungsbetrag-Begrenzungsschaltung (7200 in 1) erhält den Schwankungsbetrag zwischen der Schallquellenverstärkung (zweiten Verstärkung) und der durch die Glättungsschaltung (1320 in 1) geglätteten Schallquellenverstärkung und begrenzt den Wert der geglätteten Verstärkung derart, dass der Schwankungsbetrag einen bestimmten Schwellenwert nicht übersteigt. Somit werden die Werte, die die geglättete Schallquellenverstärkung annehmen kann, anhand eines unter Verwendung einer Differenz zwischen der geglätteten Schallquellenverstärkung und der Schallquellenverstärkung berechneten Schwankungsbetrags derart begrenzt, dass die im Rauschsegment geglättete Schallquellenverstärkung keinen Wert annimmt, der sehr groß ist im Vergleich mit der Schallquellenverstärkung vor der Glättung. Als Folge wird das Auftreten von anomalem Schall im Rauschsegment vermieden.
  • In einer ersten bevorzugten Art der vorliegenden Erfindung, wie in 1 gezeigt, dient eine Sprachsignal-Decodierungsvorrichtung zum Decodieren vor Informationen, die wenigstens ein Schallquellensignal, eine Verstärkung und Linearprädiktions(LP)-Koeffizienten betreffen, aus einem empfangenen Signal, zum Erzeugen eines Erregungssignals und von Linearprädiktionskoeffizienten aus den decodierten Informationen und zum Ansteuern eines Filters, das durch die Linearprädiktionskoeffizienten gebildet ist, durch das Erregungssignal, um dadurch ein Sprachsignal zu decodieren, und die Vorrichtung umfasst eine Glättungsschaltung (1320), die die Verstärkung unter Verwendung eines früheren Wertes einer Verstärkung glättet, und eine Glättungsbetrag-Begrenzungsschaltung (7200), die den Wert der geglätteten Verstärkung anhand eines aus der Verstärkung und der geglätteten Verstärkung berechneten Schwankungsbetrags begrenzt. Die Glättungsbetrag-Begrenzungsschaltung (7200) erhält den Schwankungsbetrag durch Dividieren des Absolutwertes des Differenz zwischen der Schallquellenverstärkung (zweiten Verstärkung) und der geglätteten Schallquellenverstärkung durch die Schallquellenverstärkung.
  • Insbesondere umfasst die Vorrichtung: eine Codeeingabeschaltung (1010), die den Code einer Bitsequenz eines codierten Eingangssignals, das von einem Eingangsanschluss eingegeben wird, aufteilt, den Code in Indizes umsetzt, die mehreren Decodierungsparametern entsprechen, einen Index, der einem Zeilenspektrumpaar (LSP) entspricht, das die Frequenzcharakteristik des Eingangssignals repräsentiert, an eine LSP-Decodierungsschaltung ausgibt, einen Index, der einer Verzögerung entspricht, die die Tonhöhenperiode des Eingangssignals darstellt, an eine Tonhöhensignal-Decodierungsschaltung ausgibt, einen Index, der einem Schallquellenvektor entspricht, der eine Zufallszahl oder einen Impulszug enthält, an eine Schallquellensignal-Decodierungsschaltung ausgibt, einen Index, der einer ersten Verstärkung entspricht, an eine erste Verstärkungsdecodierungsschaltung ausgibt und einen Index, der einer zweiten Verstärkung entspricht, an eine zweite Verstärkungsdecodierungsschaltung ausgibt; die LSP-Decodierungsschaltung (1020), in die der von der Codeeingabeschaltung (1010) ausgegebene Index eingegeben wird und die das LSP, das dem eingegebenen Index entspricht, aus einer Tabelle ausliest, die LSPs, die Indizes entsprechen, speichert, und ein LSP in einem Unterrahmen des momentanen Rahmens (des n-ten Rahmens) erhält und das LSP ausgibt; die Linearprädiktionskoeffizienten-Umsetzungsschaltung (1030), in die das von der LSP-Decodierungsschaltung ausgegebene LSP eingegeben wird und die das LSP in Linearprädiktionskoeffizienten umsetzt und die Koeffizienten an ein Synthesefilter ausgibt; die Schallquellensignal-Decodierungsschaltung (1110), in die der von der Codeeingabeschaltung (1010) ausgegebene Index eingegeben wird und die einen Schallquellenvektor, der dem Index entspricht, aus einer Tabelle ausliest, die Schallquellenvektoren speichert, die Indizes entsprechen, und den Schallquellenvektor an eine zweite Verstärkungsdecodierungsschaltung ausgibt; die zweite Verstärkungsdecodierungsschaltung (1120), in die der aus der Codeeingabeschaltung (1010) ausgegebene Index eingegeben wird und die eine zweite Verstärkung, die dem eingegebenen Index entspricht, aus einer Tabelle ausliest, die zweite Verstärkungen speichert, die Indizes entsprechen, und die zweite Verstärkung an eine Glättungsschaltung ausgibt; die zweite Verstärkungsschaltung (1130), in die ein erster Schallquellenvektor, der von der Schallquellensignal-Decodierungsschaltung (1110) ausgegeben wird, und die zweite Verstärkung eingegeben werden und die den ersten Schallquellenvektor mit der zweiten Verstärkung multipliziert, um einen zweiten Schallquellenvektor zu erzeugen, und den erzeugten zweiten Schallquellenvektor an den Addierer (1050) ausgibt; die Speicherschaltung (1240), die einen in sie von dem Addierer (1050) eingegebenen Erregungsvektor hält und einen gehaltenen Erregungsvektor, der früher in sie eingegeben wurde, an die Tonhöhensignal-Decodierungsschaltung (1210) ausgibt; die Tonhöhensignal-Decodierungsschaltung (1210), in die der frühere Erregungsvektor, der durch die Speicherschaltung (1240) gehalten wird, und der von der Codeeingabeschaltung (1110) ausgegebene Index (welcher eine Verzögerung Lpd spezifiziert) eingegeben werden, und die Vektoren von Abtastwerten, die der Vektorlänge entsprechen, von einem Punkt Lpd, Abtastwerte vor dem Startpunkt des momentanen Rahmens abschneidet, die einen ersten Tonhöhenvektor erzeugt und die den ersten Tonhöhenvektor an die erste Verstärkungsschaltung (1230) ausgibt; die erste Verstärkungsdecodierungsschaltung (1220), in die der von der Codeeingabeschaltung (1010) ausgegebene Index ausgegeben wird und die eine erste Verstärkung, die dem eingegebenen Index entspricht, aus einer Tabelle ausliest und die erste Verstärkung an eine erste Verstärkungsschaltung ausgibt; die erste Verstärkungsschaltung (1230), in die der erste Tonhöhenvektor, der von der Tonhöhensignal-Decodierungsschaltung (1210) ausgegeben wird, und die erste Verstärkung, die von der ersten Verstärkungsdecodierungsschaltung (1220) ausgegeben wird, eingegeben werden und die den eingegebenen ersten Tonhöhenvektor mit der ersten Verstärkung multipliziert, um einen zweiten Tonhöhenvektor zu erzeugen, und die den erzeugten zweiten Tonhöhenvektor zu dem Addierer ausgibt; den Addierer (1050), in den der zweite Tonhöhenvektor, der von der ersten Verstärkungsschaltung (1230) ausgegeben wird, und der zweite Schallquellenvektor, der von der zweiten Verstärkungsschaltung (1130) ausgegeben wird, eingegeben werden und der dir Summe dieser Eingangssignale berechnet und die Summe an das Synthesefilter (1040) als einen Erregungsvektor ausgibt; die Glättungskoeffizienten-Berechnungsschaltung (1310), in die das von der LSP-Decodierungsschaltung (1020) ausgegebene LSP eingegeben wird und die ein durchschnittliches LSP in einem n-ten Rahmen berechnet, den Schwankungsbetrag des LSP in Bezug auf jeden Unterrahmen ermittelt, einen Glättungskoeffizienten in dem Unterrahmen ermittelt und den Glättungskoeffizienten an eine Glättungsschaltung (1320) ausgibt; die Glättungsschaltung (1320), in die der von der Glättungskoeffizienten-Berechnungsschaltung (1310) ausgegebene Glättungskoeffizient und die von der zweiten Verstärkungsdecodierungsschaltung ausgegebene zweite Verstärkung eingegeben werden und die die durchschnittliche Verstärkung aus der zweiten Verstärkung in dem Unterrahmen ermittelt und die zweite Verstärkung ausgibt; das Synthesefilter (1040), in das der von dem Addierer (1050) ausgegebene Erregungsvektor und die Linearprädiktionskoeffizienten, die von der Linearprädiktionskoeffizienten-Umsetzungsschaltung (1030) ausgegeben werden, eingegeben werden und das ein Synthesefilter, für das die Linearprädiktionskoeffizienten gesetzt worden sind, durch den Erregungsvektor ansteuert, um dadurch einen rekonstruierten Vektor zu berechnen, und das den rekonstruierten Vektor aus einem Ausgangsanschluss ausgibt; und die Glättungsbetrag-Begrenzungsschaltung (7200), in die die zweite Verstärkung, die von der zweiten Verstärkungsdecodierungsschaltung (1120) ausgegeben wird, und die geglättete zweite Verstärkung, die von der Glättungsschaltung (1320) ausgegeben wird, eingegeben werden und die den Schwankungsbetrag zwischen der geglätteten zweiten Verstärkung, die von der Glättungsschaltung (1320) ausgegeben wird, und der zweiten Verstärkung, die von der zweiten Verstärkungsdecodierungsschaltung (1120) ausgegeben wird, ermittelt, die geglättete zweite Verstärkung unverändert verwendet, wenn der Schwankungsbetrag niedriger als ein vorgegebener Schwellenwert ist, die geglättete zweite Verstärkung durch eine geglättete zweite Verstärkung ersetzt, die hinsichtlich der Werte, die sie annehmen kann, begrenzt ist, wenn der Schwankungsbetrag gleich oder größer als der Schwellenwert ist, und die diese geglättete zweite Verstärkung an die zweite Verstärkungsschaltung (1130) ausgibt.
  • In einer zweiten bevorzugten Art der vorliegenden Erfindung, wie in 2 gezeigt, dient eine Sprachsignal-Decodierungsvorrichtung zum Decodieren von Informationen, die ein Erregungssignal und Linearprädiktionskoeffizienten betreffen, aus einem empfangenen Signal, zum Erzeugen eines Erregungssignals und von Linearprädiktionskoeffizienten aus den decodierten Informationen und zum Ansteuern eines Filters, das durch die Linearprädiktionskoeffizienten gebildet ist, durch das Erregungssignal, um dadurch ein Sprachsignal zu decodieren. Insbesondere umfasst die Vorrichtung eine Erregungssignal-Normierungsschaltung (2510), die in regelmäßigen Intervallen eine Norm des Erregungssignals ableitet und das Erregungssignal durch die Norm dividiert; eine Glättungsschaltung (1320), die die Norm unter Verwendung eines früheren Wertes der Norm glättet; eine Glättungsbetrag-Begrenzungsschaltung (7200), die den Wert der geglätteten Norm anhand eines Schwankungsbetrags, der aus der Norm und der geglätteten Norm berechnet wird, begrenzt; und eine Erregungssignal-Rekonstruktionsschaltung (2610), die die geglättete und begrenzte Norm mit dem Erregungssignal multipliziert, um dadurch die Amplitude des Erregungssignals in den Intervallen zu ändern.
  • Insbesondere umfasst die Vorrichtung: eine Erregungssignal-Normierungsschaltung (2510), in die ein Erregungsvektor in einem Unterrahmen, der von dem Addierer (1050) ausgegeben wird, eingegeben wird und die die Verstärkung und einen Formvektor von dem Erregungsvektor bei jedem Unterrahmen oder jedem durch Unterteilen eines Unterrahmens erhaltenen Unter-Unterrahmen berechnet, die Verstärkung an die Glättungsschaltung (1320) ausgibt und den Formvektor an eine Erregungssignal-Rekonstruktionsschaltung (2610) ausgibt; und die Erregungssignal-Rekonstruktionsschaltung (2610), in die die von der Glättungsbetrag-Begrenzungsschaltung (7200) ausgegebene Verstärkung und der von der Erregungssignal-Normierungsschaltung (2510) ausgegebene Formvektor eingegeben werden und die einen geglätteten Erregungsvektor berechnet und diesen Erregungsvektor an die Speicherschaltung (1240) und an das Synthesefilter (1040) ausgibt. Bei dieser Vorrichtung empfängt die Glättungsbetrag-Begrenzungsschaltung (7200) das Ausgangssignal der Glättungsschaltung (1320) an ihrem einen Eingangsanschluss und das Ausgangssignal der Erregungssignal-Normierungsschaltung (2510) statt des Ausgangssignals der zweiten Verstärkungsdecodierungsschaltung (1120), wie in der ersten Art, an ihrem anderen Eingangsanschluss, ermittelt den Schwankungsbetrag zwischen der von Glättungsschaltung (1320) ausgegebenen geglätteten Verstärkung und der von der Erregungssignal-Normierungsschaltung (2510) ausgegebenen Verstärkung, verwendet die geglättete Verstärkung unverändert, wenn der Schwankungsbetrag niedriger als ein vorgegebener Schwellenwert ist, ersetzt die geglättete zweite Verstärkung durch eine geglättete Verstärkung, die hinsichtlich der Werte, die sie annehmen kann, begrenzt ist, wenn der Schwankungsbetrag größer oder gleich dem Schwellenwert ist, und gibt diese geglättete Verstärkung an die Erregungssignal-Rekonstruktionsschaltung 2610 aus; das Ausgangssignal der zweiten Verstärkungsdecodierungsschaltung (1120) wird als zweite Verstärkung in die zweite Verstärkungsschaltung (1130) eingegeben; und die Glättungsschaltung (1320) empfängt das Ausgangssignal der Erregungssignal-Normierungsschaltung (2510) statt des Ausgangssignals der zweiten Verstärkungsdecodierungsschaltung (1120), wie in der ersten Art, und außerdem das Ausgangssignal der Glättungskoeffizienten-Berechnungsschaltung (1310).
  • In einer dritten bevorzugten Art der vorliegenden Erfindung, wie in 3 gezeigt, dient eine Sprachsignal-Decodierungsvorrichtung zum Decodieren von Informationen, die ein Erregungssignal und Linearprädiktionskoeffizienten betreffen, aus einem empfangenen Signal, zum Erzeugen eines Erregungssignals und von Linearprädiktionskoeffizienten aus den decodierten Informationen und zum Ansteuern eines Filters, das durch die Linearprädiktionskoeffizienten gebildet ist, durch das Erregungssignal, um dadurch ein Sprachsignal zu decodieren, und die Vorrichtung umfasst eine Sprache/Nichtsprache- Identifizierungsschaltung (2020), die ein Sprachsegment und ein Rauschsegment in Bezug auf das empfangene Signal unter Verwendung der decodierten Informationen identifiziert; die Erregungssignal-Normierungsschaltung (2510), die eine Norm des Erregungssignals in regelmäßigen Intervallen in dem Rauschsignal berechnet und das Erregungssignal durch die Norm dividiert; die Glättungsschaltung (1320), die die Norm unter Verwendung eines früheren Wertes der Norm glättet; die Glättungsbetrag-Begrenzungsschaltung (7200), die den Wert der geglätteten Norm anhand eines Schwankungsbetrags, der aus der Norm und aus der geglätteten Norm berechnet wird, begrenzt; und eine Erregungssignal-Rekonstruktionsschaltung (2610), die die geglättete und begrenzte Norm mit dem Erregungssignal multipliziert, um dadurch die Amplitude des Erregungssignals in den Intervallen zu ändern.
  • Insbesondere umfasst die Vorrichtung: eine Leistungsberechnungsschaltung (3040), in die der von dem Synthesefilter (1040) ausgegebene rekonstruierte Vektor eingegeben wird und die die Summe der Quadrate des rekonstruierten Vektors berechnet und die Leistung an die Sprache/Nichtsprache-Identifizierungsschaltung ausgibt; eine Sprachmodus-Entscheidungsschaltung (3050), in die ein früherer Erregungsvektor, der durch die Speicherschaltung (1240) gehalten wird, und ein Index, der eine Verzögerung spezifiziert und von der Codeeingabeschaltung (1010) ausgegeben wird, eingegeben werden und die eine Tonhöhenprädiktionsverstärkung in einem Unterrahmen aus dem früheren Erregungsvektor und der Verzögerung berechnet, einen vorgegebenen Schwellenwert in Bezug auf die Tonhöhenprädiktionsverstärkung oder in Bezug auf einen rahmeninternen Durchschnittswert der Tonhöhenprädiktionsverstärkung in einem bestimmten Rahmen bestimmt und einen Sprachmodus setzt; die Sprache/Nichtsprache-Identifizierungsschaltung (2020), in die ein LSP, das von der LSP-Decodierungsschaltung (1020) ausgegeben wird, der Sprachmodus, der von der Sprachmodus-Entscheidungsschaltung (3050) ausgegeben wird, und die Leistung, die von der Leistungsberechnungsschaltung (3040) ausgegeben wird, eingegeben werden und die den Schwankungsbetrag eines Spektrumparameters ermittelt und ein Sprachsegment und ein Nichtsprachsegment anhand des Schwankungsbetrags identifiziert; eine Rauschklassifizierungsschaltung (2030), in die Schwankungsbetrag-Informationen und ein Identifizierungsmerker, die von der Sprache/Nichtsprache-Identifizierungsschaltung (2020) ausgegeben werden, eingegeben werden und die das Rauschen klassifiziert; und eine erste Umschaltschaltung (2110), in die die Verstärkung, die von der Erregungssignal-Normierungsschaltung (2510) ausgegeben wird, ein Identifizierungsmer ker, der von der Sprache/Nichtsprache-Identifizierungsschaltung (2020) ausgegeben wird, und ein Klassifizierungsmerker, der von der Rauschklassifizierungsschaltung (2030) ausgegeben wird, eingegeben werden und die einen Schalter in Übereinstimmung mit einem Wert des Identifizierungsmerkers und einem Wert des Klassifizierungsmerkers umschaltet, um durch Umschalten die Verstärkung an irgendeines von mehreren Filtern (2150, 2160, 2170), die unterschiedliche Filtarcharakteristiken besitzen, auszugeben; wobei das Filter, das aus den mehreren Filtern (2150, 2160, 2170) ausgewählt wird, die Verstärkung, die von der ersten Umschaltschaltung (2110) ausgegeben wird, empfängt, die Verstärkung unter Verwendung eines linearen Filters oder eines nichtlinearen Filters glättet und die geglättete Verstärkung an die Glättungsbetrag-Begrenzungsschaltung (7200) als eine erste geglättete Verstärkung ausgibt; und die Glättungsbetrag-Begrenzungsschaltung (7200), die die erste geglättete Verstärkung, die von dem ausgewählten Filter ausgegeben wird, an einem ersten Eingangsanschluss empfängt, das Ausgangssignal der Erregungssignal-Normierungsschaltung (2510) an ihrem anderen Eingangsanschluss empfängt, den Schwankungsbetrag zwischen der von der Erregungssignal-Normierungsschaltung (2510) ausgegebenen Verstärkung und der von dem ausgewählten Filter ausgegebenen ersten geglätteten Verstärkung ermittelt, die erste geglättete Verstärkung unverändert verwendet, wenn der Schwankungsbetrag niedriger als ein vorgegebener Schwellenwert ist, die erste geglättete Verstärkung durch eine geglättete Verstärkung, die hinsichtlich ihrer Werte, die sie annehmen kann begrenzt ist, ersetzt, wenn der Schwankungsbetrag größer oder gleich dem Schwellenwert ist, und diese geglättete Verstärkung an die Erregungssignal-Rekonstruktionsschaltung (2610) liefert.
  • In einer bevorzugten Art der vorliegenden Erfindung, wie in 4 gezeigt, kann das Umschalten zwischen Verwendung der Verstärkung und Verwendung der geglätteten Verstärkung durch eine Umschaltschaltung (7110) in Übereinstimmung mit einem eingegebenen Umschaltsteuersignal durchgeführt werden, wenn das Sprachsignal decodiert wird.
  • In einer bevorzugten Art der vorliegenden Erfindung, wie in 5 oder 6 gezeigt, umfasst die Vorrichtung weiterhin eine zweite Umschaltschaltung (7110), in die der Erregungsvektor, der von dem Addierer (1050) ausgegeben wird, eingegeben wird und die den Erregungsvektor an das Synthesefilter (1040) oder an die Erregungssignal-Normierungsschaltung (2510) in Übereinstimmung mit einem Umschaltsteuersignal, das von einem Eingangsanschluss (50) eingegeben worden ist, ausgibt, wenn das Sprachsignal decodiert wird.
  • Unter Bezugnahme auf die Zeichnungen werden nun Ausführungsformen der vorliegenden Erfindung beschrieben, um die Arten der oben dargelegten Erfindung näher zu erläutern.
  • 1 ist ein Blockdiagramm, das den Aufbau einer Sprachsignal-Decodierungsvorrichtung in Übereinstimmung mit einer ersten Ausführungsform der vorliegenden Erfindung zeigt. Komponenten in 1, die mit den in 8 gezeigten Komponenten identisch oder dazu äquivalent sind, sind mit gleichen Bezugszeichen gekennzeichnet.
  • In 1 sind der Eingangsanschluss 10, der Ausgangsanschluss 20, die Codeeingabeschaltung 1010, die LSP-Decodierungsschaltung 1020, die Linearprädiktionskoeffizienten-Umsetzungsschaltung 1030, die Schallquellensignal-Decodierungsschaltung 1110, die Speicherschaltung 1240, die Tonhöhensignal-Decodierungsschaltung 1210, die erste Verstärkungsdecodierungsschaltung 1220, die zweite Verstärkungsdecodierungsschaltung 1120, die erste Verstärkungsschaltung 1230, die zweite Verstärkungsschaltung 1130, der Addierer 1050, die Glättungskoeffizienten-Berechnungsschaltung 1310, die Glättungsschaltung 1320 und das Synthesefilter 1040 mit den in 8 gezeigten, ähnlich gekennzeichneten Komponenten identisch und müssen nicht noch einmal beschrieben werden. Die gesamte im einleitenden Teil dieser Anmeldung gegebene Beschreibung in Bezug auf 8 wird hierdurch auch als Teil der Offenbarung der vorliegenden Erfindung aufgenommen, soweit sie sich auf die vorliegende Erfindung bezieht. Nachfolgend werden in erster Linie nur Komponenten beschrieben, die sich von den in 8 gezeigten Komponenten unterscheiden.
  • In der in 1 dargestellten ersten Ausführungsform der vorliegenden Erfindung ist der Anordnung von 8 die Glättungsbetrag-Begrenzungsschaltung 7200 hinzugefügt worden. Wie in der Anordnung von 8 wird in der ersten Ausführungsform der Erfindung angenommen, dass die Eingabe der Bitsequenz in Tfr ms (z.B. 20 ms) stattfindet und dass die Berechnung des rekonstruierten Vektors in einer Periode (Unterrahmen) von Tfr/Nsfr ms (z.B. 5 ms) durchgeführt wird, wobei Nsfr eine ganze Zahl ist (z.B. 4). Eine Rahmen-Länge sei Lfr Abtastwerte (z.B. 320 Abtastwerte), und eine Unterrahmen-Länge sei Lsfr Abtastwerte (z.B. 80 Abtastwerte). Die Zahlen dieser Abtastwerte werden durch die Abtastfrequenz (z.B. 16 kHz) des Eingangssprachsignals bestimmt.
  • Die von der zweiten Verstärkungsdecodierungsschaltung 1120 ausgegebene zweite Verstärkung (durch g2 dargestellt) und die von der Glättungsschaltung 1320 ausgegebene geglättete zweite Verstärkung (durch g2 dargestellt) werden in die Glättungsbetrag-Begrenzungsschaltung 7200 eingegeben.
  • Die von der Glättungsschaltung 1320 ausgegebene zweite Verstärkung g2 wird hinsichtlich der Werte, die sie annehmen kann, derart begrenzt, dass sie nicht anomal groß oder anomal klein im Vergleich mit der von der zweiten Verstärkungsdecodierungsschaltung 1120 ausgegebenen zweiten Verstärkung g2 wird.
  • Zuerst werde der Betrag dg2 der Schwankung von g2 dargestellt durch dg2 = |g2 – g2|/g2 (11)
  • Wenn der Schwankungsbetrag dg2 kleiner als ein bestimmter Schwellenwert Cg2 ist, wird er unverändert verwendet. Wenn der Schwankungsbetrag dg2 gleich oder größer als der Schwellenwert Cg2 ist, wird er begrenzt. Das heißt, g2 wird anhand des folgenden Kriteriums ersetzt:
    wenn (dg2 < Cg2), dann g2 = g2
    sonst, wenn (g2 – g2 > 0), dann g2 = (1 + Cg2)·g2
    sonst g2 = (1 – Cg2)·g2
  • Mit anderen Worten,
    wenn dg2 < Cg2 wahr ist, wird g2 unverändert verwendet;
    wenn dg2 < Cg2 falsch ist (d.h. wenn dg2 ≥ Cg2 gilt), dann wird eine Ersetzung wie folgt vorgenommen:
    g2 = (1 + Cg2)·g2, wenn g2 – g2 > 0 wahr ist; und
    g2 = (1 – Cg2)·g2, wenn g2 – g2 ≤ 0 wahr ist.
  • Hier wird angenommen, das Cg2 = 0,90 gilt.
  • Schließlich gibt die Glättungsbetrag-Begrenzungsschaltung 7200 den Ersatzwert g2 an die zweite Verstärkungsschaltung 1130 aus.
  • Es wird nun eine zweite Ausführungsform der vorliegenden Erfindung beschrieben.
  • 2 ist ein Blockdiagramm, das den Aufbau einer Sprachsignal-Decodierungsvorrichtung in Übereinstimmung mit einer zweiten Ausführungsform der vorliegenden Erfindung zeigt. Komponenten in 2, die mit den in 1 und 8 gezeigten Komponenten identisch oder dazu äquivalent sind, sind mit gleichen Bezugszeichen gekennzeichnet.
  • Wie in 2 gezeigt, ist die zweite Ausführungsform so eingerichtet, dass die Norm des Erregungsvektors statt der decodierten Schallquellenverstärkung (der zweiten Verstärkung) wie in der ersten Ausführungsform geglättet wird. Man beachte, dass der Eingangsanschluss 10, der Ausgangsanschluss 20, die Codeeingabeschaltung 1010, die LSP-Decodierungsschaltung 1020, die Linearprädiktionskoeffizienten-Umsetzungsschaltung 1030, die Schallquellensignal-Decodierungsschaltung 1110, die Speicherschaltung 1240, die Tonhöhensignal-Decodierungsschaltung 1210, die erste Verstärkungsdecodierungsschaltung 1220, die zweite Verstärkungsdecodierungsschaltung 1120, die erste Verstärkungsschaltung 1230, die zweite Verstärkungsschaltung 1130, der Addierer 1050, die Glättungskoeffizienten-Berechnungsschaltung 1310, die Glättungsschaltung 1320 und das Synthesefilter 1040 mit den in 3 gezeigten, ähnlich gekennzeichneten Komponenten identisch sind und hier nicht noch einmal beschrieben werden müssen.
  • Wie in 2 gezeigt, versieht die zweite Ausführungsform der Erfindung die Anordnung der in 1 dargestellten ersten Ausführungsform zusätzlich mit der Erregungssignal-Normierungsschaltung 2510, deren Eingangssignal das Ausgangssignal des Addierers 1050 ist, und mit der Erregungssignal-Rekonstruktionsschaltung 2610, deren Eingangssignale die Ausgangssignale der Erregungssignal-Normierungsschaltung 2510 und der Glättungsbetrag-Begrenzungsschaltung 7200 sind und deren Ausgangssignal dem Synthesefilter 1040 und der Speicherschaltung 1240 zugeführt wird.
  • Das Ausgangssignal der Glättungsschaltung 1320 und das Ausgangssignal der Erregungssignal-Normierungsschaltung 2510 werden in die Glättungsbetrag-Begrenzungsschaltung 7200 eingegeben, welche ihr Ausgangssignal der Erregungssignal-Rekonstruktionsschaltung 2610 zuführt. In anderen Aspekten ist diese Ausführungsform der ersten Ausführungsform ähnlich, mit Ausnahme der Signalverbindungen.
  • Es werden nun die Erregungssignal-Normierungsschaltung 2510 und die Erregungssignal-Rekonstruktionsschaltung 2610 beschrieben.
  • Ein vom Addierer 1050 ausgegebener Erregungsvektor Xexc (m)(i) (worin i = 0,..., Lsfr-1, m = 0,..., Nsfr-1] in einem m-ten Unterrahmen wird in die Erregungssignal-Normierungsschaltung 2510 eingegeben. Die Letztere berechnet die Verstärkung und einen Formvektor aus dem Erregungsvektor Xexc (m)(i) für jeden Untenahmen oder jeden durch Unterteilen eines Unterrahmen erhaltenen Unter-Unterrahmen, gibt die Verstärkung an die Glättungsschaltung 1320 aus und gibt den Formvektor an die Erregungssignal-Rekonstruktionsschaltung 2610 aus. Als die Verstärkung wird eine durch Gleichung (12) unten dargestellte Norm verwendet.
    Figure 00240001
    worin Nssfr die Zahl der Unterteilungen (der Zahl der Unter-Unterrahmen) eines Unterrahmens darstellt (z.B. Nssfr= 2). Die Erregungssignal-Normierungsschaltung 2510 berechnet den Formvektor, welcher erhalten wird durch Dividieren des Erregungsvektors Xexc (m)(i) durch die Verstärkung gexc(j) (worin j = 0,..., Nsfr·Nssfr-1), in Übereinstimmung mit Gleichung (13) unten.
  • Figure 00240002
  • Die von der Glättungsschaltung ausgegebene Verstärkung gexc(j) (worin j = 0,..., Nsfr·Nssfr-1) und ein von der Erregungssignal-Normierungsschaltung 2510 ausgegebener Formvektor Sexc (J)(i) werden in die Erregungssignal-Rekonstruktionsschaltung 2610 eingegeben. Die Letztere berechnet einen (geglätteten) Erregungsvektor ^Xexc (n)(i) in Übereinstimmung mit Gleichung (14) unten und gibt den Erregungsvektor an die Speicherschaltung 1240 und an das Synthesefilter 1040 aus.
  • Figure 00250001
  • Es wird nun eine dritte Ausführungsform der vorliegenden Erfindung beschrieben.
  • 3 ist ein Blockdiagramm, das den Aufbau einer Sprachsignal-Decodierungsvorrichtung in Übereinstimmung mit einer dritten Ausführungsform der vorliegenden Erfindung zeigt. Komponenten in 3, die mit den in 2 und 8 gezeigten Komponenten identisch oder dazu äquivalent sind, sind mit gleichen Bezugszeichen gekennzeichnet. Der Eingangsanschluss 10, der Ausgangsanschluss 20, die Codeeingabeschaltung 1010, die LSP-Decodierungsschaltung 1020, die Linearprädiktionskoeffizienten-Umsetzungsschaltung 1030, die Schallquellensignal-Decodierungsschaltung 1110, die Speicherschaltung 1240, die Tonhöhensignal-Decodierungsschaltung 1210, die erste Verstärkungsdecodierungsschaltung 1220, die zweite Verstärkungsdecodierungsschaltung 1120, die erste Verstärkungsschaltung 1230, die zweite Verstärkungsschaltung 1130, der Addierer 1050, die Glättungskoeffizienten-Berechnungsschaltung 1310, die Glättungsschaltung 1320 und das Synthesefilter 1040 sind mit den in 8 gezeigten, ähnlich gekennzeichneten Komponenten identisch, und die Erregungssignal-Normierungsschaltung 2510 und die Erregungssignal-Rekonstruktionsschaltung 2610 sind mit denen identisch, die in 2 gezeigt sind. Dementsprechend müssen diese Komponenten noch einmal beschrieben werden. Außerdem ist die Glättungsbetrag-Begrenzungsschaltung 7200 jener der ersten Ausführungsform ähnlich, mit Ausnahme eines Unterschieds in den Verbindungen.
  • Wie in 3 gezeigt, versieht die zweite Ausführungsform der Erfindung die Anordnung der in 2 dargestellten zweiten Ausführungsform zusätzlich mit der Leistungsberechnungsschaltung 3040, der Sprachmodus-Entscheidungsschaltung 3050, die Sprache/Nichtsprache-Identifizierungsschaltung 2020, der Rauschklassifizierungsschaltung 2030, der ersten Umschaltschaltung 2110, einem ersten Filter 2150, einem zweiten Filter 2160 und einem dritten Filter 2170. Es wird nun beschrieben, wie sich diese Ausführungsform von der zweiten Ausführungsform unterscheidet.
  • Der vom Synthesefilter 1040 ausgegebene rekonstruierte Vektor wird in die Leistungsberechnungsschaltung 3040 eingegeben. Die Letztere berechnet die Summe der Quadrate des rekonstruierten Vektors und gibt die Leistung an eine Sprache/Nichtsprache-Identifizierungsschaltung 2020 aus. Die Leistungsberechnungsschaltung 3040 berechnet hier die Leistung für jeden Unterrahmen und verwendet den vom Synthesefilter 1040 ausgegebenen rekonstruierten Vektor in einem (m-1)-ten Unterrahmen bei der Berechnung der Leistung in einem m-ten Unterrahmen. Angenommen, dass der rekonstruierte Vektor durch Ssyn(i), i = 0,...., Lsfr dargestellt wird, so wird die Leistung Epow in Übereinstimmung mit Gleichung (15) unten berechnet.
  • Figure 00260001
  • Statt Gleichung (15) kann man zum Beispiel die durch Gleichung (16) unten dargestellte Norm des rekonstruierten Vektors verwenden.
  • Figure 00260002
  • Ein von der Speicherschaltung (1240) gehaltener früherer Erregungsvektor emem(i), i = 0, ..., Lmem-1 und der von der Codeeingabeschaltung (1010) ausgegebene Index werden in die Sprachmodus-Entscheidungsschaltung 3050 eingegeben. Der Index spezifiziert eine Verzögerung Lpd. Lmem stellt eine Konstante dar, die durch den Maximalwert von Lpd bestimmt wird. Die Sprachmodus-Entscheidungsschaltung 3050 berechnet eine Tonhöhenprädiktionsvestärkung Gemem(m), m = 0, 1,..., Nsfr im m-ten Unterrahmen aus einem frühren Erregungsvektor emem(i) und Verzögerung Lpd.
  • Figure 00270001
  • Die Sprachmodus-Entscheidungsschaltung 3050 führt die folgende Schwellenwertverarbeitung in Bezug auf die Tonhöhenprädiktionsverstärkung Gemem(m) oder in Bezug auf einen rahmeninternen Mittelwert der Tonhöhenprädiktionsverstärkung Gemem(m) im n-ten Rahmen durch, wodurch ein Sprachmodus Smode gesetzt wird:
    wenn (gemem(n) ≥ 3,5), dann Smode=2
    sonst Smode = 0
  • Das heißt, wenn gemem(n) ≥ 3,5 gilt, dann ist der Smode gleich 2; andernfalls ist der Smode gleich 0.
  • Die Sprachmodus-Entscheidungsschaltung 3050 gibt den Sprachmodus Smode an die Sprache/Nichtsprache-Identifizierungsschaltung 2020 aus.
  • Das von der LSP-Decodierungsschaltung 1020 ausgegebene LSP q^j (m)(n), der von der Sprachmodus-Entscheidungsschaltung 2050 ausgegebenen Sprachmodus Smode und die von der Leistungsberechnungsschaltung 3040 ausgegebene Leistung Epow werden in die Sprache/Nichtsprache-Identifizierungsschaltung 2020 eingegeben. Eine Prozedur zur Gewinnung des Schwankungsbetrag eines Spektrumparameters ist unten angege ben. Hier wird LSP q^j (m))(n) als der Spektrumparameter verwendet. Die Sprache/Nichtsprache-Identifizierungsschaltung 2020 berechnet einen Langzeit-Mittelwert q j (m)(n) in einem Rahmen (n) in Übereinstimmung mit Gleichung (19) unten.
    Figure 00280001
    worin β0 = 0,9. Ein Betrag dq(n) der Abweichung (Schwankung) des LSP im n-ten Rahmen ist durch Gleichung (20) unten definiert.
    Figure 00280002
    worin D(m) qj(n) der Distanz zwischen qj(n) und ^q(m) j(n) entspricht. Zum Beispiel können die Gleichungen (21a) und (21b) unten verwendet werden. D(m)qj (n) = (q j(m) – q ^(m)j (n))2 (21a) D(m)qj (n) = |q j(n) – q ^(m)j (n)| (21b)
  • In dieser Ausführungsform wird der Absolutwert von Gleichung (21b) als die Distanz verwendet.
  • Zwischen einem Intervall, in dem die Schwankung dq(n) groß ist, und einem Sprachsegment, und zwischen einem Intervall, in dem die Schwankung dq(n) klein ist, und einem Nichtsprachsegment (Rauschsegment) kann eine ungefähre Entsprechung hergestellt werden.
  • Jedoch verändert sich der Betrag der Schwankung dq(n) mit der Zeit stark, und der Bereich von Werten von dq(n) in einem Sprachsegment und der Bereich von Werten von dq(n) in einem Nichtsprachsegment überlappen einander. Es taucht das Problem auf, dass es nicht leicht ist, einen Schwellenwert zur Unterscheidung zwischen Sprach- und Nichtsprachsegmenten zu setzen. Dementsprechend wird der Langzeit-Mittelwert von dq(n) bei der Identifizierung der Sprach- und Nichtsprachsegmente verwendet.
  • Der Langzeit-Mittelwert d q1(n) wird unter Verwendung eines linearen Filters oder nicht linearen Filters ermittelt. Als Beispiel kann der Mittelwert, mittlere Wert oder Modus von dq(n) oder dergleichen als d q1(n) verwendet werden. Hier wird Gleichung (22) verwendet. d q1(n) = β·d q1(n – 1) + (1 – β1)·dq(n) (22)worin β1 = 0,9 gilt.
  • Ein Identifizierungsmerker Svs wird bestimmt, indem die Schwellenwertverarbeitung angewandt wird auf (dq1(n) ≥ Cth1), dann Svs = 1, sonst Svs = 0.
  • Das heißt, wenn dq1(n) ≥ Cth1 gilt, ist Svs gleich 1; andernfalls gilt Svs = 0.
  • Cth1 stellt hier eine bestimmte Konstante dar (z.B. 2,2), und Svs = 1 entspricht einem Sprachsegment, und Ssv = 0 einem Nichtsprachsegment.
  • Da dq(n) in einem Intervall, in dem es einen hohen Grad an Beständigkeit gibt, auch in einem Sprachsegment klein ist, kann das Sprachsegment fehlerhaft für ein Nichtsprachsegment gehalten werden. In einem Fall, in dem die Leistung eines Rahmens hoch ist und die Tonhöhenprädiktionsverstärkung hoch ist, wird dementsprechend das Segment als ein Sprachsegment angesehen. Wenn Svs = 0 gilt, wird Svs in Übereinstimmung mit dem folgenden Kriterium revidiert:
    wenn (^Erms ≥ Crms und Smode ≥ 2), dann Svs = 1
    sonst Svs = 0
  • Das heißt, wenn ^Erms ≥ Crms und Smode> 2 gilt, ist Svs gleich = 1; andernfalls ist Svs gleich 0.
  • Crms (worin rms für den quadratischen Mittelwert steht) stellt hier eine bestimmte Konstante dar (z.B. 10000). Die Beziehung Smode ≥ 2 entspricht einem Fall, in dem der rahmeninterne Mittelwert der Tonhöhenprädiktionsverstärkung gleich 3,5 dB oder größer ist. Die Sprache/Nichtsprache-Identifizierungsschaltung 2020 gibt Svs an die Rauschklassifizierungsschaltung 2030 und an die erste Umschaltschaltung 2110 aus und gibt an die Rauschklassifizierungsschaltung 2030 aus.
  • Die Eingangssignale in die Rauschklassifizierungsschaltung 2030 sind d q1(n), und Svs, ausgegeben von der Sprache/Nichtsprache-Identifizierungsschaltung 2020. Die Rauschklassifizierungsschaltung 2030 gewinnt einen Wert, welcher das durchschnittliche Verhalten von d q1(n) in einem Nichtsprachsegment (Rauschsegment) widerspiegelt, unter Verwendung eines linearen oder nichtlinearen Filters. Die Rauschklassifizierungsschaltung 2030 berechnet d q2(n) in Übereinstimmung mit Gleichung (23) unten, wenn Svs = 0 gilt: d q2(n) = β·d q2(n – 1) + (1 – β2)·dq1(n) (23)worin β2 = 0,94 gilt. Die Rauschklassifizierungsschaltung 2030 klassifiziert Rauschen durch Anwendung einer Schwellenwertverarbeitung auf d q2(n) und bestimmt einen Klassifizierungsmerker Snx.
    wenn (d q2(n) ≥ Cth2 und Smode ≥ 2), dann gilt Snx = 1
    sonst Snx = 0
  • Das heißt, gilt d q2(n) ≥ Cth2, dann gilt Smode ≥ 2 und ist der Klassifizierungsmerker Snx gleich 1, andernfalls ist der Klassifizierungsmerker Snx gleich 0.
  • Cth2 stellt hier eine bestimmte Konstante dar (z.B. 1,7), Snx = 1 entspricht Rauschen, bei dem die zeitliche Änderung der Frequenzcharakteristik unstetig ist, und Snx = 0 entspricht Rauschen, bei dem die zeitliche Änderung der Frequenzcharakteristik stetig ist. Die Rauschklassifizierungsschaltung 2030 gibt Snx an die erste Umschaltschaltung 2110 aus.
  • Die von der Erregungssignal-Normierungsschaltung 2510 ausgegebene Verstärkung gexc(j)(worin j = 0,..., Nsfr·Nssfr-1), der von der Sprache/Nichtsprache-Identifizierungs schaltung 2020 ausgegebene Identifizierungsmerker Svs und der von der Rauschklassifizierungsschaltung 2030 ausgegebene Klassifizierungsmerker Snx werden in die erste Umschaltschaltung 2110 eingegeben. Die Letztere schaltet einen Schalter in Übereinstimmung mit dem Wert des Klassifizierungsmerkers um, wodurch die Verstärkung Gexc (j) an das erste Filter 2150, wenn Svs = 0 und Snx = 0 gilt, an das zweite Filter 2160, wenn Svs = 0 und Snx = 1 gilt, und an das dritte Filter 2170, wenn Svs = 1 gilt, ausgegeben wird.
  • Die von der ersten Umschaltschaltung 2110 ausgegebene Verstärkung gexc(j) (worin j = 0,..., Nsfr·Nssfr-1) wird in das erste Filter 2150 eingegeben, welches damit fortfährt, die Verstärkung unter Verwendung eines linearen oder nichtlinearen Filters zu glätten, diese als eine erste geglättete Verstärkung gexc,1(j) übernimmt und an die Erregungssignal-Rekonstruktionsschaltung 2610 ausgibt. Hier wird von einem Filter Gebrauch gemacht, das durch Gleichung (24) unten dargestellt wird. g exc,1(n) = r21·g exc,1(n – 1) + (1 – r21)·gexc(n) (24)worin gexc,1(-1) dem gexc,1(Nsfr·Nssfr – 1) in dem früheren Rahmen entspricht. Außerdem wird angenommen, dass r21 = 0,9 gilt.
  • Die von der ersten Umschaltschaltung 2110 ausgegebene Verstärkung gexc(j) (worin j = 0,..., Nsfr·Nssfr-1) wird in das zweite Filter 2160 eingegeben, welches damit fortfährt, die Verstärkung unter Verwendung eines linearen oder nichtlinearen Filters zu glätten, diese als eine zweite geglättete Verstärkung gexc,2(j) übernimmt und an die Erregungssignal-Rekonstruktionsschaltung 2610 ausgibt. Hier wird von einem Filter Gebrauch gemacht, das durch Gleichung (25) unten dargestellt wird. g exc,2(n) = r22·g exc,2(n – 1) + (1 – r22)·gexc(n) (25)worin gexe,2(-1) dem gexc,2(Nsfr·Nssfr-1) in dem früheren Rahmen entspricht. Außerdem wird angenommen, dass r22 = 0,9 gilt.
  • Die von der ersten Umschaltschaltung 2110 ausgegebene Verstärkung Gexc(j) (worin j = 0,..., Nsfr·Nssfr-1) wird in das dritte Filter 2160 eingegeben, welches damit fortfährt, die Verstärkung unter Verwendung eines linearen oder nichtlinearen Filters zu glätten, diese als eine dritte geglättete Verstärkung gexc,3(j) übernimmt und an die Erregungssignal-Rekonstruktionsschaltung 2610 ausgibt. Hier wird angenommen, dass gexc,3(n) = gexc(n) gilt.
  • 4 ist ein Blockdiagramm, das den Aufbau einer Sprachsignal-Decodierungsvorrichtung in Übereinstimmung mit einer vierten Ausführungsform der vorliegenden Erfindung zeigt. In der vierten Ausführungsform, wie in 4 gezeigt, sind der Anordnung der in 1 gezeigten ersten Ausführungsform ein Eingangsanschluss 50 und eine zweite Umschaltschaltung 7110 hinzugefügt, und die Verbindungen sind entsprechend geändert. Der hinzugefügte Eingangsanschluss 50 und die zweite Umschaltschaltung 7110 werden unten beschrieben.
  • Ein Umschaltsteuersignal tritt vom Eingangsanschluss 50 ein. Das Umschaltsteuersignal wird über den Eingangsanschluss 50 in die Umschaltschaltung 7110 eingegeben, und die von der zweiten Verstärkungsdecodierungsschaltung 1120 ausgegebene zweite Verstärkung wird in die Umschaltschaltung 7110 eingegeben. In Übereinstimmung mit dem Umschaltsteuersignal gibt die Umschaltschaltung 7110 die zweite Verstärkung an die zweite Verstärkungsschaltung 1130 oder an die Glättungsschaltung 1320 aus.
  • 5 ist ein Blockdiagramm, das den Aufbau einer Sprachsignal-Decodierungsvorrichtung in Übereinstimmung mit einer fünften Ausführungsform der vorliegenden Erfindung zeigt. In der fünften Ausführungsform, wie in 5 gezeigt, sind der Anordnung der in 2 gezeigten zweiten Ausführungsform der Eingangsanschluss 50 und die zweite Umschaltschaltung 7110 hinzugefügt, und die Verbindungen sind entsprechend geändert. Der Eingangsanschluss 50 und die zweite Umschaltschaltung 7110 werden unten beschrieben.
  • Ein Umschaltsteuersignal tritt vom Eingangsanschluss 50 ein. Das Umschaltsteuersignal wird über den Eingangsanschluss 50 in die Umschaltschaltung 7110 eingegeben, und der vom Addierer 1050 ausgegebene Erregungsvektor wird in die Umschaltschaltung 7110 eingegeben. In Übereinstimmung mit dem Umschaltsteuersignal gibt die Umschaltschaltung 7110 den Erregungsvektor an das Synthesefilter 1040 oder an die Erregungssignal-Normierungsschaltung 2510 aus.
  • 6 ist ein Blockdiagramm, das den Aufbau einer Sprachsignal-Decodierungsvorrichtung in Übereinstimmung mit einer sechsten Ausführungsform der vorliegenden Erfindung zeigt. In der sechsten Ausführungsform, wie in 6 gezeigt, sind der Anordnung der in 3 gezeigten dritten Ausführungsform der Eingangsanschluss 50 und die zweite Umschaltschaltung 7110 hinzugefügt, und die Verbindungen sind entsprechend geändert. Der Eingangsanschluss 50 und die zweite Umschaltschaltung 7110 sind mit jenen identisch, die in der fünften Ausführungsform von 5 beschrieben wurden, und müssen nicht noch einmal beschrieben werden.
  • Der Sprachsignalcodierer in der in 8 gezeigten konventionellen Sprachsignal-Codierungs-/Decodierungsvorrichtung kann als der Sprachsignalcodierer in der Sprachsignal-Codierungs-/Decodierungsvorrichtung als eine siebte Ausführungsform der vorliegenden Erfindung verwendet werden.
  • Die Sprachsignal-Decodierungsvorrichtung in einer jeden der vorhergehenden Ausführungsformen der vorliegenden Erfindung kann durch eine Computersteuerung unter Verwendung eines digitalen Signalprozessors oder dergleichen realisiert werden. 7 veranschaulicht schematisch den Aufbau einer Vorrichtung für einen Fall, in dem die Sprachsignal-Decodierungsverarbeitung einer jeden der vorhergehenden Ausführungsformen durch einen Computer in einer achten Ausführungsform der vorliegenden Erfindung realisiert wird. Ein Computer 1 zur Ausführung eines Programms, das aus einem Aufzeichnungsmedium 6 ausgelesen worden ist, führt eine Sprachsignal-Decodierungsverarbeitung zum Decodieren von Informationen, die wenigstens ein Schallquellensignal, eine Verstärkung und Linearprädiktionskoeffizienten betreffen, aus einem empfangenen Signal, zum Erzeugen eines Erregungssignals und der Linearprädiktionskoeffizienten aus den decodierten Informationen und zum Ansteuern eines Filters, das durch die Linearprädiktionskoeffizienten gebildet ist, durch das Erregungssignal, um dadurch ein Sprachsignal zu decodieren, durch. Zu diesem Zweck ist ein Programm auf dem Aufzeichnungsmedium 6 aufgezeichnet worden. Das Programm dient zur Ausführung von (a) Verarbeitung zur Durchführung von Glättung unter Verwendung eines früheren Verstärkungswertes und Berechnung eines Schwankungsbetrags zwischen der ursprünglichen Verstärkung und der geglätteten Verstärkung, und (b) Verarbeitung zum Begrenzen des Wertes der geglätteten Verstärkung in Übereinstimmung mit dem Wert des Schwankungsbetrags und zum Decodieren des Sprachsignals unter Verwendung der geglätteten, begrenzten Verstärkung. Das Programm wird über eine Aufzeichnungsmedium-Ausleseeinheit 5 und eine Schnittstelle 4 aus dem Aufzeichnungsmedium 6 ausgelesen und in einem Speicher 3 gespeichert, und das Programm wird ausgeführt. Das Programm kann in einem Masken-ROM oder dergleichen oder in einem nichtflüchtigen Speicher wie z.B. einem Flash-Speicher gespeichert werden. Außer einem nichtflüchtigen Speicher kann das Aufzeichnungsmedium ein Medium wie z.B. eine CD-ROM, Floppy-Disk, DVD (Digital Versatile Disk) oder ein Magnetband sein. In einem Fall, in dem das Programm durch einen Computer von einem Server zu einem Kommunikationsmedium übertragen wird, würde das Aufzeichnungsmedium das Kommunikationsmedium umfassen, auf welches das Programm per Draht oder drahtlos übertragen wird.
  • Der Computer 1 zur Ausführung eines Programms, das aus einem Aufzeichnungsmedium 6 ausgelesen worden ist, führt eine Sprachsignal-Decodierungsverarbeitung zum Decodieren von Informationen, die ein Erregungssignal und Linearprädiktionskoeffizienten betreffen, aus einem empfangenen Signal, zum Erzeugen des Erregungssignals und der Linearprädiktionskoeffizienten aus den decodierten Informationen und zum Ansteuern eines Filters, das durch die Linearprädiktionskoeffizienten gebildet ist, durch das Erregungssignal, um dadurch ein Sprachsignal zu decodieren, durch. Zu diesem Zweck ist ein Programm auf dem Aufzeichnungsmedium 6 aufgezeichnet worden. Das Programm dient zur Ausführung von (a) Verarbeitung zum Berechnen einer Norm des Erregungssignals in regelmäßigen Intervallen und zur Glättung der Norm unter Verwendung eines früheren Wertes der Norm; und (b) Verarbeitung zum Begrenzen des Wertes der geglätteten Norm unter Verwendung eines aus der Norm und der geglätteten Norm berechneten Schwankungsbetrags, zum Ändern der Amplitude des Erregungssignals in den Intervallen unter Verwendung der Norm und der Norm, die geglättet und begrenzt worden ist, und zum Ansteuern des Filters durch das Erregungssignal, dessen Amplitude geändert worden ist.
  • Der Computer 1 zur Ausführung eines Programms, das aus einem Aufzeichnungsmedium 6 ausgelesen worden ist, führt eine Sprachsignal-Decodierungsverarbeitung zum Decodieren von Informationen, die ein Erregungssignal und Linearprädiktionskoeffizienten betreffen, aus einem empfangenen Signal, zum Erzeugen des Erregungssignals und der Linearprädiktionskoeffizienten aus den decodierten Informationen und zum Ansteuern eines Filters, das durch die Linearprädiktionskoeffizienten gebildet ist, durch das Erregungssignal, um dadurch ein Sprachsignal zu decodieren, durch. Zu diesem Zweck ist ein Programm auf dem Aufzeichnungsmedium 6 aufgezeichnet worden. Das Programm dient zur Ausführung von (a) Verarbeitung zum Identifizieren eines Sprachsegments und eines Nichtsprachsegments in Bezug auf das empfangene Signal unter Verwendung der decodierten Informationen; (b) Verarbeitung zum Berechnen einer Norm des Erregungssignals in regelmäßigen Intervallen im Rauschsegment, zum Glätten der Norm unter Verwendung eines früheren Wertes der Norm und zum Begrenzen des Wertes der geglätteten Norm unter Verwendung eines aus der Norm und der geglätteten Norm berechneten Schwankungsbetrags; (c) Verarbeitung zum Ändern der Amplitude des Erregungssignals in den Intervallen unter Verwendung der Norm und der Norm, die geglättet und begrenzt worden ist, und zum Ansteuern des Filters durch das Erregungssignal, dessen Amplitude geändert worden ist.
  • In Übereinstimmung mit der vorliegenden Erfindung, wie oben beschrieben, ist es somit möglich, das Auftreten von anomalem Schall in Rauschsegmenten zu verhindern, wobei solcher Schall verursacht wird, wenn bei der Glättung der Schallquellenverstärkung (zweiten Verstärkung) die in einem Rauschsegment geglättete Schallquellenverstärkung einen viel größeren Wert als jener der Schallquellenverstärkung vor der Glättung annimmt.
  • Der Grund für diese Wirkung ist, dass die Werte, welche die geglättete Schallquellenverstärkung annehmen kann, anhand des Schwankungsbetrags begrenzt werden, welcher unter Verwendung der Differenz zwischen geglätteter Schallquellenverstärkung und der Schallquellenverstärkung vor der Glättung berechnet wird, derart, dass die Schallquellenverstärkung, die in einem Rauschintervall geglättet worden ist, keinen Wert annimmt, der im Vergleich mit der Schallquellenverstärkung vor der Glättung sehr groß ist.
  • Da man ganz offensichtlich ganz verschiedene Ausführungsformen der vorliegenden Erfindung herstellen kann, ohne ihren Schutzbereich zu verlassen, ist die Erfindung selbstverständlich nicht auf ihre speziellen Ausführungsformen beschränkt.
  • Man beachte aber, dass sich in der gesamten Offenbarung andere Aufgaben, Merkmale und Aspekte der vorliegenden Erfindung ergeben können und dass Modifizierungen durchgeführt werden können, ohne den Schutzbereich der vorliegenden Erfindung zu verlassen, wie in den begleitenden Ansprüchen definiert.

Claims (23)

  1. Sprachsignal-Decodierungsverfahren zum Decodieren von Informationen, die wenigstens ein Schallquellensignal, eine Verstärkung und Linearprädiktionskoeffizienten betreffen, aus einem empfangenen Signal, zum Erzeugen eines Erregungssignals und von Linearprädiktionskoeffizienten aus den decodierten Informationen und zum Ansteuern eines Filters (1040, 1, 4), das durch die Linearprädiktionskoeffizienten gebildet ist, durch das Erregungssignal, um dadurch ein Sprachsignal zu decodieren, umfassend: einen ersten Schritt des Glättens der Verstärkung unter Verwendung eines früheren Wertes der Verstärkung; einen zweiten Schritt des Begrenzens des Wertes der geglätteten Verstärkung anhand der Verstärkung und der geglätteten Verstärkung; und einen dritten Schritt des Decodierens des Sprachsignals unter Verwendung der Verstärkung, die geglättet und begrenzt worden ist.
  2. Sprachsignal-Decodierungsverfahren zum Decodieren von Informationen, die ein Erregungssignal und Linearprädiktionskoeffizienten betreffen, aus einem empfangenen Signal, zum Erzeugen eines Erregungssignals und von Linearprädiktionskoeffizienten aus den decodierten Informationen und zum Ansteuern eines Filters (1030, 2, 5), das durch die Linearprädiktionskoeffizienten gebildet ist, durch das Erregungssignal, um dadurch ein Sprachsignal zu decodieren, umfassend: einen ersten Schritt des Ableitens einer Norm des Erregungssignals in regelmäßigen Intervallen; einen zweiten Schritt des Glättens der Norm unter Verwendung eines früheren Wertes der Norm; einen dritten Schritt des Begrenzens des Wertes der geglätteten Norm anhand eines Fluktuationsbetrags, der aus der Norm und der geglätteten Norm berechnet wird; einen vierten Schritt des Änderns der Amplitude des Erregungssignals in den Intervallen unter Verwendung der Norm und der Norm, die geglättet und begrenzt worden ist; und einen fünften Schritt des Ansteuerns des Filters (1040, 2, 5) durch das Erregungssignal, dessen Amplitude geändert worden ist.
  3. Sprachsignal-Decodierungsverfahren zum Decodieren von Informationen, die ein Erregungssignal und Linearprädiktionskoeffizienten betreffen, aus einem empfangenen Signal, zum Erzeugen des Erregungssignals und der Linearprädiktionskoeffizienten aus den decodierten Informationen und zum Ansteuern eines Filters (1040, 3, 6), das durch die Linearprädiktionskoeffizienten gebildet ist, durch das Erregungssignal, um dadurch ein Sprachsignal zu decodieren, umfassend: einen ersten Schritt des Identifizierens eines Sprachsegments und eines Rauschsegments in Bezug auf das empfangene Signal unter Verwendung der decodierten Informationen; einen zweiten Schritt des Ableitens einer Norm des Erregungssignals in regelmäßigen Intervallen in dem Rauschsegment; einen dritten Schritt des Glättens der Norm unter Verwendung eines früheren Wertes der Norm; einen vierten Schritt des Begrenzens des Wertes der geglätteten Norm anhand eines aus der Norm und der geglätteten Norm abgeleiteten Fluktuationsbetrags; einen fünften Schritt des Änderns der Amplitude des Erregungssignals in den Intervallen unter Verwendung der Norm und der Norm, die geglättet und begrenzt worden ist; und einen sechsten Schritt des Ansteuerns des Filters (1040, 3, 6) durch das Erregungssignal, dessen Amplitude geändert worden ist.
  4. Verfahren nach Anspruch 1, bei dem der Fluktuationsbetrag durch Dividieren des Absolutwerts der Differenz zwischen der Verstärkung und der geglätteten Verstärkung durch die Verstärkung repräsentiert wird und der Wert der geglätteten Verstärkung in der Weise begrenzt ist, dass der Fluktuationsbetrag einen vorgegebenen Schwellenwert nicht übersteigt.
  5. Verfahren nach Anspruch 2 oder 3, bei dem der Fluktuationsbetrag durch Dividieren des Absolutwertes der Differenz zwischen der Norm und der geglätteten Norm durch die Norm repräsentiert wird und der Wert der geglätteten Norm in der Weise begrenzt ist, dass der Fluktuationsbetrag einen vorgegebenen Schwellenwert nicht übersteigt.
  6. Verfahren nach einem der Ansprüche 2, 3 und 5, bei dem das Erregungssignal in den Intervallen durch die Norm in den Intervallen dividiert wird und der Quotient mit der geglätteten Norm in den Intervallen multipliziert wird, um dadurch die Amplitude des Erregungssignals zu ändern.
  7. Verfahren nach Anspruch 1 oder 4, bei dem das Umschalten zwischen der Verwendung der Verstärkung und der Verwendung der geglätteten Verstärkung in Übereinstimmung mit einem eingegebenen Umschaltsteuersignal ausgeführt wird, wenn das Sprachsignal decodiert wird.
  8. Verfahren nach einem der Ansprüche 2, 3, 5 und 6, bei der das Umschalten zwischen der Verwendung des Erregungssignals und der Verwendung des Erregungssignals, dessen Amplitude geändert worden ist, in Übereinstimmung mit einem eingegebenen Umschaltsteuersignal ausgeführt wird, wenn das Sprachsignal decodiert wird.
  9. Verfahren zum Codieren und Decodieren von Sprachsignalen, das die folgenden Schritte umfasst: Codieren eines Eingangssprachsignals durch Darstellen des Eingangssprachsignals durch ein Erregungssignal und durch Linearprädiktionskoeffizienten; und Ausführen des Decodierens durch das Sprachsignal-Decodierungsverfahren nach einem der Ansprüche 1, 2, 3, 4, 5, 6, 7 und 8.
  10. Sprachsignal-Decodierungsvorrichtung zum Decodieren von Informationen, die wenigstens ein Schallquellensignal, eine Verstärkung und Linearprädiktionskoeffizienten betreffen, aus einem empfangenen Signal, zum Erzeugen eines Erregungssignals und von Linearprädiktionskoeffizienten aus den decodierten Informationen und zum Ansteuern eines Filters (1040, 1, 4), das durch die Linearprädiktionskoeffizienten gebildet ist, durch das Erregungssignal, um dadurch ein Sprachsignal zu decodieren, die umfasst: eine Glättungsschaltung (1320, 1, 4), die die Verstärkung unter Verwendung eines früheren Wertes einer Verstärkung glättet; eine Glättungsbetrag-Begrenzungsschaltung (7200, 1, 4), die den Wert der geglätteten Verstärkung anhand der Verstärkung und der geglätteten Verstärkung begrenzt, wobei die Decodierungsvorrichtung das Sprachsignal unter Verwendung der Verstärkung, die geglättet und begrenzt worden ist, decodiert.
  11. Sprachsignal-Decodierungsvorrichtung zum Decodieren von Informationen, die ein Erregungssignal und Linearprädiktionskoeffizienten betreffen, aus einem empfangenen Signal, zum Erzeugen des Erregungssignals und von Linearprädiktionskoeffizienten aus den decodierten Informationen und zum Ansteuern eines Filters (1040, 2, 5), das durch die Linearprädiktionskoeffizienten gebildet ist, durch das Erregungssignal, um dadurch ein Sprachsignal zu decodieren, die umfasst: eine Erregungsignal-Normierungsschaltung (2510, 2, 5), die in regelmäßigen Intervallen eine Norm des Erregungssignals ableitet; eine Glättungsschaltung (1320, 2, 5), die die Norm unter Verwendung eines früheren Wertes der Norm glättet; eine Glättungsbetrag-Begrenzungsschaltung (7200, 2, 5), die den Wert der geglätteten Norm anhand einer Schwankungsgröße, die aus der Norm und der geglätteten Norm berechnet wird, begrenzt; und eine Erregungssignal-Rekonstruktionsschaltung (2610, 2, 5), die die Amplitude des Erregungssignals in den Intervallen unter Verwendung der Norm und der Norm, die geglättet und begrenzt worden ist, ändert, wobei die Decodierungsvorrichtung das Filter (1040, 2, 5) durch das Erregungssignal, dessen Amplitude geändert worden ist, ansteuert.
  12. Sprachsignal-Decodierungsvorrichtung zum Decodieren von Informationen, die ein Erregungssignal und Linearprädiktionskoeffizienten betreffen, aus einem empfangenen Signal, zum Erzeugen des Erregungssignals und von Linearprädiktionskoeffizienten aus den decodierten Informationen und zum Ansteuern eines Filters (1040, 3, 6), das durch die Linearprädiktionskoeffizienten gebildet ist, durch das Erregungssignal, um dadurch ein Sprachsignal zu decodieren, die umfasst: eine Sprache/Nichtsprache-Identifizierungsschaltung (2020, 3, 6), die ein Sprachsegment und ein Rauschsegment in Bezug auf das empfangene Signal unter Verwendung der decodierten Informationen identifiziert; eine Erregungssignal-Normierungsschaltung (2510, 3, 6), die eine Norm des Erregungssignals in regelmäßigen Intervallen in dem Rauschsignal ableitet; eine Glättungsschaltung (2150, 2160, 2170, 3, 6), die die Norm unter Verwendung eines früheren Wertes der Norm glättet; eine Glättungsbetrag-Begrenzungsschaltung (7200, 3, 6), die den Wert der geglätteten Norm anhand eines Fluktuationsbetrags, der aus der Norm und aus der geglätteten Norm berechnet wird, begrenzt; und eine Erregungssignal-Rekonstruktionsschaltung (2610, 3, 6), die die Amplitude des Erregungssignals in den Intervallen unter Verwendung der Norm und der Norm, die geglättet und begrenzt worden ist, ändert, wobei die Decodierungsvorrichtung das Filter (1040, 3, 6) durch das Erregungssignal, dessen Amplitude geändert worden ist, ansteuert.
  13. Vorrichtung nach Anspruch 10, bei dem der Fluktuationsbetrag durch Dividieren des Absolutwertes des Differenz zwischen der Verstärkung und der geglätteten Verstärkung durch die Verstärkung repräsentiert wird und der Wert der geglätteten Verstärkung in der Weise begrenzt ist, dass der Fluktuationsbetrag einen vorgegebenen Schwellenwert nicht übersteigt.
  14. Vorrichtung nach Anspruch 11 oder 12, bei der der Fluktuationsbetrag durch Dividieren des Absolutwertes der Differenz zwischen der Norm und der geglätteten Norm durch die Norm repräsentiert wird und der Wert der geglätteten Norm in der Weise begrenzt ist, dass der Fluktuationsbetrag einen vorgegebenen Schwellenwert nicht übersteigt.
  15. Vorrichtung nach Anspruch 10 oder 13, wobei die Vorrichtung eine Umschaltschaltung umfasst, in der das Umschalten zwischen der Verwendung zwischen der Verstärkung und der Verwendung der geglätteten Verstärkung in Übereinstimmung mit einem eingegebenen Umschaltsteuersignal ausgeführt wird, wenn das Sprachsignal decodiert wird.
  16. Vorrichtung nach einem der Ansprüche 11, 12 und 14, wobei die Vorrichtung eine Umschaltschaltung umfasst, in der das Umschalten zwischen der Verwendung des Erregungssignals und der Verwendung des Erregungssignals, dessen Amplitude geändert worden ist, in Übereinstimmung mit einem eingegebenen Umschaltsteuersignal ausgeführt wird, wenn das Sprachsignal decodiert wird.
  17. Vorrichtung zum Codieren und Decodieren von Sprachsignalen, die umfasst: einen Sprachsignal-Codierer, der ein Eingangssprachsignal durch Darstellen des Eingangssprachsignals durch ein Erregungssignal und Linearprädiktionskoeffizienten codiert; und die Sprachsignal-Decodierungsvorrichtung nach einem der Ansprüche 10, 11, 12, 13, 14, 15 und 16.
  18. Computerprogramm, das von einem Computer ausführbare Befehle enthält, um einen Computer dazu zu veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 9 auszuführen, wenn das Programm auf einem Computer abläuft.
  19. Sprachsignal-Decodierungsvorrichtung nach Anspruch 10, die ferner umfasst: eine Codeeingabeschaltung (1010, 1), die den Code einer Bitsequenz eines codierten Eingangssignals, das von einem Eingaheendgerät (10, 1) eingegeben wird, aufteilt, den Code in Indizes umsetzt, die mehreren Decodierungsparametern entsprechen, einen Index, der einem Zeilenspektrumpaar (LSP) entspricht, das die Frequenzcharakteristik des Eingangssignals repräsentiert, an eine LSP-Decodierungsschaltung (1020, 1) ausgibt, einen Index, der einer Verzögerung entspricht, die einer Tonhöhenperiode (pitch period) des Eingangssignals entspricht, an eine Tonhöhensignal-Decodierungsschaltung (1210, 1) ausgibt, einen Index, der einem Schallquellenvektor entspricht, der eine Zufallszahl oder einen Impulszug enthält, an eine Schallquellensignal-Decodierungsschaltung (1110, 1) ausgibt, einen Index, der einer ersten Verstärkung entspricht, an eine erste Verstärkungsdecodierungsschaltung (1220, 1) ausgibt und einen Index, der einer zweiten Verstärkung entspricht, an eine zweite Verstärkungsdecodierungsschaltung (1120, 1) ausgibt; eine LSP-Decodierungsschaltung (1020, 1), in die der Index, der von der Codeeingabeschaltung (1010, 1) eingegeben wird und die das LSP, das dem eingegebenen Index entspricht, aus einer Tabelle ausliest, die LSPs, die Indizes entsprechen, speichert, und ein LSP in einem Unterrahmen des momentanen Rahmens erhält und das LSP ausgibt; eine Linearprädiktionskoeffizient-Umsetzungsschaltung (1030, 1), in die das von der LSP-Decodierungsschaltung (1020, 1) ausgegebene LSP eingegeben wird und die das LSP in Linearprädiktionskoeffizienten umsetzt und die Koeffizienten an das Synthesefilter (1040, 1) ausgibt; eine Schallquellensignal-Decodierungsschaltung (1110, 1), in die der von der Codeeingabeschaltung (1010, 1) ausgegebene Index eingegeben wird und die einen Schallquellenvektor, der dem Index entspricht, aus einer Tabelle ausliest, die Schallquellenvektoren speichert, die Indizes entsprechen, und den Schallquellenvektor an eine zweite Verstärkungsdecodierungsschaltung (1120, 1) ausgibt; eine zweite Verstärkungsdecodierungsschaltung (1120, 1), in die der aus der Codeeingabeschaltung (1010, 1) ausgegebene Index eingegeben wird und die eine zweite Verstärkung, die dem eingegebenen Index entspricht, aus einer Tabelle ausliest, die zweite Verstärkungen speichert, die Indizes entsprechen, und die zweite Verstärkung an eine Glättungsschaltung (1320, 1) ausgibt; eine zweite Verstärkungsschaltung (1130, 1), in die ein erster Schallquellenvektor, der von der Schallquellensignal-Decodierungsschaltung (1110, 1) ausgegeben wird, und die zweite Verstärkung eingegeben werden und die den ersten Schallquellenvektor mit der zweiten Verstärkung multipliziert, um einen zweiten Schallquellenvektor zu erzeugen, und der den erzeugten zweiten Schallquellenvektor an einen Addierer (1050, 1) ausgibt; eine Speicherschaltung (1240, 1), die einen in sie von dem Addierer eingegebenen Erregungsvektor hält und einen gehaltenen Erregungsvektor, der früher in sie eingegeben wurde, an eine Tonhöhensignal-Decodierungsschaltung (1210, 1) ausgibt; eine Tonhöhensignal-Decodierungsschaltung (1210, 1), in die der frühere Erregungsvektor, der durch die Speicherschaltung (1240, 1) gehalten wird, und der von der Codeeingabeschaltung (1110, 1) ausgegebene Index eingegeben werden, wobei der Index eine Verzögerung spezifiziert, und die Vektoren von Abtastwerten, die einer Vektorlänge entsprechen, an einem Punkt, der sich um einen der Verzögerung entsprechenden Betrag vor dem Startpunkt des momentanen Rahmens befindet, ausschneidet, um dadurch einen ersten Tonhöhenvektor zu erzeugen, und die den ersten Tonhöhenvektor an eine erste Verstärkungsschaltung (1230, 1) ausgibt; eine erste Verstärkungsdecodierungsschaltung (1220, 1), in die der von der Codeeingabeschaltung ausgegebene Index ausgegeben wird und die eine erste Verstärkung, die dem eingegebenen Index entspricht, aus einer Tabelle, die Indizes entsprechende erste Verstärkungen speichert, ausliest und die erste Verstärkung an eine erste Verstärkungsschaltung (1230, 1) ausgibt; eine erste Verstärkungsschaltung (1230, 1), in die der erste Tonhöhenvektor, der von der Tonhöhensignal-Decodierungsschaltung ausgegeben wird, und die erste Verstärkung, die von der ersten Verstärkungsdecodierungsschaltung ausgegeben wird, eingegeben werden und die den eingegebenen ersten Tonhöhenvektor mit der ersten Verstärkung multipliziert, um einen zweiten Tonhöhenvektor zu erzeugen, und die den erzeugten zweiten Tonhöhenvektor zu dem Addierer (1050, 1) ausgibt; einen Addierer (1050, 1), in die der zweite Tonhöhenvektor, der von der ersten Verstärkungsschaltung (1230, 1) ausgegeben wird, und der zweite Schallquellenvektor, der von der zweiten Verstärkungsschaltung (1130, 1) ausgegeben wird, eingegeben werden und der die Summe dieser Eingaben berechnet und die Summe an das Synthesefilter (1040, 1) als einen Erregungsvektor ausgibt; eine Glättungskoeffizienten-Berechnungsschaltung (1310, 1), in die das von der LSP-Decodierungsschaltung (1020, 1) ausgegebene LSP eingegeben wird und die ein durchschnittliches LSP in dem momentanen Rahmen berechnet, den Schwankungsbetrag des LSP in Bezug auf jeden Unterrahmen ermittelt, einen Glättungskoeffizienten in dem Unterrahmen ermittelt und den Glättungskoeffizienten an die Glättungsschaltung (1320, 1) ausgibt; die Glättungsschaltung (1320, 1), in die der von der Glättungskoeffizienten-Berechnungsschaltung (1310, 1) ausgegebene Glättungskoeffizient und die von der zweiten Verstärkungsdecodierungsschaltung (1120, 1) ausgegebene zweite Verstärkung eingegeben werden und die eine durchschnittliche Verstärkung aus der zweiten Verstärkung in dem Unterrahmen ermittelt und die zweite Verstärkung ausgibt; ein Synthesefilter (1040, 1), in das der von dem Addierer (1050, 1) ausgegebene Erregungsvektor und die Linearprädiktionskoeffizienten, die von der Linearprädiktionskoeffizient-Umsetzungsschaltung (1030, 1) ausgegeben werden, eingegeben werden und das ein Synthesefilter, für das die Linearprädiktionskoeffizienten gesetzt worden sind, durch den Erregungsvektor ansteuert, um dadurch einen rekonstruierten Vektor zu berechnen, und das den rekonstruierten Vektor von einem Ausgangsanschluss ausgibt; und eine Glättungsbetrag-Begrenzungsschaltung (7200, 1), in die die zweite Verstärkung, die von der zweiten Verstärkungsdecodierungsschaltung (1120, 1) ausgegeben wird, und die geglättete zweite Verstärkung, die von der Glättungsschaltung (1320, 1) ausgegeben wird, eingegeben werden und die den Schwankungsbetrag zwischen der geglätteten zweiten Verstärkung, die von der Glättungsschaltung (1320, 1) ausgegeben wird, und der zweiten Verstärkung, die von der zweiten Verstärkungsdecodierungsschaltung (1120, 1) ausgegeben wird, ermittelt, die geglättete zweite Verstärkung an die zweite Verstärkungsschaltung (1130, 1) ausgibt, wenn der Schwankungsbetrag niedriger als ein vorgegebener Schwellenwert ist, die geglättete zweite Verstärkung durch eine geglättete zweite Verstärkung ersetzt, die hinsichtlich der Werte, die sie annehmen kann, begrenzt ist, wenn der Schwankungsbetrag gleich oder größer als der Schwellenwert ist, und die diese geglättete zweite Verstärkung an die zweite Verstärkungsschaltung (1130, 1) ausgibt.
  20. Sprachsignal-Decodierungsvorrichtung nach Anspruch 11, die ferner umfasst: eine Codeeingabeschaltung (1010, 2), die Code einer Bitsequenz eines codierten Eingangssignals, das von einem Eingangsanschluss (10, 2) eingegeben wird, aufteilt, den Code in Indizes umsetzt, die mehreren Decodierungsparametern entsprechen, einen Index, der einem Zeilenspektrumpaar (LSP) entspricht, das die Frequenzcharakterstik des Eingangssignals repräsentiert, an eine LSP-Decodierungsschaltung (1020, 2) ausgibt, einen Index, der einer Verzögerung entspricht, die eine Tonhöhenperiode des Eingangssignals repräsentiert, in eine Tonhöhensignal-Decodierungsschaltung (1210, 2) ausgibt, einen Index, der einem Schallquellenvektor entspricht, der eine Zufallszahl oder einen Impulszug enthält, an eine Schallquellensignal-Decodierungsschaltung (1110, 2) ausgibt, einen Index, der einer ersten Verstärkung entspricht, an eine erste Verstärkungsdecodierungsschaltung (1220, 2) ausgibt und einen Index, der einer zweiten Verstärkung entspricht, an eine zweite Verstärkungsdecodierungsschaltung (1120, 2) ausgibt; eine LSP-Decodierungsschaltung (1020, 2), in die der von der Codeeingabeschaltung ausgegebene Index eingegeben wird und die das dem eingegebenen Index entsprechende LSP aus einer Tabelle ausliest, die LSPs speichert, die Indizes entsprechen, ein LSP in einem Unterrahmen des momentanen Rahmens erhält und das LSP ausgibt; eine Linearprädiktionskoeffizienten-Umsetzungsschaltung (1030, 2), in die das von der LSP-Decodierungsschaltung (1020, 2) ausgegebene LSP eingegeben wird und die das LSP in Linearprädiktionskoeffizienten umsetzt und die Koeffizienten an das Synthesefilter (1040, 2) ausgibt; eine Schallquellensignal-Decodierungsschaltung (1110, 2), in die der von der Codeeingabeschaltung (1010, 2) ausgegebene Index eingegeben wird und die einen dem Index entsprechenden Schallquellenvektor aus einer Tabelle ausliest, die Schallquellenvektoren speichert, die Indizes entsprechen, und die den Schallquellenvektor in eine zweite Verstärkungsdecodierungsschaltung (1120, 2) ausgibt; eine zweite Verstärkungsdecodierungsschaltung (1120, 2), in die der von der Codeeingabeschaltung ausgegebene Index eingegeben wird und die eine zweite Verstärkung, die dem eingegebenen Index entspricht, aus einer Tabelle ausliest, die zweite Verstärkungen speichert, die Indizes entsprechen, und die die zweite Verstärkung an die zweite Verstärkungsschaltung (1130, 2) als zweite Verstärkung ausgibt; eine zweite Verstärkungsschaltung (1130, 2), in die ein erster Schallquellenvektor, der von der Schallquellensignal-Decodierungsschaltung (1110, 2) ausgegeben wird und die zweite Verstärkung eingegeben werden, und die den ersten Schallquellenvektor mit der zweiten Verstärkung multipliziert, um einen zweiten Schallquellenvektor zu erzeugen, und den erzeugten zweiten Schallquellenvektor zu einem Addierer (1050, 2) ausgibt; eine Speicherschaltung (1240, 2), die einen in sie von dem Addierer eingegebenen Erregungsvektor hält und einen gehaltenen Erregungsvektor, der in sie früher eingegeben wurde, an eine Tonhöhensignal-Decodierungsschaltung ausgibt; eine Tonhöhensignal-Decodierungsschaltung (1210, 2), in die der frühere Erregungsvektor, der von der Speicherschaltung gehalten wird, und der von der Codeeingabeschaltung ausgegebene Index eingegeben werden, wobei der Index eine Verzögerung spezifiziert, und die Vektoren von Abtastwerten, die einer Vektorlänge entsprechen, von einem Punkt, der dem Startpunkt des momentanen Rahmens um einen der Verzögerung entsprechenden Betrag vorhergeht, ausschneidet, um dadurch einen ersten Tonhöhenvektor zu erzeugen, und die den ersten Tonhöhenvektor in eine erste Verstärkungsschaltung (1230, 2) ausgibt; eine erste Verstärkungsdecodierungsschaltung (1220, 2), in die der von der Codeeingabeschaltung ausgegebene Index eingegeben wird und die eine erste Verstärkung, die dem eingegebenen Index entspricht, aus einer Tabelle ausliest, die erste Verstärkungen speichert, die Indizes entsprechen, und die erste Verstärkung an eine erste Verstärkungsschaltung (1230, 2) ausgibt; eine erste Verstärkungsschaltung (1230, 2), in die der erste Tonhöhenvektor, der von der Tonhöhensignal-Decodierungsschaltung (1210, 2) ausgegeben wird, und die erste Verstärkung, die von der ersten Verstärkungsdecodierungsschaltung (1220, 2) ausgegeben wird, eingegeben werden und die den eingegebenen ersten Tonhöhenvektor mit der ersten Verstärkung multipliziert, um einen zweiten Tonhöhenvektor zu erzeugen, und die den erzeugten Tonhöhenvektor zu dem Addierer (1050, 2) ausgibt; einen Addierer (1050, 2), in den der zweite Tonhöhenvektor, der von der ersten Verstärkungsschaltung (1230, 2) ausgegeben wird, und der zweite Schallquellenvektor, der von der zweiten Verstärkungsschaltung (1130) ausgegeben wird, eingegeben werden und der die Summe dieser Eingaben berechnet und die Summe an das Synthesefilter (1040, 2) als einen Erregungsvektor ausgibt; eine Glättungskoeffizienten-Berechnungsschaltung (1310, 2), in die das von der LSP-Decodierungsschaltung (1020, 2) ausgegebene LSP eingegeben wird und die ein durchschnittliches LSP in dem momentanen Rahmen berechnet, die den Fluktuationsbetrag des LSP in Bezug auf jeden Unterrahmen ermittelt, die einen Glättungskoeffizienten in dem Unterrahmen ermittelt und die den Glättungskoeffizienten an die Glättungsschaltung (1320, 2) ausgibt; die Glättungsschaltung (1320, 2), in die der Glättungskoeffizient, der von der Glättungskoeffizienten-Berechnungsschaltung (1310, 2) ausgegeben wird, und die Ausgabe einer Erregungssignal-Normierungsschaltung (2510, 2) eingegeben werden; ein Synthesefilter (1040, 2), in die der von dem Addierer (1050, 2) ausgegebene Erregungsvektor und die Linearprädiktionskoeffizienten, die von der Linearprädiktionskoeffizienten-Umsetzungsschaltung (1030, 2) ausgegeben werden, eingegeben werden und das ein Synthesefilter, für das die Linearprädiktionskoeffizienten gesetzt worden sind, durch den Erregungsvektor ansteuert, um dadurch einen rekonstruierten Vektor zu berechnen, und das den rekonstruierten Vektor von einem Ausgangsanschluss (20, 2) ausgibt; und die Glättungsbetrag-Begrenzungsschaltung (7200, 2), in die die geglättete Verstärkung, die von der Glättungsschaltung (1320, 2) und die von der Erregungssignal-Normierungsschaltung (2510, 2) ausgegebene Verstärkung eingegeben werden, die den Fluktuationsbetrag zwischen der geglätteten Verstärkung, die von der Glättungsschaltung ausgegeben wird, und der Verstärkung, die von der Erregungssignal-Normierungsschaltung (2510, 2) ausgegeben wird, ermittelt, die geglättete Verstärkung unverändert an die Erregungssignal-Rekonstruktionsschaltung (2610, 2) liefert, wenn der Fluktuationsbetrag geringer als ein vorgegebener Schwellenwert ist, die geglättete Verstärkung durch eine geglättete Verstärkung, die hinsichtlich der Werte, die sie annehmen kann, begrenzt ist, ersetzt, wenn der Fluktuationsbetrag gleich oder größer als der Schwellenwert ist, und diese geglättete Verstärkung an die Erregungssignal-Rekonstruktionsschaltung (2610, 2) liefert; die Erregungssignal-Normierungsschaltung (2510, 2), in die ein Erregungsvektor in einem Unterrahmen, der von dem Addierer (1050, 2) ausgegeben wird, eingegeben wird und die die Verstärkung und einen Formvektor von dem Erregungsvektor bei jedem Unterrahmen oder jedem durch Unterteilen eines Unterrahmens erhaltenen Unter-Unterrahmen berechnet, die Verstärkung an die Glättungsschaltung (1320, 2) ausgibt und den Formvektor an eine Erregungssignal-Rekonstruktionsschaltung (2610, 2) ausgibt; und die Erregungssignal-Rekonstruktionsschaltung (2610, 2), in die die von der Glättungsbetrag-Begrenzungsschaltung (7200, 2) ausgegebene Verstärkung und der von der Erregungssignal-Normierungsschaltung (2510, 2) ausgegebene Formvektor eingegeben werden und die einen geglätteten Erregungsvektor berechnet und diesen Erregungsvektor an die Speicherschaltung (1240, 2) und an das Synthesefilter (1040, 2) ausgibt.
  21. Sprachsignal-Decodierungsvorrichtung nach Anspruch 12, die ferner umfasst: eine Codeeingabeschaltung (1010, 3), die Code einer Bitsequenz eines codierten Eingangssignals, das von einem Eingangsanschluss (10, 3) eingegeben wird, aufteilt, den Code in Indizes umsetzt, die mehreren Decodierungsparametern entsprechen, einen Index, der einem Zeilenspektrumpaar (LSP) entspricht, das die Frequenzcharakteristik des Eingangssignals repräsentiert, an eine LSP-Decodierungsschaltung (1020, 3) ausgibt, einen Index, der einer Verzögerung entspricht, die eine Tonhöhenperiode des Eingangssignals repräsentiert, an eine Tonhöhensignal-Decodierungsschaltung (1210, 3) ausgibt, einen Index, der einem Schallquellenvektor entspricht, der eine Zufallszahl oder einen Impulszug enthält, an eine Schallquellensignal-Decodierungsschaltung (1110, 3) ausgibt, einen Index, der einer ersten Verstärkung entspricht, an eine erste Verstärkungsdecodierungsschaltung (1220, 3) ausgibt und einen Index, der einer zweiten Verstärkung entspricht, an eine zweite Verstärkungsdecodierungsschaltung (1120, 3) ausgibt; eine LSP-Decodierungsschaltung (1220, 3), in die der von der Codeeingabeschaltung (1010, 39) ausgegebene Index eingegeben wird und die das LSP, das dem eingegebenen Index entspricht, aus einer Tabelle ausliest, die LSPs speichert, die Indizes entsprechen, ein LSP in einem Unterrahmen des momentanen Rahmens erhält und das LSP ausgibt; eine Linearprädiktionskoeffizienten-Umsetzungsschaltung (1030, 3), in die das von der LSP-Decodierungsschaltung (1020, 3) ausgegebene LSP eingegeben wird und die das LSP in Linearprädiktionskoeffizienten umsetzt und die Koeffizienten an das Synthesefilter (1040, 3) ausgibt; eine Schallquellensignal-Decodierungsschaltung (1110, 3), in die der von der Codeeingabeschaltung (1110, 3) ausgegebene Index eingegeben wird und die einen Schallquellenvektor, der dem Index entspricht, aus einer Tabelle ausliest, die Schallquellenvektoren speichert, die Indizes entsprechen, und die den Schallquellenvektor an eine zweite Verstärkungsschaltung (1130, 3) ausgibt; eine zweite Verstärkungsdecodierungsschaltung (1120, 3), in die der Index, der von der von der Codeeingabeschaltung (1010, 3) ausgegeben wird, eingegeben wird und die eine zweite Verstärkung, die dem eingegebenen Index entspricht, aus einer Tabelle ausliest, die zweite Verstärkungen speichert, die Indizes entsprechen, und die die zweite Verstärkung an eine zweite Verstärkungsschaltung (1130, 3) als zweite Verstärkung ausgibt; eine zweite Verstärkungsschaltung (1130, 3), in die ein erster Schallquellenvektor, der von der Schallquellensignal-Decodierungsschaltung (1110, 3) ausgegeben wird, und die zweite Verstärkung eingegeben werden und die den ersten Schallquellenvektor mit der zweiten Verstärkung multipliziert, um einen zweiten Schallquellenvektor zu erzeugen, und die den erzeugten zweiten Schallquellenvektor an einen Addierer (1050, 3) ausgibt; eine Speicherschaltung (1240, 3), die einen von dem Addierer in sie eingegebenen Erregungsvektor hält und einen gehaltenen Erregungsvektor, der in sie früher eingegeben wurde, an eine Tonhöhensignal-Decodierungsschaltung ausgibt; eine Tonhöhensignal-Decodierungsschaltung (1210, 3), in die der frühere Erregungsvektor, der durch die Speicherschaltung (1240, 3) gehalten wird, und der Index, der von der Codeeingabeschaltung (1010, 3) ausgegeben wird, cingegeben werden, wobei der Index eine Verzögerung spezifiziert, und die Vektoren von Abtastwerten, die einer Vektorlänge entsprechen, an einem Punkt, der dem Startpunkt des momentanen Rahmens um eine der Verzögerung entsprechenden Betrag vorhergeht, ausschneidet, um dadurch einen ersten Tonhöhenvektor zu erzeugen, und der den ersten Tonhöhenvektor an eine erste Verstärkungsschaltung (1230, 3) ausgibt; eine erste Verstärkungsdecodierungsschaltung (1220, 3), in die der von der Codeeingabeschaltung (1010, 3) ausgegebene Index eingegeben wird und die eine erste Verstärkung, die dem eingegebenen Index entspricht, aus einer Tabelle ausliest, die erste Verstärkungen speichert, die Indizes entsprechen, und die die erste Verstärkung an eine erste Verstärkungsschaltung (1230, 3) ausgibt; eine erste Verstärkungsschaltung (1230, 3), in die der erste Tonhöhenvektor, der von der Tonhöhensignal-Decodierungsschaltung (1210, 3) ausgegeben wird, und die erste Verstärkung, die von der ersten Verstärkungsdecodierungsschaltung (1220, 3) ausgegeben wird, eingegeben werden und die den ersten Tonhöhenvektor mit der ersten Verstärkung multipliziert, um einen zweiten Tonhöhenvektor zu erzeugen, und die den erzeugten zweiten Tonhöhenvektor an den Addierer (1050, 3) ausgibt; einen Addierer (1050, 3), in den der zweite Tonhöhenvektor, der von der ersten Verstärkungsschaltung (1230, 3) ausgegeben wird, und der zweite Schallquellenvektor, der von der zweiten Verstärkungsschaltung (1130, 3) ausgegeben wird, eingegeben werden und die Summe dieser Eingabe berechnet und die die Summe an das Synthesefilter (1040, 3) als einen Erregungsvektor ausgibt; ein Synthesefilter (1040, 3), in das der Erregungsvektor, der von dem Addierer (1050) ausgegeben wird, und die Linearprädiktionskoeffizienten, die von der Linearprädiktionskoeffizienten-Umsetzungsschaltung (1030, 3) ausgegeben werden, eingegeben werden und die ein Synthesefilter, für das die Linearprädiktionskoeffizienten gesetzt worden sind, durch den Erregungsvektor ansteuert, um dadurch einen rekonstruierten Vektor zu berechnen, und das den rekonstruierten Vektor von einem Ausgangsanschluss (20, 3) ausgibt; und die Glättungsbetrag-Begrenzungsschaltung (7200, 3) die erste geglättete Verstärkung, die von einem ausgewählten Filter (2150, 2160, 2170, 3) ausgegeben wird, an einem ersten Eingangsanschluss empfängt, den Ausgang der Erregungssignal-Normierungsschaltung (2510, 3) am anderen Eingangsanschluss empfängt, den Fluktuationsbetrag zwischen der von der Erregungssignal-Normierungsschaltung ausgegebenen Verstärkung und der von dem ausgewählten Filter (2150, 2160, 2170, 3) ausgegebenen ersten geglätteten Verstärkung ermittelt, die erste geglättete Verstärkung unverändert verwendet, wenn der Fluktuationsbetrag niedriger als ein vorgegebener Schwellenwert ist, die erste geglättete Verstärkung durch eine geglättete Verstärkung, die hinsichtlich ihrer Werte, die sie annehmen kann begrenzt ist, ersetzt, wenn der Fluktuationsbetrag größer oder gleich dem Schwellenwert ist, und diese geglättete Verstärkung an die Erregungssignal-Rekonstruktionsschaltung (2610, 3) liefert, die Erregungssignal-Normierungsschaltung (2510, 3), in die der Erregungsvektor in einen Unterrahmen, der von dem Addierer (1050, 3) ausgegeben wird, eingegeben wird und die die Norm/Verstärkung und einen Formvektor von dem Erregungsvektor bei jedem Unterrahmen oder jedem durch Unterteilen eines Unterrahmens erhaltenen Unter-Unterrahmen berechnet, die Verstärkung an eine erste Umschaltschaltung (2110, 3) ausgibt und den Formvektor an eine Erregungssignal-Rekonstruktionsschaltung (2610, 3) ausgibt; und die Erregungssignal-Rekonstruktionsschaltung (2610, 3), in die die von der Glättungsbetrag-Begrenzungsschaltung (7200, 3) ausgegebene Verstär kung und der von der Erregungssignal-Normierungsschaltung (2510, 3) ausgegebene Formvektor eingegeben werden und die einen geglätteten Erregungsvektor berechnet und diesen Erregungsvektor an die Speicherschaltung (1240, 3) und an das Synthesefilter (1040, 3) ausgibt; eine Leistungsberechnungsschaltung (3040, 3), in die der von dem Synthesefilter (1040, 3) ausgegebene rekonstruierte Vektor eingegeben wird und die Summe der Quadrate des rekonstruierten Vektors berechnet und die Leistung an die Sprache/Nichtsprache-Identifizierungsschaltung (2020, 3) ausgibt; eine Sprachmodus-Entscheidungsschaltung (3050, 3), in die ein früherer Erregungsvektor, der durch die Speicherschaltung (1040, 3) gehalten wird, und ein Index, der eine Verzögerung spezifiziert und von der Codeeingabeschaltung (1010, 3) ausgegeben wird, eingegeben werden und die eine Tonhöhenprädiktionsverstärkung in einem Unterrahmen aus dem früheren Erregungsvektor und der Verzögerung berechnet, einen vorgegebenen Schwellenwert in Bezug auf die Tonhöhenprädiktionsverstärkung oder in Bezug auf einen rahmeninternen Durchschnittswert der Tonhöhenprädiktionsverstärkung in einem bestimmten Rahmen bestimmt und einen Sprachmodus setzt; die Sprache/Nichtsprache-Identifizierungsschaltung (2020, 3), in die ein LSP, das von der LSP-Decodierungsschaltung (1020, 3), der Sprachmodus, der von der Sprachmodus-Entscheidungsschaltung (3050, 3) und die Leistung, die von der Leistungsberechnungsschaltung (3040, 3) ausgegeben wird, eingegeben werden und die den Fluktuationsbetrag eines Spektrumparameters, der ein Sprachsegment oder ein Nichtsprachsegment anhand des Fluktuationsbetrags identifiziert, ermittelt und Fluktuationsbetrag-Informationen sowie einen Identifizierungsmerker ausgibt; eine Rauschklassifizierungsschaltung (2030, 3), in die die Fluktuationsbetrag-Informationen und der Identifizierungsmerker, die von der Sprache/Nichtsprache-Identifizierungsschaltung ausgegeben werden, eingegeben werden und die das Rauschen klassifiziert und einen Klassifizierungsmerker ausgibt; und eine erste Umschaltschaltung (2110, 3), in die die Verstärkung, die von der Erregungssignal-Normierungsschaltung (2510, 3) ausgegeben wird, der Identifizierungsmerker, der von der Sprache/Nichtsprache-Identifizierungsschaltung (2020, 3) ausgegeben wird, und der Klassifizierungsmerker, der von der Rauschklassifizierungsschaltung (2030, 3) ausgegeben wird, eingegeben werden und die einen Schalter in Übereinstimmung mit einem Wert des Identifizie rungsmerkers und einem Wert des Klassifizierungsmerkers umschaltet, um durch Umschalten die Verstärkung an irgendeines von mehreren Filtern (2150, 2160, 2170, 3), die unterschiedliche Filtercharakteristiken besitzen, ausgibt; wobei das Filter, das aus den mehreren Filtern (2150, 2160, 2170, 3) die Verstärkung, die von der ersten Umschaltschaltung (2110, 3) ausgegeben wird, empfängt, die Verstärkung unter Verwendung eines linearen Filters oder eines nichtlinearen Filters glättet und die geglättete Verstärkung an die Glättungsbetrag-Begrenzungsschaltung (7200, 3) als eine erste geglättete Verstärkung ausgibt.
  22. Vorrichtung nach Anspruch 19, die ferner eine Umschaltschaltung (7110, 4) umfasst, die zwischen einer Betriebsart des Verwendens der Verstärkung und einer Betriebsart des Verwendens der geglätteten Verstärkung als Eingang in die zweite Verstärkungsschaltung (1130, 4) in Übereinstimmung mit einem Umschaltsteuersignal, das von einem Eingangsanschluss (50, 4) eingegeben worden ist, umschaltet, wenn das Sprachsignal decodiert wird.
  23. Vorrichtung nach Anspruch 20 oder 21, die ferner eine Umschaltschaltung (7110, 5, 6) umfasst, in die der Erregungsvektor, der von dem Addierer (1050, 5, 6) ausgegeben wird, eingegeben wird und die den Erregungsvektor an das Synthesefilter (1040, 5, 6) oder an die Erregungssignal-Normierungsschaltung (2510, 5, 6) in Übereinstimmung mit einem Umschaltsteuersignal, das von einem Eingangsanschluss (50, 5, 6) eingegeben worden ist, ausgibt.
DE60028500T 1999-11-01 2000-10-31 Sprachdekodierung Expired - Lifetime DE60028500T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP31162099 1999-11-01
JP31162099A JP3478209B2 (ja) 1999-11-01 1999-11-01 音声信号復号方法及び装置と音声信号符号化復号方法及び装置と記録媒体

Publications (2)

Publication Number Publication Date
DE60028500D1 DE60028500D1 (de) 2006-07-20
DE60028500T2 true DE60028500T2 (de) 2007-01-04

Family

ID=18019455

Family Applications (2)

Application Number Title Priority Date Filing Date
DE60044154T Expired - Lifetime DE60044154D1 (de) 1999-11-01 2000-10-31 Sprachdekodierung
DE60028500T Expired - Lifetime DE60028500T2 (de) 1999-11-01 2000-10-31 Sprachdekodierung

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE60044154T Expired - Lifetime DE60044154D1 (de) 1999-11-01 2000-10-31 Sprachdekodierung

Country Status (6)

Country Link
US (1) US6910009B1 (de)
EP (3) EP1096476B1 (de)
JP (1) JP3478209B2 (de)
CA (1) CA2324898C (de)
DE (2) DE60044154D1 (de)
HK (1) HK1093592A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230306976A1 (en) * 2014-05-01 2023-09-28 Nippon Telegraph And Telephone Corporation Coding device, decoding device, and method and program thereof

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5621852A (en) 1993-12-14 1997-04-15 Interdigital Technology Corporation Efficient codebook structure for code excited linear prediction coding
JP3558031B2 (ja) * 2000-11-06 2004-08-25 日本電気株式会社 音声復号化装置
JP2002229599A (ja) * 2001-02-02 2002-08-16 Nec Corp 音声符号列の変換装置および変換方法
JP4304360B2 (ja) 2002-05-22 2009-07-29 日本電気株式会社 音声符号化復号方式間の符号変換方法および装置とその記憶媒体
US7486719B2 (en) * 2002-10-31 2009-02-03 Nec Corporation Transcoder and code conversion method
EP3629328A1 (de) 2007-03-05 2020-04-01 Telefonaktiebolaget LM Ericsson (publ) Verfahren und anordnung zur glättung von stationärem hintergrundrauschen
PL2118889T3 (pl) 2007-03-05 2013-03-29 Ericsson Telefon Ab L M Sposób i sterownik do wygładzania stacjonarnego szumu tła
TWI463878B (zh) * 2009-02-19 2014-12-01 Sony Corp Image processing apparatus and method
KR101761629B1 (ko) 2009-11-24 2017-07-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
CN102822888B (zh) * 2010-03-25 2014-07-02 日本电气株式会社 话音合成器和话音合成方法
JP5323145B2 (ja) * 2011-08-05 2013-10-23 株式会社東芝 復号装置およびスペクトル整形方法
JP5323144B2 (ja) * 2011-08-05 2013-10-23 株式会社東芝 復号装置およびスペクトル整形方法
CA2851370C (en) * 2011-11-03 2019-12-03 Voiceage Corporation Improving non-speech content for low rate celp decoder
US9082398B2 (en) * 2012-02-28 2015-07-14 Huawei Technologies Co., Ltd. System and method for post excitation enhancement for low bit rate speech coding
US9015044B2 (en) * 2012-03-05 2015-04-21 Malaspina Labs (Barbados) Inc. Formant based speech reconstruction from noisy signals
US9640190B2 (en) * 2012-08-29 2017-05-02 Nippon Telegraph And Telephone Corporation Decoding method, decoding apparatus, program, and recording medium therefor
CN104143337B (zh) 2014-01-08 2015-12-09 腾讯科技(深圳)有限公司 一种提高音频信号音质的方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5267317A (en) * 1991-10-18 1993-11-30 At&T Bell Laboratories Method and apparatus for smoothing pitch-cycle waveforms
US5991725A (en) * 1995-03-07 1999-11-23 Advanced Micro Devices, Inc. System and method for enhanced speech quality in voice storage and retrieval systems
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US6507814B1 (en) * 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
JP3417362B2 (ja) 1999-09-10 2003-06-16 日本電気株式会社 音声信号復号方法及び音声信号符号化復号方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230306976A1 (en) * 2014-05-01 2023-09-28 Nippon Telegraph And Telephone Corporation Coding device, decoding device, and method and program thereof

Also Published As

Publication number Publication date
EP1096476B1 (de) 2006-06-07
HK1093592A1 (en) 2007-03-02
JP2001134296A (ja) 2001-05-18
EP2187390A1 (de) 2010-05-19
EP1688920B1 (de) 2010-04-07
US6910009B1 (en) 2005-06-21
DE60028500D1 (de) 2006-07-20
EP1096476A2 (de) 2001-05-02
CA2324898A1 (en) 2001-05-01
DE60044154D1 (de) 2010-05-20
EP2187390B1 (de) 2013-10-23
JP3478209B2 (ja) 2003-12-15
EP1096476A3 (de) 2003-12-10
CA2324898C (en) 2005-09-27
EP1688920A1 (de) 2006-08-09

Similar Documents

Publication Publication Date Title
DE60028500T2 (de) Sprachdekodierung
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE69730779T2 (de) Verbesserungen bei oder in Bezug auf Sprachkodierung
DE69915830T2 (de) Verbesserte verfahren zur rückgewinnung verlorener datenrahmen für ein lpc-basiertes, parametrisches sprachkodierungsystem.
DE69309557T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
DE19647298C2 (de) Kodiersystem
DE3856211T2 (de) Verfahren zur adaptiven Filterung von Sprach- und Audiosignalen
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE60209861T2 (de) Adaptive Postfilterung zur Sprachdekodierung
DE69721349T2 (de) Sprachkodierung
DE60201766T2 (de) Verbesserung der Periodizität der CELP-Anregung für die Sprachkodierung und -dekodierung
DE60308567T2 (de) Dekodierungsgerät, Kodierungsgerät, Dekodierungsverfahren und Kodierungsverfahren
DE69628103T2 (de) Verfahren und Filter zur Hervorbebung von Formanten
DE60133757T2 (de) Verfahren und vorrichtung zur kodierung von stimmloser sprache
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE602004006211T2 (de) Verfahren zur Maskierung von Paketverlusten und/oder Rahmenausfall in einem Kommunikationssystem
DE69832358T2 (de) Verfahren zur Sprachkodierung und -dekodierung
DE60309651T2 (de) Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens
DE19722705A1 (de) Verfahren zur Abschätzung der Verstärkung zur Sprachkodierung
DE60024080T2 (de) Kodierung von sprachsegmenten mit signalübergängen durch interpolation von mehrimpulsanregungssignalen
DE68913691T2 (de) System zur Sprachcodierung und -decodierung.
DE69725945T2 (de) Sprachkodierer mit niedriger Bitrate
DE60032068T2 (de) Sprachdekodierung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition