DE69630177T2 - Sprachkodierer mit der Fähigkeit zur wesentlichen Vergrösserung der Codebuchgrösse ohne aber die Zahl der übertragenen Bits zu vergrössern - Google Patents

Sprachkodierer mit der Fähigkeit zur wesentlichen Vergrösserung der Codebuchgrösse ohne aber die Zahl der übertragenen Bits zu vergrössern Download PDF

Info

Publication number
DE69630177T2
DE69630177T2 DE69630177T DE69630177T DE69630177T2 DE 69630177 T2 DE69630177 T2 DE 69630177T2 DE 69630177 T DE69630177 T DE 69630177T DE 69630177 T DE69630177 T DE 69630177T DE 69630177 T2 DE69630177 T2 DE 69630177T2
Authority
DE
Germany
Prior art keywords
gain
circuit
codebook
winning
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69630177T
Other languages
English (en)
Other versions
DE69630177D1 (de
Inventor
Shin-ichi Minato-ku Taumi
Kazunori Minato-ku Ozawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of DE69630177D1 publication Critical patent/DE69630177D1/de
Application granted granted Critical
Publication of DE69630177T2 publication Critical patent/DE69630177T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die Erfindung betrifft einen mit kurzer Verarbeitungserzögerung betriebsfähigen Sprachcodierer zum Codieren eines Sprachsignals mit hoher Güte bei kurzer Rahmendauer bzw. -länge von höchstens 5 ms bis 10 ms.
  • Ein herkömmliches Sprachcodiersystem wird beispielsweise in einem Beitrag von K. Ozawa et al . zu IEICE Trans. Commun., Bd. E77-B, Nr. 9 (September 1994), S. 1114–1121 unter dem Titel "M-LCELP Speech Coding at 4 kb/s with Multi-Mode and Multi-Codebook" (MLCELP-Sprachcodierung bei 4 lb/s mit mehreren Moden und mehreren Codebüchern) (Lit. 1) offenbart.
  • Nach dem oben zitierten herkömmlichen System wird ein Sprachsignal auf einer Sendeseite wie folgt codiert. Unter Anwendung der linearen Prädiktionscodierung (LPC) werden Spektralparameter, die Spektraleigenschaften darstellen, in jedem Rahmen mit eine Rahmendauer von beispielsweise 40 ms aus dem Sprachsignal extrahiert. Für Signalrahmen oder gewichtete Signalrahmen, die man durch perzeptorische Gewichtung der Signalrahmen erhält, wird eine Berechnung von Merkmalsgrößen ausgeführt. Die Merkmalsgrößen werden bei der Entscheidung über Moden (zum Beispiel Vokal- und Konsonantensegmente) zur Erzeugung von Modenentscheidungsergebnissen verwendet. Unter Bezugnahme auf die Modenentscheidungsergebnisse werden ein Algorithmus oder Codebücher geschaltet.
  • In einem Codierteil wird jeder Rahmen in Sprachteilrahmen mit einer Teilrahmendauer von beispielsweise 8 ms unterteilt. Adaptive Parameter (Verzögerungsparameter, die Tonhöhenperioden entsprechen, und Gewinnparameter) werden aus einem adaptiven Codebuch für jeden Sprachteilrahmen in Bezug auf ein vorhergehendes Erregungssignal extrahiert. Durch Verwendung des adaptiven Codebuchs wird eine Tonhöhen- bzw. Pitch- Prädiktion für die Sprachteilrahmen ausgeführt. Für ein durch die Tonhöhenprädiktion erhaltenes Restsignal wird ein optimaler Erregungscodevektor aus einem Erregungscodebuch (Vektorquantisierungscodebuch) ausgewählt, das aus Rauschsignalen einer vorgegebenen Art besteht. Erregungssignale werden durch Berechnung eines optimalen Gewinns quantisiert.
  • Der Erregungscodevektor wird so gewählt, daß er eine Fehlerpotenz zwischen dem Restsignal und einem Signal minimiert, das aus einem ausgewählten Rauschsignal besteht. Ein Muliplexer wird zur Erzeugung eines Sendesignals benutzt, das aus einer Kombination von Indizes besteht, welche die Art des so gewählten Erregungscodevektors, Gewinne, die Spektralparameter und die adaptiven Parameter des adaptiven Codebuchs anzeigen.
  • Das herkömmliche Sprachcodiersystem ist jedoch ungünstig, da wegen einer eingeschränkten Codebuchgröße keine ausreichende Sprachqualität erzielt werden kann.
  • EP-A-0 607 989 lehrt ein Sprachcodierersystem, das einen Modenklassifikator 245 aufweist, der Sprachsignale in einem Rahmen durch Berechnen vorgegebener Merkmalsgrößen der Sprachsignale in mehrere Moden klassifiziert. Dies ist dem weiter oben beschriebenen Stand der Technik ähnlich.
  • WO-A-9 305 502 offenbart ein Fehlerkontrollcodierverfahren, das einen Eingangsdatenstrom von Sprachcodiererbits in Bitfelder trennt. Ein erstes Feld 302 weist Sprachcodiererbits auf, die einen Fehlerschutz benötigen, während ein zweites Feld 303 Sprachcodiererbits aufweist, die nicht fehlergeschützt werden.
  • Eine Aufgabe der vorliegenden Erfindung besteht darin, einen Sprachcodierer mit einer Funktion bereitzustellen, die der Einbeziehung eines mehrfach größeren Codebuchs ist als dem eines herkömmlichen Sprachcodierers äquivalent ist, ohne die Anzahl der übertragenen Bits zu vergrößern.
  • Weitere Aufgaben der vorliegenden Erfindung werden im Verlauf der Beschreibung deutlich werden.
  • Die Aufgaben der vorliegenden Erfindung werden mit den Merkmalen der Ansprüche gelöst.
  • Es wird ein Sprachcodierer bereitgestellt, der aufweist: eine Rahmenunterteilungseinrichtung zum Unterteilen eines Eingangssprachsignals in Sprachrahmen von einer vorgegebenen Rahmendauer, eine Modenentscheidungseinrichtung, die als Reaktion auf das Eingangssprachsignal mindestens eine Art von ersten Merkmalsgrößen zur Erzeugung von Modenentscheidungsergebnissen berechnet, eine Codiereinrichtung zum Codieren des Eingangssprachsignals als Reaktion auf die Modenentscheidungsergebnisse, und eine Codebuchschalteinrichtung, die als Reaktion auf mindestens eine Art von aus dem Eingangssprachsignal berechneten zweiten Merkmalsgrößen bei Auswahl eines vorgegebenen Modus mehrere vorgespeicherte Codebücher schaltet.
  • Die zweiten Merkmalsgrößen können ein zeitliches Änderungsverhältnis von mindestens einer Art der Merkmalsgrößen einschließen.
  • Die zweiten Merkmalsgrößen können ein Verhältnis der zwei Merkmalsgrößen von irgend zwei Rahmen enthalten, die unter einem aktuellen Rahmen und mindestens einem vorhergehenden Rahmen ausgewählt sind.
  • Die zweiten Merkmalsgrößen können mindestens einen der Tonhöhenprädiktionsgewinne, kurzfristigen Prädiktionsgewinne, Pegel und Tonhöhen einschließen.
  • Die mehreren Codebücher können mehrere RMS-Codebücher, mehrere LSP-Codebücher, mehrere adaptive Codebücher, mehrere Erregungscodebücher oder mehrere Gewinncodebücher aufweisen.
  • 1 zeigt ein Blockdiagramm eines Sprachcodierers nach einer Ausführungsform der vorliegenden Erfindung;
  • 2 zeigt ein Blockdiagramm einer in 1 dargestellten Gewinnquantisiererschaltung;
  • 3 zeigt ein Blockdiagramm einer Modifikation der in 1 dargestellten Gewinnquantisiererschaltung;
  • 4 zeigt ein Blockdiagramm einer anderen Modifikation der in 1 dargestellten Gewinnquantisiererschaltung;
  • 5 zeigt ein Blockdiagramm einer weiteren Modifikation der in 1 dargestellten Gewinnquantisiererschaltung;
  • 6 zeigt ein Blockdiagramm eines Sprachcodierers nach einer weiteren Ausführungsform der vorliegenden Erfindung; und
  • 7 zeigt ein Blockdiagramm einer in 6 dargestellten Gewinnquantisiererschaltung.
  • Nachstehend wird die vorliegende Erfindung unter Bezugnahme auf die Zeichnungen näher erläutert. Als Beispiel wird ein Fall beschrieben, wo mehrere Gewinncodebücher in einem vorgegebenen Modus geschaltet werden.
  • 1 zeigt einen Sprachcodierer nach einer ersten Ausführungsform der vorliegenden Erfindung. In der nachstehenden Beschreibung werden Gewinncodebücher in einem vorgegebenen Modus unter Verwendung von zweiten Merkmalsgrößen geschaltet.
  • Wie aus 1 erkennbar, wird ein Eingangssprachsignal über einen Eingangsanschluß 100 einer Rahmenunterteilungsschaltung 110 zugeführt. Die Rahmenunterteilungsschaltung 110 segmentiert oder unterteilt das Eingangssprachsignal in Sprachrahmen mit einer vorgegebenen Rahmendauer oder -länge von beispielsweise 5 ms. Eine mit den Sprachrahmen gespeiste Teilrahmenunterteilungsschaltung 120 unterteilt jeden einzelnen Sprachrahmen weiter in Sprachteilrahmen, die jeweils eine Teilränmendauer von beispielsweise 2,5 ms aufweisen, die kürzer ist als die Rahmendauer.
  • Eine Spektralparameterberechnungsschaltung 200 berechnet Spektralparameter des Eingangssprachsignals bis zu einer vorgegebenen Ordnung, wie z. B. bis zur zehnten Ordnung (P = 10) durch Anwendung eines Fensters mit einer Fensterdauer bzw. -länge (zum Beispiel 24 ms), die länger ist als die Teilrahmendauer, auf mindestens einen der Sprachteilrahmen, um das Eingangssprachsignal zu extrahieren. Hierbei können die Spektralparameter gemäß der dem Fachmann bekannten LPC-Analyse (linearen Prädiktionscodierungsanalyse) oder der Burg-Analyse berechnet werden. In dem dargestellten Beispiel wird die Burg-Analyse angewandt. Die Burg-Analyse wird zum Beispiel auf S. 82 bis 87 eines Buchs von Nakamizo ausführlich beschrieben, das 1988 von Korona-sha unter dem Titel "Signal Analysis and System Identification" (Signalanalyse und Systemidentifikati on) veröffentlicht wurde (Lit. 2), und wird hierin nicht beschrieben.
  • Nach der Berechnung der linearen Prädiktionskoeffizienten αi (i = 1, ..., 10) durch Anwendung der Burg-Analyse wandelt die Spektralparameterberechnungsschaltung 200 die linearen Prädiktionskoeffizienten αi in LSP-Parameter (lineare Spektralpaar-Parameter) um, die sich für die Quantisierung und Interpolation eignen. Eine solche Umwandlung aus den linearen Prädiktionskoeffizienten in die LSP-Parameter wird in einem Beitrag von Sugamura et al. zu Transactions of the Institute of Electronics and Communication Engineers of Japan, J64-A (1981), S. 599 bis 606, unter dem Titel "Speech Data Compression by Linear Spectral Pair (LSP) Speech Analysis-Synthesis Techni-que" (Verdichtung von Sprachdaten durch lineares Spektralpaar-(LSP-)Sprachanalyse-Syntheseverfahren) (Lit. 3) beschrieben.
  • Konkret besteht in dem beschriebenen Beispiel jeder Sprachrahmen aus ersten und zweiten Teilrahmen. Die linearen Prädiktionskoeffizienten werden nach der Burg-Analyse für die zweiten Teilrahmen berechnet und in die LSP-Parameter umgerechnet. Für den ersten Teilrahmen werden die LSP-Parameter durch lineare Interpolation der LSP-Parameter der zweiten Teilrahmen berechnet und in die linearen Prädiktionskoeffizienten zurücktransformiert. Auf diese Weise erzeugt die Spektralparameterberechnungsschaltung 200 die linearen Prädiktionskoeffizienten αiI (i = 1, ..., 10, I = 1, ..., S) für die ersten und zweiten Teilrahmen und übergibt die linearen Prädiktionskoeffizienten αiI an die perzeptorische Gewichtungsschaltung 230. Andererseits übergibt die Spektralparameterberechnungsschaltung 200 die LSP-Parameter für die ersten und zweiten Teilrahmen an eine Spektralparameterquantisiererschaltung 210.
  • Die Spektralparameterquantisiererschaltung 210 dient zur rationellen Quantisierung von LSP-Parametern eines vorgegebenen Teilrahmens. In der folgenden Beschreibung wird angenommen, daß die LSP-Parameter des zweiten Teilrahmens durch Anwendung der Vektorquantisierung quantisiert werden. Für die Vektorquantisierung der LSP-Parameter können verschiedene be kannte Verfahren angewandt werden. Eine solche Vektorquantisierung wird zum Beispiel ausführlich in der ungeprüften japanischen Patentveröffentlichung Nr. 171500/1992 (Lit. 4), der ungeprüften japanischen Patentveröffentlichung Nr. 363000/ 1992) (Lit. 5), der ungeprüften japanischen Patentveröffentlichung Nr. 6199/1993 (Lit. 6) und in einem Beitrag von T. Nomura et al. zu Proc. Mobile Multimedia Communications, S. B.2.5-1 bis B2.5–4 (1993) unter dem Titel "LSP Coding Using VQ-SVQ with Interpolation in 4.075 kbps M-LCELP Speech Coder" (LSP-Codierung mittels VQ-SVQ mit Interpolation in einem 4,075 kb/s M-LCELP-Sprachcodierer) (Lit. 7) beschrieben. Daher wird hierin keine ausführliche Beschreibung gegeben.
  • Die Spektralparameterquantisiererschaltung 210 reproduziert die LSP-Parameter für die ersten und zweiten Teilrahmen aus den in Verbindung mit jedem zweiten Teilrahmen quantisierten LSP-Parametern. Hierbei werden die LSP-Parameter für die ersten und zweiten Teilrahmen durch lineare Interpolation zwischen den quantisierten LSP-Parametern des zweiten Teilrahmens eines aktuellen Rahmens und den quantisierten LSP-Parametern des zweiten Teilrahmens eines vorhergehenden Rahmens reproduziert,-der eine Rahmendauer vor dem aktuellen Rahmen liegt.
  • Genauer gesagt, die LSP-Parameter für die ersten und zweiten Teilrahmen können durch lineare Interpolation reproduziert werden, nachdem ein einzelner Codevektor so ausgewählt wird, daß eine Fehlerpotenz zwischen den LSP-Parametern vor und nach der Quantisierung minimiert wird. Um eine höhere Effizienz zu erreichen, können mehrere Codevektorkandidaten für die Minimierung der Fehlerpotenz ausgewählt werden, um kumulative Verzerrungen in Verbindung mit diesen Kandidaten zu beurteilen und eine Kombination aus einem der Kandidaten, der die kumulativen Verzerrungen minimiert, und interpolierten LSP-Parametern auszuwählen.
  • Die Spektralparameterquantisiererschaltung 210 wandelt die so reproduzierten LSP-Parameter für die ersten und zweiten Teilrahmen und die quantisierten LSP-Parameter des zweiten Teilrahmens in konvertierte lineare Prädiktionskoeffizienten α'iI (i = 1, ..., 10, I = 1, ..., 5) für jeden Teilrahmen um. Die umgewandelten linearen Prädiktionskoeffizienten α'iI wer den an eine Impulsantwortberechnungsschaltung 310 übergeben. Außerdem speist die Spektralparameterquantisiererschaltung 210 einen Multiplexer 400 mit Indizes, welche die Codevektoren für die quantisierten LSP-Parameter des zweiten Teilrahmens anzeigen.
  • Anstelle der linearen Interpolation in der vorstehenden Beschreibung können Interpolations-LSP-Muster für eine vorgegebene Bitzahl, wie z. B. zwei Bits, vorher erzeugt werden, um die LSP-Parameter der ersten und zweiten Teilrahmen für jedes Muster zu reproduzieren und eine Kombination aus einem der Codevektoren, der die kumulativen Verzerrungen minimiert, und den Interpolationsmustern auszuwählen. In diesem Fall erhöht sich unvermeidlich die Menge der übertragenen Informationen entsprechend der Bitzahl der Interpolationsmuster. Jedoch können zeitliche Änderungen der LSP-Parameter in jedem Sprachrahmen genauer dargestellt werden.
  • Die Interpolationsmuster können durch vorbereitendes Lernen von LSP-Trainingsdaten erzeugt werden. Alternativ können vorgegebene Muster als Interpolationsmuster gespeichert werden. Solche vorgegebenen Muster werden beispielsweise in einem Beitrag von T. Taniguchi et al. zu Proc. ICLSP (1992), S. 41 bis 44, unter dem Titel "Improved CELP Speech Coding at 4 kbits/s and below" (Verbesserte CELP Sprachcodierung bei 4 kbit/s und darunter) (Lit. 8) beschrieben. Alternativ können zur weiteren Leistungsverbesserung die Interpolationsmuster vorgewählt werden, um ein Fehlersignal zwischen tatsächlichen Werten der LSP-Parameter und interpolierten LSP-Werten für einen vorgegebenen Teilrahmen zu berechnen und das Fehlersignal unter Verwendung eines Fehlercodebuchs darzustellen.
  • Die perzeptorische Gewichtungsschaltung 230 wird von der Spektralparameterberechnungsschaltung 200 vor der Quantisierung teilrahmenweise mit den linearen Prädiktionskoeffizienten αiI (i = 1, ..., 10, I = 1, ..., 5) gespeist. Nach dem in der obenerwähnten Literaturstelle 1 beschriebenen Verfahren belegt die perzeptorische Gewichtungsschaltung 230 die Sprachteilrahmen mit perzeptorischen oder akustischen Gewichten, um ein perzeptorisch gewichtetes Signal zu erzeugen.
  • Eine Modenentscheidungsschaltung 250, die von der perzeptorischen Gewichtungsschaltung 230 rahmenweise mit dem perzeptorisch gewichteten Signal gespeist wird, bestimmt Tonhöhenprädiktionsgewinne und Moden (zum Beispiel Vokal- und Konsonantensegmente) in Bezug auf einen vorgegebenen Schwellwert. Die perzeptorische Gewichtungsschaltung 230 übergibt ein Modenentscheidungsergebnis an eine adaptive Codebuchschaltung 500 und eine Erregungsquantisiererschaltung 350.
  • Wie wieder aus 1 erkennbar, wird eine Antwortsignalberechnungsschaltung 240 von der Spektralparameterberechnungsschaltung 200 teilrahmenweise mit den linearen Prädiktionskoeffizienten αiI gespeist. Zusätzlich wird die Antwortsignalberechnungsschaltung 240 von der Spektralparameterquantisiererschaltung 210 teilrahmenweise mit den umgewandelten, nach der Quantisierung und Interpolation reproduzierten linearen Prädiktionskoeffizienten αiI gespeist. Unter Verwendung eines gespeicherten Filterspeicherwerts berechnet die Antwortsignalberechnungsschaltung 240 als Reaktion auf das durch d(n) = 0 gegebene Eingangssignal für jeden einzelnen Teilrahmen ein Antwortsignal xz(n) und übergibt das Antwortsignal an einen Subtrahierer 235. Das Antwortsignal xz(n) wird dargestellt durch:
    Figure 00080001
    wobei γ einen Gewichtungsfaktor darstellt, der das perzeptorische Gewicht steuert, und einen Wert hat, der durch die weiter unten angegebene Gleichung (3) gegeben ist.
  • Der Subtrahierer 235 subtrahiert das Antwortsignal von dem perzeptorisch gewichteten Signal für einen Teilrahmen, um ein Teilrahmendifferenzsignal x'w(n) zu erzeugen, das an die adaptive Codebuchschaltung 500 übergeben wird. Das Teilrahmendifferenzsignal x'w(n) ist gegeben durch: x'w(n) = xw(n) – xz(n) (2)
  • Die Impulsantwortberechnungsschaltung 310 berechnet in einer vorgegebenen Anzahl L von Punkten Impulsantworten hw(n) eines gewichteten Filters. Die Impulsantworten hw(n) werden an die adaptive Codebuchschaltung 500 und die Erregungsquantisiererschaltung 350 übergeben. Die Z-Transformierte der Impulsantworten hw(n) ist gegeben durch:
  • Figure 00090001
  • Die adaptive Codebuchschaltung 500 berechnet Tonhöhenparameter auf die in Literaturstelle 2 ausführlich beschriebene Weise. Die adaptive Codebuchschaltung 500 führt außerdem eine Tonhöhenprädiktion durch, um für das adaptive Codebuch ein Prädiktionsdifferenzsignal z(n) zu erzeugen, das gegeben ist durch z(n) = x'w(n) – b(n) (4)wobei b(n) ein Tonhöhenprädiktionssignal für das adaptive Codebuch darstellt, das durch b(n) = β v(n – T)*hw(n) (5)definiert ist, wobei ß und T den Gewinn der adaptiven Codebuchschaltung 500 bzw. eine Verzögerung darstellen. v(n) stellt einen adaptiven Codevektor dar. Das Symbol * bezeichnet eine Faltung.
  • Ein dünnbesetztes Codebuch 351 von einem Typ mit unregelmäßiger Impulszahl speichert Erregungscodevektoren mit un terschiedlicher Anzahl von nichtverschwindenden Vektorkomponenten.
  • Für alle oder einen Teil der in dem Erregungscodebuch 351 gespeicherten Erregungscodevektoren wählt die Erregungsquantisiererschaltung 350 optimale Erregungscodevektoren cj(n) aus, um die j-ten Differenzen Dj zu minimieren. Hierbei ist die Auswahl einer einzigen Art der optimalen Codevektoren möglich. Alternativ können zwei oder mehrere Arten der optimalen Codevektoren ausgewählt werden, um nach Quantisierung der Gewinne eine Art endgültig auszuwählen. Hier wird angenommen, daß zwei oder mehrere Arten von Codevektoren ausgewählt werden. Die j-ten Differenzen Dj sind gegeben durch:
    Figure 00100001
    wobei z(n) das Prädiktionsdifferenzsignal bezüglich der ausgewählten adaptiven Codevektoren darstellt.
  • Falls Gleichung (6) auf einen Teil der Erregungscodevektoren allein angewandt wird, ist es möglich, vorher mehrere Erregungscodevektoren auszuwählen und Gleichung (6) auf die zuvor ausgewählten Erregungscodevektoren anzuwenden.
  • Eine Gewinnquantisiererschaltung 365, die von der Modenentscheidungsschaltung 230 mit der Modenentscheidungsinformation und von der Spektralparameterberechnungsschaltung 200 mit den Spektralparametern gespeist wird, wählt unter Verwendung der zweiten Merkmalsgrößen eines der Gewinncodebücher 371 und 372 aus, wenn die Modenentscheidungsinformation einen vorgegebenen Modus anzeigt. Die Gewinnquantisiererschaltung 365 liest Gewinncodevektoren aus dem ausgewählten Gewinncodebuch 371 bzw. 372 ein und übergibt die Indizes, welche die Erregungs- und die Gewinncodevektoren anzeigen, an den Multiplexer 400.
  • Nachstehend wird unter Bezugnahme auf 2 die Gewinnquantisiererschaltung 365 beschrieben. Eine Berechnungsschaltung 1110 für kurzfristige Prädiktionsgewinne G wird über einen Eingangsanschluß 1040 mit den Spektralparametern gespeist und berechnet als zweite Merkmalsgrößen kurzfristige Prädiktionsgewinne G, die an einen Gewinncodebuchschaltkreis 1120 übergeben werden. Die kurzfristigen Prädiktionsgewinne G sind gegeben durch:
  • Figure 00110001
  • Der Gewinncodebuchschaltkreis 1120, der von der Berechnungsschaltung 1110 für kurzfristige Prädiktionsgewinne mit den kurzfristigen Prädiktionsgewinnen und über einen Eingangsanschluß 1050 mit der Modeninformation gespeist wird, vergleicht den kurzfristigen Prädiktionsgewinn mit einem vorgegebenen Schwellwert, wenn die Modeninformation einen vorgegebenen Modus anzeigt. Als Vergleichsergebnis erzeugt der Gewinncodebuchschaltkreis 1120 eine Gewinncodebuchschaltinformation, die an eine Gewinnquantisiererschaltung 1130 übergeben wird. Die Gewinnquantisiererschaltung 1130 wird über einen Eingangsanschluß 1010 mit den adaptiven Codevektoren, über einen Eingangsanschluß 1020 mit den Erregungscodevektoren und über einen Eingangsanschluß 1030 mit der Impulsantwortinformation gespeist. Die Gewinnquantisiererschaltung 1130 wird außerdem von dem Gewinncodebuchschaltkreis 1120 mit der Gewinncodebuchschaltinformation und von dem Gewinncodebuch 371 oder 372 (1), das mit einem der Eingangsanschlüsse 1060 und 1070 verbunden ist, der durch die Gewinncodebuchschaltinformation ausgewählt wird, mit den Gewinncodevektoren gespeist. Für die ausgewählten Erregungscodevektoren wählt die Gewinnquantisiererschaltung 1130 Kombinationen der Erregungscodevektoren und der Gewinncodevektoren in dem durch die Gewinncodebuchschaltinformation ausgewählten Gewinncodebuch aus, um die (j,k)-ten Differenzen zu minimieren, die durch
    Figure 00120001
    definiert sind, wobei β'k und γ'k einen k-ten zweidimensionalen Codevektor darstellen, der in dem durch die Gewinncodebuchschaltinformation ausgewählten Gewinncodebuch gespeichert ist. Die Gewinnquantisiererschaltung 1130 übergibt die Indizes, welche die ausgewählten Kombinationen der Erregungscodevektoren und der Gewinncodevektoren anzeigen, an einen Ausgangsanschluß 1080.
  • Wie wieder aus 1 erkennbar, liest eine Gewichtungssignalberechnungsschaltung 360, die mit den Ausgangsparametern der Spektralparameterberechnungsschaltung 200 zusammen mit ihren Indizes gespeist wird, die Codevektoren unter Bezugnahme auf ihre Indizes ein und berechnet ein Treibererregungssignal v(n) gemäß: v(n) = β'k v(n – T) + γ'k cj (n) (9)Anschließend berechnet die Gewichtungssignalberechnungsschaltung 360 unter Verwendung der Ausgangsparameter der Spektralparameterberechnungsschaltung 200 und der Ausgangsparameter der Spektralparameterquantisiererschaltung 210 ein Gewichtungssignal sw(n) für jeden Teilrahmen nach der Formel:
    Figure 00120002
    um das Gewichtungssignal an die Antwortsignalberechnungsschaltung 240 zu übergeben.
  • Als nächstes wird ein Sprachcodierer nach einer zweiten Ausführungsform der vorliegenden Erfindung beschrieben.
  • Der Sprachcodierer gemäß dieser Ausführungsform ist von ähnlicher Struktur wie derjenige der ersten Ausführungsform, mit der Ausnahme, daß die Gewinnquantisiererschaltung 365 durch eine Gewinnquantisiererschaltung 2365 ersetzt wird. Im folgenden wird ausschließlich die Gewinnquantisiererschaltung 2365 unter Bezugnahme auf 3 beschrieben.
  • Wie in 3 erkennbar, wird eine Berechnungsschaltung 2110 für kurzfristige Prädiktionsgewinne über einen Eingangsanschluß 2040 mit den Spektralparametern gespeist und berechnet als zweite Merkmalsgrößen kurzfristige Prädiktionsgewinne G, die an eine Berechnungsschaltung 2140 für kurzfristige Prädiktionsgewinnverhältnisse und an eine Laufzeit- bzw. Verzögerungseinheit 2150 übergeben werden. Die kurzfristigen Prädiktionsgewinne G sind durch die obige Gleichung (7) gegeben, die in Bezug auf die erste Ausführungsform beschrieben wurde.
  • Die Berechnungsschaltung 2140 für kurzfristige Prädiktionsgewinnverhältnisse, die von der Berechnungsschaltung 2110 für kurzfristige Prädiktionsgewinne mit dem kurzfristigen Prädiktionsgewinn eines aktuellen Rahmens und von der Verzögerungseinheit 2150 mit dem kurzfristigen Prädiktionsgewinn eines vorhergehenden Rahmens (eine Rahmendauer vor dem aktuellen Rahmen) gespeist wird, berechnet ein kurzfristiges Prädiktionsgewinnverhältnis als Zeitverhältnis und übergibt das kurzfristige Prädiktionsgewinnverhältnis an einen Gewinncodebuchschaltkreis 2120. Der Gewinncodebuchschaltkreis 2120, der von der Berechnungsschaltung 2140 für kurzfristige Prädiktionsgewinnverhältnisse mit dem kurzfristigen Prädiktionsgewinnverhältnis und über einen Eingangsanschluß 2050 mit der Modeninformation gespeist wird, vergleicht das kurzfristige Prädiktionsgewinnverhältnis mit einem vorgegebenen Schwellwert, wenn die Modeninformation einen vorgegebenen Modus anzeigt. Als Vergleichsergebnis erzeugt der Gewinncodebuchschaltkreis 2120 eine Gewinncodebuchschaltinformation, die an eine Gewinnquantisiererschaltung 2130 übergeben wird. Die Gewinnquantisiererschaltung 2130 wird über einen Eingangsanschluß 2010 mit den adaptiven Codevektoren, über einen Eingangsanschluß 2020 mit den Erregungscodevektoren und über einen Eingangsanschluß 2030 mit der Impulsantwortinformation gespeist. Die Gewinnquanti siererschaltung 2130 wird außerdem vom Gewinncodebuchschaltkreis 2120 mit der Gewinncodebuchschaltinformation und von dem Gewinncodebuch 371 oder 372 (1), das mit einem der Eingangsanschlüsse 2060 und 2070 verbunden ist, der durch die Gewinncodebuchschaltinformation ausgewählt wird, mit den Gewinncodevektoren gespeist. Für die ausgewählten Erregungscodevektoren wählt die Gewinnquantisiererschaltung 2130 Kombinationen der Erregungscodevektoren und der Gewinncodevektoren in dem durch die Gewinncodebuchschaltinformation ausgewählten Gewinncodebuch aus, um die (j,k)-ten Differenzen zu minimieren, die durch die obige, in Bezug auf die erste Ausführungsform beschriebene Gleichung (8) definiert sind. In dieser Ausführungsform übergibt die Gewinnquantisiererschaltung 2130 die Indizes, welche die ausgewählten Kombinationen der Erregungscodevektoren und der Gewinncodevektoren anzeigen, an einen Ausgangsanschluß 2080.
  • Nachstehend wird ein Sprachcodierer nach einer dritten Ausführungsform der vorliegenden Erfindung beschrieben.
  • Der Sprachcodierer gemäß dieser Ausführungsform ist von ähnlicher Struktur wie derjenige der ersten Ausführungsform, mit der Ausnahme, daß die Gewinnquantisiererschaltung 365 durch eine Gewinnquantisiererschaltung 3365 ersetzt wird. Im folgenden wird ausschließlich die Gewinnquantisiererschaltung 3365 unter Bezugnahme auf 4 beschrieben.
  • Wie in 4 erkennbar, wird eine Berechnungsschaltung 3110 für kurzfristige Prädiktionsgewinne über einen Eingangsanschluß 3040 mit den Spektralparametern gespeist und berechnet als zweite Merkmalsgrößen kurzfristige Prädiktionsgewinne G, die an eine Berechnungsschaltung 3140 für kurzfristige Prädiktionsgewinnverhältnisse und an eine Verzögerungseinheit 3150 übergeben werden. Die kurzfristigen Prädiktionsgewinne G sind durch die obige Gleichung (7) gegeben, die in Bezug auf die erste Ausführungsform beschrieben wurde.
  • Die Berechnungsschaltung 3140 für kurzfristige Prädiktionsgewinnverhältnisse, die von der Berechnungsschaltung 3110 für kurzfristige Prädiktionsgewinne mit dem kurzfristigen Prädiktionsgewinn eines aktuellen Rahmens und von der Verzögerungseinheit 3160 mit dem kurzfristigen Prädiktionsgewinn ei nes vorhergehenden Rahmens (zwei Rahmendauern vor dem aktuellen Rahmen) gespeist wird, berechnet ein kurzfristiges Prädiktionsgewinnverhältnis und übergibt das kurzfristige Prädiktionsgewinnverhältnis an einen Gewinncodebuchschaltkreis 3120. Der Gewinncodebuchschaltkreis 3120, der von der Berechnungsschaltung 3140 für kurzfristige Prädiktionsgewinnverhältnisse mit dem kurzfristigen Prädiktionsgewinnverhältnis und über einen Eingangsanschluß 3050 mit der Modeninformation gespeist wird, vergleicht das kurzfristige Prädiktionsgewinnverhältnis mit einem vorgegebenen Schwellwert, wenn die Modeninformation einen vorgegebenen Modus anzeigt. Als Vergleichsergebnis erzeugt der Gewinncodebuchschaltkreis 3120 eine Gewinncodebuchschaltinformation, die an eine Gewinnquantisiererschaltung 3130 übergeben wird. Die Gewinnquantisiererschaltung 3130 wird über einen Eingangsanschluß 3010 mit den adaptiven Codevektoren, über einen Eingangsanschluß 3020 mit den Erregungscodevektoren und über einen Eingangsanschluß 2030 mit der Impulsantwortinformation gespeist. Die Gewinnquantisiererschaltung 3130 wird außerdem vom Gewinncodebuchschaltkreis 3120 mit der Gewinncodebuchschaltinformation und von dem Gewinncodebuch 371 oder 372 (1), das mit einem der Eingangsanschlüsse 3060 und 3070 verbunden ist, der durch die Gewinncodebuchschaltinformation ausgewählt wird, mit den Gewinncodevektoren gespeist. Für die ausgewählten Erregungscodevektoren wählt die Gewinnquantisiererschaltung 3130 Kombinationen der Erregungscodevektoren und der Gewinncodevektoren in dem durch die Gewinncodebuchschaltinformation ausgewählten Gewinncodebuch aus, um die (j,k)-ten Differenzen zu minimieren, die durch die obige, in Bezug auf die erste Ausführungsform beschriebene Gleichung (8) definiert sind. In dieser Ausführungsform übergibt die Gewinnquantisiererschaltung 3130 die Indizes, welche die ausgewählten Kombinationen der Erregungscodevektoren und der Gewinncodevektoren anzeigen, an einen Ausgangsanschluß 3080.
  • Als nächstes wird ein Sprachcodierer nach einer vierten Ausführungsform der vorliegenden Erfindung beschrieben.
  • Der Sprachcodierer gemäß dieser Ausführungsform ist von ähnlicher Struktur wie derjenige der ersten Ausführungsform, mit der Ausnahme, daß die Gewinnquantisiererschaltung 365 durch eine Gewinnquantisiererschaltung 4365 ersetzt wird. Im folgenden wird ausschließlich die Gewinnquantisiererschaltung 4365 unter Bezugnahme auf 5 beschrieben.
  • Wie in 5 erkennbar, wird eine Berechnungsschaltung 4110 für kurzfristige Prädiktionsgewinne über einen Eingangsanschluß 4040 mit den Spektralparametern gespeist und berechnet als zweite Merkmalsgrößen kurzfristige Prädiktionsgewinne G, die an Verzögerungseinheiten 4170 und 4150 übergeben werden. Die kurzfristigen Prädiktionsgewinne G sind durch die obige Gleichung (7) gegeben, die in Bezug auf die erste Ausführungsform beschrieben wurde.
  • Die Berechnungsschaltung 4140 für kurzfristige Prädiktionsgewinnverhältnisse, die von der Verzögerungseinheit 4170 mit dem kurzfristigen Prädiktionsgewinn eines vorhergehenden Rahmens (eine Rahmendauer vor dem aktuellen Rahmen) und von der Verzögerungseinheit 4160 mit dem kurzfristigen Prädiktionsgewinn eines weiteren vorhergehenden Rahmens (zwei Rahmendauern vor dem aktuellen Rahmen) gespeist wird, berechnet ein kurzfristiges Prädiktionsgewinnverhältnis und übergibt das kurzfristige Prädiktionsgewinnverhältnis an einen Gewinncodebuchschaltkreis 4120. Der Gewinncodebuchschaltkreis 4120, der von der Berechnungsschaltung 4140 für kurzfristige Prädiktionsgewinnverhältnisse mit dem kurzfristigen Prädiktionsgewinnverhältnis und über einen Eingangsanschluß 4050 mit der Modeninformation gespeist wird, vergleicht das kurzfristige Prädiktionsgewinnverhältnis mit einem vorgegebenen Schwellwert, wenn die Modeninformation einen vorgegebenen Modus anzeigt. Als Vergleichsergebnis erzeugt der Gewinncodebuchschaltkreis 4120 eine Gewinncodebuchschaltinformation, die an eine Gewinnquantisiererschaltung 4130 übergeben wird. Die Gewinnquantisiererschaltung 4130 wird über einen Eingangsanschluß 4010 mit den adaptiven Codevektoren, über einen Eingangsanschluß 4020 mit den Erregungscodevektoren und über einen Eingangsanschluß 4030 mit der Impulsantwortinformation gespeist. Die Gewinnquantisiererschaltung 4130 wird außerdem vom Gewinncodebuchschaltkreis 4120 mit der Gewinncodebuchschaltinformation und von dem Gewinncodebuch 371 oder 372 (1), das mit einem der Ein gangsanschlüsse 4060 und 4070 verbunden ist, der durch die Gewinncodebuchschaltinformation ausgewählt wird, mit den Gewinncodevektoren gespeist. Für die ausgewählten Erregungscodevektoren wählt die Gewinnquantisiererschaltung 4130 Kombinationen der Erregungscodevektoren und der Gewinncodevektoren in dem durch die Gewinncodebuchschaltinformation ausgewählten Gewinncodebuch aus, um die (j,k)-ten Differenzen zu minimieren, die durch die obige, in Bezug auf die erste Ausführungsform beschriebene Gleichung (8) definiert sind. In dieser Ausführungsform übergibt die Gewinnquantisiererschaltung 4130 die Indizes, welche die ausgewählten Kombinationen der Erregungscodevektoren und der Gewinncodevektoren anzeigen, an einen Ausgangsanschluß 4080.
  • Nachstehend wird ein Sprachcodierer nach einer fünften Ausführungsform der vorliegenden Erfindung beschrieben.
  • Der Sprachcodierer gemäß dieser Ausführungsform ist von ähnlicher Struktur wie derjenige der ersten Ausführungsform, mit der Ausnahme, daß die Gewinnquantisiererschaltung 365 durch eine Gewinnquantisiererschaltung 9365 ersetzt wird und daß die Gewinncodebücher 371 und 372 durch Gewinncodebücher 9371, 9372 und 9373 ersetzt werden. Im folgenden wird der Sprachcodierer nach der fünften Ausführungsform unter Bezugnahme auf die 6 und 7 beschrieben.
  • Die Gewinnquantisiererschaltung 9365, die von der Modenentscheidungsschaltung 250 mit der Modenentscheidungsinformation und von der Spektralparameterberechnungsschaltung 200 mit den Spektralparametern gespeist wird, wählt unter Verwendung der zweiten Merkmalsgrößen eines der Gewinncodebücher 9371, 9372 und 9373 aus, wenn die Modenentscheidungsinformation einen vorgegebenen Modus anzeigt. Die Gewinnquantisiererschaltung 9365 liest die Gewinncodevektoren aus einem ausgewählten der Gewinncodebücher 9371 bis 9373 aus und führt die Indizes, welche die Erregungs- und die Gewinncodevektoren anzeigen, dem Multiplexer 400 zu.
  • Wie in 7 erkennbar, wird eine Berechnungsschaltung 5110 für kurzfristige Prädiktionsgewinne über einen Eingangsanschluß 5040 mit den Spektralparametern gespeist und berechnet als zweite Merkmalsgrößen kurzfristige Prädiktionsgewinne G, die an Verzögerungseinheiten 5170 und 5150 übergeben werden. Die kurzfristigen Prädiktionsgewinne G sind durch die obige Gleichung (7) gegeben, die in Bezug auf die erste Ausführungsform beschrieben wurde.
  • Die Berechnungsschaltung 5140 für kurzfristige Prädiktionsgewinnverhältnisse, die von der Verzögerungseinheit 5170 mit dem kurzfristigen Prädiktionsgewinn eines vorhergehenden Rahmens (eine Rahmendauer vor dem aktuellen Rahmen) und von der Verzögerungseinheit 5160 mit dem kurzfristigen Prädiktionsgewinn eines weiteren vorhergehenden Rahmens (zwei Rahmendauern vor dem aktuellen Rahmen) gespeist wird, berechnet ein kurzfristiges Prädiktionsgewinnverhältnis und übergibt das kurzfristige Prädiktionsgewinnverhältnis an einen Gewinncodebuchschaltkreis 5120. Der Gewinncodebuchschaltkreis 5120, der von der Berechnungsschaltung 5140 für kurzfristige Prädiktionsgewinnverhältnisse mit dem kurzfristigen Prädiktionsgewinnverhältnis und über einen Eingangsanschluß 5050 mit der Modeninformation gespeist wird, vergleicht das kurzfristige Prädiktionsgewinnverhältnis mit einem vorgegebenen Schwellwert, wenn die Modeninformation einen vorgegebenen Modus anzeigt. Als Vergleichsergebnis erzeugt der Gewinncodebuchschaltkreis 5120 eine Gewinncodebuchschaltinformation, die an eine Gewinnquantisiererschaltung 5130 übergeben wird. Die Gewinnquantisiererschaltung 5130 wird über einen Eingangsanschluß 5010 mit den adaptiven Codevektoren, über einen Eingangsanschluß 5020 mit den Erregungscodevektoren und über einen Eingangsanschluß 5030 mit der Impulsantwortinformation gespeist. Die Gewinnquantisiererschaltung 5130 wird außerdem vom Gewinncodebuchschaltkreis 5120 mit der Gewinncodebuchschaltinformation und von dem Gewinncodebuch 9371, 9372 oder 9373, das mit einem der Eingangsanschlüsse 5060, 5070 und 5090 verbunden ist, der durch die Gewinncodebuchschaltinformation ausgewählt wird, mit den Gewinncodevektoren gespeist. Für die ausgewählten Erregungscodevektoren wählt die Gewinnquantisiererschaltung 5130 Kombinationen der Erregungscodevektoren und der Gewinncodevektoren in dem durch die Gewinncodebuchschaltinformation ausgewählten Gewinncodebuch aus, um die (j,k)-ten Differenzen zu minimieren, die durch die obige, in Bezug auf die erste Ausführungsform beschriebene Gleichung (8) definiert sind. In dieser Ausführungsform übergibt die Gewinnquantisiererschaltung 5130 die Indizes, welche die ausgewählten Kombinationen der Erregungscodevektoren und der Gewinncodevektoren anzeigen, an einen Ausgangsanschluß 5080.
  • Wie oben beschrieben, werden in einem vorgegebenen Modus mehrere Codebücher geschaltet. Daher weist der erfindungsgemäße Sprachcodierer eine Funktion auf, die der Einbeziehung eines mehrfach größeren Codebuchs als dem des herkömmlichen Sprachcodierers äquivalent ist, ohne die Anzahl der übertragenen Bits zu vergrößern. Dies ermöglicht eine Verbesserung der Sprachqualität.

Claims (3)

  1. Sprachcodierer, der aufweist: eine Rahmenunterteilungseinrichtung (110, 120) zum Unterteilen eines Eingangssprachsignals in Sprachrahmen von einer vorgegebenen Rahmendauer, eine Modenentscheidungseinrichtung (250), die als Reaktion auf das Eingangssprachsignal rahmenweise erste Merkmalsgrößen zur Erzeugung von Modenentscheidungsergebnissen berechnet, eine Codiereinrichtung (500, 350) zum Codieren des Eingangssprachsignals als Reaktion auf die Modenentscheidungsergebnisse und mehrere Gewinncodebücher (371, 372), dadurch gekennzeichnet, daß der Sprachcodierer ferner aufweist: eine Codebuchschalteinrichtung (365, 1110, 1120, 1130), die als Reaktion auf aus dem Eingangssprachsignal berechnete zweite Merkmalsgrößen eines der Gewinncodebücher steuerbar in Abhängigkeit von den Modenentscheidungsergebnissen schaltet; und daß die ersten Merkmalsgrößen einen Tonhöhenprädiktionsgewinn und die durch die Modenentscheidungseinrichtung für den aktuellen Rahmen festgesetzten Moden einschließen, während die zweiten Merkmalsgrößen kurzfristige Prädiktionsgewinne sind, die aus Spektralparametern des Eingangssprachsignals für die aktuellen und vorhergehenden Rahmen berechnet werden.
  2. Sprachcodierer nach Anspruch 1, dadurch gekennzeichnet, daß die zweiten Merkmalsgrößen ein zeitliches Änderungsverhältnis mindestens einer Art von Merkmalsgrößen einschließen.
  3. Sprachcodierer nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die zweiten Merkmalsgrößen ein Verhältnis der zwei Merkmalsgrößen von irgend zwei Rahmen einschließen, die unter einem aktuellen und mindestens einem vorhergehenden Rahmen ausgewählt sind.
DE69630177T 1995-07-27 1996-07-26 Sprachkodierer mit der Fähigkeit zur wesentlichen Vergrösserung der Codebuchgrösse ohne aber die Zahl der übertragenen Bits zu vergrössern Expired - Fee Related DE69630177T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP19217695A JP3616432B2 (ja) 1995-07-27 1995-07-27 音声符号化装置
JP19217695 1995-07-27

Publications (2)

Publication Number Publication Date
DE69630177D1 DE69630177D1 (de) 2003-11-06
DE69630177T2 true DE69630177T2 (de) 2004-05-19

Family

ID=16286951

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69630177T Expired - Fee Related DE69630177T2 (de) 1995-07-27 1996-07-26 Sprachkodierer mit der Fähigkeit zur wesentlichen Vergrösserung der Codebuchgrösse ohne aber die Zahl der übertragenen Bits zu vergrössern

Country Status (5)

Country Link
US (1) US6006178A (de)
EP (1) EP0756268B1 (de)
JP (1) JP3616432B2 (de)
CA (1) CA2182159C (de)
DE (1) DE69630177T2 (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3319396B2 (ja) 1998-07-13 2002-08-26 日本電気株式会社 音声符号化装置ならびに音声符号化復号化装置
JP4464488B2 (ja) * 1999-06-30 2010-05-19 パナソニック株式会社 音声復号化装置及び符号誤り補償方法、音声復号化方法
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US7127390B1 (en) * 2000-02-08 2006-10-24 Mindspeed Technologies, Inc. Rate determination coding
WO2002045078A1 (en) * 2000-11-30 2002-06-06 Matsushita Electric Industrial Co., Ltd. Audio decoder and audio decoding method
AU2003217859A1 (en) * 2002-05-13 2003-12-02 Conexant Systems, Inc. Transcoding of speech in a packet network environment
EP2224432B1 (de) * 2007-12-21 2017-03-15 Panasonic Intellectual Property Corporation of America Encoder, decoder und kodierungsverfahren
JP5269195B2 (ja) * 2009-05-29 2013-08-21 日本電信電話株式会社 符号化装置、復号装置、符号化方法、復号方法及びそのプログラム
CN104301064B (zh) 2013-07-16 2018-05-04 华为技术有限公司 处理丢失帧的方法和解码器
CN107452391B (zh) 2014-04-29 2020-08-25 华为技术有限公司 音频编码方法及相关装置
CN106683681B (zh) * 2014-06-25 2020-09-25 华为技术有限公司 处理丢失帧的方法和装置
US11176957B2 (en) * 2017-08-17 2021-11-16 Cerence Operating Company Low complexity detection of voiced speech and pitch estimation

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
GB2235354A (en) * 1989-08-16 1991-02-27 Philips Electronic Associated Speech coding/encoding using celp
JP3114197B2 (ja) 1990-11-02 2000-12-04 日本電気株式会社 音声パラメータ符号化方法
JP3151874B2 (ja) 1991-02-26 2001-04-03 日本電気株式会社 音声パラメータ符号化方式および装置
FI98104C (fi) * 1991-05-20 1997-04-10 Nokia Mobile Phones Ltd Menetelmä herätevektorin generoimiseksi ja digitaalinen puhekooderi
JP3143956B2 (ja) 1991-06-27 2001-03-07 日本電気株式会社 音声パラメータ符号化方式
US5657418A (en) * 1991-09-05 1997-08-12 Motorola, Inc. Provision of speech coder gain information using multiple coding modes
DE9218980U1 (de) * 1991-09-05 1996-08-22 Motorola Inc., Schaumburg, Ill. Fehlerschutz für Mehrmoden-Sprachcoder
JP3089769B2 (ja) * 1991-12-03 2000-09-18 日本電気株式会社 音声符号化装置
JPH0612098A (ja) * 1992-03-16 1994-01-21 Sanyo Electric Co Ltd 音声符号化装置
JP3028886B2 (ja) * 1992-10-30 2000-04-04 松下電器産業株式会社 音声符号化装置
JPH06274199A (ja) * 1993-03-22 1994-09-30 Olympus Optical Co Ltd 音声符号化装置
US5526464A (en) * 1993-04-29 1996-06-11 Northern Telecom Limited Reducing search complexity for code-excited linear prediction (CELP) coding
US5659659A (en) * 1993-07-26 1997-08-19 Alaris, Inc. Speech compressor using trellis encoding and linear prediction
CA2137756C (en) * 1993-12-10 2000-02-01 Kazunori Ozawa Voice coder and a method for searching codebooks
US5621852A (en) * 1993-12-14 1997-04-15 Interdigital Technology Corporation Efficient codebook structure for code excited linear prediction coding
JP2979943B2 (ja) * 1993-12-14 1999-11-22 日本電気株式会社 音声符号化装置
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding

Also Published As

Publication number Publication date
DE69630177D1 (de) 2003-11-06
US6006178A (en) 1999-12-21
CA2182159A1 (en) 1997-01-28
EP0756268B1 (de) 2003-10-01
EP0756268A3 (de) 1998-05-27
JP3616432B2 (ja) 2005-02-02
EP0756268A2 (de) 1997-01-29
JPH0944195A (ja) 1997-02-14
CA2182159C (en) 2002-06-18

Similar Documents

Publication Publication Date Title
DE69837822T2 (de) Verfahren und Vorrichtung zur Dekodierung von Sprachsignalen
DE69023402T2 (de) Verfahren zur Sprachkodierung und -dekodierung.
DE19647298C2 (de) Kodiersystem
DE69836624T2 (de) Audiokodierer und -dekodierer
DE69634055T2 (de) Verfahren zur Kodierung von akustischen Signalen
DE2945414C2 (de) Sprachsignal-Voraussageprozessor und Verfahren zur Verarbeitung eines Sprachleistungssignals
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE69932460T2 (de) Sprachkodierer/dekodierer
DE69309557T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE69636209T2 (de) Vorrichtung zur Sprachkodierung
DE69729527T2 (de) Verfahren und Vorrichtung zur Kodierung von Sprachsignalen
DE60201766T2 (de) Verbesserung der Periodizität der CELP-Anregung für die Sprachkodierung und -dekodierung
DE69630177T2 (de) Sprachkodierer mit der Fähigkeit zur wesentlichen Vergrösserung der Codebuchgrösse ohne aber die Zahl der übertragenen Bits zu vergrössern
DE60309651T2 (de) Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens
DE69727256T2 (de) Sprachkodierer hoher Qualität mit niedriger Bitrate
DE4491015C2 (de) Verfahren zum Erzeugen eines Spektralrauschbewertungsfilters zur Verwendung in einem Sprachcoder
DE68917584T2 (de) Zur Sprachqualitätsverbesserung geeignetes Kodiergerät unter Anwendung einer Doppelanlage zur Pulserzeugung.
DE69921066T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60101827T2 (de) Relative Pulsposition für einen CELP-Sprachkodierer
DE68913691T2 (de) System zur Sprachcodierung und -decodierung.
DE69827313T2 (de) Verfahren zur Kodierung des Zufallskomponenten-Vektors in einem ACELP-Kodierer
DE68923771T2 (de) Sprachübertragungssystem unter Anwendung von Mehrimpulsanregung.
DE69629485T2 (de) Kompressionsystem für sich wiederholende töne

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee