DE69913976T2 - Sprachparameter-kompression - Google Patents

Sprachparameter-kompression Download PDF

Info

Publication number
DE69913976T2
DE69913976T2 DE69913976T DE69913976T DE69913976T2 DE 69913976 T2 DE69913976 T2 DE 69913976T2 DE 69913976 T DE69913976 T DE 69913976T DE 69913976 T DE69913976 T DE 69913976T DE 69913976 T2 DE69913976 T2 DE 69913976T2
Authority
DE
Germany
Prior art keywords
pulse code
differential pulse
cepstral
coefficients
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69913976T
Other languages
English (en)
Other versions
DE69913976D1 (de
Inventor
Petri Haavisto
Imre Kiss
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of DE69913976D1 publication Critical patent/DE69913976D1/de
Application granted granted Critical
Publication of DE69913976T2 publication Critical patent/DE69913976T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf die Spracherkennung und insbesondere auf die Komprimierung von merkmalsextrahierten Parametern der Sprachsignale für die Funkübertragung zwischen einer Mobilstation und einem Funknetz.
  • Die Hauptaufgabe der Spracherkennung ist, einen schnellen und leichten Zugriff auf eine breite Vielzahl von Computer-Diensten und Kommunikationssystemen unter Verwendung der menschlichen Sprache zu schaffen. Die Anwendungen der Spracherkennung reichen von der einfachen Sprachsteuerung unter Verwendung einer eingeschränkten Anzahl elementarer Befehlswörter, wie "ja" oder "nein" oder der Zahlen von null bis neun, bis zu sehr viel flexibleren Systemen, die spontane Sprache in geschriebenen Text umsetzen können, d. h. Diktiersysteme. In diktierähnlichen Anwendungen ist das Vokabular typischerweise sehr umfangreich, es enthält Zehntausende von Wörtern, wobei folglich in derartigen Systemen – die als Systeme für die Erkennung kontinuierlicher Sprache mit großem Vokabular (LVCSR-Systeme) bekannt sind – die Komplexität der Berechnungen und die Speicheranforderungen sehr hoch sind.
  • Ein allgemeines Spracherkennungssystem kann grob in zwei Teile unterteilt werden. Zuerst werden die wichtigsten Eigenschaften des Sprachsignals in einer Vorverarbeitungsstufe, die als Merkmalsextraktion bezeichnet wird, erfasst, wobei dieser Teil des Spracherkennungssystems als der Vorrechner (FE) bezeichnet wird. Die merkmalsextrahierten Parameter, die als Merkmalsvektoren bekannt sind, werden dann in die tatsächliche Erkennungseinrichtung oder den Nachrechner (BE) eingespeist, der die Erkennung ausführt und das Ergebnis ausgibt. Je komplexer die Erkennungsaufgabe ist, desto wichtiger ist es, Merkmalsvektoren in guter Qualität zu besitzen. Das Umgebungsrauschen und die Verzerrung sind typische Faktoren, die die Qualität der Merkmalsvektoren verschlechtern und wiederum die Leistung des Spracherkennungssystems als Ganzes beeinflussen. Obwohl der FE eine gewisse Robustheit gegenüber diesen Faktoren bereitstellen kann, ist die Qualität der in den FE eingespeisten Sprache kritisch.
  • Die Anwendung der Technologie der Spracherkennung nimmt in der Mobilkommunikation zu. Zellulartelephone, die eine Verbindung einleiten können, indem sie einfach die Telephonnummer oder den Namen der Person hören, mit der der Anwender sprechen möchte, sind bereits verfügbar. Komplexere Aufgaben, wie z. B. das Diktieren, sind jedoch in einer mobilen Umgebung immer noch sehr schwierig zu implementieren. Weil es entscheidend ist, eine Sprache in guter Qualität bereitzustellen, würde es als angemessen erscheinen, zu versuchen, die Erkennungseinrichtung so nah beim Anwender wie möglich anzuordnen, d. h., direkt im Telephonhandapparat. Die Rechenbelastung und die Speicheranforderungen der LVCSR machen dies jedoch zu einem nicht durchführbaren Zugang. Eine weitere Art ist, die Erkennungseinrichtung im Zellularnetz anzuordnen, wo es möglich ist, die Hochleistungs-Computer auszunutzen, die durch viele Anwender zugleich gemeinsam benutzt werden können. Experimente haben gezeigt, dass, wenn die Sprache komprimiert wird und dann in einem Kanal übertragen wird, der für Übertragungsfehler anfällig ist – wie z. B. diejenigen, die in einer mobilen Umgebung immer vorhanden sind – die Qualität der extrahierten Merkmale für die LVCSP nicht angemessen ist.
  • Um dieses Problem anzusprechen, ist vorgeschlagen worden, den BE an einem zentralen Platz im Zellularnetz anzuordnen, während der FE-Teil, der verhältnismäßig niedrige Rechenanforderungen besitzt, sich im Telephonhandapparat befinden kann. Dieser Typ der Anordnung des Spracherkennungssystems über das Netz wird als verteilte Spracherkennung (DSR) bezeichnet. Bei der DSR wird vorgeschlagen, dass das Sprachsignal lokal im Handapparat in Merkmalsvektoren transformiert wird, wobei diese als digitale Daten relativ fehlerfrei über den Übertragungskanal übertragen werden können. Wenn die Merkmalsvektoren im Handapparat extrahiert werden, kann der BE auf den Datenstrom oder eine Folge der Merkmalsvektoren wirken, die eine Sprache in hoher Qualität darstellen, wobei deshalb eine gute Erkennungsleistung erreichbar ist.
  • Trotzdem gibt es ein Problem, weil, selbst wenn die Merkmalsvektoren eine sehr viel kompaktere Darstellung der Sprache als die Sprachsignalform selbst ergeben, sie für die effiziente Übertragung über den Datenkanal der meisten Zellularnetze immer noch nicht ausreichend komprimiert sind. Eine ungefähre Schätzung der notwendigen Menge der Komprimierung der Merkmalsvektoren ist wie folgt. Häufig verwendete Merkmale für die Spracherkennung sind die so genannten Mel-Frequenz-Cepstralkoeffizienten oder MFCCs. Ein typisches Spracherkennungssystem verwendet zwölf MFCC-Koeffizienten plus ein zusätzliches Energiemaß, wie z. B. den 0. Cepstral-Koeffizienten (c0) oder die loga rithmische Signalenergie (logE). Diese werden als statische Merkmale bezeichnet. Ein typischer Merkmalsvektor enthält diese 13 statische Merkmale und die ersten und zweiten Zeitableitungen von jedem, was zu einer Gesamtgröße von 39 führt. Weil die Zeitableitungen aus den statischen Parametern berechnet werden können, müssen Sie nicht übertragen werden. Wird eine 4-Byte-Gleitkomma-Arithmetik und ein Merkmalsvektor alle 10 ms angenommen, ergibt sich die für das Übertragen der extrahierten Merkmale notwendige Bandbreite als 13*4*8*100 = 41600 bit/s. Ein typisches Zellularnetz, wie z. B. das GSM, besitzt Datenkanäle mit 9600 bit/s bei der vollen Rate oder 4800 bit/s bei der halben Rate. Folglich sind Kompressionsverhältnisse in der Größenordnung von 1 : 5 und 1 : 9 für Datenkanäle mit der vollen Rate bzw. der halben Rate notwendig. Die Komprimierung sollte keinen signifikanten oder bevorzugter keinen messbaren Verlust in der Erkennungsleistung verursachen.
  • Ein Zugang des Standes der Technik für das Komprimieren der Merkmalsvektoren ist in einem Artikel von V. Digalakis, L. Neumeyer und M. Perakakis mit dem Titel "Quantization of Cepstral Parameters For Speech Recognition Over the World Wide Web", entnommen aus ICASSP'98, S. 989–992, Seattle, WA, Mai 1998, ausführlich beschrieben und in 1 dargestellt. Die Komponenten eines Eingangsmerkmalsvektors werden unabhängig voneinander skalar quantisiert. Für die Quantisierung können gleichförmige oder ungleichförmige Quantisierer verwendet werden. Die Ausgaben der Quantisierer (die Indizes der Quantisierertabelle) stellen die zu übertragenden komprimierten Informationen dar. Diese Lösung besitzt zwei Hauptnachteile. Selbst wenn der FE-Algorithmus unverändert gelassen wird, werden die Merkmalsvektoren durch Variationen in der Umgebung beeinflusst, wie z. B. Änderungen in der akustischen Umgebung, dem Mikrophontyp, dem Rauschabstand oder sogar durch den Pegel des Sprachsignals (der c0/logE-Komponente), das Quantisieren dieser in der dargestellten Weise macht das System durch jede Art von Änderung in diesen Faktoren angreifbar. Zweitens berücksichtigt das Verfahren die signifikante Menge der Korrelation zwischen den Merkmalsvektoren nicht, die in der Zeit nah angeordnet sind. Falls diese Eigenschaft ausgenutzt werden würde, würde sie die komprimierte Bitrate beträchtlich verringern.
  • Eine komplexere Art der Komprimierung ist in einem Artikel von G. N. Ramaswamy und P. S. Gopalakrishnan mit dem Titel "Compression of Acoustic Features For Speech Recognition In Network Environments", Proceedings ICASSP'98, S. 977–980, Seattle, WA, Mai 1998, dargestellt, wie in 2 gezeigt ist. In diesem Fall werden einfache Techniken, wie z. B. die lineare Vorhersage und die mehrstufige vektorielle Quantisierung, angewendet. Zuerst wird der Eingangsmerkmalsvektor mit einer aus dem vorhergehenden codierten Vektor vorhergesagten Schätzung verglichen. Der Vorhersagerest wird dann unter Verwendung des primären VQ quantisiert, der auf den Restvektor mit voller Größe wirkt. Der Rest der primären VQ wird durch den sekundären VQ wie folgt weiterverarbeitet. Der Restvektor wird zuerst in 3 Untervektoren mit der Größe 6, 6 und 1 zerlegt. Das heißt, die Cepstral-Koeffizienten c1, ..., c6, c7, ..., c12 und das Energiemaß c0/logE werden separat behandelt. Die ersten zwei Untervektoren werden dann unter Verwendung separater VQs vektoriell quantisiert, während das Energiemaß skalar quantisiert wird. Die Indizes vom primären VQ, von den sekundären VQs und vom skalaren Quantisierer stellen die zu übertragenden komprimierten Informationen dar. Die Hauptschwierigkeit bei diesem zweiten Zugang ist, dass, zurückzuführen auf die vektorielle Quantisierung der Vektoren in hohen Dimensionen die Speicheranforderung umfassend ist. Um durch das Komprimieren der Merkmalsvektoren mit der Größe 13 eine Bitrate von 4,0 kbit/s zu erreichen, beträgt unter der Voraussetzung einer 4-Byte-Gleitkomma-Arithmetik die erforderliche Speichermenge etwa 400 kbyte. Selbst wenn in einer tatsächlichen Implementierung die Hälfte dieses Speichers unter Verwendung einer 2-Byte-Ganzzahlgenauigkeit gespart werden kann, würde das Verfahren immer noch für eine mobile Handapparat-Anwendung unausführbar sein.
  • Der Stand der Technik umfasst ferner:
    • D1: Tokuda u. a.: "Speech Coding Based on Adaptive Mel-Cepstral Analysis and its Evaluation", Electronics in Japan, Teil III: Fundamental Electronic Science, Bd. 78 (1995), New York, S. 50–60, offenbart ein Verfahren für die Sprachcodierung, bei dem die Mel-Cepstral-Parameter in einer adaptiven Differenzpulsecodemodulation verwendet werden.
    • D2: Bojkovic: "Upper Bound on Redundancy Reduction for Real Speech DPCM System", Proceedings of the European Signal Processing Conference, Amsterdam (1992), S. 463–465, offenbart ein Verfahren zum Optimieren der DPCM für die Sprache unter Verwendung der statistischen Parameter der Sprache.
    • D3: WO 9517746 offenbart ein Verfahren, in dem die Koeffizienten der linearen Vorhersagecodierung (LPC) in Linienspektrumpaare (LSPs) transformiert werden, die stabiler als die LPCs übertragen werden können. Für die Codierung vor Übertragung verwendet D3 die Differenzpulsecodemodulation. Nach der Übertragung, d. h. im Nachrechner, werden die LSPs zurück in die LPCs transformiert, die wiederum verwendet werden, um die für die Spracherkennung nützlichen Cepstral-Koeffizienten zu erhalten.
  • Die vorliegende Erfindung zielt darauf, die oben erwähnten Probleme anzusprechen, wobei sie demzufolge in einem Aspekt ein Verfahren zum Komprimieren von Cepstral-Parametern einer Sprachsignalform zum Senden und/oder Speichern schafft, das umfasst: Transformationscodieren einer ersten Menge ausgewählter der Cepstral-Parameter, um mehrere Transformationskoeffizienten bereitzustellen, und Differenzpulscodemodulieren wenigstens eines der mehreren Transformationskoeffizienten.
  • Vorteilhaft umfasst das Verfahren das Pulscodemodulieren eines oder mehrerer der verbleibenden der mehreren Transformationskoeffizienten.
  • In einer bevorzugten Ausführungsform umfasst das Verfahren das Differenzpulscodemodulieren einer zweiten Menge ausgewählter merkmalsextrahierter Parameter.
  • Durch die Verwendung der Transformationscodierung werden die Korrelationen im Zeitbereich der merkmalsextrahierten Parameter sehr effizient ausgenutzt. Dies führt zu einer signifikanten Verringerung der Bitrate der Codierung, obwohl eine leichte Verzögerung erfahren wird, die auf den Codierungsprozess zurückzuführen ist, die in den meisten praktischen Anwendungen vernachlässigt werden kann. Ferner wird durch die Verwendung der Differenzpulsecodemodulations-Codierung einiger der transformierten Koeffizienten das Verfahren für Veränderungen in der Umgebung unempfindlich gemacht. Diese Robustheit gegenüber der Umgebung bedeutet, dass die Codierungsleistung durch die Umweltfaktoren nicht beeinflusst wird. Die endgültige Leistung des Nachrechners kann sich jedoch unter ungünstigen Bedingungen verringern, aber der Komprimierungsalgorithmus liefert keinen Beitrag dazu. Es sollte angemerkt werden, dass die Daten, die differenzpulsecodemoduliert sind, die Transformationskoeffizienten oder ihre Ableitungen sein können, mit anderen Worten, für die Differenzpulsecodemodulation können aus den Transformationskoeffizienten abgeleitete Signale bereitgestellt werden. Ferner ist es denkbar, dass eine erste Menge ausgewählter der merkmalsextrahierten Parameter alle merkmalsextrahierten Parameter enthalten könnte.
  • In einer bevorzugten Ausführungsform umfasst das Verfahren das Bereitstellen von Aktualisierungen periodischer Pulscodemodulationen für die Differenzpulscodemodulations-Codierung.
  • Vorteilhaft umfasst das Verfahren das skalare Quantisieren der Transformationskoeffizienten.
  • Durch die Verwendung der skalaren Quantisierung der endgültigen Parameter kann eine signifikante Menge des Speichers gespart werden, dies führt zu einer Speicheranforderung von etwa 5–6 kbyte. Die endgültigen Parameter werden hergestellt, sodass sie für die skalare Quantisierung gut geeignet sind. Ferner kann sich der Algorithmus durch die Verwendung periodischer PCM-Aktualisierungen für die DPCM-Codierung resynchronisieren, selbst wenn irgendein Teil der komprimierten Daten verloren wird. Dies kann sich in einer mobilen Umgebung ereignen, falls im Übertragungskanal ein ernster Fehler auftritt.
  • Vorzugsweise umfasst die Differenzpulscodemodulation ein skalares und/oder ein vektorielles Quantisieren.
  • Vorteilhaft umfasst das Verfahren das Puffern der merkmalsextrahierten Parameter in einem Vorverarbeitungsschritt.
  • Zweckmäßig umfasst die Transformationscodierung die Codierung mittels der diskreten Kosinustransformation.
  • In einer bevorzugten Ausführungsform enthält das Differenzpulsecodemodulieren mit der Wahrscheinlichkeitsdichtefunktion (pdf) optimierte Quantisierer und lineare oder nichtlineare Prädiktoren. Optional werden die Quantisierer und die Prädiktoren getrennt oder gemeinsam optimiert.
  • In einem zweiten Aspekt besteht die Erfindung in einer Vorrichtung zum Komprimieren von Cepstral-Parametern einer Sprachsignalform zum Senden und/oder Speichern, die umfasst: einen Transformationscodierer für die Transformationscodierung einer ersten Menge ausgewählter der Cepstral-Parameter, um mehrere Transformationskoeffizienten bereitzustellen, und einen Differenzpulscodemodulator für eine Differenzpulscodemodulation wenigstens eines der mehreren Transformationskoeffizienten.
  • Vorteilhaft umfasst die Vorrichtung einen Pulscodemodulator für die Pulscodemodulation eines oder mehrerer der verbleibenden der mehreren Transformationskoeffizienten.
  • In einer bevorzugten Ausführungsform umfasst die Vorrichtung einen Differenzpulscodemodulator für die Differenzpulscodemodulation einer zweiten Menge ausgewählter merkmalsextrahierter Parameter.
  • In einem dritten Aspekt schafft die Erfindung eine tragbare Funkkommunikationsvorrichtung, die eine Vorrichtung zum Komprimieren von Cepstral-Parametern einer Sprachsignalform zum Senden und/oder Speichern umfasst, die umfasst: einen Transformationscodierer für die Transformationscodierung einer ersten Menge ausgewählter der Cepstral-Parameter, um mehrere Transformationskoeffizienten bereitzustellen, und einen Differenzpulscodemodulator für eine Differenzpulscodemodulation wenigstens eines der mehreren Transformationskoeffizienten.
  • In einem vierten Aspekt schafft die Erfindung ein Spracherkennungssystem für ein Funkkommunikationssystem, das eine in einem Funknetz arbeitende Mobilstation enthält, wobei das System umfasst: ein Vorrechner-Merkmalsextraktions-Mittel, das in der Mobilstation angeordnet ist, und ein Nachrechner-Erkennungsmittel, das dem Netz zugeordnet ist, und Kompressionsmittel, die Cepstral-Parameter einer Sprachsignalform codieren, wobei die Kompressionsmittel einen Transformationscodierer zum Transformationscodieren einer ersten Menge ausgewählter der Cepstral-Parameter, um mehrere Transformationskoeffizienten bereitzustellen, und einen Differenzpulscodemodulator für eine Differenzpulscodemodulation wenigstens eines der mehreren Transformationskoeffizienten umfassen.
  • In einem fünften Aspekt erstreckt sich die Erfindung auf ein Verfahren zum Dekomprimieren komprimierter Cepstral-Parameter einer Sprachsignalform, das umfasst: inverses Differenzpulscodemodulieren wenigstens eines von mehreren differenzpulscodemodulierten Transformationskoeffizienten, um Transformationskoeffizienten bereitzustellen, und inverses Transformationscodieren der Transformationskoeffizienten.
  • Vorteilhaft umfasst das Decodierungsverfahren inverses Pulscodemodulieren eines oder mehrerer der mehreren pulscodemodulierten Transformationskoeffizienten, um die verbleibenden Transformationskoeffizienten bereitzustellen.
  • In einer bevorzugten Ausführungsform umfasst das Decodierungsverfahren inverses Differenzpulscodemodulieren wenigstens eines von mehreren differenzpulscodemodulierten Signalen, um eine zweite Menge decodierter merkmalsextrahierter Parameter bereitzustellen.
  • In einem umfassenden Ausdruck der Erfindung wird ein Verfahren und eine Vorrichtung zum Codieren von Daten zum Senden und/oder Speichern geschaffen, das bzw. die die Transformationscodierung der Daten und die Differenzpulsecodemodulation der transformationscodierten Daten umfasst.
  • Die vorliegende Erfindung wird nun beispielhaft unter Bezugnahme auf die folgende Zeichnung beschrieben, in der:
  • 1 und 2 Anordnungen des Standes der Technik zeigen;
  • 3 ein Blockschaltplan eines Vorrechner-Algorithmus ist;
  • 4 ein Blockschaltplan ist, die eine bevorzugte Ausführungsform eines Aspekts der vorliegenden Erfindung veranschaulicht;
  • 5a und 5b die Elemente der bevorzugten Ausführungsform nach 4 ausführlicher veranschaulichen;
  • 6 ein Blockschaltplan ist, die eine bevorzugte Ausführungsform eines weiteren Aspekts der vorliegenden Erfindung veranschaulicht; und
  • 7a und 7b die Elemente der bevorzugten Ausführungsform nach 6 ausführlicher veranschaulichen.
  • Die 1 und 2 sind in Bezug auf den Stand der Technik beschrieben worden. In 3 sind die funktionalen Blöcke eines Vorrechner-Algorithmus 10 gezeigt, dessen Funktion es ist, die hervorspringenden Merkmale einer Eingangssprachsignalform zu erfassen und die merkmalsextrahierten Parameter, die als Merkmalsvektoren bezeichnet werden, die folglich die Sprachsignalform repräsentieren, auszugeben, wie bereits erwähnt worden ist.
  • Der Vorrechner-Algorithmus
  • Die in 3 zusammen mit dem Bezugszeichen verwendeten Abkürzungen sind wie folgt:
    ADC Analog-Digital-Umsetzer 12,
    HPF Hochpassfilter 16,
    PE Höhenanhebung 18,
    logE Berechnung des Energiemaßes 20,
    W Fenstertechnik 22,
    FFT schnelle Fourier-Transformation (nur die Größenkomponenten) 24,
    MF Mel-Filterung 25,
    LOG nichtlineare Transformation 28,
    DCT diskrete Kosinustransformation 30,
    MFCC Mel-Frequenz-Cepstralkoeffizient,
    CL Halten des Cepstral-Hubs 32.
  • Das zu codierende Sprachsignal wird anfangs durch einen Analog-Digital-Umsetzer (ADC) 12 digitalisiert. Abhängig von der Anwendung werden verschiedene Wortlängen verwendet. Die bevorzugten Abtastraten des ADC-Blocks betragen fs1 = 8 kHz, fs2 = 11 kHz und fs3 = 16 kHz. Das digitale Sprachsignal wird dann der Rahmenbildung 14 unterworfen, in der das Signal in überlappende Rahmen aus N Abtastwerten unterteilt wird. Das Rahmenverschiebungsintervall (die Differenz zwischen den Anfangspunkten aufeinander folgender Rahmen) beträgt NI Abtastwerte, wobei der Parameter M die Anzahl der Rahmen pro Einheitszeit definiert. Die spezifischen Werte von N und M hängen entsprechend der folgenden Tabelle von der Abtastrate ab.
  • Die Rahmenlänge beträgt für die Abtastung mit 8 und 16 kHz 25 ms, während sie für 11 kHz 23,27 ms beträgt.
  • Figure 00100001
  • Das Signal wird dann durch ein Hochpassfilter (HPF) 16 geleitet, das dazu dient, um die Gleichstromkomponente aus dem Eingangssignal zu entfernen. Die Subtraktion des Mittelwertes wird auf jeden Rahmen unabhängig angewendet.
  • Figure 00100002
  • Hier ist N die Rahmenlänge, während sin und sout die Eingabe bzw. die Ausgabe des HPF-Blocks sind.
  • Als Nächstes wird ein Anhebungsfilter (PE) 18 auf die Ausgabe des HPF-Blocks angewendet. sout(n) = sin(n) – 0,97·sin(n – 1).
  • Hier sind sin und sout die Eingabe bzw. die Ausgabe des Höhenanhebungsblocks.
  • Die logarithmische Rahmenenergie (logE) 20 wird nach dem Hochpassfilter (HPF) 18 und der Höhenanhebung (PE) 18 berechnet
  • Figure 00100003
  • Hier ist N die Rahmenlänge, während s die Ausgabe des PE-Blocks 18 ist.
  • Bei der Energieberechnung wird ein Boden verwendet. Der Bodenwert (die untere Grenze für das Argument des ln) beträgt 54,6.
  • Im Block 22 wird ein Hamming-Fenster (W) mit der Länge N auf die Ausgabe des Höhenanhebungsblocks angewendet:
  • Figure 00100004
  • Hier ist N die Rahmenlänge, während sin und sout die Eingabe bzw. die Ausgabe des Fenstertechnikblocks sind.
  • Im FFT-Block (FFT) 24 werden in jedem Rahmen aus N Abtastwerten Nullen aufgefüllt, um einen erweiterten Rahmen aus 256 Abtastwerten für die 8-kHz- und 11-kHz-Abtastung und 512 Abtastwerten für 16 kHz zu bilden. Eine FFT der Länge 256 bzw. 512 wird angewendet, um das Größenspektrum zu berechnen, das zu den FFT-Abschnitten führt, die wie folgt berechnet werden.
  • Figure 00110001
  • Hier ist s(n) die Eingabe in den FFT-Block, FFTL ist die Blocklänge (256 oder 512 Abtastwerte) und bink ist der Absolutwert des resultierenden komplexen Vektors.
  • Das Nächste ist ein Prozess bei 26, der Mel-Filterung genannt wird. Für die weitere Verarbeitung werden die Niederfrequenzkomponenten des Größenspektrums ignoriert. Das nützliche Frequenzband liegt zwischen 64 Hz und der Hälfte der tatsächlichen Abtastfrequenz. Dieses Band wird in 23 Kanäle unterteilt, die im Mel-Frequenz-Bereich äquidistant sind. Jeder Kanal besitzt ein dreieckförmiges Frequenzfenster. Aufeinanderfolgende Kanäle überladen sich um 50%. (Die Wahl der Anfangsfrequenz der Filterbank fstart = 64 Hz entspricht etwa dem Fall, in dem das volle Frequenzband in 24 Kanäle unterteilt ist und der erste Kanal unter Verwendung irgendeiner der drei möglichen Abtastfrequenzen verworfen wird.)
  • Die Mittenfrequenzen der Kanäle
    Figure 00110002
    in Form der FFT-Abschnittsindizes (cbini für den i-ten Kanal) werden wie folgt berechnet,
    Figure 00110003
  • Wobei round(.) für das Runden zur nächsten ganzen Zahl steht.
  • Die Ausgabe des Mel-Filters 26, die als fbankk bezeichnet wird, ist die gewichtete Summe der Werte (bini) des FFT-Größenspektrums in jedem Band. Die dreieckige überlappende Fenstertechnik wird wie folgt verwendet,
    Figure 00120001
    wobei k = 1, ..., 23 gilt, während cbin0 den FFT-Abschnittsindex bezeichnet, der der Anfangsfrequenz entspricht, d. h.
    Figure 00120002
    während cbin24 durch FFTL/2 + 1 gegeben ist, d. h. dem FFT-Abschnittsindex, der der Hälfte der Abtastfrequenz entspricht.
  • Der natürliche Algorithmus der Ausgabe der Mel-Filterung wird im nichtlinearen Transformationsblock (LOG) 28 berechnet. f = ln(fbanki), i = 1, ..., 23.
  • Die Bodenbildung wird wie im Fall der Energieberechnung angewendet. Der Bodenwert beträgt hier 1,0.
  • Aus der Ausgabe des nichtlinearen Transformationsblocks (LOG) 28 werden dreizehn Cepstral-Koeffizienten berechnet.
  • Figure 00120003
  • Es sollte angemerkt werden, dass der c0-Koeffizient oft redundant ist, wenn der Energiekoeffizient (logE) verwendet wird. Es wird erwartet, dass das Bitstromformat mit einigen optionalen Übertragungsbetriebsarten strukturiert ist, sodass abhängig von der verfügbaren Bandbreite nur einer von diesen zwei Koeffizienten oder beide von ihnen übertragen werden. Hier ist der FE-Berechnungsalgorithmus sowohl für die Energie als auch für c0 definiert.
  • Das Halten des Cepstral-Hubs wird im Block 32 in Übereinstimmung mit der folgenden Gleichung auf die 13 Cepstral-Koeffizienten angewendet.
  • Figure 00130001
  • Hier sind
    Figure 00130002
    und
    Figure 00130003
    die Eingabe bzw. die Ausgabe des Blocks für das Halten des Cepstral-Hubs. Im Folgenden wird der Unterindex "out" weggelassen.
  • Die Ausgabe des Vorrechners umfasst einen endgültigen Merkmalsvektor, der aus 14 Komponenten besteht: die Komponente der logarithmische Energie (logE) und die 13 statischen Cepstral-Komponenten (c1, ..., c12, c0). Der Merkmalsvektor wird dann im Block 34 der Komprimierung unterworfen. Jede Merkmalsvektorkomponente wird einzeln codiert. Die Einzelheiten des Komprimierungsschemas werden nun unter Bezugnahme auf die 4, 5a und 5b beschrieben.
  • Die Komprimierung der Merkmalsvektoren
  • Wie aus 4 offensichtlich ist, werden die Merkmalsvektorkomponenten separat verarbeitet, wobei verschiedene Verfahren für das Codieren der MFCC-Koeffizienten c1, ..., c12 und der Energiemaße c0 oder logE verwendet werden. Es sollte angemerkt werden, dass ein gegebener BE am wahrscheinlichsten entweder das c0- oder das logE-Maß, aber nicht beide verwendet. Der Komprimierungsalgorithmus sollte jedoch beide Arten der BEs unterstützen, wobei deshalb sowohl c0 als auch logE zu codieren sind. Es bleibt für die Anwendung übrig, zu bestimmen, ob beide Energiemaße übertragen werden, oder ob ein Auswahlmechanismus verwendet wird, um eines von ihnen auszuwählen.
  • Die Cepstral-Koeffizienten c1, ..., c12 werden in einer sehr ähnlichen Weise, jedoch unabhängig voneinander komprimiert. Im Folgenden steht x für die Koeffizientennummer (x = 1, ..., 12). 5a zeigt eine ausführliche graphische Darstellung der Komprimierung der Cepstral-Koeffizienten. Zuerst wird ein Block aus acht aufeinander folgenden Werten vom Cepstral-Koeffizienten cx genommen und in einem Puffer 36 gespeichert. Die Anordnung ist so, dass sich die Rahmen nicht überlappen, wobei ein Rahmen auf einmal im Puffer gespeichert ist.
  • Die Inhalte des Puffers 36 werden dann bei 38 unter Verwendung einer diskreten Kosinustransformation (DCT) transformiert, aus der sich acht DCT-Koeffizienten DCTx, 1, ..., 8 ergeben. Für den Rahmen zwischen den Zeitpunkten ti und ti+7 gilt
    Figure 00140001
    wobei cx,i für den Cepstral-Koeffizienten cx zum Zeitpunkt ti steht, während (DCTx,y)i den y-ten DCT-Koeffizienten des Cepstral-Koeffizienten cx zum Zeitpunkt ti bezeichnet.
  • Die Elemente der DCT-Transformationsmatrix T werden wie folgt berechnet,
    Figure 00140002
    wobei k die Zeilennummer bezeichnet, während n die Spaltennummer bezeichnet, k, n = 0, ..., 7.
  • Die Codierung von DCTx, 1
  • Die ersten DCT-Koeffizienten (DCTx, 1) werden mit periodischen PCM-Aktualisierungen (Qx, 1) DPCM-codiert (DPCM, um die Synchronisation zwischen dem Sender und dem Empfänger zu sichern. Der DPCM/PCM-Schalter wird durch eine separate Logik (Steuerlogik, DPCM/PCM-Aktualisierung) gesteuert.
  • Eine ausführliche graphische Darstellung der DPCM-Codierung ist in 5b dargestellt. Die Entwurfsparameter für die DPCM-Codierung sind der verwendete Prädiktor und der Quantisierer für das Restsignal. Hier werden die lineare Vorhersage erster Ordnung (kx) und eine pdf-optimierte 6-Bit-Restquantisierung (Qx) verwendet. Die Vorhersage basiert auf dem vorausgehend codierten Vektor. Die Prädiktor-Koeffizienten (kx) sind im Anhang (die Tabelle DCT_PRED) tabelliert.
  • Der Codierungsteil der Quantisierung (Qx) bildet die ankommenden Gleitkomma-Abtastwerte wie folgt auf binäre Codewörter ab, Qini ∈ Cellk, falls Qink ≥ Lboundk, k = 0, ..., K – 1, und Qini < Uboundk,
    Figure 00150001
    Lbound0 = –∞, UboundK-1 = ∞, Codi = dec2bin{k},
    wobei Qini und Codi die Eingabe bzw. die Ausgabe des Codierers zum Zeitpunkt ti bezeichnen. Cellk ist die k-te Zelle des Quantisierers mit den oberen und unteren Grenzen Uboundk und Lboundk. Die untere Grenze der nullten Zelle wird als minus unendlich angenommen, während die obere Grenze der letzten Zelle als plus unendlich angenommen wird. Centrk steht für den Schwerpunkt der k-ten Zelle. Der Zellenindex k bildet das abgehende Codewort nach der Dezimal-Binär-Umsetzung. Jedes Codewort besitzt die gleiche Länge, L = log2K, d. h., es wird keine Quellencodierung angewendet.
  • Für die DPCM-Restquantisierung gilt K = 64. Die Schwerpunkte der Quantisiererzellen sind im Anhang zu finden (die Tabellen DCT_x_1_DPCM, x = 1, ..., 12).
  • Für die PCM-Aktualisierungen (Qx, 1) werden gleichförmige Quantisierer mit einer Bitauflösung von B = 12 Bits pro Abtastwert verwendet. Der Codierungsteil der gleichförmigen Quantisierung umfasst das Verschieben, das Skalieren, das Runden und die Dezimal-Binär-Umsetzung wie folgt,
    Figure 00150002
    falls arg{dec2bin(.)} > 2B – 1, Codi = dec2bin{2B – 1},
    sonst, falls arg{dec2bin(.)} < 0, Codi = dec2bin{0},
    wobei floor(.) für das Runden auf die nächste ganze Zahl in Richtung auf minus unendlich steht. Die entsprechenden Min- und Max-Werte (die Dynamikbereiche) für die Quantisierer Qx, 1 sind im Anhang (die Tabellen DCT_MIN bzw. DCT_MAX) zu finden.
  • Die PCM-Aktualisierungen werden, gesteuert durch die Steuerlogik, in jedem 6. Rahmen (jede 480 ms) anstatt eines DPCM-Restes übertragen.
  • Die Codierung von DCTx, 2, ..., 8
  • Die DCT-Koeffizienten DCTx, 2, ..., 8 werden ähnlich zu Qx, 1 unter Verwendung der pdf-optimierten Quantisierer (Qx, 2, ..., 8) quantisiert. Die ausführlichen Bitzuordnungen sind im Folgenden in der Tabelle 1 gegeben. Es wird angemerkt, dass für x = 1, ..., 12 (x ist der Index des Cepstral-Koeffizienten) die Gesamtzahl der Bits immer gleich 18 ist, die Bitzuordnung ist aber für c1 ein wenig verschieden von der für c2, ..., c12. Die Schwerpunktwerte der Quantisierer sind im Anhang (die Tabellen DCT_x_y_PCM, x = 1, ..., 12, y = 2, ..., 8) zu finden.
  • Tabelle 1. Die Bitzuordnung für die Quantisierer Q1, ...,12,2, ...,8
    Figure 00160001
  • Die Codierung von c0 und logE
  • Bei der Komprimierung der Energiemaße, wie sie durch das Vergleichen der 4 und 5 zu sehen ist, werden die Komponente der logarithmischen Energie (logE) und die nullte Cepstral-Komponente (c0) ähnlich zu den DCT-Koeffizienten DCTx, 1 mit periodischen PCM-Aktualisierungen DPCM-codiert. Die PCM-Aktualisierungen werden durch die Steuerlogik gesteuert. Es ist anzumerken, dass die PCM-Aktualisierungen für die Komponenten logE und c0 zusammen mit denjenigen für DCTx, 1 nach jedem 48. Abtastwert (480 ms) auftreten.
  • Das in 5b dargestellte DPCM-Codierungsschema wird unter Verwendung verschiedener Prädiktor-Koeffizienten und Quantisiererparameter ebenso für die Energiemaße verwendet. Die pfd-optimierten DPCM-Restquantisierer (DPCMlogE und DPCMc0) besitzen eine 3-Bit-Auflösung. Für die PCM-Aktualisierungen werden gleichförmige Quantisierer (QlogE und Qc0) mit 12-Bit-Auflö sung verwendet.
  • Die Prädiktor-Koeffizienten und die Schwerpunkte der Quantisierer für DPCMlogE und DPCM sind im Anhang (die Variable C0_PRED und LOG_E_PRED enthalten die Prädiktor-Koeffizienten, während die Tabellen C0_DPCM und LOG_E_DPCM die Schwerpunkte der Quantisierer enthalten) zu finden.
  • Die Minimal- und Maximalwerte (die Dynamikbereiche) für die Quantisierer QlogE und Qc0 sind im Anhang (C0_MIN und C0_MAX für c0 und LOG_E_MIN und LOG_E_MAX für logE) tabelliert.
  • Die Bitstromformatierung
  • Als Nächstes wird die bevorzugte Bitstromformatierung beschrieben. Der komprimierte Bitstrom besteht aus Einheiten von 80 ms, wobei jede die Daten für 8 Mel-Cepstral-Vektoren enthält. Im Folgenden wird diese Einheit als ein Rahmen bezeichnet. Es können zwei Typen von Rahmen definiert werden. Ein PCM-Rahmen bedeutet einen Rahmen, der die PCM-Aktualisierungen für die ersten DCT-Koeffizienten und für die Energiemaße enthält. Der Begriff DPCM-Rahmen steht für einen Rahmen, in dem die DPCM-Codierung auf diese Parameter angewendet wird. Weil die Bitstromformatierung das Hinzufügen eines Zusatzaufwandes zum Bitstrom mit sich bringt, ist es vorteilhaft, mehrere Rahmen in einem Mehrfachrahmen zu kombinieren. Ein Mehrfachrahmen besteht aus einem PCM-Rahmen und fünf DPCM-Rahmen (die 480 ms der Sprache überspannen). Der letzte übertragene Mehrfachrahmen kann jedoch aus 1 ... 6 derartiger Einheiten bestehen, die 80 ... 480 ms der Sprache überspannen. Ein Mehrfachrahmen stellt die Grundeinheit für die Synchronisation dar, während ein Rahmen die Grundeinheit für die Codierung und Decodierung ist.
  • Die Formatkonventionen
  • Die in dieser Beschreibung verwendeten Konventionen für die Nummerierung, die Feldabbildung und die Bitübertragung sind im Folgenden definiert. Hier bezeichnet ein Feld verschiedene Teile eines Mehrfachrahmens, wie z. B. den Synchronisationsmerker, den Mehrfachrahmen-Merker, das Informationsfeld (die Daten vom PCM- und/oder den DPCM-Rahmen) und einen zyklischen Redundanzcode (CRC).
  • Die Nummerierungskonvention
  • Die elementare Nummerierungskonvention ist in der Tabelle 2 veranschaulicht. Die Bits in jedem Feld sind in Oktetts gruppiert. Die Bits eines Oktetts sind horizontal gezeigt und von 1 bis 8 nummeriert. Mehrere Oktetts sind vertikal gezeigt und von 1 bis n nummeriert.
  • Tabelle 2. Die Nummerierungskonvention
    Figure 00180001
  • Die Reihenfolge der Bitübertragung
  • Die Oktetts werden in aufsteigender numerischer Reihenfolge übertragen; innerhalb eines Oktetts ist das Bit 1 das zuerst zu übertragende Bit.
  • Die Konvention der Feldabbildung
  • Wenn ein Feld in einem einzelnen Oktett enthalten ist, stellt das niedrigstwertige Bit des Feldes den niedrigstwertigen Wert (oder das niedrigstwertige Bit) dar.
  • Wenn sich ein Feld über mehr als ein Oktett überspannt, stellt das höchstwertige Bit des ersten Oktetts den höchstwertigen Wert dar, während das niedrigstwertige Bit des letzten Oktetts den niedrigstwertigen Wert darstellt.
  • Eine Ausnahme von der vorangehenden Konvention für die Feldabbildung ist das Feld für den zyklischen Redundanzcode (CRC-Feld). In diesem Fall ist das niedrigstwertige Bit des Oktetts der höchstwertige Term des Polynoms, das das CRC-Feld darstellt.
  • Die Rahmenbildung
  • Alle Mehrfachrahmen werden unter Verwendung von Pseudorausch-Merkern (PN-Merkern) begrenzt.
  • Die Merker
  • Allen Mehrfachrahmen mit Ausnahme des zuletzt übertragenen Mehrfachrahmens geht ein 32-Bit-Synchronisationsmerker voraus und folgt ein 32-Bit-Synchronisationsmerker, die aus dem folgenden eindeutigen Bitmuster bestehen:
  • Tabelle 4. Der 32-Bit-Synchronisationsmerker
    Figure 00190001
  • Der einem Mehrfachrahmen vorangehenden Merker ist als der Anfangsmerker definiert. Der einem Mehrfachrahmen folgende Merker ist als der Endmerker definiert. Der Endmerker eines Mehrfachrahmens kann außerdem als der Anfangsmerker des nächsten Mehrfachrahmens dienen. Alle Empfänger, die diesen Zugang verwenden, sollten jedoch für den Empfang von mehr als einen aufeinander folgenden Merker angepasst sein, da der Merker wiederholt vom Sender zum Empfänger gesendet werden kann.
  • Dem letzten übertragenen Mehrfachrahmen folgt ein inverser 32-Bit-Merker, indem alle Bits des 32-Bit-Synchronisationsmerkers invertiert sind. Alle Empfänger, die diesen Zugang verwenden, sollten jedoch für den Empfang des inversen Merkers am Ende jedes Mehrfachrahmens angepasst sein. Der inverse Merker markiert das Ende der Merkmalsübertragung.
  • Die Merkererfassung
  • Die Erfassung des Anfangs eines Mehrfachrahmens (oder des Endes der Übertragung) kann durch die Korrelation des ankommenden Bitstroms mit dem Synchronisationsmerker (oder mit dem inversen Merker) ausgeführt werden. Die Ausgabe des Korrelators kann mit einem Korrelationsschwellenwert (CT) verglichen werden. Wann immer die Ausgabe gleich dem oder größer als der Schwellenwert ist, sollte der Empfänger entscheiden, dass ein Merker erfasst worden ist.
  • Das Mehrfachrahmen-Format
  • Alle Mehrfachrahmen entsprechen dem in der Tabelle 5 gezeigten Format.
  • Tabelle 5. Das Mehrfachrahmen-Format
    Figure 00200001
  • Der Kopf
  • Das Format des Kopfes entspricht dem in der Tabelle 6 gezeigten Format. Tabelle 6. Das Format des Kopffeldes eines Mehrfachrahmens
    Figure 00200002
  • CO
    c0-Merker,
    LOGE
    logE-Merker,
    SRATE
    Abtastraten-Feld,
    MODE
    Betriebsart-Feld,
    EIF
    Merker für zusätzliche Informationen,
    EI
    Feld für zusätzliche Informationen (n = 0, 1, 2, ...)
  • Der Mehrfachrahmen-Zähler
  • Der 8-Bit-Mehrfachrahmen-Zähler gibt jedem Mehrfachrahmen einen Modulo-256-Index. Der Zählerwert für den ersten Mehrfachrahmen ist "1". Der Mehrfachrahmen-Zähler wird nach der Übertragung jedes Mehrfachrahmens um eins inkrementiert.
  • Der c0-Merker (CO)
  • Der 1-Bit-CO-Merker spezifiziert, ob der Mehrfachrahmen die c0-Parameterbits enthält. Falls das Bit auf den Wert "1" gesetzt ist, enthält der Mehrfachrahmen die c0-Parameterbits, während, falls das Bit auf den Wert "0" gesetzt ist, die c0-Bits nicht enthalten sind.
  • Der logE-Merker (LOGE)
  • Der 1-Bit-LOGE-Merker definiert, ob der Mehrfachrahmen die logE-Parameterbits enthält. Falls das Bit auf den Wert "1" gesetzt ist, enthält der Mehrfachrahmen die logE-Parameterbits, während, falls das Bit auf den Wert "0" gesetzt ist, die logE-Bits nicht enthalten sind.
  • Das Abtastraten-Feld (SRATE-Feld)
  • Das 2-Bit-SRATE-Feld definiert die Abtastrate, die den Merkmalsparameterbits zugeordnet ist. Die Bitkombinationen sind den verfügbaren Abtastraten zugeordnet, wie in der Tabelle 7 gezeigt ist.
  • Tabelle 7. Das Format des Abtastraten-Feldes
    Figure 00220001
  • Das Betriebsart-Feld (MODE-Feld)
  • Das 3-Bit-MODE-Feld zeigt die Betriebsart des Merkmalsparameterstroms an. Die vorgegebene Betriebsart ist "alles Nullen". Die anderen Betriebsarten sind für die künftige Verwendung reserviert.
  • Der Merker für zusätzliche Informationen (EIF)
  • Der 1-Bit-EIF-Merker ermöglicht die Ergänzung zusätzlicher Informationen (EI) zum Kopffeld in einer rückwärts kompatiblen Weise. Falls der Merker auf "1" gesetzt ist, enthalten die folgenden 7 Bits EI für den Mehrfachrahmen. Den 7 Bits folgt ein neuer EIF mit der gleichen Interpretation. Falls der EIF auf "0" gesetzt ist (der vorgegebene Wert), enthält der Mehrfachrahmen keine zusätzlichen Informationen. Ein entsprechender Decodierer akzeptiert eine unbegrenzte Menge von EI. Dem Decodierer ist es jedoch erlaubt, die EI zu ignorieren.
  • Das Informationsfeld
  • Das Informationsfeld enthält die tatsächlichen Merkmalsparameterbits. Es ist in 1 ... 6 Rahmen unterteilt, wobei jeder die Merkmalsparameter von 80 ms der Eingangssprache enthält. Normalerweise besteht das Informationsfeld aus 6 Rahmen. Das Informationsfeld des letzten übertragenen Mehrfachrahmens kann jedoch aus 1 ... 6 Rahmen bestehen. Das Format des Feldes entspricht dem in der Tabelle 8 gezeigten Format.
  • Tabelle 8. Das Format des Datenfeldes
    Figure 00230001
  • Die Längen der Felder (die Bits der Rahmen) innerhalb des Informationsfeldes hängen von den Werten der C0- und LOGE-Merker ab. Die Felder werden in aufsteigender numerischer Reihenfolge übertragen. Das Datenfeld wird mit einer Anzahl von Null-Bits aufgefüllt, um die Oktett-Ausrichtung auf den Mehrfachrahmen bereitstellen. Die Tabelle 8 zeigt, wie die Anzahl der Bits für das Auffüllen mit Nullen von den C0- und LOGE-Merkern abhängt. In dem Fall eines Mehrfachrahmens, der kürzer als 6 Rahmen ist, ist die Anzahl der Bits für das Auffüllen mit Nullen die gleiche wie für den Mehrfachrahmen mit 6 Rahmen.
  • Die Grenzen zwischen den Feldern (den Rahmen 1–6) des Informationsfeldes sind nicht auf die Oktett-Grenzen ausgerichtet. Deshalb sind die Längen der Felder als die Anzahl der Bits anstatt der Oktetts spezifiziert. Das vollständige Informationsfeld ist jedoch oktett-ausgerichtet. Die Inhalte der Rahmen sind in den Tabellen 9 und 10 ausführlich beschrieben. Tabelle 9. Die Parameterzuordnung für den Rahmen 1
    Figure 00240001
  • 1)
    Dieses Feld ist optional. Es ist enthalten, wenn der c0-Merker den Wert "1" besitzt.
    2)
    Dieses Feld ist optional. Es ist enthalten, wenn der logE-Merker den Wert "1" besitzt.
    3)
    Die ausführliche Bitzuordnung ist in der Tabelle 2 zu finden.
  • Die Felder innerhalb der Tabelle 9 werden entsprechend dem Feldindex in aufsteigender Reihenfolge übertragen; innerhalb eines Feldes werden die Parameter entsprechend ihrer Unterindizes in aufsteigender Reihenfolge übertragen. Innerhalb eines Parameters wird das niedrigstwertige Bit zuerst übertragen. Das Format der Rahmen 2–6 Tabelle 10. Die Parameterzuordnung für die Rahmen 2–6
    Figure 00250001
  • 1)
    Dieses Feld ist optional. Es ist enthalten, wenn der c0-Merker den Wert "1" besitzt.
    2)
    Dieses Feld ist optional. Es ist enthalten, wenn der logE-Merker den Wert "1" besitzt.
    3)
    Die ausführliche Bitzuordnung ist in der Tabelle 2 zu finden.
  • Die Felder innerhalb der Tabelle 10 werden entsprechend dem Feldindex in aufsteigender Reihenfolge übertragen; innerhalb eines Feldes werden die Parameter entsprechend ihrer Unterindizes in aufsteigender Reihenfolge übertragen. Innerhalb eines Parameters wird das niedrigstwertige Bit zuerst übertragen.
  • Das CRC-Feld
  • Der 8-Bit-CRC schafft eine Fehlererfassungsfähigkeit über den ganzen Mehrfachrahmen.
  • Das 8-Bit-CRC-Feld enthält den Rest der Division (Modulo 2) des Produkts aus x8, multipliziert mit den Inhalten des Mehrfachrahmens, mit Ausnahme des CRC-Feldes, durch das Generatorpolynom p(x) = x8 + x2 + x + 1. Das die Inhalte des Mehrfachrahmens darstellende Polynom wird unter Verwendung des Bits Nummer 1 (EIF) des ersten Oktetts (des Kopfes) als den Koeffizienten für den Term höchster Ordnung erzeugt.
  • Als eine typische Implementierung im Sender sind die Anfangsinhalte des Registers der Vorrichtung, die den Rest der Division berechnet, auf alles 0en voreingestellt, wobei sie dann durch die Division der Inhalte des Mehrfachrahmens, wobei die Bits im CRC-Feld nicht enthalten sind, durch das Generatorpolynom (wie es oben beschrieben worden ist) modifiziert werden; der resultierende Rest wird als der 8-Bit-CRC übertragen. Der Koeffizient des Terms höchster Ordnung des Restpolynoms entspricht dem Bit Nummer 1 des CRC-Feldes. Die Empfänger sollten jeden Mehrfachrahmen verwerfen, dessen CRC-Feld durch die Fehlerüberprüfung fällt.
  • Die Bitrate des Komprimierungsalgorithmus
  • Wenn der Merkmalsstrom mit dem Zusatzaufwand des Synchronisationsmer kers, des Kopfes und des CRC-Feldes kombiniert wird, ergeben sich die in der Tabelle 11 angegebenen Bitraten für den vollständigen Merkmalskomprimierungsalgorithmus. In dieser Berechnung wird angenommen, dass das Feld für zusätzliche Informationen (EI) leer ist.
  • Tabelle 11. Die Bitraten des Komprimierungsalgorithmus
    Figure 00270001
  • Die Dekomprimierung der Merkmalsvektroren
  • Der Decodierungsprozess auf der Empfängerseite umfasst die inversen Operationen des Codierens in umgekehrter Reihenfolge. 6 zeigt die hauptsächlichen funktionalen Blöcke des Decodierers. Für die Cepstral-Koeffizienten c1, ..., c12 wird die Dekomprimierung der Cepstral-Koeffizienten angewendet, für die Energiemaße wird entweder die PCM- oder DPCM-Decodierung ausgeführt. Es sollte angemerkt werden, dass das Suffix * die decodierten Signale (oder die Signale auf der Empfängerseite) bezeichnet.
  • Das Decodieren von DCTx, 1
  • Die demultiplexierten Codewörter werden abhängig vom DPCM/PCM-Schalter unter Verwendung entweder der DPCM-Decodierung (DPCMx –1) oder der PCM-Dequantisierung (des Decodierungsteils der Quantisierung, Qx, 1 –1), auf Gleitkomma-Abtastwerte (DCTx, 1 *) abgebildet.
  • Die Einzelheiten der DPCM-Decodierung sind in 7b gezeigt. Die Ausgabe wird als eine Summe des dequantisierten Restes plus die Vorhersage vom letzten Ausgabewert erzeugt. Die Prädiktor-Koeffizienten kx sind im Anhang (die Tabelle DCT_PRED) zu finden. Der Decodierungsteil der Quantisierung kann als ein Nachschlagen in Tabellen entsprechend der ankommenden Tabellenindizes betrachtet werden. Jeder zu Cellk gehörende codierte Abtastwert wird durch den Schwerpunktwert der Zelle dargestellt. Die Schwerpunkte der Quantisiererzellen sind im Anhang (die Tabellen DCT_x_1_DPCM, x = 1, ..., 12) zu finden.
  • Der Decodierungsteil der gleichförmigen Quantisierung (Qx, 1 –1) umfasst die Binär-Dezimal-Umsetzung, das Verschieben der Zelle zum Mittelpunkt, das Skalieren und das Verschieben:
    Figure 00280001
    wobei Codi und Outi für das Eingangscodewort bzw. den Ausgangsdarstellungspegel zum Zeitpunkt ti stehen. Die Min- und Max-Werte sind im Anhang (die Tabellen DCT MIN bzw. DCT_MAX) tabelliert.
  • Das Decodieren von DCTx, 1
  • Das Decodieren der DCT-Koeffizienten DCTx, 2, ..., 8 g auf der Empfängerseite ist ähnlich zu Qx, 1 –1 ein Nachschlagen in Tabellen für die Schwerpunktwerte. Die Schwerpunktwerte der Quantisierer sind im Anhang (die Tabellen DCT_x_y_PCM, x = 1, ..., 12, y = 2, ..., 8) zu finden.
  • Die inverse Transformation
  • Die decodierten DCT-Koeffizienten DCTx, 1, ..., 8 werden invers DCT-transformiert (IDCT), wobei das Ergebnis in einem Puffer (Puff.) gespeichert wird,
    Figure 00280002
    wobei cx,i * der Cepstral-Koeffizient cx * auf der Empfängerseite zum Zeitpunkt ti ist, während (DCTx,y)i * der y-te DCT-Koeffizient des Cepstral-Koeffizienten cx * auf der Empfängerseite zum Zeitpunkt ti ist. Die Elemente der ICDT-Transformationsmatrix T–1 werden entsprechend der folgenden Gleichung berechnet,
    Figure 00280003
    Figure 00290001
    k und n stehen für die Zeilennummer bzw. die Spaltennummer, k, n = 0, ..., 7.
  • Das synchronisierte Lesen aus dem Puffer sichert, dass ein Abtastwert aus dem Ausgangspuffer ausgelesen wird, wenn ein neues logE*/c0 *-Paar ankommt. Der oberste Abtastwert cx,i * wird zuerst gewesen.
  • Das Decodieren von logE* und c0 *
  • Der nullte Cepstral-Koeffizient und die Komponente der logarithmischen Energie auf der Empfängerseite (c0 * bzw. logE*) werden ähnlich zum Decodieren von DCTx, 1 * abhängig vom DPCM/PCM-Schalter unter Verwendung entweder der DPCM-Decodierung oder der PCM-Dequantisierung rekonstruiert. Die entsprechenden Prädiktor-Koeffizienten und Schwerpunkte der Quantisierer sind im Anhang (die Tabellen C0_PRED und LOG_E_PRED enthalten die Prädiktor-Koeffizienten und die Tabellen C0_DPCM und LOG_E_DPCM enthalten die Schwerpunkte der Quantisierer) zu finden.
  • Die algorithmischen Verzögerungen und die Synchronisationsverzögerungen
  • Wie vorausgehend erwähnt worden ist, können die Merkmalsvektoren auf einer Grundlage von Rahmen codiert und decodiert werden. Wird ein Merkmalsvektor alle 10 ms angenommen, wird die algorithmische Verzögerung des Komprimierungsschemas 8*10 = 80 ms. Die Mehrfachrahmen können als Grundeinheiten für die Synchronisation betrachtet werden. Falls in der Übertragungskette ein nicht wiedergutzumachender Fehler auftritt, kann sich das System innerhalb von 6*80 = 480 ms resynchronisieren. In einer praktischen Situation werden die Merkmalsvektoren rahmenweise decodiert und verwendet. Falls auf einer Mehrfachrahmen-Ebene ein Übertragungsfehler erfasst wird, benachrichtigt das System den BE am Ende eines Mehrfachrahmens, dass einige der letzten Merkmalsvektoren fehlerhaft sind. Die Fehlerbehandlungsprozedur hängt vom BE ab.
  • Die Bitraten
  • Die Gesamtbitrate des Komprimierungsalgorithmus kann wie folgt berechnet werden. Ein Mehrfachrahmen besteht aus sechs Rahmen, einem PCM-Rahmen und fünf DPCM-Rahmen. In einem PCM-Rahmen werden 12 _ 12 Bits für die PCM-Aktualisierung der ersten DCT-Koeffizienten (DCTx, 1) der Cepstral-Koeffizienten c1, ..., c12 verwendet. Um den Rest der DCT-Koeffizienten (DCTx, 2, ..., 8) zu codieren, werden 12 _ 18 Bits benötigt. c0 benötigt 12 Bits für die PCM-Aktualisierung und 7 _ 3 Bits für die DPCM-Codierung der verbleibenden sieben Werte im Block. Dasselbe gilt für logE. In den DPCM-Rahmen werden 12 _ 6 Bits für DCTx, 1, 12 _ 18 Bits für DCTx, 2, ..., 8, 8 _ 3 Bits für c0 und 8 _ 3 Bits für logE verwendet. Die Gesamtmenge der Bits in einem Mehrfachrahmen beträgt dann 12 _ 12 + 12 _ 18 + 12 + 7 _ 3 + 12 + 7 _ 3 + 5 _(12 _ 6 + 12 _ 18 + 8 _ 3 + 8 _ 3) = 2106 Bits. Die Länge eines Mehrfachrahmens beträgt 480 ms. Dies entspricht einer Bitrate von 4387,5 bit/s. Falls nur eines der Energiemaße übertragen wird, beträgt die Gesamtbitrate 4068,75 bit/s. In der bevorzugten Ausführungsform betragen die Bitraten zusammen mit dem Rahmenbildungs-Zusatzaufwand 4517 bzw. 4200 bit/s.
  • Die Speicheranforderung
  • Die Speicheranforderung des Algorithmus kann als der Speicher approximiert werden, der für das Speichern der Quantisierertabellen notwendig ist. Die für die PCM-Aktualisierungen verwendeten gleichförmigen Quantisierer benötigen keine umfassenden Quantisierertabellen, es werden nur die Minimal- und Maximalwerte gespeichert, d. h., es werden (12 + 2) _ 2 _ 4 Bytes benötigt. Für die DPCM-Restquantisierung der ersten DCT-Koeffizienten sind 12 _ 64 _ 4 Bytes erforderlich. Der Rest der DCT-Koeffizienten erfordert (32 + 8 + 8+ 4 + 4 + 4 + 2) _ 4 Bytes (für c1) und 11 _ (16 + 8 + 8 + 4 + 4 + 4 + 4) _ 4 Bytes (für c2, ..., c12). Die DPCM-Restquantisierung von c0 und logE erfordert 2 _ 8 _ 4 Bytes. Die Gesamtmenge beträgt 5608 Bytes.
  • Die vorliegende Erfindung kann in anderen spezifischen Formen verkörpert sein, ohne von ihren wesentlichen Merkmalen abzuweichen. Demzufolge sollte anstatt auf die vorangehende Beschreibung auf die beigefügten Ansprüche und andere allgemeine Erklärungen hierin als den Umfang der Erfindung angebend Bezug genommen werden.
  • Außerdem kann jedes in dieser Beschreibung (wobei dieser Begriff die Ansprüche enthält) offenbarte und/oder in der Zeichnung gezeigte Merkmal unabhängig von anderen offenbarten und/oder veranschaulichten Merkmalen in die Erfindung aufgenommen sein. In dieser Hinsicht enthält die Erfindung jedes neuartige Merkmal oder jede Kombination der Merkmale, hierin offenbart sind, entweder explizit oder jede Verallgemeinerung davon, ohne Rücksicht darauf, ob es sich auf die beanspruchte Erfindung bezieht oder irgendeines oder alle der angesprochenen Probleme lindert.
  • ANHANG 1
    Figure 00320001
  • Figure 00330001
  • Figure 00340001
  • Figure 00350001
  • Figure 00360001
  • Figure 00370001
  • Figure 00380001
  • Figure 00390001
  • Figure 00400001
  • Figure 00410001
  • Figure 00420001

Claims (29)

  1. Verfahren zum Komprimieren von Cepstral-Parametern einer Sprachsignalform zum Senden und/oder Speichern, das umfasst: Transformationscodieren einer ersten Menge ausgewählter der Cepstral-Parameter, um mehrere Transformationskoeffizienten bereitzustellen, und Differenzpulscodemodulieren wenigstens eines der mehreren Transformationskoeffizienten.
  2. Verfahren nach Anspruch 1, das umfasst: Pulscodemodulieren eines oder mehrerer der verbleibenden der mehreren Transformationskoeffizienten.
  3. Verfahren nach Anspruch 1 oder Anspruch 2, das umfasst: Differenzpulscodemodulieren einer zweiten Menge ausgewählter merkmalsextrahierter Parametern.
  4. Verfahren nach Anspruch 1 oder Anspruch 2 oder Anspruch 3, das umfasst: Bereitstellen von Aktualisierungen periodischer Pulscodemodulationen für die Differenzpulscodemodulations-Codierung.
  5. Verfahren nach einem vorhergehenden Anspruch, bei dem die erste Menge ausgewählter der Cepstral-Parameter Mel-Frequenz-Cepstralkoeffizienten umfasst.
  6. Verfahren nach einem vorhergehenden Anspruch, bei dem eine zweite Menge der merkmalsextrahierten Parameter Energiemaße umfasst.
  7. Verfahren nach einem vorhergehenden Anspruch, das ein skalares Quantisieren der verbleibenden Transformationskoeffizienten umfasst.
  8. Verfahren nach einem vorhergehenden Anspruch, bei dem die Differenzpulscodemodulation ein skalares und/oder ein vektorielles Quantisieren umfasst.
  9. Verfahren nach einem vorhergehenden Anspruch, das das Puffern der merkmalsextrahierten Parameter in einem Vorverarbeitungsschritt umfast.
  10. Verfahren nach einem vorhergehenden Anspruch, bei dem die Transfor mationscodierung die Codierung mittels der diskreten Kosinustransformation umfasst.
  11. Verfahren nach einem vorhergehenden Anspruch, bei dem die Differenzpulscodemodulation mit der Wahrscheinlichkeitsdichtefunktion optimierte Quantisierer umfasst.
  12. Verfahren nach Anspruch 11, bei dem die Quantisierer und die Prädiktoren getrennt oder gemeinsam optimiert werden.
  13. Vorrichtung zum Komprimieren von Cepstral-Parametern einer Sprachsignalform zum Senden und/oder Speichern, die umfasst: einen Transformationscodierer für die Transformationscodierung einer ersten Menge ausgewählter der Cepstral-Parameter, um mehrere Transformationskoeffizienten bereitzustellen, und einen Differenzpulscodemodulator für eine Differenzpulscodemodulation wenigstens eines der mehreren Transformationskoeffizienten.
  14. Vorrichtung nach Anspruch 13, die einen Pulscodemodulator für die Pulscodemodulation eines oder mehrerer der verbleibenden der mehreren Transformationskoeffizienten umfasst.
  15. Vorrichtung nach Anspruch 13 oder 14, die einen Differenzpulscodemodulator für die Differenzpulscodemodulation einer zweiten Menge ausgewählter merkmalsextrahierter Parametern umfasst.
  16. Vorrichtung nach Anspruch 13 oder Anspruch 14 oder Anspruch 15, die einen Modulator für einen periodischen Pulscode umfasst, der Aktualisierungen periodischer Pulscodemodulationen für die Differenzpulscodemodulation-Codierung bereitstellt.
  17. Vorrichtung nach einem der Ansprüche 13 bis 16, bei der die erste Menge ausgewählter der Cepstral-Parameter Mel-Frequenz-Cepstralkoeffizienten umfasst.
  18. Vorrichtung nach einem der Ansprüche 13 bis 17, bei der eine zweite Menge der merkmalsextrahierten Parameter Energiemaße umfasst.
  19. Vorrichtung nach einem der Ansprüche 13 bis 18, die ein skalares Quantisieren der verbleibenden Transformationskoeffizienten umfasst.
  20. Vorrichtung nach einem der Ansprüche 13 bis 19, bei der der Differenzpulscodemodulator ein skalares und/oder ein vektorielles Quantisieren verwendet.
  21. Vorrichtung nach einem der Ansprüche 13 bis 20, die einen Puffer zum Speichern der merkmalsextrahierten Parameter in einem Vorverarbeitungsschritt umfasst.
  22. Vorrichtung nach einem der Ansprüche 13 bis 21, bei der der Transformationscodierer einen die diskrete Kosinustransformation verwendenden Codierer umfasst.
  23. Vorrichtung nach einem der Ansprüche 13 bis 22, bei der die Differenzpulscodemodulation mit der Wahrscheinlichkeitsdichtefunktion optimierte Quantisierer enthält.
  24. Vorrichtung nach Anspruch 23, bei der die Quantisierer und Prädiktoren getrennt oder gemeinsam optimiert sind.
  25. Tragbare Funkkommunikationsvorrichtung, die eine Vorrichtung nach einem der Ansprüche 13 bis 24 umfasst.
  26. Spracherkennungssystem für ein Funkkommunikationssystem, das eine in einem Funknetz arbeitende Mobilstation enthält, wobei das System umfasst: ein Vorrechner-Cepstral-Mittel, das in der Mobilstation angeordnet ist, und ein Nachrechner-Erkennungsmittel, das dem Netz zugeordnet ist, und Kompressionsmittel, die Cepstral-Parameter einer Sprachsignalform codieren, wobei die Kompressionsmittel einen Transformationscodierer zum Transformationscodieren einer ersten Menge ausgewählter der Cepstral-Parameter, um mehrere Transformationskoeffizienten bereitzustellen, und einen Differenzpulscodemodulator für eine Differenzpulscodemodulation wenigstens eines der mehreren Transformationskoeffizienten umfassen.
  27. Verfahren zum Dekomprimieren komprimierter Cepstral-Parameter einer Sprachsignalform, das umfasst: inverses Differenzpulscodemodulieren wenigstens eines von mehreren differenzpulscodemodulierten Transformationskoeffizienten, um Transformationskoeffizienten bereitzustellen, und inverses Transformationscodieren der Transformationskoeffizienten.
  28. Verfahren nach Anspruch 27, das umfasst: inverses Pulscodemodulieren eines oder mehrerer der mehreren pulscodemodulierten Transformationskoeffizienten, um die verbleibenden Transformationskoeffizienten bereitzustellen.
  29. Verfahren nach Anspruch 27 oder Anspruch 28, das umfasst: inverses Differenzpulscodemodulieren wenigstens eines von mehreren differenzpulscodemodulierten Signalen, um eine zweite Menge decodierter merkmalsextrahierter Parameter bereitzustellen.
DE69913976T 1998-10-13 1999-10-07 Sprachparameter-kompression Expired - Fee Related DE69913976T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB9822344 1998-10-13
GB9822344A GB2342828A (en) 1998-10-13 1998-10-13 Speech parameter compression; distributed speech recognition
PCT/EP1999/007801 WO2000022610A1 (en) 1998-10-13 1999-10-07 Speech parameter compression

Publications (2)

Publication Number Publication Date
DE69913976D1 DE69913976D1 (de) 2004-02-05
DE69913976T2 true DE69913976T2 (de) 2004-12-09

Family

ID=10840504

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69913976T Expired - Fee Related DE69913976T2 (de) 1998-10-13 1999-10-07 Sprachparameter-kompression

Country Status (5)

Country Link
EP (1) EP1121686B1 (de)
AU (1) AU6340299A (de)
DE (1) DE69913976T2 (de)
GB (1) GB2342828A (de)
WO (1) WO2000022610A1 (de)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6665640B1 (en) 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US6760699B1 (en) * 2000-04-24 2004-07-06 Lucent Technologies Inc. Soft feature decoding in a distributed automatic speech recognition system for use over wireless channels
US6633839B2 (en) * 2001-02-02 2003-10-14 Motorola, Inc. Method and apparatus for speech reconstruction in a distributed speech recognition system
US9992745B2 (en) * 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
EP2788978B1 (de) 2011-12-07 2020-09-23 QUALCOMM Incorporated Integrierter niedrigleistungsschaltkreis zur analyse eines digitalisierten audiostroms
US9542933B2 (en) 2013-03-08 2017-01-10 Analog Devices Global Microphone circuit assembly and system with speech recognition

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4270025A (en) * 1979-04-09 1981-05-26 The United States Of America As Represented By The Secretary Of The Navy Sampled speech compression system
US5317672A (en) * 1991-03-05 1994-05-31 Picturetel Corporation Variable bit rate speech encoder
ZA948426B (en) * 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
AU684872B2 (en) * 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system

Also Published As

Publication number Publication date
GB9822344D0 (en) 1998-12-09
EP1121686B1 (de) 2004-01-02
DE69913976D1 (de) 2004-02-05
GB2342828A (en) 2000-04-19
EP1121686A1 (de) 2001-08-08
AU6340299A (en) 2000-05-01
WO2000022610A1 (en) 2000-04-20

Similar Documents

Publication Publication Date Title
US6807526B2 (en) Method of and apparatus for processing at least one coded binary audio flux organized into frames
DE69735097T2 (de) Verfahren und vorrichtung zur verbesserung der sprachqualität in tandem-sprachkodierern
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
KR100283547B1 (ko) 오디오 신호 부호화 방법 및 복호화 방법, 오디오 신호 부호화장치 및 복호화 장치
DE69910239T2 (de) Verfahren und vorrichtung zur adaptiven bandbreitenabhängigen grundfrequenzsuche für die kodierung breitbandiger signale
DE60011051T2 (de) Celp-transkodierung
CN101421780B (zh) 用于编码和解码时变信号的方法和设备
EP3336843A1 (de) Sprachcodierungsverfahren und sprachcodierungsvorrichtung
US6198412B1 (en) Method and apparatus for reduced complexity entropy coding
CN1735928B (zh) 用于可变速率音频编解码的方法
CN101656075B (zh) 音频解码装置、音频解码方法以及通信终端和基站装置
DE19811039A1 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
DE69913976T2 (de) Sprachparameter-kompression
DE112014000945B4 (de) Sprachbetonungsgerät
JPH0690208A (ja) 可変レート伝送に適した符号化復号方式及び装置
CN101176148A (zh) 编码装置、解码装置和其方法
US8433565B2 (en) Wide-band speech signal compression and decompression apparatus, and method thereof
EP0954853B1 (de) Verfahren zur kodierung eines sprachsignals
Kiss et al. Robust feature vector compression algorithm for distributed speech recognition.
KR20000023852A (ko) 오디오 신호 부호화 장치, 복호화 장치 및 오디오 신호 부호화, 복호화 방법
Joseph et al. Wavelet energy based voice activity detection and adaptive thresholding for efficient speech coding
CN113314131B (zh) 一种基于两级滤波的多步音频对象编解码方法
GB2280827A (en) Speech compression and reconstruction
JPH03263100A (ja) 音声符号化・復号化装置
Hosny et al. Novel techniques for speech compression using wavelet transform

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee