DE69913976T2

DE69913976T2 - Sprachparameter-kompression

Info

Publication number: DE69913976T2
Application number: DE69913976T
Authority: DE
Inventors: Petri Haavisto; Imre Kiss
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 1998-10-13
Filing date: 1999-10-07
Publication date: 2004-12-09
Anticipated expiration: 2019-10-08
Also published as: GB9822344D0; EP1121686B1; DE69913976D1; GB2342828A; EP1121686A1; AU6340299A; WO2000022610A1

Description

Die vorliegende Erfindung bezieht sich auf die Spracherkennung und insbesondere auf die Komprimierung von merkmalsextrahierten Parametern der Sprachsignale für die Funkübertragung zwischen einer Mobilstation und einem Funknetz.
Die Hauptaufgabe der Spracherkennung ist, einen schnellen und leichten Zugriff auf eine breite Vielzahl von Computer-Diensten und Kommunikationssystemen unter Verwendung der menschlichen Sprache zu schaffen. Die Anwendungen der Spracherkennung reichen von der einfachen Sprachsteuerung unter Verwendung einer eingeschränkten Anzahl elementarer Befehlswörter, wie "ja" oder "nein" oder der Zahlen von null bis neun, bis zu sehr viel flexibleren Systemen, die spontane Sprache in geschriebenen Text umsetzen können, d. h. Diktiersysteme. In diktierähnlichen Anwendungen ist das Vokabular typischerweise sehr umfangreich, es enthält Zehntausende von Wörtern, wobei folglich in derartigen Systemen – die als Systeme für die Erkennung kontinuierlicher Sprache mit großem Vokabular (LVCSR-Systeme) bekannt sind – die Komplexität der Berechnungen und die Speicheranforderungen sehr hoch sind.
Ein allgemeines Spracherkennungssystem kann grob in zwei Teile unterteilt werden. Zuerst werden die wichtigsten Eigenschaften des Sprachsignals in einer Vorverarbeitungsstufe, die als Merkmalsextraktion bezeichnet wird, erfasst, wobei dieser Teil des Spracherkennungssystems als der Vorrechner (FE) bezeichnet wird. Die merkmalsextrahierten Parameter, die als Merkmalsvektoren bekannt sind, werden dann in die tatsächliche Erkennungseinrichtung oder den Nachrechner (BE) eingespeist, der die Erkennung ausführt und das Ergebnis ausgibt. Je komplexer die Erkennungsaufgabe ist, desto wichtiger ist es, Merkmalsvektoren in guter Qualität zu besitzen. Das Umgebungsrauschen und die Verzerrung sind typische Faktoren, die die Qualität der Merkmalsvektoren verschlechtern und wiederum die Leistung des Spracherkennungssystems als Ganzes beeinflussen. Obwohl der FE eine gewisse Robustheit gegenüber diesen Faktoren bereitstellen kann, ist die Qualität der in den FE eingespeisten Sprache kritisch.
Die Anwendung der Technologie der Spracherkennung nimmt in der Mobilkommunikation zu. Zellulartelephone, die eine Verbindung einleiten können, indem sie einfach die Telephonnummer oder den Namen der Person hören, mit der der Anwender sprechen möchte, sind bereits verfügbar. Komplexere Aufgaben, wie z. B. das Diktieren, sind jedoch in einer mobilen Umgebung immer noch sehr schwierig zu implementieren. Weil es entscheidend ist, eine Sprache in guter Qualität bereitzustellen, würde es als angemessen erscheinen, zu versuchen, die Erkennungseinrichtung so nah beim Anwender wie möglich anzuordnen, d. h., direkt im Telephonhandapparat. Die Rechenbelastung und die Speicheranforderungen der LVCSR machen dies jedoch zu einem nicht durchführbaren Zugang. Eine weitere Art ist, die Erkennungseinrichtung im Zellularnetz anzuordnen, wo es möglich ist, die Hochleistungs-Computer auszunutzen, die durch viele Anwender zugleich gemeinsam benutzt werden können. Experimente haben gezeigt, dass, wenn die Sprache komprimiert wird und dann in einem Kanal übertragen wird, der für Übertragungsfehler anfällig ist – wie z. B. diejenigen, die in einer mobilen Umgebung immer vorhanden sind – die Qualität der extrahierten Merkmale für die LVCSP nicht angemessen ist.
Um dieses Problem anzusprechen, ist vorgeschlagen worden, den BE an einem zentralen Platz im Zellularnetz anzuordnen, während der FE-Teil, der verhältnismäßig niedrige Rechenanforderungen besitzt, sich im Telephonhandapparat befinden kann. Dieser Typ der Anordnung des Spracherkennungssystems über das Netz wird als verteilte Spracherkennung (DSR) bezeichnet. Bei der DSR wird vorgeschlagen, dass das Sprachsignal lokal im Handapparat in Merkmalsvektoren transformiert wird, wobei diese als digitale Daten relativ fehlerfrei über den Übertragungskanal übertragen werden können. Wenn die Merkmalsvektoren im Handapparat extrahiert werden, kann der BE auf den Datenstrom oder eine Folge der Merkmalsvektoren wirken, die eine Sprache in hoher Qualität darstellen, wobei deshalb eine gute Erkennungsleistung erreichbar ist.
Trotzdem gibt es ein Problem, weil, selbst wenn die Merkmalsvektoren eine sehr viel kompaktere Darstellung der Sprache als die Sprachsignalform selbst ergeben, sie für die effiziente Übertragung über den Datenkanal der meisten Zellularnetze immer noch nicht ausreichend komprimiert sind. Eine ungefähre Schätzung der notwendigen Menge der Komprimierung der Merkmalsvektoren ist wie folgt. Häufig verwendete Merkmale für die Spracherkennung sind die so genannten Mel-Frequenz-Cepstralkoeffizienten oder MFCCs. Ein typisches Spracherkennungssystem verwendet zwölf MFCC-Koeffizienten plus ein zusätzliches Energiemaß, wie z. B. den 0. Cepstral-Koeffizienten (c₀) oder die loga rithmische Signalenergie (logE). Diese werden als statische Merkmale bezeichnet. Ein typischer Merkmalsvektor enthält diese 13 statische Merkmale und die ersten und zweiten Zeitableitungen von jedem, was zu einer Gesamtgröße von 39 führt. Weil die Zeitableitungen aus den statischen Parametern berechnet werden können, müssen Sie nicht übertragen werden. Wird eine 4-Byte-Gleitkomma-Arithmetik und ein Merkmalsvektor alle 10 ms angenommen, ergibt sich die für das Übertragen der extrahierten Merkmale notwendige Bandbreite als 13*4*8*100 = 41600 bit/s. Ein typisches Zellularnetz, wie z. B. das GSM, besitzt Datenkanäle mit 9600 bit/s bei der vollen Rate oder 4800 bit/s bei der halben Rate. Folglich sind Kompressionsverhältnisse in der Größenordnung von 1 : 5 und 1 : 9 für Datenkanäle mit der vollen Rate bzw. der halben Rate notwendig. Die Komprimierung sollte keinen signifikanten oder bevorzugter keinen messbaren Verlust in der Erkennungsleistung verursachen.
Ein Zugang des Standes der Technik für das Komprimieren der Merkmalsvektoren ist in einem Artikel von V. Digalakis, L. Neumeyer und M. Perakakis mit dem Titel "Quantization of Cepstral Parameters For Speech Recognition Over the World Wide Web", entnommen aus ICASSP'98, S. 989–992, Seattle, WA, Mai 1998, ausführlich beschrieben und in 1 dargestellt. Die Komponenten eines Eingangsmerkmalsvektors werden unabhängig voneinander skalar quantisiert. Für die Quantisierung können gleichförmige oder ungleichförmige Quantisierer verwendet werden. Die Ausgaben der Quantisierer (die Indizes der Quantisierertabelle) stellen die zu übertragenden komprimierten Informationen dar. Diese Lösung besitzt zwei Hauptnachteile. Selbst wenn der FE-Algorithmus unverändert gelassen wird, werden die Merkmalsvektoren durch Variationen in der Umgebung beeinflusst, wie z. B. Änderungen in der akustischen Umgebung, dem Mikrophontyp, dem Rauschabstand oder sogar durch den Pegel des Sprachsignals (der c₀/logE-Komponente), das Quantisieren dieser in der dargestellten Weise macht das System durch jede Art von Änderung in diesen Faktoren angreifbar. Zweitens berücksichtigt das Verfahren die signifikante Menge der Korrelation zwischen den Merkmalsvektoren nicht, die in der Zeit nah angeordnet sind. Falls diese Eigenschaft ausgenutzt werden würde, würde sie die komprimierte Bitrate beträchtlich verringern.
Eine komplexere Art der Komprimierung ist in einem Artikel von G. N. Ramaswamy und P. S. Gopalakrishnan mit dem Titel "Compression of Acoustic Features For Speech Recognition In Network Environments", Proceedings ICASSP'98, S. 977–980, Seattle, WA, Mai 1998, dargestellt, wie in 2 gezeigt ist. In diesem Fall werden einfache Techniken, wie z. B. die lineare Vorhersage und die mehrstufige vektorielle Quantisierung, angewendet. Zuerst wird der Eingangsmerkmalsvektor mit einer aus dem vorhergehenden codierten Vektor vorhergesagten Schätzung verglichen. Der Vorhersagerest wird dann unter Verwendung des primären VQ quantisiert, der auf den Restvektor mit voller Größe wirkt. Der Rest der primären VQ wird durch den sekundären VQ wie folgt weiterverarbeitet. Der Restvektor wird zuerst in 3 Untervektoren mit der Größe 6, 6 und 1 zerlegt. Das heißt, die Cepstral-Koeffizienten c1, ..., c6, c7, ..., c12 und das Energiemaß c₀/logE werden separat behandelt. Die ersten zwei Untervektoren werden dann unter Verwendung separater VQs vektoriell quantisiert, während das Energiemaß skalar quantisiert wird. Die Indizes vom primären VQ, von den sekundären VQs und vom skalaren Quantisierer stellen die zu übertragenden komprimierten Informationen dar. Die Hauptschwierigkeit bei diesem zweiten Zugang ist, dass, zurückzuführen auf die vektorielle Quantisierung der Vektoren in hohen Dimensionen die Speicheranforderung umfassend ist. Um durch das Komprimieren der Merkmalsvektoren mit der Größe 13 eine Bitrate von 4,0 kbit/s zu erreichen, beträgt unter der Voraussetzung einer 4-Byte-Gleitkomma-Arithmetik die erforderliche Speichermenge etwa 400 kbyte. Selbst wenn in einer tatsächlichen Implementierung die Hälfte dieses Speichers unter Verwendung einer 2-Byte-Ganzzahlgenauigkeit gespart werden kann, würde das Verfahren immer noch für eine mobile Handapparat-Anwendung unausführbar sein.
Der Stand der Technik umfasst ferner:

D1: Tokuda u. a.: "Speech Coding Based on Adaptive Mel-Cepstral Analysis and its Evaluation", Electronics in Japan, Teil III: Fundamental Electronic Science, Bd. 78 (1995), New York, S. 50–60, offenbart ein Verfahren für die Sprachcodierung, bei dem die Mel-Cepstral-Parameter in einer adaptiven Differenzpulsecodemodulation verwendet werden.
D2: Bojkovic: "Upper Bound on Redundancy Reduction for Real Speech DPCM System", Proceedings of the European Signal Processing Conference, Amsterdam (1992), S. 463–465, offenbart ein Verfahren zum Optimieren der DPCM für die Sprache unter Verwendung der statistischen Parameter der Sprache.
D3: WO 9517746 offenbart ein Verfahren, in dem die Koeffizienten der linearen Vorhersagecodierung (LPC) in Linienspektrumpaare (LSPs) transformiert werden, die stabiler als die LPCs übertragen werden können. Für die Codierung vor Übertragung verwendet D3 die Differenzpulsecodemodulation. Nach der Übertragung, d. h. im Nachrechner, werden die LSPs zurück in die LPCs transformiert, die wiederum verwendet werden, um die für die Spracherkennung nützlichen Cepstral-Koeffizienten zu erhalten.

Die vorliegende Erfindung zielt darauf, die oben erwähnten Probleme anzusprechen, wobei sie demzufolge in einem Aspekt ein Verfahren zum Komprimieren von Cepstral-Parametern einer Sprachsignalform zum Senden und/oder Speichern schafft, das umfasst: Transformationscodieren einer ersten Menge ausgewählter der Cepstral-Parameter, um mehrere Transformationskoeffizienten bereitzustellen, und Differenzpulscodemodulieren wenigstens eines der mehreren Transformationskoeffizienten.
Vorteilhaft umfasst das Verfahren das Pulscodemodulieren eines oder mehrerer der verbleibenden der mehreren Transformationskoeffizienten.
In einer bevorzugten Ausführungsform umfasst das Verfahren das Differenzpulscodemodulieren einer zweiten Menge ausgewählter merkmalsextrahierter Parameter.
Durch die Verwendung der Transformationscodierung werden die Korrelationen im Zeitbereich der merkmalsextrahierten Parameter sehr effizient ausgenutzt. Dies führt zu einer signifikanten Verringerung der Bitrate der Codierung, obwohl eine leichte Verzögerung erfahren wird, die auf den Codierungsprozess zurückzuführen ist, die in den meisten praktischen Anwendungen vernachlässigt werden kann. Ferner wird durch die Verwendung der Differenzpulsecodemodulations-Codierung einiger der transformierten Koeffizienten das Verfahren für Veränderungen in der Umgebung unempfindlich gemacht. Diese Robustheit gegenüber der Umgebung bedeutet, dass die Codierungsleistung durch die Umweltfaktoren nicht beeinflusst wird. Die endgültige Leistung des Nachrechners kann sich jedoch unter ungünstigen Bedingungen verringern, aber der Komprimierungsalgorithmus liefert keinen Beitrag dazu. Es sollte angemerkt werden, dass die Daten, die differenzpulsecodemoduliert sind, die Transformationskoeffizienten oder ihre Ableitungen sein können, mit anderen Worten, für die Differenzpulsecodemodulation können aus den Transformationskoeffizienten abgeleitete Signale bereitgestellt werden. Ferner ist es denkbar, dass eine erste Menge ausgewählter der merkmalsextrahierten Parameter alle merkmalsextrahierten Parameter enthalten könnte.
In einer bevorzugten Ausführungsform umfasst das Verfahren das Bereitstellen von Aktualisierungen periodischer Pulscodemodulationen für die Differenzpulscodemodulations-Codierung.
Vorteilhaft umfasst das Verfahren das skalare Quantisieren der Transformationskoeffizienten.
Durch die Verwendung der skalaren Quantisierung der endgültigen Parameter kann eine signifikante Menge des Speichers gespart werden, dies führt zu einer Speicheranforderung von etwa 5–6 kbyte. Die endgültigen Parameter werden hergestellt, sodass sie für die skalare Quantisierung gut geeignet sind. Ferner kann sich der Algorithmus durch die Verwendung periodischer PCM-Aktualisierungen für die DPCM-Codierung resynchronisieren, selbst wenn irgendein Teil der komprimierten Daten verloren wird. Dies kann sich in einer mobilen Umgebung ereignen, falls im Übertragungskanal ein ernster Fehler auftritt.
Vorzugsweise umfasst die Differenzpulscodemodulation ein skalares und/oder ein vektorielles Quantisieren.
Vorteilhaft umfasst das Verfahren das Puffern der merkmalsextrahierten Parameter in einem Vorverarbeitungsschritt.
Zweckmäßig umfasst die Transformationscodierung die Codierung mittels der diskreten Kosinustransformation.
In einer bevorzugten Ausführungsform enthält das Differenzpulsecodemodulieren mit der Wahrscheinlichkeitsdichtefunktion (pdf) optimierte Quantisierer und lineare oder nichtlineare Prädiktoren. Optional werden die Quantisierer und die Prädiktoren getrennt oder gemeinsam optimiert.
In einem zweiten Aspekt besteht die Erfindung in einer Vorrichtung zum Komprimieren von Cepstral-Parametern einer Sprachsignalform zum Senden und/oder Speichern, die umfasst: einen Transformationscodierer für die Transformationscodierung einer ersten Menge ausgewählter der Cepstral-Parameter, um mehrere Transformationskoeffizienten bereitzustellen, und einen Differenzpulscodemodulator für eine Differenzpulscodemodulation wenigstens eines der mehreren Transformationskoeffizienten.
Vorteilhaft umfasst die Vorrichtung einen Pulscodemodulator für die Pulscodemodulation eines oder mehrerer der verbleibenden der mehreren Transformationskoeffizienten.
In einer bevorzugten Ausführungsform umfasst die Vorrichtung einen Differenzpulscodemodulator für die Differenzpulscodemodulation einer zweiten Menge ausgewählter merkmalsextrahierter Parameter.
In einem dritten Aspekt schafft die Erfindung eine tragbare Funkkommunikationsvorrichtung, die eine Vorrichtung zum Komprimieren von Cepstral-Parametern einer Sprachsignalform zum Senden und/oder Speichern umfasst, die umfasst: einen Transformationscodierer für die Transformationscodierung einer ersten Menge ausgewählter der Cepstral-Parameter, um mehrere Transformationskoeffizienten bereitzustellen, und einen Differenzpulscodemodulator für eine Differenzpulscodemodulation wenigstens eines der mehreren Transformationskoeffizienten.
In einem vierten Aspekt schafft die Erfindung ein Spracherkennungssystem für ein Funkkommunikationssystem, das eine in einem Funknetz arbeitende Mobilstation enthält, wobei das System umfasst: ein Vorrechner-Merkmalsextraktions-Mittel, das in der Mobilstation angeordnet ist, und ein Nachrechner-Erkennungsmittel, das dem Netz zugeordnet ist, und Kompressionsmittel, die Cepstral-Parameter einer Sprachsignalform codieren, wobei die Kompressionsmittel einen Transformationscodierer zum Transformationscodieren einer ersten Menge ausgewählter der Cepstral-Parameter, um mehrere Transformationskoeffizienten bereitzustellen, und einen Differenzpulscodemodulator für eine Differenzpulscodemodulation wenigstens eines der mehreren Transformationskoeffizienten umfassen.
In einem fünften Aspekt erstreckt sich die Erfindung auf ein Verfahren zum Dekomprimieren komprimierter Cepstral-Parameter einer Sprachsignalform, das umfasst: inverses Differenzpulscodemodulieren wenigstens eines von mehreren differenzpulscodemodulierten Transformationskoeffizienten, um Transformationskoeffizienten bereitzustellen, und inverses Transformationscodieren der Transformationskoeffizienten.
Vorteilhaft umfasst das Decodierungsverfahren inverses Pulscodemodulieren eines oder mehrerer der mehreren pulscodemodulierten Transformationskoeffizienten, um die verbleibenden Transformationskoeffizienten bereitzustellen.
In einer bevorzugten Ausführungsform umfasst das Decodierungsverfahren inverses Differenzpulscodemodulieren wenigstens eines von mehreren differenzpulscodemodulierten Signalen, um eine zweite Menge decodierter merkmalsextrahierter Parameter bereitzustellen.
In einem umfassenden Ausdruck der Erfindung wird ein Verfahren und eine Vorrichtung zum Codieren von Daten zum Senden und/oder Speichern geschaffen, das bzw. die die Transformationscodierung der Daten und die Differenzpulsecodemodulation der transformationscodierten Daten umfasst.
Die vorliegende Erfindung wird nun beispielhaft unter Bezugnahme auf die folgende Zeichnung beschrieben, in der:
1 und 2 Anordnungen des Standes der Technik zeigen;
3 ein Blockschaltplan eines Vorrechner-Algorithmus ist;
4 ein Blockschaltplan ist, die eine bevorzugte Ausführungsform eines Aspekts der vorliegenden Erfindung veranschaulicht;
5a und 5b die Elemente der bevorzugten Ausführungsform nach 4 ausführlicher veranschaulichen;
6 ein Blockschaltplan ist, die eine bevorzugte Ausführungsform eines weiteren Aspekts der vorliegenden Erfindung veranschaulicht; und
7a und 7b die Elemente der bevorzugten Ausführungsform nach 6 ausführlicher veranschaulichen.
Die 1 und 2 sind in Bezug auf den Stand der Technik beschrieben worden. In 3 sind die funktionalen Blöcke eines Vorrechner-Algorithmus 10 gezeigt, dessen Funktion es ist, die hervorspringenden Merkmale einer Eingangssprachsignalform zu erfassen und die merkmalsextrahierten Parameter, die als Merkmalsvektoren bezeichnet werden, die folglich die Sprachsignalform repräsentieren, auszugeben, wie bereits erwähnt worden ist.
Der Vorrechner-Algorithmus
Die in 3 zusammen mit dem Bezugszeichen verwendeten Abkürzungen sind wie folgt:
ADC Analog-Digital-Umsetzer 12,
HPF Hochpassfilter 16,
PE Höhenanhebung 18,
logE Berechnung des Energiemaßes 20,
W Fenstertechnik 22,
FFT schnelle Fourier-Transformation (nur die Größenkomponenten) 24,
MF Mel-Filterung 25,
LOG nichtlineare Transformation 28,
DCT diskrete Kosinustransformation 30,
MFCC Mel-Frequenz-Cepstralkoeffizient,
CL Halten des Cepstral-Hubs 32.
Das zu codierende Sprachsignal wird anfangs durch einen Analog-Digital-Umsetzer (ADC) 12 digitalisiert. Abhängig von der Anwendung werden verschiedene Wortlängen verwendet. Die bevorzugten Abtastraten des ADC-Blocks betragen f_s1 = 8 kHz, f_s2 = 11 kHz und f_s3 = 16 kHz. Das digitale Sprachsignal wird dann der Rahmenbildung 14 unterworfen, in der das Signal in überlappende Rahmen aus N Abtastwerten unterteilt wird. Das Rahmenverschiebungsintervall (die Differenz zwischen den Anfangspunkten aufeinander folgender Rahmen) beträgt NI Abtastwerte, wobei der Parameter M die Anzahl der Rahmen pro Einheitszeit definiert. Die spezifischen Werte von N und M hängen entsprechend der folgenden Tabelle von der Abtastrate ab.
Die Rahmenlänge beträgt für die Abtastung mit 8 und 16 kHz 25 ms, während sie für 11 kHz 23,27 ms beträgt.
Das Signal wird dann durch ein Hochpassfilter (HPF) 16 geleitet, das dazu dient, um die Gleichstromkomponente aus dem Eingangssignal zu entfernen. Die Subtraktion des Mittelwertes wird auf jeden Rahmen unabhängig angewendet.
Hier ist N die Rahmenlänge, während s_in und s_out die Eingabe bzw. die Ausgabe des HPF-Blocks sind.
Als Nächstes wird ein Anhebungsfilter (PE) 18 auf die Ausgabe des HPF-Blocks angewendet. sout(n) = sin(n) – 0,97·sin(n – 1).
Hier sind s_in und s_out die Eingabe bzw. die Ausgabe des Höhenanhebungsblocks.
Die logarithmische Rahmenenergie (logE) 20 wird nach dem Hochpassfilter (HPF) 18 und der Höhenanhebung (PE) 18 berechnet
Hier ist N die Rahmenlänge, während s die Ausgabe des PE-Blocks 18 ist.
Bei der Energieberechnung wird ein Boden verwendet. Der Bodenwert (die untere Grenze für das Argument des ln) beträgt 54,6.
Im Block 22 wird ein Hamming-Fenster (W) mit der Länge N auf die Ausgabe des Höhenanhebungsblocks angewendet:
Hier ist N die Rahmenlänge, während s_in und s_out die Eingabe bzw. die Ausgabe des Fenstertechnikblocks sind.
Im FFT-Block (FFT) 24 werden in jedem Rahmen aus N Abtastwerten Nullen aufgefüllt, um einen erweiterten Rahmen aus 256 Abtastwerten für die 8-kHz- und 11-kHz-Abtastung und 512 Abtastwerten für 16 kHz zu bilden. Eine FFT der Länge 256 bzw. 512 wird angewendet, um das Größenspektrum zu berechnen, das zu den FFT-Abschnitten führt, die wie folgt berechnet werden.
Hier ist s(n) die Eingabe in den FFT-Block, FFTL ist die Blocklänge (256 oder 512 Abtastwerte) und bin_k ist der Absolutwert des resultierenden komplexen Vektors.
Das Nächste ist ein Prozess bei 26, der Mel-Filterung genannt wird. Für die weitere Verarbeitung werden die Niederfrequenzkomponenten des Größenspektrums ignoriert. Das nützliche Frequenzband liegt zwischen 64 Hz und der Hälfte der tatsächlichen Abtastfrequenz. Dieses Band wird in 23 Kanäle unterteilt, die im Mel-Frequenz-Bereich äquidistant sind. Jeder Kanal besitzt ein dreieckförmiges Frequenzfenster. Aufeinanderfolgende Kanäle überladen sich um 50%. (Die Wahl der Anfangsfrequenz der Filterbank f_start = 64 Hz entspricht etwa dem Fall, in dem das volle Frequenzband in 24 Kanäle unterteilt ist und der erste Kanal unter Verwendung irgendeiner der drei möglichen Abtastfrequenzen verworfen wird.)
Die Mittenfrequenzen der Kanäle
in Form der FFT-Abschnittsindizes (cbin_i für den i-ten Kanal) werden wie folgt berechnet,
Wobei round(.) für das Runden zur nächsten ganzen Zahl steht.
Die Ausgabe des Mel-Filters 26, die als fbank_k bezeichnet wird, ist die gewichtete Summe der Werte (bin_i) des FFT-Größenspektrums in jedem Band. Die dreieckige überlappende Fenstertechnik wird wie folgt verwendet,
wobei k = 1, ..., 23 gilt, während cbin₀ den FFT-Abschnittsindex bezeichnet, der der Anfangsfrequenz entspricht, d. h.
während cbin₂₄ durch FFTL/2 + 1 gegeben ist, d. h. dem FFT-Abschnittsindex, der der Hälfte der Abtastfrequenz entspricht.
Der natürliche Algorithmus der Ausgabe der Mel-Filterung wird im nichtlinearen Transformationsblock (LOG) 28 berechnet. f = ln(fbanki), i = 1, ..., 23.
Die Bodenbildung wird wie im Fall der Energieberechnung angewendet. Der Bodenwert beträgt hier 1,0.
Aus der Ausgabe des nichtlinearen Transformationsblocks (LOG) 28 werden dreizehn Cepstral-Koeffizienten berechnet.
Es sollte angemerkt werden, dass der c₀-Koeffizient oft redundant ist, wenn der Energiekoeffizient (logE) verwendet wird. Es wird erwartet, dass das Bitstromformat mit einigen optionalen Übertragungsbetriebsarten strukturiert ist, sodass abhängig von der verfügbaren Bandbreite nur einer von diesen zwei Koeffizienten oder beide von ihnen übertragen werden. Hier ist der FE-Berechnungsalgorithmus sowohl für die Energie als auch für c₀ definiert.
Das Halten des Cepstral-Hubs wird im Block 32 in Übereinstimmung mit der folgenden Gleichung auf die 13 Cepstral-Koeffizienten angewendet.
Hier sind
und
die Eingabe bzw. die Ausgabe des Blocks für das Halten des Cepstral-Hubs. Im Folgenden wird der Unterindex "out" weggelassen.
Die Ausgabe des Vorrechners umfasst einen endgültigen Merkmalsvektor, der aus 14 Komponenten besteht: die Komponente der logarithmische Energie (logE) und die 13 statischen Cepstral-Komponenten (c₁, ..., c₁₂, c₀). Der Merkmalsvektor wird dann im Block 34 der Komprimierung unterworfen. Jede Merkmalsvektorkomponente wird einzeln codiert. Die Einzelheiten des Komprimierungsschemas werden nun unter Bezugnahme auf die 4, 5a und 5b beschrieben.
Die Komprimierung der Merkmalsvektoren
Wie aus 4 offensichtlich ist, werden die Merkmalsvektorkomponenten separat verarbeitet, wobei verschiedene Verfahren für das Codieren der MFCC-Koeffizienten c₁, ..., c₁₂ und der Energiemaße c₀ oder logE verwendet werden. Es sollte angemerkt werden, dass ein gegebener BE am wahrscheinlichsten entweder das c₀- oder das logE-Maß, aber nicht beide verwendet. Der Komprimierungsalgorithmus sollte jedoch beide Arten der BEs unterstützen, wobei deshalb sowohl c₀ als auch logE zu codieren sind. Es bleibt für die Anwendung übrig, zu bestimmen, ob beide Energiemaße übertragen werden, oder ob ein Auswahlmechanismus verwendet wird, um eines von ihnen auszuwählen.
Die Cepstral-Koeffizienten c₁, ..., c₁₂ werden in einer sehr ähnlichen Weise, jedoch unabhängig voneinander komprimiert. Im Folgenden steht x für die Koeffizientennummer (x = 1, ..., 12). 5a zeigt eine ausführliche graphische Darstellung der Komprimierung der Cepstral-Koeffizienten. Zuerst wird ein Block aus acht aufeinander folgenden Werten vom Cepstral-Koeffizienten c_x genommen und in einem Puffer 36 gespeichert. Die Anordnung ist so, dass sich die Rahmen nicht überlappen, wobei ein Rahmen auf einmal im Puffer gespeichert ist.
Die Inhalte des Puffers 36 werden dann bei 38 unter Verwendung einer diskreten Kosinustransformation (DCT) transformiert, aus der sich acht DCT-Koeffizienten DCT_{x, 1, ..., 8} ergeben. Für den Rahmen zwischen den Zeitpunkten t_i und t_i+7 gilt
wobei c_x,i für den Cepstral-Koeffizienten c_x zum Zeitpunkt t_i steht, während (DCT_x,y)_i den y-ten DCT-Koeffizienten des Cepstral-Koeffizienten c_x zum Zeitpunkt t_i bezeichnet.
Die Elemente der DCT-Transformationsmatrix T werden wie folgt berechnet,
wobei k die Zeilennummer bezeichnet, während n die Spaltennummer bezeichnet, k, n = 0, ..., 7.
Die Codierung von DCT_{x, 1}
Die ersten DCT-Koeffizienten (DCT_{x, 1}) werden mit periodischen PCM-Aktualisierungen (Q_{x, 1}) DPCM-codiert (DPCM, um die Synchronisation zwischen dem Sender und dem Empfänger zu sichern. Der DPCM/PCM-Schalter wird durch eine separate Logik (Steuerlogik, DPCM/PCM-Aktualisierung) gesteuert.
Eine ausführliche graphische Darstellung der DPCM-Codierung ist in 5b dargestellt. Die Entwurfsparameter für die DPCM-Codierung sind der verwendete Prädiktor und der Quantisierer für das Restsignal. Hier werden die lineare Vorhersage erster Ordnung (k_x) und eine pdf-optimierte 6-Bit-Restquantisierung (Q_x) verwendet. Die Vorhersage basiert auf dem vorausgehend codierten Vektor. Die Prädiktor-Koeffizienten (k_x) sind im Anhang (die Tabelle DCT_PRED) tabelliert.
Der Codierungsteil der Quantisierung (Q_x) bildet die ankommenden Gleitkomma-Abtastwerte wie folgt auf binäre Codewörter ab, Qini ∈ Cellk, falls Qink ≥ Lboundk, k = 0, ..., K – 1, und Qini < Uboundk,
Lbound₀ = –∞, Ubound_K-1 = ∞, Cod_i = dec2bin{k},
wobei Qin_i und Cod_i die Eingabe bzw. die Ausgabe des Codierers zum Zeitpunkt t_i bezeichnen. Cell_k ist die k-te Zelle des Quantisierers mit den oberen und unteren Grenzen Ubound_k und Lbound_k. Die untere Grenze der nullten Zelle wird als minus unendlich angenommen, während die obere Grenze der letzten Zelle als plus unendlich angenommen wird. Centr_k steht für den Schwerpunkt der k-ten Zelle. Der Zellenindex k bildet das abgehende Codewort nach der Dezimal-Binär-Umsetzung. Jedes Codewort besitzt die gleiche Länge, L = log₂K, d. h., es wird keine Quellencodierung angewendet.
Für die DPCM-Restquantisierung gilt K = 64. Die Schwerpunkte der Quantisiererzellen sind im Anhang zu finden (die Tabellen DCT_x_1_DPCM, x = 1, ..., 12).
Für die PCM-Aktualisierungen (Q_{x, 1}) werden gleichförmige Quantisierer mit einer Bitauflösung von B = 12 Bits pro Abtastwert verwendet. Der Codierungsteil der gleichförmigen Quantisierung umfasst das Verschieben, das Skalieren, das Runden und die Dezimal-Binär-Umsetzung wie folgt,
falls arg{dec2bin(.)} > 2^B – 1, Cod_i = dec2bin{2^B – 1},
sonst, falls arg{dec2bin(.)} < 0, Cod_i = dec2bin{0},
wobei floor(.) für das Runden auf die nächste ganze Zahl in Richtung auf minus unendlich steht. Die entsprechenden Min- und Max-Werte (die Dynamikbereiche) für die Quantisierer Q_{x, 1} sind im Anhang (die Tabellen DCT_MIN bzw. DCT_MAX) zu finden.
Die PCM-Aktualisierungen werden, gesteuert durch die Steuerlogik, in jedem 6. Rahmen (jede 480 ms) anstatt eines DPCM-Restes übertragen.
Die Codierung von DCT_{x, 2, ..., 8}
Die DCT-Koeffizienten DCT_{x, 2, ..., 8} werden ähnlich zu Q_{x, 1} unter Verwendung der pdf-optimierten Quantisierer (Q_{x, 2, ..., 8}) quantisiert. Die ausführlichen Bitzuordnungen sind im Folgenden in der Tabelle 1 gegeben. Es wird angemerkt, dass für x = 1, ..., 12 (x ist der Index des Cepstral-Koeffizienten) die Gesamtzahl der Bits immer gleich 18 ist, die Bitzuordnung ist aber für c1 ein wenig verschieden von der für c₂, ..., c₁₂. Die Schwerpunktwerte der Quantisierer sind im Anhang (die Tabellen DCT_x_y_PCM, x = 1, ..., 12, y = 2, ..., 8) zu finden.
Tabelle 1. Die Bitzuordnung für die Quantisierer Q_{1, ...,12,2, ...,8}
Die Codierung von c₀ und logE
Bei der Komprimierung der Energiemaße, wie sie durch das Vergleichen der 4 und 5 zu sehen ist, werden die Komponente der logarithmischen Energie (logE) und die nullte Cepstral-Komponente (c₀) ähnlich zu den DCT-Koeffizienten DCT_{x, 1} mit periodischen PCM-Aktualisierungen DPCM-codiert. Die PCM-Aktualisierungen werden durch die Steuerlogik gesteuert. Es ist anzumerken, dass die PCM-Aktualisierungen für die Komponenten logE und c₀ zusammen mit denjenigen für DCT_{x, 1} nach jedem 48. Abtastwert (480 ms) auftreten.
Das in 5b dargestellte DPCM-Codierungsschema wird unter Verwendung verschiedener Prädiktor-Koeffizienten und Quantisiererparameter ebenso für die Energiemaße verwendet. Die pfd-optimierten DPCM-Restquantisierer (DPCM_logE und DPCM_c0) besitzen eine 3-Bit-Auflösung. Für die PCM-Aktualisierungen werden gleichförmige Quantisierer (Q_logE und Q_c0) mit 12-Bit-Auflö sung verwendet.
Die Prädiktor-Koeffizienten und die Schwerpunkte der Quantisierer für DPCM_logE und DPCM sind im Anhang (die Variable C0_PRED und LOG_E_PRED enthalten die Prädiktor-Koeffizienten, während die Tabellen C0_DPCM und LOG_E_DPCM die Schwerpunkte der Quantisierer enthalten) zu finden.
Die Minimal- und Maximalwerte (die Dynamikbereiche) für die Quantisierer Q_logE und Q_c0 sind im Anhang (C0_MIN und C0_MAX für c₀ und LOG_E_MIN und LOG_E_MAX für logE) tabelliert.
Die Bitstromformatierung
Als Nächstes wird die bevorzugte Bitstromformatierung beschrieben. Der komprimierte Bitstrom besteht aus Einheiten von 80 ms, wobei jede die Daten für 8 Mel-Cepstral-Vektoren enthält. Im Folgenden wird diese Einheit als ein Rahmen bezeichnet. Es können zwei Typen von Rahmen definiert werden. Ein PCM-Rahmen bedeutet einen Rahmen, der die PCM-Aktualisierungen für die ersten DCT-Koeffizienten und für die Energiemaße enthält. Der Begriff DPCM-Rahmen steht für einen Rahmen, in dem die DPCM-Codierung auf diese Parameter angewendet wird. Weil die Bitstromformatierung das Hinzufügen eines Zusatzaufwandes zum Bitstrom mit sich bringt, ist es vorteilhaft, mehrere Rahmen in einem Mehrfachrahmen zu kombinieren. Ein Mehrfachrahmen besteht aus einem PCM-Rahmen und fünf DPCM-Rahmen (die 480 ms der Sprache überspannen). Der letzte übertragene Mehrfachrahmen kann jedoch aus 1 ... 6 derartiger Einheiten bestehen, die 80 ... 480 ms der Sprache überspannen. Ein Mehrfachrahmen stellt die Grundeinheit für die Synchronisation dar, während ein Rahmen die Grundeinheit für die Codierung und Decodierung ist.
Die Formatkonventionen
Die in dieser Beschreibung verwendeten Konventionen für die Nummerierung, die Feldabbildung und die Bitübertragung sind im Folgenden definiert. Hier bezeichnet ein Feld verschiedene Teile eines Mehrfachrahmens, wie z. B. den Synchronisationsmerker, den Mehrfachrahmen-Merker, das Informationsfeld (die Daten vom PCM- und/oder den DPCM-Rahmen) und einen zyklischen Redundanzcode (CRC).
Die Nummerierungskonvention
Die elementare Nummerierungskonvention ist in der Tabelle 2 veranschaulicht. Die Bits in jedem Feld sind in Oktetts gruppiert. Die Bits eines Oktetts sind horizontal gezeigt und von 1 bis 8 nummeriert. Mehrere Oktetts sind vertikal gezeigt und von 1 bis n nummeriert.
Tabelle 2. Die Nummerierungskonvention
Die Reihenfolge der Bitübertragung
Die Oktetts werden in aufsteigender numerischer Reihenfolge übertragen; innerhalb eines Oktetts ist das Bit 1 das zuerst zu übertragende Bit.
Die Konvention der Feldabbildung
Wenn ein Feld in einem einzelnen Oktett enthalten ist, stellt das niedrigstwertige Bit des Feldes den niedrigstwertigen Wert (oder das niedrigstwertige Bit) dar.
Wenn sich ein Feld über mehr als ein Oktett überspannt, stellt das höchstwertige Bit des ersten Oktetts den höchstwertigen Wert dar, während das niedrigstwertige Bit des letzten Oktetts den niedrigstwertigen Wert darstellt.
Eine Ausnahme von der vorangehenden Konvention für die Feldabbildung ist das Feld für den zyklischen Redundanzcode (CRC-Feld). In diesem Fall ist das niedrigstwertige Bit des Oktetts der höchstwertige Term des Polynoms, das das CRC-Feld darstellt.
Die Rahmenbildung
Alle Mehrfachrahmen werden unter Verwendung von Pseudorausch-Merkern (PN-Merkern) begrenzt.
Die Merker
Allen Mehrfachrahmen mit Ausnahme des zuletzt übertragenen Mehrfachrahmens geht ein 32-Bit-Synchronisationsmerker voraus und folgt ein 32-Bit-Synchronisationsmerker, die aus dem folgenden eindeutigen Bitmuster bestehen:
Tabelle 4. Der 32-Bit-Synchronisationsmerker
Der einem Mehrfachrahmen vorangehenden Merker ist als der Anfangsmerker definiert. Der einem Mehrfachrahmen folgende Merker ist als der Endmerker definiert. Der Endmerker eines Mehrfachrahmens kann außerdem als der Anfangsmerker des nächsten Mehrfachrahmens dienen. Alle Empfänger, die diesen Zugang verwenden, sollten jedoch für den Empfang von mehr als einen aufeinander folgenden Merker angepasst sein, da der Merker wiederholt vom Sender zum Empfänger gesendet werden kann.
Dem letzten übertragenen Mehrfachrahmen folgt ein inverser 32-Bit-Merker, indem alle Bits des 32-Bit-Synchronisationsmerkers invertiert sind. Alle Empfänger, die diesen Zugang verwenden, sollten jedoch für den Empfang des inversen Merkers am Ende jedes Mehrfachrahmens angepasst sein. Der inverse Merker markiert das Ende der Merkmalsübertragung.
Die Merkererfassung
Die Erfassung des Anfangs eines Mehrfachrahmens (oder des Endes der Übertragung) kann durch die Korrelation des ankommenden Bitstroms mit dem Synchronisationsmerker (oder mit dem inversen Merker) ausgeführt werden. Die Ausgabe des Korrelators kann mit einem Korrelationsschwellenwert (CT) verglichen werden. Wann immer die Ausgabe gleich dem oder größer als der Schwellenwert ist, sollte der Empfänger entscheiden, dass ein Merker erfasst worden ist.
Das Mehrfachrahmen-Format
Alle Mehrfachrahmen entsprechen dem in der Tabelle 5 gezeigten Format.
Tabelle 5. Das Mehrfachrahmen-Format
Der Kopf
Das Format des Kopfes entspricht dem in der Tabelle 6 gezeigten Format. Tabelle 6. Das Format des Kopffeldes eines Mehrfachrahmens

CO: c₀-Merker,
LOGE: logE-Merker,
SRATE: Abtastraten-Feld,
MODE: Betriebsart-Feld,
EIF: Merker für zusätzliche Informationen,
EI: Feld für zusätzliche Informationen (n = 0, 1, 2, ...)

Der Mehrfachrahmen-Zähler
Der 8-Bit-Mehrfachrahmen-Zähler gibt jedem Mehrfachrahmen einen Modulo-256-Index. Der Zählerwert für den ersten Mehrfachrahmen ist "1". Der Mehrfachrahmen-Zähler wird nach der Übertragung jedes Mehrfachrahmens um eins inkrementiert.
Der c₀-Merker (CO)
Der 1-Bit-CO-Merker spezifiziert, ob der Mehrfachrahmen die c₀-Parameterbits enthält. Falls das Bit auf den Wert "1" gesetzt ist, enthält der Mehrfachrahmen die c₀-Parameterbits, während, falls das Bit auf den Wert "0" gesetzt ist, die c₀-Bits nicht enthalten sind.
Der logE-Merker (LOGE)
Der 1-Bit-LOGE-Merker definiert, ob der Mehrfachrahmen die logE-Parameterbits enthält. Falls das Bit auf den Wert "1" gesetzt ist, enthält der Mehrfachrahmen die logE-Parameterbits, während, falls das Bit auf den Wert "0" gesetzt ist, die logE-Bits nicht enthalten sind.
Das Abtastraten-Feld (SRATE-Feld)
Das 2-Bit-SRATE-Feld definiert die Abtastrate, die den Merkmalsparameterbits zugeordnet ist. Die Bitkombinationen sind den verfügbaren Abtastraten zugeordnet, wie in der Tabelle 7 gezeigt ist.
Tabelle 7. Das Format des Abtastraten-Feldes
Das Betriebsart-Feld (MODE-Feld)
Das 3-Bit-MODE-Feld zeigt die Betriebsart des Merkmalsparameterstroms an. Die vorgegebene Betriebsart ist "alles Nullen". Die anderen Betriebsarten sind für die künftige Verwendung reserviert.
Der Merker für zusätzliche Informationen (EIF)
Der 1-Bit-EIF-Merker ermöglicht die Ergänzung zusätzlicher Informationen (EI) zum Kopffeld in einer rückwärts kompatiblen Weise. Falls der Merker auf "1" gesetzt ist, enthalten die folgenden 7 Bits EI für den Mehrfachrahmen. Den 7 Bits folgt ein neuer EIF mit der gleichen Interpretation. Falls der EIF auf "0" gesetzt ist (der vorgegebene Wert), enthält der Mehrfachrahmen keine zusätzlichen Informationen. Ein entsprechender Decodierer akzeptiert eine unbegrenzte Menge von EI. Dem Decodierer ist es jedoch erlaubt, die EI zu ignorieren.
Das Informationsfeld
Das Informationsfeld enthält die tatsächlichen Merkmalsparameterbits. Es ist in 1 ... 6 Rahmen unterteilt, wobei jeder die Merkmalsparameter von 80 ms der Eingangssprache enthält. Normalerweise besteht das Informationsfeld aus 6 Rahmen. Das Informationsfeld des letzten übertragenen Mehrfachrahmens kann jedoch aus 1 ... 6 Rahmen bestehen. Das Format des Feldes entspricht dem in der Tabelle 8 gezeigten Format.
Tabelle 8. Das Format des Datenfeldes
Die Längen der Felder (die Bits der Rahmen) innerhalb des Informationsfeldes hängen von den Werten der C0- und LOGE-Merker ab. Die Felder werden in aufsteigender numerischer Reihenfolge übertragen. Das Datenfeld wird mit einer Anzahl von Null-Bits aufgefüllt, um die Oktett-Ausrichtung auf den Mehrfachrahmen bereitstellen. Die Tabelle 8 zeigt, wie die Anzahl der Bits für das Auffüllen mit Nullen von den C0- und LOGE-Merkern abhängt. In dem Fall eines Mehrfachrahmens, der kürzer als 6 Rahmen ist, ist die Anzahl der Bits für das Auffüllen mit Nullen die gleiche wie für den Mehrfachrahmen mit 6 Rahmen.
Die Grenzen zwischen den Feldern (den Rahmen 1–6) des Informationsfeldes sind nicht auf die Oktett-Grenzen ausgerichtet. Deshalb sind die Längen der Felder als die Anzahl der Bits anstatt der Oktetts spezifiziert. Das vollständige Informationsfeld ist jedoch oktett-ausgerichtet. Die Inhalte der Rahmen sind in den Tabellen 9 und 10 ausführlich beschrieben. Tabelle 9. Die Parameterzuordnung für den Rahmen 1

1): Dieses Feld ist optional. Es ist enthalten, wenn der c₀-Merker den Wert "1" besitzt.
2): Dieses Feld ist optional. Es ist enthalten, wenn der logE-Merker den Wert "1" besitzt.
3): Die ausführliche Bitzuordnung ist in der Tabelle 2 zu finden.

Die Felder innerhalb der Tabelle 9 werden entsprechend dem Feldindex in aufsteigender Reihenfolge übertragen; innerhalb eines Feldes werden die Parameter entsprechend ihrer Unterindizes in aufsteigender Reihenfolge übertragen. Innerhalb eines Parameters wird das niedrigstwertige Bit zuerst übertragen. Das Format der Rahmen 2–6 Tabelle 10. Die Parameterzuordnung für die Rahmen 2–6

Die Felder innerhalb der Tabelle 10 werden entsprechend dem Feldindex in aufsteigender Reihenfolge übertragen; innerhalb eines Feldes werden die Parameter entsprechend ihrer Unterindizes in aufsteigender Reihenfolge übertragen. Innerhalb eines Parameters wird das niedrigstwertige Bit zuerst übertragen.
Das CRC-Feld
Der 8-Bit-CRC schafft eine Fehlererfassungsfähigkeit über den ganzen Mehrfachrahmen.
Das 8-Bit-CRC-Feld enthält den Rest der Division (Modulo 2) des Produkts aus x⁸, multipliziert mit den Inhalten des Mehrfachrahmens, mit Ausnahme des CRC-Feldes, durch das Generatorpolynom p(x) = x⁸ + x² + x + 1. Das die Inhalte des Mehrfachrahmens darstellende Polynom wird unter Verwendung des Bits Nummer 1 (EIF) des ersten Oktetts (des Kopfes) als den Koeffizienten für den Term höchster Ordnung erzeugt.
Als eine typische Implementierung im Sender sind die Anfangsinhalte des Registers der Vorrichtung, die den Rest der Division berechnet, auf alles 0en voreingestellt, wobei sie dann durch die Division der Inhalte des Mehrfachrahmens, wobei die Bits im CRC-Feld nicht enthalten sind, durch das Generatorpolynom (wie es oben beschrieben worden ist) modifiziert werden; der resultierende Rest wird als der 8-Bit-CRC übertragen. Der Koeffizient des Terms höchster Ordnung des Restpolynoms entspricht dem Bit Nummer 1 des CRC-Feldes. Die Empfänger sollten jeden Mehrfachrahmen verwerfen, dessen CRC-Feld durch die Fehlerüberprüfung fällt.
Die Bitrate des Komprimierungsalgorithmus
Wenn der Merkmalsstrom mit dem Zusatzaufwand des Synchronisationsmer kers, des Kopfes und des CRC-Feldes kombiniert wird, ergeben sich die in der Tabelle 11 angegebenen Bitraten für den vollständigen Merkmalskomprimierungsalgorithmus. In dieser Berechnung wird angenommen, dass das Feld für zusätzliche Informationen (EI) leer ist.
Tabelle 11. Die Bitraten des Komprimierungsalgorithmus
Die Dekomprimierung der Merkmalsvektroren
Der Decodierungsprozess auf der Empfängerseite umfasst die inversen Operationen des Codierens in umgekehrter Reihenfolge. 6 zeigt die hauptsächlichen funktionalen Blöcke des Decodierers. Für die Cepstral-Koeffizienten c₁, ..., c₁₂ wird die Dekomprimierung der Cepstral-Koeffizienten angewendet, für die Energiemaße wird entweder die PCM- oder DPCM-Decodierung ausgeführt. Es sollte angemerkt werden, dass das Suffix * die decodierten Signale (oder die Signale auf der Empfängerseite) bezeichnet.
Das Decodieren von DCT_{x, 1}
Die demultiplexierten Codewörter werden abhängig vom DPCM/PCM-Schalter unter Verwendung entweder der DPCM-Decodierung (DPCM_x ^–1) oder der PCM-Dequantisierung (des Decodierungsteils der Quantisierung, Q_{x, 1} ^–1), auf Gleitkomma-Abtastwerte (DCT_{x, 1} ^*) abgebildet.
Die Einzelheiten der DPCM-Decodierung sind in 7b gezeigt. Die Ausgabe wird als eine Summe des dequantisierten Restes plus die Vorhersage vom letzten Ausgabewert erzeugt. Die Prädiktor-Koeffizienten k_x sind im Anhang (die Tabelle DCT_PRED) zu finden. Der Decodierungsteil der Quantisierung kann als ein Nachschlagen in Tabellen entsprechend der ankommenden Tabellenindizes betrachtet werden. Jeder zu Cell_k gehörende codierte Abtastwert wird durch den Schwerpunktwert der Zelle dargestellt. Die Schwerpunkte der Quantisiererzellen sind im Anhang (die Tabellen DCT_x_1_DPCM, x = 1, ..., 12) zu finden.
Der Decodierungsteil der gleichförmigen Quantisierung (Q_{x, 1} ^–1) umfasst die Binär-Dezimal-Umsetzung, das Verschieben der Zelle zum Mittelpunkt, das Skalieren und das Verschieben:
wobei Cod_i und Out_i für das Eingangscodewort bzw. den Ausgangsdarstellungspegel zum Zeitpunkt t_i stehen. Die Min- und Max-Werte sind im Anhang (die Tabellen DCT MIN bzw. DCT_MAX) tabelliert.
Das Decodieren von DCT_{x, 1}
Das Decodieren der DCT-Koeffizienten DCT_{x, 2, ...,
8} g auf der Empfängerseite ist ähnlich zu Q_{x, 1} ^–1 ein Nachschlagen in Tabellen für die Schwerpunktwerte. Die Schwerpunktwerte der Quantisierer sind im Anhang (die Tabellen DCT_x_y_PCM, x = 1, ..., 12, y = 2, ..., 8) zu finden.
Die inverse Transformation
Die decodierten DCT-Koeffizienten DCT_{x, 1, ..., 8}werden invers DCT-transformiert (IDCT), wobei das Ergebnis in einem Puffer (Puff.) gespeichert wird,
wobei c_x,i ^* der Cepstral-Koeffizient c_x ^* auf der Empfängerseite zum Zeitpunkt t_i ist, während (DCT_x,y)_i ^* der y-te DCT-Koeffizient des Cepstral-Koeffizienten c_x ^* auf der Empfängerseite zum Zeitpunkt t_i ist. Die Elemente der ICDT-Transformationsmatrix T^–1 werden entsprechend der folgenden Gleichung berechnet,

k und n stehen für die Zeilennummer bzw. die Spaltennummer, k, n = 0, ..., 7.
Das synchronisierte Lesen aus dem Puffer sichert, dass ein Abtastwert aus dem Ausgangspuffer ausgelesen wird, wenn ein neues logE^*/c₀ ^*-Paar ankommt. Der oberste Abtastwert c_x,i ^* wird zuerst gewesen.
Das Decodieren von logE^* und c₀ ^*
Der nullte Cepstral-Koeffizient und die Komponente der logarithmischen Energie auf der Empfängerseite (c₀ ^* bzw. logE^*) werden ähnlich zum Decodieren von DCT_{x, 1} ^* abhängig vom DPCM/PCM-Schalter unter Verwendung entweder der DPCM-Decodierung oder der PCM-Dequantisierung rekonstruiert. Die entsprechenden Prädiktor-Koeffizienten und Schwerpunkte der Quantisierer sind im Anhang (die Tabellen C0_PRED und LOG_E_PRED enthalten die Prädiktor-Koeffizienten und die Tabellen C0_DPCM und LOG_E_DPCM enthalten die Schwerpunkte der Quantisierer) zu finden.
Die algorithmischen Verzögerungen und die Synchronisationsverzögerungen
Wie vorausgehend erwähnt worden ist, können die Merkmalsvektoren auf einer Grundlage von Rahmen codiert und decodiert werden. Wird ein Merkmalsvektor alle 10 ms angenommen, wird die algorithmische Verzögerung des Komprimierungsschemas 8*10 = 80 ms. Die Mehrfachrahmen können als Grundeinheiten für die Synchronisation betrachtet werden. Falls in der Übertragungskette ein nicht wiedergutzumachender Fehler auftritt, kann sich das System innerhalb von 6*80 = 480 ms resynchronisieren. In einer praktischen Situation werden die Merkmalsvektoren rahmenweise decodiert und verwendet. Falls auf einer Mehrfachrahmen-Ebene ein Übertragungsfehler erfasst wird, benachrichtigt das System den BE am Ende eines Mehrfachrahmens, dass einige der letzten Merkmalsvektoren fehlerhaft sind. Die Fehlerbehandlungsprozedur hängt vom BE ab.
Die Bitraten
Die Gesamtbitrate des Komprimierungsalgorithmus kann wie folgt berechnet werden. Ein Mehrfachrahmen besteht aus sechs Rahmen, einem PCM-Rahmen und fünf DPCM-Rahmen. In einem PCM-Rahmen werden 12 _ 12 Bits für die PCM-Aktualisierung der ersten DCT-Koeffizienten (DCT_{x, 1}) der Cepstral-Koeffizienten c1, ..., c₁₂ verwendet. Um den Rest der DCT-Koeffizienten (DCT_{x, 2, ...,
8}) zu codieren, werden 12 _ 18 Bits benötigt. c₀ benötigt 12 Bits für die PCM-Aktualisierung und 7 _ 3 Bits für die DPCM-Codierung der verbleibenden sieben Werte im Block. Dasselbe gilt für logE. In den DPCM-Rahmen werden 12 _ 6 Bits für DCT_{x, 1}, 12 _ 18 Bits für DCT_{x, 2, ..., 8}, 8 _ 3 Bits für c₀ und 8 _ 3 Bits für logE verwendet. Die Gesamtmenge der Bits in einem Mehrfachrahmen beträgt dann 12 _ 12 + 12 _ 18 + 12 + 7 _ 3 + 12 + 7 _ 3 + 5 _(12 _ 6 + 12 _ 18 + 8 _ 3 + 8 _ 3) = 2106 Bits. Die Länge eines Mehrfachrahmens beträgt 480 ms. Dies entspricht einer Bitrate von 4387,5 bit/s. Falls nur eines der Energiemaße übertragen wird, beträgt die Gesamtbitrate 4068,75 bit/s. In der bevorzugten Ausführungsform betragen die Bitraten zusammen mit dem Rahmenbildungs-Zusatzaufwand 4517 bzw. 4200 bit/s.
Die Speicheranforderung
Die Speicheranforderung des Algorithmus kann als der Speicher approximiert werden, der für das Speichern der Quantisierertabellen notwendig ist. Die für die PCM-Aktualisierungen verwendeten gleichförmigen Quantisierer benötigen keine umfassenden Quantisierertabellen, es werden nur die Minimal- und Maximalwerte gespeichert, d. h., es werden (12 + 2) _ 2 _ 4 Bytes benötigt. Für die DPCM-Restquantisierung der ersten DCT-Koeffizienten sind 12 _ 64 _ 4 Bytes erforderlich. Der Rest der DCT-Koeffizienten erfordert (32 + 8 + 8+ 4 + 4 + 4 + 2) _ 4 Bytes (für c₁) und 11 _ (16 + 8 + 8 + 4 + 4 + 4 + 4) _ 4 Bytes (für c₂, ..., c₁₂). Die DPCM-Restquantisierung von c₀ und logE erfordert 2 _ 8 _ 4 Bytes. Die Gesamtmenge beträgt 5608 Bytes.
Die vorliegende Erfindung kann in anderen spezifischen Formen verkörpert sein, ohne von ihren wesentlichen Merkmalen abzuweichen. Demzufolge sollte anstatt auf die vorangehende Beschreibung auf die beigefügten Ansprüche und andere allgemeine Erklärungen hierin als den Umfang der Erfindung angebend Bezug genommen werden.
Außerdem kann jedes in dieser Beschreibung (wobei dieser Begriff die Ansprüche enthält) offenbarte und/oder in der Zeichnung gezeigte Merkmal unabhängig von anderen offenbarten und/oder veranschaulichten Merkmalen in die Erfindung aufgenommen sein. In dieser Hinsicht enthält die Erfindung jedes neuartige Merkmal oder jede Kombination der Merkmale, hierin offenbart sind, entweder explizit oder jede Verallgemeinerung davon, ohne Rücksicht darauf, ob es sich auf die beanspruchte Erfindung bezieht oder irgendeines oder alle der angesprochenen Probleme lindert.
ANHANG 1

Claims

Verfahren zum Komprimieren von Cepstral-Parametern einer Sprachsignalform zum Senden und/oder Speichern, das umfasst: Transformationscodieren einer ersten Menge ausgewählter der Cepstral-Parameter, um mehrere Transformationskoeffizienten bereitzustellen, und Differenzpulscodemodulieren wenigstens eines der mehreren Transformationskoeffizienten.
Verfahren nach Anspruch 1, das umfasst: Pulscodemodulieren eines oder mehrerer der verbleibenden der mehreren Transformationskoeffizienten.
Verfahren nach Anspruch 1 oder Anspruch 2, das umfasst: Differenzpulscodemodulieren einer zweiten Menge ausgewählter merkmalsextrahierter Parametern.
Verfahren nach Anspruch 1 oder Anspruch 2 oder Anspruch 3, das umfasst: Bereitstellen von Aktualisierungen periodischer Pulscodemodulationen für die Differenzpulscodemodulations-Codierung.
Verfahren nach einem vorhergehenden Anspruch, bei dem die erste Menge ausgewählter der Cepstral-Parameter Mel-Frequenz-Cepstralkoeffizienten umfasst.
Verfahren nach einem vorhergehenden Anspruch, bei dem eine zweite Menge der merkmalsextrahierten Parameter Energiemaße umfasst.
Verfahren nach einem vorhergehenden Anspruch, das ein skalares Quantisieren der verbleibenden Transformationskoeffizienten umfasst.
Verfahren nach einem vorhergehenden Anspruch, bei dem die Differenzpulscodemodulation ein skalares und/oder ein vektorielles Quantisieren umfasst.
Verfahren nach einem vorhergehenden Anspruch, das das Puffern der merkmalsextrahierten Parameter in einem Vorverarbeitungsschritt umfast.
Verfahren nach einem vorhergehenden Anspruch, bei dem die Transfor mationscodierung die Codierung mittels der diskreten Kosinustransformation umfasst.
Verfahren nach einem vorhergehenden Anspruch, bei dem die Differenzpulscodemodulation mit der Wahrscheinlichkeitsdichtefunktion optimierte Quantisierer umfasst.
Verfahren nach Anspruch 11, bei dem die Quantisierer und die Prädiktoren getrennt oder gemeinsam optimiert werden.
Vorrichtung zum Komprimieren von Cepstral-Parametern einer Sprachsignalform zum Senden und/oder Speichern, die umfasst: einen Transformationscodierer für die Transformationscodierung einer ersten Menge ausgewählter der Cepstral-Parameter, um mehrere Transformationskoeffizienten bereitzustellen, und einen Differenzpulscodemodulator für eine Differenzpulscodemodulation wenigstens eines der mehreren Transformationskoeffizienten.
Vorrichtung nach Anspruch 13, die einen Pulscodemodulator für die Pulscodemodulation eines oder mehrerer der verbleibenden der mehreren Transformationskoeffizienten umfasst.
Vorrichtung nach Anspruch 13 oder 14, die einen Differenzpulscodemodulator für die Differenzpulscodemodulation einer zweiten Menge ausgewählter merkmalsextrahierter Parametern umfasst.
Vorrichtung nach Anspruch 13 oder Anspruch 14 oder Anspruch 15, die einen Modulator für einen periodischen Pulscode umfasst, der Aktualisierungen periodischer Pulscodemodulationen für die Differenzpulscodemodulation-Codierung bereitstellt.
Vorrichtung nach einem der Ansprüche 13 bis 16, bei der die erste Menge ausgewählter der Cepstral-Parameter Mel-Frequenz-Cepstralkoeffizienten umfasst.
Vorrichtung nach einem der Ansprüche 13 bis 17, bei der eine zweite Menge der merkmalsextrahierten Parameter Energiemaße umfasst.
Vorrichtung nach einem der Ansprüche 13 bis 18, die ein skalares Quantisieren der verbleibenden Transformationskoeffizienten umfasst.
Vorrichtung nach einem der Ansprüche 13 bis 19, bei der der Differenzpulscodemodulator ein skalares und/oder ein vektorielles Quantisieren verwendet.
Vorrichtung nach einem der Ansprüche 13 bis 20, die einen Puffer zum Speichern der merkmalsextrahierten Parameter in einem Vorverarbeitungsschritt umfasst.
Vorrichtung nach einem der Ansprüche 13 bis 21, bei der der Transformationscodierer einen die diskrete Kosinustransformation verwendenden Codierer umfasst.
Vorrichtung nach einem der Ansprüche 13 bis 22, bei der die Differenzpulscodemodulation mit der Wahrscheinlichkeitsdichtefunktion optimierte Quantisierer enthält.
Vorrichtung nach Anspruch 23, bei der die Quantisierer und Prädiktoren getrennt oder gemeinsam optimiert sind.
Tragbare Funkkommunikationsvorrichtung, die eine Vorrichtung nach einem der Ansprüche 13 bis 24 umfasst.
Spracherkennungssystem für ein Funkkommunikationssystem, das eine in einem Funknetz arbeitende Mobilstation enthält, wobei das System umfasst: ein Vorrechner-Cepstral-Mittel, das in der Mobilstation angeordnet ist, und ein Nachrechner-Erkennungsmittel, das dem Netz zugeordnet ist, und Kompressionsmittel, die Cepstral-Parameter einer Sprachsignalform codieren, wobei die Kompressionsmittel einen Transformationscodierer zum Transformationscodieren einer ersten Menge ausgewählter der Cepstral-Parameter, um mehrere Transformationskoeffizienten bereitzustellen, und einen Differenzpulscodemodulator für eine Differenzpulscodemodulation wenigstens eines der mehreren Transformationskoeffizienten umfassen.
Verfahren zum Dekomprimieren komprimierter Cepstral-Parameter einer Sprachsignalform, das umfasst: inverses Differenzpulscodemodulieren wenigstens eines von mehreren differenzpulscodemodulierten Transformationskoeffizienten, um Transformationskoeffizienten bereitzustellen, und inverses Transformationscodieren der Transformationskoeffizienten.
Verfahren nach Anspruch 27, das umfasst: inverses Pulscodemodulieren eines oder mehrerer der mehreren pulscodemodulierten Transformationskoeffizienten, um die verbleibenden Transformationskoeffizienten bereitzustellen.
Verfahren nach Anspruch 27 oder Anspruch 28, das umfasst: inverses Differenzpulscodemodulieren wenigstens eines von mehreren differenzpulscodemodulierten Signalen, um eine zweite Menge decodierter merkmalsextrahierter Parameter bereitzustellen.