DE60210766T2

DE60210766T2 - Adpcm sprachkodiersystem mit phasenfaltungs und -entfaltungsfiltern

Info

Publication number: DE60210766T2
Application number: DE60210766T
Authority: DE
Inventors: F. Ercan GIGI
Original assignee: Koninklijke Philips Electronics NV
Current assignee: NXP BV
Priority date: 2001-04-09
Filing date: 2002-03-27
Publication date: 2007-02-08
Anticipated expiration: 2022-03-28
Also published as: ATE323935T1; CN1461469A; ES2261637T3; EP1395982B1; US20020173949A1; DE60210766D1; EP1395982A1; JP2004519736A; CN1221941C; WO2002082426A1; KR20030009517A

Description

Die vorliegende Erfindung bezieht sich auf ein Sprachcodiersystem mit einem Sprachcodierer und einem Sprachdecodierer, der mit dem genannten Sprachcodierer zusammenarbeitet, wobei der Sprachcodierer einen Vorprozessor und einen ADPCM-Codierer (adaptive Delta-Pulscodemodulation, engl. adaptive differential pulse code modulation, ADPCM) mit einem Quantisierer und Schrittweitenanpassungsmitteln umfasst und wobei der Sprachdecodierer einen ADPCM-Decodierer mit den gleichen Schrittweitenanpassungsmitteln wie in dem ADPCM-Codierer und einen Nachprozessor umfasst.
Es wurde beobachtet, dass Sprachaufzeichnungen nahe dem Mikrofon die Auswirkungen der Raumakustik auf ein Sprachsignal reduzieren oder entfernen, indem der Abstand der Sprachquelle (des Mundes) zum Mikrofon, beispielsweise in einem Handapparat eines Telefons, minimiert wird. Wenn diese Sprachsignale in dem Codierer eines Standard-P²CM-Audiocodiersystem, beispielsweise einem ADPCM-Codierer mit Vorprozessor, verarbeitet werden, treten Probleme in Bezug auf die Wiedergabe der impulsartigen Beschaffenheit der Sprachaufzeichnung nahe am Mikrofon verglichen mit der Aufzeichnung aus größerer Entfernung auf. Ein ADPCM-Codierer verfügt über einen Quantisierer, in dem dessen Eingangssignal, d. h. die Differenz zwischen einem abgetasteten Audioeingangssignal und einem entsprechenden vorhergesagten quantisierten Wert, mit einer Schrittweite quantisiert wird, die an das Eingangssignal des Quantisierers angepasst wird. In impulsartigen Bereichen bei der Sprachaufzeichnung nahe dem Mikrofon kann das Eingangssignal für den Quantisierer im ADPCM-Codierer zu hoch oder zu schnell für den Quantisierer sein, so dass dieser seine Schrittweite nicht anpassen kann. Der Nachhall im Raum faltet die Energie des Sprachsignals über die Zeit und ermöglicht so eine langsamerer Anpassung der Schrittweite.
Zur Verbesserung der Leistung des P²CM-Audiocodiersystems für impulsartige Signale muss das Eingangssignal des ADPCM-Codierers daher so verarbeitet werden, dass das Eingangssignal für den Quantisierer keine schnellen Energiezunahmen über kurze Zeitrahmen aufweist. Die Ausgabe des Sprachdecodierers sollte jedoch wie das Original ohne jegliche Artefakte klingen. Somit ist die Option der Simulation der Raumwirkung zur Erzeugung einer Version der Originalaufzeichnung mit Abstand und der Anwendung der Codierung auf dieses Signal nicht ausreichend.
Der Erfindung liegt die Aufgabe zugrunde, das oben genannte Problem abzuschwächen und ein Sprachcodiersystem mit verbesserter Aufzeichnung und Wiedergabe insbesondere für impulsartige Sprachsignale zu schaffen.
Erfindungsgemäß ist das Sprachcodiersystem, wie es eingangs beschrieben wurde, dadurch gekennzeichnet, dass der Vorprozessor mit Phasenfaltungsfiltermitteln versehen ist, die die Auswirkung von hohen bzw. schnellen Energieänderungen am Eingang des Quantisierers glätten, und dass der Nachprozessor mit Filtermitteln versehen ist, die den genannten Phasenfaltungsfiltermitteln entgegenwirken.
Die Phasenfaltungsfilterung kann zwar im Zeitbereich erfolgen, es wird jedoch vorgezogen, diese Filterung, falls der Vor- und der Nachprozessor mit Mitteln zum Verzerren der spektralen Amplitude bzw. Mitteln zum Rückgängigmachen des Effekts einer derartigen Verzerrung versehen sind, im Frequenzbereich durchzuführen, da die genannten Verzerr- und Entzerrmittel im Frequenzbereich funktionieren. Daher werden insbesondere die Phasenfaltung und die Verzerrung wie auch die inverse Phasenfaltung und Entzerrung in demselben Verarbeitungsblock durchgeführt. Da die Phasenfaltung ein linearer Prozess ist, während die Verzerrung der spektralen Amplitude ein nicht linearer Prozess ist, werden beide Prozesse nicht zusammen sondern einer nach dem anderen im Frequenzbereich ausgeführt; die gefilterten Signale werden einer Verzerrung unterzogen. Die Verzerrung der spektralen Amplitude ist an sich bekannt, siehe „Spectral Amplitude Warping (SAW) for Noise Spectrum Shaping in Audio Coding" von R. Lefebre, C. Laflamme, erschienen 1997 in ICASSP, Band 1, auf den Seiten 335–338.
Diese und weitere Aspekte der Erfindung sind in den Zeichnungen dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
1 ein Blockschaltbild eines P²CM-Codiersystems mit Mitteln für die Vor- und Nachbearbeitung einschließlich Phasenfaltungsfiltermitteln bzw. inversen Phasenfaltungsfiltermitteln, die im Zeitbereich funktionieren;
2A, 2B Blockschaltbilder eines ADPCM-Codierers bzw. eines ADPCM-Decodierers;
3A–3D verschiedene Kennlinien eines ersten Ausführungsbeispiels für einen Phasenfaltungsfilter;
4A–4D verschiedene Kennlinien eines zweiten Ausführungsbeispiels für einen Phasenfaltungsfilter;
5 ein Blockschaltbild eines Vor-/Nachprozessors für einen P²CM-Audiocodierer und -decodierer, bei dem die Phasenfaltung im Frequenzbereich funktioniert; und
6 die Rahmenbildung und Fensterung im Vorprozessor.
Das P²CM-Audiocodiersystem aus 1 besteht aus einem Codierer 1 und einem Decodierer 2. Der Codierer 1 umfasst einen Vorprozessor 3 und einen ADPCM-Codierer 4, während der Decodierer 2 einen ADPCM-Decodierer 5 und einen Nachprozessor 6 umfasst. Der ADPCM-Codierer 4 ist in 2A und der ADPCM-Decodierer 5 ist in 2B dargestellt.
Als Beispiel wird in dem P²CM-Audiocodierer 1 ein PCM-Eingangssignal in Rahmen (Frames) von beispielsweise 10 ms unterteilt. Bei einer Abtastfrequenz von beispielsweise 8 kHz besteht ein Rahmen aus 80 Abtastwerten. Jeder Abtastwert wird beispielsweise durch 16 Bits dargestellt. Dieses Eingangssignal wird dem Vorprozessor 3 zugeführt, während das als Reaktion hierauf erhaltene Ausgangssignal dem ADPCM-Codierer 4 zugeführt wird. Ein weiteres Eingangssignal für den ADPCM-Codierer 4 wird aus einem Codec-Modussignal CMS gebildet, das die Bitzuordnung für die Codewörter im Bitstromausgang des ADPCM-Codierers 4 bestimmt. Der ADPCM-Codierer 4 erzeugt ein Codewort für jeden Abtastwert in dem vorverarbeiteten Signalrahmen. Die Codewörter werden dann in Rahmen von in dem vorliegenden Beispiel 80 Codes gepackt. In Abhängigkeit von dem gewählten Codec-Modus hat der resultierende Bitstrom eine Bitrate von beispielsweise 11,2, 12,8, 16, 19,2, 21,6, 24 oder 32 KBits/s.
In dem P²CM-Audiodecodierer 2 wird das Eingangssignal des ADPCM-Decodierers 5 aus einem Bitstrom aus Coderahmen und dem Codec-Modus gebildet. In dem vorliegenden Beispiel bestehen die Coderahmen aus 80 Codes, die von dem ADPCM-Decodierer 5 decodiert werden, um einen PCM-Ausgangsrahmen von 80 Abtastwerten zu bilden, die im Nachprozessor 6 nachbearbeitet werden.
Im Vorprozessor 3 werden die Signalkennlinien so verändert, dass das resultierende Signal besser für die Codierung geeignet ist. Durch die Vorverarbeitung wird das Signalspektrum vor der Codierung verändert. Daher kann eine nichtlineare Transformation, beispielsweise eine Quadratwurzeltransformation, auf die spektralen Amplituden angewendet werden. Durch eine derartige, als „Verzerrung der spektralen Amplitude" bezeichnete Transformation werden relativ kleine spektrale Amplituden in Bezug auf relativ große spektrale Amplituden erhöht, damit ein Großteil von ihnen oberhalb des im ADPCM-Codierer 4 entstehenden Quantisierungsrauschens bleibt. Damit das Signalspektrum auf diese Art verändert werden kann, umfasst der Vorprozessor 3 eine Verarbeitungsvorrichtung 7 mit einer Zeit-Frequenz-Transformationseinheit, die die Rahmen von Abtastwerten von Audiosignalen im Zeitbereich in den Frequenzbereich transformiert, Mittel zum Verzerren der spektralen Amplitude, und eine Frequenz-Zeit-Transformationseinheit, die die verzerrten Audiosignale vom Frequenzbereich in den Zeitbereich transformiert. Diese Transformation ist auf der P²CM-Audiodecodiererseite reversibel, ohne dass zusätzliche Bits gesendet werden müssen. Daher umfasst der Nachprozessor 6 Verarbeitungsmittel 8 mit einer Zeit-Frequenz-Transformationseinheit, die die Rahmen von Abtastwerten von Audiosignalen im Zeitbereich in den Frequenzbereich transformiert, Mittel, die den Effekt der im Vorprozessor auf der Codiererseite durchgeführten Verzerrung der spektralen Amplitude rückgängig machen, und eine Frequenz-Zeit-Transformationseinheit, die die entzerrten Audiosignale vom Frequenzbereich in den Zeitbereich transformiert.
Der in 2A dargestellte ADPCM-Codierer 4 umfasst einen Quantisiererblock 9, einen Schrittweiten-Anpassungsblock 10, einen Decodiererblock 11 und einen Prädiktorblock 12. Das Eingangssignal für den ADPCM-Codierer 4 ist ein abgetastetes Audiosignal, das von dem Vorprozessor 3 zugeführt wird. Wenn ein Abtastsignal n einen Wert s(n) hat, wird für jeden Eingangssignalwert s(n) die Differenz zwischen diesem Wert und dem geschätzten (vorhergesagten) Wert s(n-1) als Fehlersignal e(n) genommen, das dann von dem Quantisiererblock 9 quantisiert und codiert wird, woraus sich der Ausgangscode c(n) ergibt. Der Ausgangscode c(n) bildet einen Bitstrom, der von dem ADPCM-Decodierer 5 des P²CM-Audiocodierers gesendet oder gesendet und empfangen wird. In 1 wird dies durch die gestrichelte Linie 13 wiedergegeben. Der Ausgangscode c(n) wird auch für die Anpassung der Quantisiererschrittweite Δn durch Block 10 und von dem Decodiererblock 11 zur Erzeugung eines quantisierten Fehlersignals e'(n) verwendet. Das quantisierte Fehlersignal e'(n) wird zu dem vorhergesagten Wert s(n-1) addiert und ergibt den quantisierten Eingangwert s'(n). s'(n) wird von dem Prädiktorblock 12 dazu verwendet, seine Vorhersagekoeffizienten anzupassen.
Der ADPCM-Decodierer 5 ist lediglich eine Teileinheit des Codierers 4; er liest den empfangenen quantisierten Code c(n) aus dem Bitstrom und nutzt den gleichen wie der Codierer 4, um seine internen Variablen zu aktualisieren. Der ADPCM-Decodierer 5 umfasst daher einen Schrittweiten-Anpassungsblock 14, einen Decodiererblock 15 und einen Prädiktorblock 16. Das Ausgangssignal des Decodiererblocks 15 ist das quantisierte Fehlersignal e'(n), das, nachdem es zu dem vorhergesagten Wert s(n-1) addiert wurde, das quantisierte Audiosignal s'(n) ergibt.
Obwohl dies in den 2A und 2B nicht weiter angegeben ist, bildet das Codec-Modussignal CMS auch ein Eingangssignal für den Decodiererblock 11 im ADPCM-Codierer 4 und für den Decodiererblock 15 im ADPCM-Decodierer 5.
Anstelle der oben genannten ADPCM-Codierer und Decodierer können auch andere Codierer und Decodierer angewendet werden.
Wie bereits eingangs in der Beschreibung erwähnt, treten Probleme in Bezug auf die Wiedergabe der impulsartigen Beschaffenheit der Aufzeichnung nahe dem Mikrofon verglichen mit der Aufzeichnung mit einem größeren Abstand auf. In impulsartigen Bereichen der Aufzeichnung nahe dem Mikrofon wird das Eingangssignal für den Quantisiererblock 9 zu hoch und zu schnell für den Quantisierer sein, so dass dieser seine Schrittweite Δn nicht anpassen kann.
Erfindungsgemäß besteht die Lösung dieses Problems darin, einen Phasenfaltungsfilter im P²CM-Audiocodierer 1 zu verwenden. Dieser Filter weist eine Allpasskennlinie auf, was bedeutet, dass die Signalenergie für alle Frequenzen unverändert bleibt. Es ist ebenfalls einfach, zu der ursprünglichen ungefilterten Form zurückzukehren, indem die zeitlich umgekehrte Version des gleichen Filters im P²CM-Audiodecodierer 2 verwendet wird. 1 zeigt den Phasenfaltungsfilter 17. Dessen Eingangssignal besteht aus den PCM-Eingangssignalen des P²CM-Audiocodierers 1, während die gefilterten Ausgangssignale dem Verarbeitungsblock 7 zugeführt werden. In dem Phasenfaltungsfilter 17 wird ein Filtervorgang mit Finite Impulse Response (FIR) durchgeführt, wobei p(m) die Filterimpulsantwort, L die Filterlänge, s(n) das Eingangssignal und s_p(n) das gefilterte Ausgangssignal darstellen, gemäß der Gleichung:
Die umgekehrte Phasenfaltung erfolgt mit Hilfe des inversen Phasenfaltungsfilters 18 am Ausgang des Verarbeitungsblocks 8 im P²CM-Audiodecodierer 2 mit demselben Filter, jedoch mit umgekehrter zeitlicher Reihenfolge, gemäß der Gleichung:
wobei s_p'(n) das Eingangssignal und s'(n) das gefilterter Ausgangssignal ist.
Durch diese Operation ergibt sich eine Gesamtverzögerung der Länge L am Ausgang. Eine starke Verarbeitungsverzögerung ist unerwünscht, wenn der Codierer für die Kommunikation eingesetzt wird, beispielsweise für den Fernsprechverkehr. Daher muss die Filterlänge L so klein wie möglich gehalten werden.
Da die Filterung im Zeitbereich eine relativ große Filterlänge erfordert, wird es vorgezogen, die Filterung im Frequenzbereich durchzuführen. Im Folgenden wird ein Beispiel für ein Phasenfaltungsfilter gegeben, bei dem der Filter im Frequenzbereich konstruiert ist und eine konstante Amplitude und eine variierende Phase für jede Frequenzkomponente verwendet wird. Das Frequenzverhalten dieses Filters entspricht der folgenden Gleichung: P(k) = exp[–j π . k(k – ½ N)N–1] mit 0 ≤ k ≤ ½ N (C)
Für Echtwertdaten muss die negative Frequenzachse symmetrisch sein: R{P(k)} = R{P(N-k)} und I{P(k)} = –I{P(N-k)} mit ½ N < k < N, (D)wobei R und I jeweils die reellen und imaginären Teile des Spektrums sind.
Die Transformation in den Zeitbereich erfolgt gemäß der folgenden Gleichung:
Die Länge N der diskreten Fourier-Transformation (DFT) und die Filterlänge L können beide auf den gleichen Wert eingestellt werden. Der Filter ist genau genommen eine Sinuskurve mit linear ansteigender Frequenz zwischen 0 und der Nyquist-Frequenz f_N. Die Filterkennlinien sind in den 3A–3D dargestellt. 3A zeigt die Amplituden-Zeit-Abhängigkeit, 3B die Amplitude-Frequenz-Abhängigkeit, 3C die Frequenz-Zeit-Abhängigkeit und 3D die Beziehung der entzerrten Phase zur Frequenz.
Dieser Filter funktioniert zwar ziemlich gut, ist jedoch nicht optimal. Zwei Kriterien müssen bei der Auslegung des Filters berücksichtigt werden: Das eine besagt, dass im Allgemeinen die niedrigeren Frequenzen in gesprochener Sprache (unter 1 kHz) aufgrund der glottalen Impulsform bereits über die Zeit gefaltet werden. Das andere besagt, dass bei hohen Frequenzen (über 3 kHz) die Energie der gesprochenen Sprache relativ niedrig ist. Außerdem legt die in vielen Anwendungsbereichen, beispielsweise in der Telefonsprache zwischen 300 und 3400 Hz, durchgeführte Bandpassfilterung eine effizientere Nutzung der verfügbaren Filterlänge nahe, indem eine weitere Phasenfaltung zwischen 1 und 3 kHz angewendet wird.
Daher wird bei einem bevorzugten Ausführungsbeispiel der folgende Frequenzgang im P²CM für die Erzeugung des Phasenfaltungsfilters verwendet: P(k) = exp[A jπ sin(2 π kN^–1)] mit 0 ≤ k ≤ ½ N. (F)
Die Konstante A hängt von der gewünschten Phasenfaltung, insbesondere von der Filterlänge und somit der verwendeten Fensterung ab. Die Kennlinien eines derartigen Filters sind in den 4A–4D dargestellt. Diese Figuren entsprechen den 3A–3D.
Die DFT-Länge kann auf 256 eingestellt werden. Die effektive Filterlänge beträgt ungefähr 96 (12 ms). Bei dieser Filterlänge liegt eine günstige Wahl der Konstante A bei 6,44. Der Wert von 96 ergibt sich aus der Differenz zwischen der verwendeten Eingangsfensterlänge (256) und der Ausgangsfensterlänge (160) des Vor-/Nachprozessors. Dadurch kann der Phasenfaltungsfilter in den Verarbeitungsblock 7 und der entgegengesetzt wirkende Filter in den Verarbeitungsblock 8 integriert werden, wie es im Folgenden ausführlicher erläutert wird.
5 zeigt ein Blockschaltbild eines Vorprozessors 3. Der Vorprozessor umfasst eine Eingangsfensterbildungseinheit 19, eine FFT-Einheit (engl. Fast Fourier Transform) 20, eine Phasenfaltungsfilterungs- und Spektralamplitudenverzerrungseinheit 21, eine inverse FFT-(IFFT)-Einheit 22, eine Ausgangsfensterbildungseinheit 23 und eine Überlappungs- und Additionseinheit (engl. overlap-and-add) 24. In dem vorliegenden Beispiel werden die 80 Abtastwert-Eingangsrahmen der Eingangsfensterbildungseinheit 19 in einen Pufferspeicher von 256 Abtastwerten verschoben, um das Eingangsfenster s(n) zu bilden (siehe 6). Die Art des Eingangsfensters ist ein Rechteck mit der gleichen Länge wie das Eingangsfenster, so dass keine zusätzliche Operation für die Gewichtung erforderlich ist. Das Spektrum S(k) wird mit Hilfe einer 256-Punkt-FFT 20 berechnet. Nachdem das Signal S(k) der Phasenfaltung und nachfolgend der Verzerrung der spektralen Amplitude unterzogen wurde, wird das erhaltene Signal S_fw(k) in der IFFT 22 transformiert, wodurch man die Zeitdarstellung s_fw(n) dieses Signals erhält. Damit ein glatter Übergang zwischen zwei aufeinander folgenden Rahmen ermöglicht wird, wird eine Überlappung und Addition mit einem Hanning-Ausgangsfenster von 20 ms (160 Abtastwerten) eingesetzt. Dieses Ausgangsfenster wird im FFT-Pufferspeicher von 256 Abtastwerten zentriert. Eine zusätzliche Verzögerung von 32 Abtastwerten wird addiert, um ein Vielfaches der Rahmenlänge (160 Abtastwerte) als Gesamtverzögerung dieses Prozesses zu erhalten. Diese Ausrichtungsverzögerung ist für den Vorprozessor lediglich erforderlich, um die synchrone Datenrahmenbildung zwischen dem Vor- und dem Nachprozessor sicherzustellen. Der Auf- Aufbau des Nachprozessors entspricht demjenigen des Vorprozessors lediglich mit dem Unterschied, dass in einer Einheit, die der Einheit 21 entspricht, der Effekt der Verzerrung der spektralen Amplitude rückgängig gemacht und nachfolgend ein inverser Phasenfaltungsfilter angewendet wird. Da sowohl die Verzerrung als auch die Entzerrung der spektralen Amplitude im Frequenzbereich erfolgen, können die Phasenfaltung und die entsprechende umgekehrte Verarbeitung ebenfalls im Frequenzbereich erfolgen. Eine genaue Transformation vom Zeitbereich in den Frequenzbereich sollte zwar getrennte Verarbeitungsblöcke für die Filteroperation vorsehen, jedoch kann dies durch die Integration in den existierenden Ver-/Entzerrungsblock in Näherung erreicht werden. Dadurch reduziert sich nicht nur die Verarbeitungszeit des Filters, sondern kann auch die zusätzliche Verarbeitungsverzögerung eliminiert werden. Die Filteroperationen im Zeitbereich der Formeln (A) und (B) werden ersetzt durch die Filteroperationen im Frequenzbereich der Formeln (G) für den Vorprozessor und der Formeln (H) für den Nachprozessor: R{Sp(k)} = R{S(k)}.R{P(k)} – I{S(k)}.I{P(k)} I{Sp(k)} = I{S(k)}.R{P(k)} + R{S(k)}.I{P(k)} (G)und R{Sp(k)} = R{S(k)}.R{P(k)} + I{S(k)}.I{P(k)} I{Sp(k)} = I{S(k)}.R{P(k)} – R{S(k)}.I{P(k)} (H)mit 0 ≤ k < ½ N.
S(k), P(k) und S_p(k) sind die Fourier-Transformierten der entsprechenden Funktionen s(n), p(n) bzw. s_p(k) in den Formeln (A) und (B) und R und I die reellen und imaginären Teile dieser Signale.
Es ist offensichtlich, dass diese Annäherung an die getrennten Verarbeitungsblöcke für die Filterung einen Nachteil aufweist: Die Verzerrung der spektralen Amplitude im Vorprozessor erfolgt mit Amplitudenwerten von nicht verarbeiteten Eingangsfenstern, während die Entzerrung im Nachprozessor mit Amplitudenwerten von der Version dieses Signals mit Phasenfaltung erfolgt. Ist die Korrelation zwischen aufeinander folgenden Rahmen gering, kann dies zu Artefakten führen. In der Praxis scheint diese Korrelation jedoch hoch genug zu sein, so dass die Qualitätsminderung aufgrund dieser Annäherung vernachlässigbar bleibt.
Eine weitere Vereinfachung erfolgt durch den Wegfall der zusätzlichen Verzögerung, die am Ausgang des Vorprozessors addiert wird. Diese Verzögerung wurde eingeführt, um die Eingangssignale für den Vor- und den Nachprozessor zu synchronisieren.
Aufgrund der eingefügten Phasenfaltung ist diese Synchronisierung nicht mehr möglich, da jede Frequenzkomponente eine unterschiedliche Verzögerung aufweist.
Die oben beschriebene Ausführungsform wird durch einen Algorithmus realisiert, der die Form eines Computerprogramms haben kann, das in den Signalverabeitungsmitteln eines P²CM-Audiocodierers und -Decodierers laufen kann. Soweit Teile der Figuren Einheiten zur Durchführung bestimmter programmierbarer Funktionen zeigen, müssen diese Einheiten als untergeordnete Teile des Computerprogramms betrachtet werden.
Die beschriebene Erfindung ist nicht auf die beschriebenen Ausführungsbeispiele beschränkt. Es sind Abwandlungen möglich. Es ist insbesondere anzumerken, dass die in den beschriebenen Ausführungsbeispielen erwähnten Frequenzgangfunktionen und Werte nur als Beispiele gegeben sind; andere Frequenzgangfunktionen und Werte sind möglich.
Text in den Figuren
6

Sample – Abtastwert
Frame – Rahmen
Input Frame – Eingangsrahmen
Input Window – Eingangsfenster
Output Window – Ausgangsfenster
Output Frame – Ausgangsrahmen

Claims

Sprachcodiersystem mit einem Sprachcodierer und einem Sprachdecodierer, der mit dem genannten Sprachcodierer zusammenarbeitet, wobei der Sprachcodierer einen Vorprozessor und einen ADPCM-Codierer (adaptive Delta-Pulscodemodulation, engl. adaptive differential pulse code modulation, ADPCM) mit einem Quantisierer und Schrittweitenanpassungsmitteln umfasst und wobei der Sprachdecodierer einen ADPCM-Decodierer mit den gleichen Schrittweitenanpassungsmitteln wie in dem ADPCM-Codierer und einen Nachprozessor umfasst, dadurch gekennzeichnet, dass der Vorprozessor mit Phasenfaltungsfiltermitteln versehen ist, die die Auswirkung von hohen bzw. schnellen Energieänderungen am Eingang des Quantisierers glätten, und dass der Nachprozessor mit Filtermitteln versehen ist, die den genannten Phasenfaltungsfiltermitteln entgegenwirken.
Sprachcodiersystem nach Anspruch 1, dadurch gekennzeichnet, dass der Vor- und der Nachprozessor Folgendes umfassen: eine Zeit-Frequenz-Transformationseinheit zum Transformieren von Rahmen von Abtastwerten von Audiosignalen im Zeitbereich in den Frequenzbereich, Verarbeitungsmittel zum Verarbeiten der Abtastwerte im Frequenzbereich und eine Frequenz-Zeit-Transformationseinheit zum Transformieren der letzteren verarbeiteten Abtastwerte in den Zeitbereich, wobei die Verarbeitungsmittel im Vorprozessor mit Phasenfaltungsfilter- und Verzerrungsmitteln und die Verarbeitungsmittel im Nachprozessor mit Entzerrungsmitteln und inversen Phasenfaltungsfiltermitteln versehen sind.
Sprachcodiersystem nach Anspruch 2, dadurch gekennzeichnet, dass die Phasenfaltungsfiltermittel einen Filter mit einer im Wesentlichen konstanten Amplitudenkennlinie und einer variierenden Phasenkennlinie, beide im Frequenzbereich, umfassen.
Sprachcodiersystem nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass im Vorprozessor die Filtermittel und die Verzerrungsmittel hintereinander geschaltet sind.
Sprachcodiersystem nach Anspruch 2, 3 oder 4, dadurch gekennzeichnet, dass im Nachprozessor die Entzerrungsmittel und die inversen Filtermittel hintereinander geschaltet sind.
Sprachcodiersystem nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Frequenzgang der Phasenfaltungsfiltermittel der folgenden Gleichung entspricht: P(k) = exp[–j π . k(k – ½ N)N–1] mit 0 ≤ k ≤ ½ N.
Sprachcodiersystem nach einem der Ansprüche 1–5, dadurch gekennzeichnet, dass der Frequenzgang der Phasenfaltungsfiltermittel der folgenden Gleichung entspricht: P(k) = exp[A jπ sin(2 π kN^–1)] mit 0 ≤ k ≤ ½ N und A gleich einer Konstanten, die von der gewünschten Faltung abhängt.