DE60210766T2 - Adpcm sprachkodiersystem mit phasenfaltungs und -entfaltungsfiltern - Google Patents

Adpcm sprachkodiersystem mit phasenfaltungs und -entfaltungsfiltern Download PDF

Info

Publication number
DE60210766T2
DE60210766T2 DE60210766T DE60210766T DE60210766T2 DE 60210766 T2 DE60210766 T2 DE 60210766T2 DE 60210766 T DE60210766 T DE 60210766T DE 60210766 T DE60210766 T DE 60210766T DE 60210766 T2 DE60210766 T2 DE 60210766T2
Authority
DE
Germany
Prior art keywords
phase
processor
speech
adpcm
coding system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60210766T
Other languages
English (en)
Other versions
DE60210766D1 (de
Inventor
F. Ercan GIGI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NXP BV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of DE60210766D1 publication Critical patent/DE60210766D1/de
Application granted granted Critical
Publication of DE60210766T2 publication Critical patent/DE60210766T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B14/00Transmission systems not characterised by the medium used for transmission
    • H04B14/02Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation
    • H04B14/04Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation using pulse code modulation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B14/00Transmission systems not characterised by the medium used for transmission
    • H04B14/02Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation
    • H04B14/06Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation using differential modulation, e.g. delta modulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein Sprachcodiersystem mit einem Sprachcodierer und einem Sprachdecodierer, der mit dem genannten Sprachcodierer zusammenarbeitet, wobei der Sprachcodierer einen Vorprozessor und einen ADPCM-Codierer (adaptive Delta-Pulscodemodulation, engl. adaptive differential pulse code modulation, ADPCM) mit einem Quantisierer und Schrittweitenanpassungsmitteln umfasst und wobei der Sprachdecodierer einen ADPCM-Decodierer mit den gleichen Schrittweitenanpassungsmitteln wie in dem ADPCM-Codierer und einen Nachprozessor umfasst.
  • Es wurde beobachtet, dass Sprachaufzeichnungen nahe dem Mikrofon die Auswirkungen der Raumakustik auf ein Sprachsignal reduzieren oder entfernen, indem der Abstand der Sprachquelle (des Mundes) zum Mikrofon, beispielsweise in einem Handapparat eines Telefons, minimiert wird. Wenn diese Sprachsignale in dem Codierer eines Standard-P2CM-Audiocodiersystem, beispielsweise einem ADPCM-Codierer mit Vorprozessor, verarbeitet werden, treten Probleme in Bezug auf die Wiedergabe der impulsartigen Beschaffenheit der Sprachaufzeichnung nahe am Mikrofon verglichen mit der Aufzeichnung aus größerer Entfernung auf. Ein ADPCM-Codierer verfügt über einen Quantisierer, in dem dessen Eingangssignal, d. h. die Differenz zwischen einem abgetasteten Audioeingangssignal und einem entsprechenden vorhergesagten quantisierten Wert, mit einer Schrittweite quantisiert wird, die an das Eingangssignal des Quantisierers angepasst wird. In impulsartigen Bereichen bei der Sprachaufzeichnung nahe dem Mikrofon kann das Eingangssignal für den Quantisierer im ADPCM-Codierer zu hoch oder zu schnell für den Quantisierer sein, so dass dieser seine Schrittweite nicht anpassen kann. Der Nachhall im Raum faltet die Energie des Sprachsignals über die Zeit und ermöglicht so eine langsamerer Anpassung der Schrittweite.
  • Zur Verbesserung der Leistung des P2CM-Audiocodiersystems für impulsartige Signale muss das Eingangssignal des ADPCM-Codierers daher so verarbeitet werden, dass das Eingangssignal für den Quantisierer keine schnellen Energiezunahmen über kurze Zeitrahmen aufweist. Die Ausgabe des Sprachdecodierers sollte jedoch wie das Original ohne jegliche Artefakte klingen. Somit ist die Option der Simulation der Raumwirkung zur Erzeugung einer Version der Originalaufzeichnung mit Abstand und der Anwendung der Codierung auf dieses Signal nicht ausreichend.
  • Der Erfindung liegt die Aufgabe zugrunde, das oben genannte Problem abzuschwächen und ein Sprachcodiersystem mit verbesserter Aufzeichnung und Wiedergabe insbesondere für impulsartige Sprachsignale zu schaffen.
  • Erfindungsgemäß ist das Sprachcodiersystem, wie es eingangs beschrieben wurde, dadurch gekennzeichnet, dass der Vorprozessor mit Phasenfaltungsfiltermitteln versehen ist, die die Auswirkung von hohen bzw. schnellen Energieänderungen am Eingang des Quantisierers glätten, und dass der Nachprozessor mit Filtermitteln versehen ist, die den genannten Phasenfaltungsfiltermitteln entgegenwirken.
  • Die Phasenfaltungsfilterung kann zwar im Zeitbereich erfolgen, es wird jedoch vorgezogen, diese Filterung, falls der Vor- und der Nachprozessor mit Mitteln zum Verzerren der spektralen Amplitude bzw. Mitteln zum Rückgängigmachen des Effekts einer derartigen Verzerrung versehen sind, im Frequenzbereich durchzuführen, da die genannten Verzerr- und Entzerrmittel im Frequenzbereich funktionieren. Daher werden insbesondere die Phasenfaltung und die Verzerrung wie auch die inverse Phasenfaltung und Entzerrung in demselben Verarbeitungsblock durchgeführt. Da die Phasenfaltung ein linearer Prozess ist, während die Verzerrung der spektralen Amplitude ein nicht linearer Prozess ist, werden beide Prozesse nicht zusammen sondern einer nach dem anderen im Frequenzbereich ausgeführt; die gefilterten Signale werden einer Verzerrung unterzogen. Die Verzerrung der spektralen Amplitude ist an sich bekannt, siehe „Spectral Amplitude Warping (SAW) for Noise Spectrum Shaping in Audio Coding" von R. Lefebre, C. Laflamme, erschienen 1997 in ICASSP, Band 1, auf den Seiten 335–338.
  • Diese und weitere Aspekte der Erfindung sind in den Zeichnungen dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
  • 1 ein Blockschaltbild eines P2CM-Codiersystems mit Mitteln für die Vor- und Nachbearbeitung einschließlich Phasenfaltungsfiltermitteln bzw. inversen Phasenfaltungsfiltermitteln, die im Zeitbereich funktionieren;
  • 2A, 2B Blockschaltbilder eines ADPCM-Codierers bzw. eines ADPCM-Decodierers;
  • 3A3D verschiedene Kennlinien eines ersten Ausführungsbeispiels für einen Phasenfaltungsfilter;
  • 4A4D verschiedene Kennlinien eines zweiten Ausführungsbeispiels für einen Phasenfaltungsfilter;
  • 5 ein Blockschaltbild eines Vor-/Nachprozessors für einen P2CM-Audiocodierer und -decodierer, bei dem die Phasenfaltung im Frequenzbereich funktioniert; und
  • 6 die Rahmenbildung und Fensterung im Vorprozessor.
  • Das P2CM-Audiocodiersystem aus 1 besteht aus einem Codierer 1 und einem Decodierer 2. Der Codierer 1 umfasst einen Vorprozessor 3 und einen ADPCM-Codierer 4, während der Decodierer 2 einen ADPCM-Decodierer 5 und einen Nachprozessor 6 umfasst. Der ADPCM-Codierer 4 ist in 2A und der ADPCM-Decodierer 5 ist in 2B dargestellt.
  • Als Beispiel wird in dem P2CM-Audiocodierer 1 ein PCM-Eingangssignal in Rahmen (Frames) von beispielsweise 10 ms unterteilt. Bei einer Abtastfrequenz von beispielsweise 8 kHz besteht ein Rahmen aus 80 Abtastwerten. Jeder Abtastwert wird beispielsweise durch 16 Bits dargestellt. Dieses Eingangssignal wird dem Vorprozessor 3 zugeführt, während das als Reaktion hierauf erhaltene Ausgangssignal dem ADPCM-Codierer 4 zugeführt wird. Ein weiteres Eingangssignal für den ADPCM-Codierer 4 wird aus einem Codec-Modussignal CMS gebildet, das die Bitzuordnung für die Codewörter im Bitstromausgang des ADPCM-Codierers 4 bestimmt. Der ADPCM-Codierer 4 erzeugt ein Codewort für jeden Abtastwert in dem vorverarbeiteten Signalrahmen. Die Codewörter werden dann in Rahmen von in dem vorliegenden Beispiel 80 Codes gepackt. In Abhängigkeit von dem gewählten Codec-Modus hat der resultierende Bitstrom eine Bitrate von beispielsweise 11,2, 12,8, 16, 19,2, 21,6, 24 oder 32 KBits/s.
  • In dem P2CM-Audiodecodierer 2 wird das Eingangssignal des ADPCM-Decodierers 5 aus einem Bitstrom aus Coderahmen und dem Codec-Modus gebildet. In dem vorliegenden Beispiel bestehen die Coderahmen aus 80 Codes, die von dem ADPCM-Decodierer 5 decodiert werden, um einen PCM-Ausgangsrahmen von 80 Abtastwerten zu bilden, die im Nachprozessor 6 nachbearbeitet werden.
  • Im Vorprozessor 3 werden die Signalkennlinien so verändert, dass das resultierende Signal besser für die Codierung geeignet ist. Durch die Vorverarbeitung wird das Signalspektrum vor der Codierung verändert. Daher kann eine nichtlineare Transformation, beispielsweise eine Quadratwurzeltransformation, auf die spektralen Amplituden angewendet werden. Durch eine derartige, als „Verzerrung der spektralen Amplitude" bezeichnete Transformation werden relativ kleine spektrale Amplituden in Bezug auf relativ große spektrale Amplituden erhöht, damit ein Großteil von ihnen oberhalb des im ADPCM-Codierer 4 entstehenden Quantisierungsrauschens bleibt. Damit das Signalspektrum auf diese Art verändert werden kann, umfasst der Vorprozessor 3 eine Verarbeitungsvorrichtung 7 mit einer Zeit-Frequenz-Transformationseinheit, die die Rahmen von Abtastwerten von Audiosignalen im Zeitbereich in den Frequenzbereich transformiert, Mittel zum Verzerren der spektralen Amplitude, und eine Frequenz-Zeit-Transformationseinheit, die die verzerrten Audiosignale vom Frequenzbereich in den Zeitbereich transformiert. Diese Transformation ist auf der P2CM-Audiodecodiererseite reversibel, ohne dass zusätzliche Bits gesendet werden müssen. Daher umfasst der Nachprozessor 6 Verarbeitungsmittel 8 mit einer Zeit-Frequenz-Transformationseinheit, die die Rahmen von Abtastwerten von Audiosignalen im Zeitbereich in den Frequenzbereich transformiert, Mittel, die den Effekt der im Vorprozessor auf der Codiererseite durchgeführten Verzerrung der spektralen Amplitude rückgängig machen, und eine Frequenz-Zeit-Transformationseinheit, die die entzerrten Audiosignale vom Frequenzbereich in den Zeitbereich transformiert.
  • Der in 2A dargestellte ADPCM-Codierer 4 umfasst einen Quantisiererblock 9, einen Schrittweiten-Anpassungsblock 10, einen Decodiererblock 11 und einen Prädiktorblock 12. Das Eingangssignal für den ADPCM-Codierer 4 ist ein abgetastetes Audiosignal, das von dem Vorprozessor 3 zugeführt wird. Wenn ein Abtastsignal n einen Wert s(n) hat, wird für jeden Eingangssignalwert s(n) die Differenz zwischen diesem Wert und dem geschätzten (vorhergesagten) Wert s(n-1) als Fehlersignal e(n) genommen, das dann von dem Quantisiererblock 9 quantisiert und codiert wird, woraus sich der Ausgangscode c(n) ergibt. Der Ausgangscode c(n) bildet einen Bitstrom, der von dem ADPCM-Decodierer 5 des P2CM-Audiocodierers gesendet oder gesendet und empfangen wird. In 1 wird dies durch die gestrichelte Linie 13 wiedergegeben. Der Ausgangscode c(n) wird auch für die Anpassung der Quantisiererschrittweite Δn durch Block 10 und von dem Decodiererblock 11 zur Erzeugung eines quantisierten Fehlersignals e'(n) verwendet. Das quantisierte Fehlersignal e'(n) wird zu dem vorhergesagten Wert s(n-1) addiert und ergibt den quantisierten Eingangwert s'(n). s'(n) wird von dem Prädiktorblock 12 dazu verwendet, seine Vorhersagekoeffizienten anzupassen.
  • Der ADPCM-Decodierer 5 ist lediglich eine Teileinheit des Codierers 4; er liest den empfangenen quantisierten Code c(n) aus dem Bitstrom und nutzt den gleichen wie der Codierer 4, um seine internen Variablen zu aktualisieren. Der ADPCM-Decodierer 5 umfasst daher einen Schrittweiten-Anpassungsblock 14, einen Decodiererblock 15 und einen Prädiktorblock 16. Das Ausgangssignal des Decodiererblocks 15 ist das quantisierte Fehlersignal e'(n), das, nachdem es zu dem vorhergesagten Wert s(n-1) addiert wurde, das quantisierte Audiosignal s'(n) ergibt.
  • Obwohl dies in den 2A und 2B nicht weiter angegeben ist, bildet das Codec-Modussignal CMS auch ein Eingangssignal für den Decodiererblock 11 im ADPCM-Codierer 4 und für den Decodiererblock 15 im ADPCM-Decodierer 5.
  • Anstelle der oben genannten ADPCM-Codierer und Decodierer können auch andere Codierer und Decodierer angewendet werden.
  • Wie bereits eingangs in der Beschreibung erwähnt, treten Probleme in Bezug auf die Wiedergabe der impulsartigen Beschaffenheit der Aufzeichnung nahe dem Mikrofon verglichen mit der Aufzeichnung mit einem größeren Abstand auf. In impulsartigen Bereichen der Aufzeichnung nahe dem Mikrofon wird das Eingangssignal für den Quantisiererblock 9 zu hoch und zu schnell für den Quantisierer sein, so dass dieser seine Schrittweite Δn nicht anpassen kann.
  • Erfindungsgemäß besteht die Lösung dieses Problems darin, einen Phasenfaltungsfilter im P2CM-Audiocodierer 1 zu verwenden. Dieser Filter weist eine Allpasskennlinie auf, was bedeutet, dass die Signalenergie für alle Frequenzen unverändert bleibt. Es ist ebenfalls einfach, zu der ursprünglichen ungefilterten Form zurückzukehren, indem die zeitlich umgekehrte Version des gleichen Filters im P2CM-Audiodecodierer 2 verwendet wird. 1 zeigt den Phasenfaltungsfilter 17. Dessen Eingangssignal besteht aus den PCM-Eingangssignalen des P2CM-Audiocodierers 1, während die gefilterten Ausgangssignale dem Verarbeitungsblock 7 zugeführt werden. In dem Phasenfaltungsfilter 17 wird ein Filtervorgang mit Finite Impulse Response (FIR) durchgeführt, wobei p(m) die Filterimpulsantwort, L die Filterlänge, s(n) das Eingangssignal und sp(n) das gefilterte Ausgangssignal darstellen, gemäß der Gleichung:
    Figure 00050001
  • Die umgekehrte Phasenfaltung erfolgt mit Hilfe des inversen Phasenfaltungsfilters 18 am Ausgang des Verarbeitungsblocks 8 im P2CM-Audiodecodierer 2 mit demselben Filter, jedoch mit umgekehrter zeitlicher Reihenfolge, gemäß der Gleichung:
    Figure 00050002
    wobei sp'(n) das Eingangssignal und s'(n) das gefilterter Ausgangssignal ist.
  • Durch diese Operation ergibt sich eine Gesamtverzögerung der Länge L am Ausgang. Eine starke Verarbeitungsverzögerung ist unerwünscht, wenn der Codierer für die Kommunikation eingesetzt wird, beispielsweise für den Fernsprechverkehr. Daher muss die Filterlänge L so klein wie möglich gehalten werden.
  • Da die Filterung im Zeitbereich eine relativ große Filterlänge erfordert, wird es vorgezogen, die Filterung im Frequenzbereich durchzuführen. Im Folgenden wird ein Beispiel für ein Phasenfaltungsfilter gegeben, bei dem der Filter im Frequenzbereich konstruiert ist und eine konstante Amplitude und eine variierende Phase für jede Frequenzkomponente verwendet wird. Das Frequenzverhalten dieses Filters entspricht der folgenden Gleichung: P(k) = exp[–j π . k(k – ½ N)N–1] mit 0 ≤ k ≤ ½ N (C)
  • Für Echtwertdaten muss die negative Frequenzachse symmetrisch sein: R{P(k)} = R{P(N-k)} und I{P(k)} = –I{P(N-k)} mit ½ N < k < N, (D)wobei R und I jeweils die reellen und imaginären Teile des Spektrums sind.
  • Die Transformation in den Zeitbereich erfolgt gemäß der folgenden Gleichung:
    Figure 00060001
  • Die Länge N der diskreten Fourier-Transformation (DFT) und die Filterlänge L können beide auf den gleichen Wert eingestellt werden. Der Filter ist genau genommen eine Sinuskurve mit linear ansteigender Frequenz zwischen 0 und der Nyquist-Frequenz fN. Die Filterkennlinien sind in den 3A3D dargestellt. 3A zeigt die Amplituden-Zeit-Abhängigkeit, 3B die Amplitude-Frequenz-Abhängigkeit, 3C die Frequenz-Zeit-Abhängigkeit und 3D die Beziehung der entzerrten Phase zur Frequenz.
  • Dieser Filter funktioniert zwar ziemlich gut, ist jedoch nicht optimal. Zwei Kriterien müssen bei der Auslegung des Filters berücksichtigt werden: Das eine besagt, dass im Allgemeinen die niedrigeren Frequenzen in gesprochener Sprache (unter 1 kHz) aufgrund der glottalen Impulsform bereits über die Zeit gefaltet werden. Das andere besagt, dass bei hohen Frequenzen (über 3 kHz) die Energie der gesprochenen Sprache relativ niedrig ist. Außerdem legt die in vielen Anwendungsbereichen, beispielsweise in der Telefonsprache zwischen 300 und 3400 Hz, durchgeführte Bandpassfilterung eine effizientere Nutzung der verfügbaren Filterlänge nahe, indem eine weitere Phasenfaltung zwischen 1 und 3 kHz angewendet wird.
  • Daher wird bei einem bevorzugten Ausführungsbeispiel der folgende Frequenzgang im P2CM für die Erzeugung des Phasenfaltungsfilters verwendet: P(k) = exp[A jπ sin(2 π kN–1)] mit 0 ≤ k ≤ ½ N. (F)
  • Die Konstante A hängt von der gewünschten Phasenfaltung, insbesondere von der Filterlänge und somit der verwendeten Fensterung ab. Die Kennlinien eines derartigen Filters sind in den 4A4D dargestellt. Diese Figuren entsprechen den 3A3D.
  • Die DFT-Länge kann auf 256 eingestellt werden. Die effektive Filterlänge beträgt ungefähr 96 (12 ms). Bei dieser Filterlänge liegt eine günstige Wahl der Konstante A bei 6,44. Der Wert von 96 ergibt sich aus der Differenz zwischen der verwendeten Eingangsfensterlänge (256) und der Ausgangsfensterlänge (160) des Vor-/Nachprozessors. Dadurch kann der Phasenfaltungsfilter in den Verarbeitungsblock 7 und der entgegengesetzt wirkende Filter in den Verarbeitungsblock 8 integriert werden, wie es im Folgenden ausführlicher erläutert wird.
  • 5 zeigt ein Blockschaltbild eines Vorprozessors 3. Der Vorprozessor umfasst eine Eingangsfensterbildungseinheit 19, eine FFT-Einheit (engl. Fast Fourier Transform) 20, eine Phasenfaltungsfilterungs- und Spektralamplitudenverzerrungseinheit 21, eine inverse FFT-(IFFT)-Einheit 22, eine Ausgangsfensterbildungseinheit 23 und eine Überlappungs- und Additionseinheit (engl. overlap-and-add) 24. In dem vorliegenden Beispiel werden die 80 Abtastwert-Eingangsrahmen der Eingangsfensterbildungseinheit 19 in einen Pufferspeicher von 256 Abtastwerten verschoben, um das Eingangsfenster s(n) zu bilden (siehe 6). Die Art des Eingangsfensters ist ein Rechteck mit der gleichen Länge wie das Eingangsfenster, so dass keine zusätzliche Operation für die Gewichtung erforderlich ist. Das Spektrum S(k) wird mit Hilfe einer 256-Punkt-FFT 20 berechnet. Nachdem das Signal S(k) der Phasenfaltung und nachfolgend der Verzerrung der spektralen Amplitude unterzogen wurde, wird das erhaltene Signal Sfw(k) in der IFFT 22 transformiert, wodurch man die Zeitdarstellung sfw(n) dieses Signals erhält. Damit ein glatter Übergang zwischen zwei aufeinander folgenden Rahmen ermöglicht wird, wird eine Überlappung und Addition mit einem Hanning-Ausgangsfenster von 20 ms (160 Abtastwerten) eingesetzt. Dieses Ausgangsfenster wird im FFT-Pufferspeicher von 256 Abtastwerten zentriert. Eine zusätzliche Verzögerung von 32 Abtastwerten wird addiert, um ein Vielfaches der Rahmenlänge (160 Abtastwerte) als Gesamtverzögerung dieses Prozesses zu erhalten. Diese Ausrichtungsverzögerung ist für den Vorprozessor lediglich erforderlich, um die synchrone Datenrahmenbildung zwischen dem Vor- und dem Nachprozessor sicherzustellen. Der Auf- Aufbau des Nachprozessors entspricht demjenigen des Vorprozessors lediglich mit dem Unterschied, dass in einer Einheit, die der Einheit 21 entspricht, der Effekt der Verzerrung der spektralen Amplitude rückgängig gemacht und nachfolgend ein inverser Phasenfaltungsfilter angewendet wird. Da sowohl die Verzerrung als auch die Entzerrung der spektralen Amplitude im Frequenzbereich erfolgen, können die Phasenfaltung und die entsprechende umgekehrte Verarbeitung ebenfalls im Frequenzbereich erfolgen. Eine genaue Transformation vom Zeitbereich in den Frequenzbereich sollte zwar getrennte Verarbeitungsblöcke für die Filteroperation vorsehen, jedoch kann dies durch die Integration in den existierenden Ver-/Entzerrungsblock in Näherung erreicht werden. Dadurch reduziert sich nicht nur die Verarbeitungszeit des Filters, sondern kann auch die zusätzliche Verarbeitungsverzögerung eliminiert werden. Die Filteroperationen im Zeitbereich der Formeln (A) und (B) werden ersetzt durch die Filteroperationen im Frequenzbereich der Formeln (G) für den Vorprozessor und der Formeln (H) für den Nachprozessor: R{Sp(k)} = R{S(k)}.R{P(k)} – I{S(k)}.I{P(k)} I{Sp(k)} = I{S(k)}.R{P(k)} + R{S(k)}.I{P(k)} (G)und R{Sp(k)} = R{S(k)}.R{P(k)} + I{S(k)}.I{P(k)} I{Sp(k)} = I{S(k)}.R{P(k)} – R{S(k)}.I{P(k)} (H)mit 0 ≤ k < ½ N.
  • S(k), P(k) und Sp(k) sind die Fourier-Transformierten der entsprechenden Funktionen s(n), p(n) bzw. sp(k) in den Formeln (A) und (B) und R und I die reellen und imaginären Teile dieser Signale.
  • Es ist offensichtlich, dass diese Annäherung an die getrennten Verarbeitungsblöcke für die Filterung einen Nachteil aufweist: Die Verzerrung der spektralen Amplitude im Vorprozessor erfolgt mit Amplitudenwerten von nicht verarbeiteten Eingangsfenstern, während die Entzerrung im Nachprozessor mit Amplitudenwerten von der Version dieses Signals mit Phasenfaltung erfolgt. Ist die Korrelation zwischen aufeinander folgenden Rahmen gering, kann dies zu Artefakten führen. In der Praxis scheint diese Korrelation jedoch hoch genug zu sein, so dass die Qualitätsminderung aufgrund dieser Annäherung vernachlässigbar bleibt.
  • Eine weitere Vereinfachung erfolgt durch den Wegfall der zusätzlichen Verzögerung, die am Ausgang des Vorprozessors addiert wird. Diese Verzögerung wurde eingeführt, um die Eingangssignale für den Vor- und den Nachprozessor zu synchronisieren.
  • Aufgrund der eingefügten Phasenfaltung ist diese Synchronisierung nicht mehr möglich, da jede Frequenzkomponente eine unterschiedliche Verzögerung aufweist.
  • Die oben beschriebene Ausführungsform wird durch einen Algorithmus realisiert, der die Form eines Computerprogramms haben kann, das in den Signalverabeitungsmitteln eines P2CM-Audiocodierers und -Decodierers laufen kann. Soweit Teile der Figuren Einheiten zur Durchführung bestimmter programmierbarer Funktionen zeigen, müssen diese Einheiten als untergeordnete Teile des Computerprogramms betrachtet werden.
  • Die beschriebene Erfindung ist nicht auf die beschriebenen Ausführungsbeispiele beschränkt. Es sind Abwandlungen möglich. Es ist insbesondere anzumerken, dass die in den beschriebenen Ausführungsbeispielen erwähnten Frequenzgangfunktionen und Werte nur als Beispiele gegeben sind; andere Frequenzgangfunktionen und Werte sind möglich.
  • Text in den Figuren
  • 6
    • Sample – Abtastwert
    • Frame – Rahmen
    • Input Frame – Eingangsrahmen
    • Input Window – Eingangsfenster
    • Output Window – Ausgangsfenster
    • Output Frame – Ausgangsrahmen

Claims (7)

  1. Sprachcodiersystem mit einem Sprachcodierer und einem Sprachdecodierer, der mit dem genannten Sprachcodierer zusammenarbeitet, wobei der Sprachcodierer einen Vorprozessor und einen ADPCM-Codierer (adaptive Delta-Pulscodemodulation, engl. adaptive differential pulse code modulation, ADPCM) mit einem Quantisierer und Schrittweitenanpassungsmitteln umfasst und wobei der Sprachdecodierer einen ADPCM-Decodierer mit den gleichen Schrittweitenanpassungsmitteln wie in dem ADPCM-Codierer und einen Nachprozessor umfasst, dadurch gekennzeichnet, dass der Vorprozessor mit Phasenfaltungsfiltermitteln versehen ist, die die Auswirkung von hohen bzw. schnellen Energieänderungen am Eingang des Quantisierers glätten, und dass der Nachprozessor mit Filtermitteln versehen ist, die den genannten Phasenfaltungsfiltermitteln entgegenwirken.
  2. Sprachcodiersystem nach Anspruch 1, dadurch gekennzeichnet, dass der Vor- und der Nachprozessor Folgendes umfassen: eine Zeit-Frequenz-Transformationseinheit zum Transformieren von Rahmen von Abtastwerten von Audiosignalen im Zeitbereich in den Frequenzbereich, Verarbeitungsmittel zum Verarbeiten der Abtastwerte im Frequenzbereich und eine Frequenz-Zeit-Transformationseinheit zum Transformieren der letzteren verarbeiteten Abtastwerte in den Zeitbereich, wobei die Verarbeitungsmittel im Vorprozessor mit Phasenfaltungsfilter- und Verzerrungsmitteln und die Verarbeitungsmittel im Nachprozessor mit Entzerrungsmitteln und inversen Phasenfaltungsfiltermitteln versehen sind.
  3. Sprachcodiersystem nach Anspruch 2, dadurch gekennzeichnet, dass die Phasenfaltungsfiltermittel einen Filter mit einer im Wesentlichen konstanten Amplitudenkennlinie und einer variierenden Phasenkennlinie, beide im Frequenzbereich, umfassen.
  4. Sprachcodiersystem nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass im Vorprozessor die Filtermittel und die Verzerrungsmittel hintereinander geschaltet sind.
  5. Sprachcodiersystem nach Anspruch 2, 3 oder 4, dadurch gekennzeichnet, dass im Nachprozessor die Entzerrungsmittel und die inversen Filtermittel hintereinander geschaltet sind.
  6. Sprachcodiersystem nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Frequenzgang der Phasenfaltungsfiltermittel der folgenden Gleichung entspricht: P(k) = exp[–j π . k(k – ½ N)N–1] mit 0 ≤ k ≤ ½ N.
  7. Sprachcodiersystem nach einem der Ansprüche 1–5, dadurch gekennzeichnet, dass der Frequenzgang der Phasenfaltungsfiltermittel der folgenden Gleichung entspricht: P(k) = exp[A jπ sin(2 π kN–1)] mit 0 ≤ k ≤ ½ N und A gleich einer Konstanten, die von der gewünschten Faltung abhängt.
DE60210766T 2001-04-09 2002-03-27 Adpcm sprachkodiersystem mit phasenfaltungs und -entfaltungsfiltern Expired - Lifetime DE60210766T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP01201301 2001-04-09
EP01201301 2001-04-09
PCT/IB2002/001009 WO2002082426A1 (en) 2001-04-09 2002-03-27 Adpcm speech coding system with phase-smearing and phase-desmearing filters

Publications (2)

Publication Number Publication Date
DE60210766D1 DE60210766D1 (de) 2006-05-24
DE60210766T2 true DE60210766T2 (de) 2007-02-08

Family

ID=8180123

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60210766T Expired - Lifetime DE60210766T2 (de) 2001-04-09 2002-03-27 Adpcm sprachkodiersystem mit phasenfaltungs und -entfaltungsfiltern

Country Status (9)

Country Link
US (1) US20020173949A1 (de)
EP (1) EP1395982B1 (de)
JP (1) JP2004519736A (de)
KR (1) KR20030009517A (de)
CN (1) CN1221941C (de)
AT (1) ATE323935T1 (de)
DE (1) DE60210766T2 (de)
ES (1) ES2261637T3 (de)
WO (1) WO2002082426A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9734832B2 (en) 2009-04-08 2017-08-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI226035B (en) * 2003-10-16 2005-01-01 Elan Microelectronics Corp Method and system improving step adaptation of ADPCM voice coding
WO2006079349A1 (en) * 2005-01-31 2006-08-03 Sonorit Aps Method for weighted overlap-add
TWI285568B (en) * 2005-02-02 2007-08-21 Dowa Mining Co Powder of silver particles and process
RU2008105555A (ru) * 2005-07-14 2009-08-20 Конинклейке Филипс Электроникс Н.В. (Nl) Синтез аудиосигнала

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5558612A (en) * 1978-10-26 1980-05-01 Kokusai Denshin Denwa Co Ltd <Kdd> Delay circuit
JPS587935A (ja) * 1981-07-07 1983-01-17 Kokusai Denshin Denwa Co Ltd <Kdd> トランスバーサル形スミアデスミアフイルタ
NL8700075A (nl) * 1987-01-14 1988-08-01 Philips Nv Datatransmissiestelsel voorzien van versmeringsfilters.
US5231484A (en) * 1991-11-08 1993-07-27 International Business Machines Corporation Motion video compression system with adaptive bit allocation and quantization
US5511095A (en) * 1992-04-15 1996-04-23 Sanyo Electric Co., Ltd. Audio signal coding and decoding device
US5754974A (en) * 1995-02-22 1998-05-19 Digital Voice Systems, Inc Spectral magnitude representation for multi-band excitation speech coders
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
AU3372199A (en) * 1998-03-30 1999-10-18 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9734832B2 (en) 2009-04-08 2017-08-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing

Also Published As

Publication number Publication date
ATE323935T1 (de) 2006-05-15
CN1461469A (zh) 2003-12-10
ES2261637T3 (es) 2006-11-16
EP1395982B1 (de) 2006-04-19
US20020173949A1 (en) 2002-11-21
DE60210766D1 (de) 2006-05-24
EP1395982A1 (de) 2004-03-10
JP2004519736A (ja) 2004-07-02
CN1221941C (zh) 2005-10-05
WO2002082426A1 (en) 2002-10-17
KR20030009517A (ko) 2003-01-29

Similar Documents

Publication Publication Date Title
DE60117471T2 (de) Breitband-signalübertragungssystem
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
DE60202881T2 (de) Wiederherstellung von hochfrequenzkomponenten
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE60034026T2 (de) Sprachverbesserung mit durch sprachaktivität gesteuerte begrenzungen des gewinnfaktors
DE3710664C2 (de)
DE202008017752U1 (de) Vorrichtung zum Erlangen eines Dämpfungsfaktors
DE19935808A1 (de) Echounterdrückungseinrichtung zum Unterdrücken von Echos in einer Sender/Empfänger-Einheit
WO2007073949A1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE60118631T2 (de) Verfahren zum ersetzen verfälschter audiodaten
DE60124079T2 (de) Sprachverarbeitung
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
DE69820362T2 (de) Nichtlinearer Filter zur Geräuschunterdrückung in linearen Prädiktions-Sprachkodierungs-Vorrichtungen
EP1953739A2 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung
EP0668007A1 (de) Mobilfunkgerät mit freisprecheinrichtung
DE60212617T2 (de) Vorrichtung zur sprachverbesserung
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms
DE10043064B4 (de) Verfahren und Vorrichtung zur Elimination von Lautsprecherinterferenzen aus Mikrofonsignalen
EP1239455A2 (de) Verfahren und Anordnung zur Durchführung einer an die Übertragungsfunktion menschilcher Sinnesorgane angepassten Fourier Transformation sowie darauf basierende Vorrichtungen zur Geräuschreduktion und Spracherkennung
DE60105576T2 (de) Verfahren und vorrichtung zur spektralen anreicherung
EP3065417B1 (de) Verfahren zur unterdrückung eines störgeräusches in einem akustischen system
DE60210766T2 (de) Adpcm sprachkodiersystem mit phasenfaltungs und -entfaltungsfiltern
DE4343366C2 (de) Verfahren und Schaltungsanordnung zur Vergrößerung der Bandbreite von schmalbandigen Sprachsignalen
DE60210597T2 (de) Vorrichtung zur adpcdm sprachkodierung mit spezifischer anpassung der schrittwerte

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Representative=s name: EISENFUEHR, SPEISER & PARTNER, 10178 BERLIN

8327 Change in the person/name/address of the patent owner

Owner name: NXP B.V., EINDHOVEN, NL