DE602004004445T2 - Vorrichtungen zum Komprimieren und Dekomprimieren von Sprache und Verfahren zum Bereitstellen von skalierbaren Bandbreitestrukturen - Google Patents

Vorrichtungen zum Komprimieren und Dekomprimieren von Sprache und Verfahren zum Bereitstellen von skalierbaren Bandbreitestrukturen Download PDF

Info

Publication number
DE602004004445T2
DE602004004445T2 DE602004004445T DE602004004445T DE602004004445T2 DE 602004004445 T2 DE602004004445 T2 DE 602004004445T2 DE 602004004445 T DE602004004445 T DE 602004004445T DE 602004004445 T DE602004004445 T DE 602004004445T DE 602004004445 T2 DE602004004445 T2 DE 602004004445T2
Authority
DE
Germany
Prior art keywords
band
signal
speech
quantized
speech signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE602004004445T
Other languages
English (en)
Other versions
DE602004004445D1 (de
Inventor
Chang-Yong Son
301-1001 Geumho Apt. Ho-chong Seongnam-si Park
222-1406 Hwanggol Maeul Yong-beom Suwon-si Lee
c/o 702-1111 Cheongsol Apt. Woo-suk Lee
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of DE602004004445D1 publication Critical patent/DE602004004445D1/de
Application granted granted Critical
Publication of DE602004004445T2 publication Critical patent/DE602004004445T2/de
Anticipated expiration legal-status Critical
Active legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die vorliegende Erfindung betrifft Sprachsignalkodierung und -dekodierung, und insbesondere Vorrichtungen zur Sprachkompression und Sprachdekompression und Verfahren, in denen ein Sprachsignal in eine skalierbare Bandbreitenstruktur komprimiert wird und das komprimierte Sprachsignal in das ursprüngliche Sprachsignal dekomprimiert wird.
  • Mit der Entwicklung der Kommunikationstechnologie hat sich die Sprachqualität als ein signifikanter Wettbewerbsfaktor unter den Kommunikationsgesellschaften abgezeichnet.
  • Bei Kommunikation in vorhandenen öffentlichen Fernsprechwählnetzen (PSTN, Public Switched Telephone Network) wird ein Sprachsignal bei 8 kHz abgetastet und ein Sprachsignal mit einer Bandbreite von 4 kHz übertragen. Daher kann die vorhandene Kommunikation auf PSTN-Basis kein Sprachsignal übertragen, das außerhalb der 4 kHz Bandbreite liegt, was zu einer Verminderung der Sprachqualität führt.
  • Zur Lösung eines solchen Problems wurde eine Breitbandsprachkodierungseinrichtung auf Paketbasis entwickelt, die ein Eingangssprachsignal bei 16 kHz abtastet und eine Bandbreite von 8 kHz ergibt. Wenn die Bandbreite eines Sprachsignals zunimmt, wird die Sprachqualität verbessert, aber über einen Kommunikationskanal übertragene Daten nehmen zu. Daher muss ein Breitbandkommunikationskanal zu allen Zeiten gesichert sein, um die Breitbandsprachkodiereinrichtung effizient zu nutzen.
  • Die Menge an Daten, die über einen Kommunikationskanal auf Paketbasis übertragen wird, ist jedoch nicht festgelegt, sondern schwankt aufgrund einer Reihe von Faktoren. Als Folge davon kann der für die Breitbandsprachkodiereinrichtung notwendige Breibandkommunikationskanal nicht gesichert werden, was zu einer Verminderung der Sprachqualität führt. Dies liegt daran, dass, wenn die erforderliche Bandbreite zu einem bestimmten Zeitpunkt nicht bereitgestellt ist, die übertragenen Sprachpakete verloren gehen und die Sprachqualität stark abfällt.
  • Daher wurde eine Technik zum Kodieren eines Sprachsignals in eine skalierbare Bandbreitenstruktur angeregt. Der Standard G.722 der International Telecommunication Union (nachfolgend als "ITU" bezeichnet) schlägt eine solche Kodiertechnik vor. Der ITU G.722 schlägt Aufteilen eines Eingangssprachsignals in zwei Bänder unter Verwendung von Tiefpassfilterung und Hochpassfilterung vor und getrenntes Kodieren jedes der Bänder. Im ITU G.722 wird jedes Informationsband unter Verwendung der adaptiven differentiellen Pulskodemodulation (ADPCM) kodiert. Die im ITU G.722 vorgeschlagene Kodiertechnik zeigt jedoch den Nachteil, dass sie mit vorhandenen standardmäßigen Schmalbandkompressoren nicht kompatibel ist und eine hohe Übertragungsrate aufweist.
  • Ein weiterer Ansatz zum Kodieren von Sprache ist die Transformation eines Breitbandeingangssignals in eine Frequenzdomäne, Unterteilen der Frequenzdomäne in mehrere Unterbänder und Kompression der Information in jedem der Unterbänder. Der ITU G.722 schlägt eine solche Kodiertechnik vor. Der ITU G.722 zeigt jedoch den Nachteil, dass er ein Sprachpaket nicht in eine skalierbare Bandbreitenstruktur kodiert und mit dem vorhandenen standardmäßigen Schmalbandkompressor nicht kompatibel ist.
  • Die vorhandenen Sprachkodiertechniken, die unter Berücksichtigung der Kompatibilität mit dem vorhandenen standardmäßigen Schmalbandkompressor entwickelt wurden, erhalten ein Schmalbandsignal durch Durchführung von Tiefpassfilterung an einem Breitbandeingangssignal und Kodieren des erhaltenen Schmalbandsignals unter Verwendung des vorhandenen standardmäßigen Schmalbandkompressors. Ein Hochbandsignal wird unter Verwendung einer anderen Technik verarbeitet. Pakete werden für Hochband und Tiefband getrennt übertragen.
  • Eine vorhandene Technik zum Verarbeiten des Hochbandsignals beinhaltet ein Verfahren zum Splitting des Hochbandsignals in eine Mehrzahl von Unterbändern unter Verwendung einer Filterbank und Komprimieren der Information bezüglich jedes Unterbands. Eine andere Technik zum Verarbeiten des Hochbandsignals beinhaltet Umwandeln des Hochbandsignals in die Frequenzdomäne für diskrete Cosinustransformation (DCT) oder diskrete Fourier-Transformation (DFT) und Quantisieren jedes Frequenzkoeffizienten.
  • Da diese Sprachkodiertechniken nur ein Eingangssignal in zwei Bänder aufteilen und jedes Band getrennt verarbeiten, kann eine Hochbandsignalverarbeitungseinheit nicht zusätzlich durch den Schmalbandsprachkompressor bedingte Verzerrung verarbeiten.
  • Ebenso werden, wenn das Hochbandsignal komprimiert wird, akustische Charakteristiken eines Sprachsignals nicht effizient genutzt, was zu einer Verminderung der Quantisierungseffizienz führt. Wenn das von der Filterbank erhaltene Signal mit der Mehrzahl von Unterbändern quantisiert wird, wird eine Korrelation zwischen Bändern nicht richtig genutzt.
  • JP-8-263063 (NTT) offenbart ein Konversionskodiersystem. Es werden zwei Kodes erzeugt, einer ausgehend von einem Tiefbandsignal mit einer Kodierfrequenz von 16 kHz und eines ausgehend von einem Hochbandsignal mit einer Kodierfrequenz von 24 kHz. Das Hochbandsignal wird als Fehlersignal im Vergleich zu einem dekomprimierten Tiefbandsignal kodiert.
  • Die vorliegende Erfindung stellt eine Vorrichtung für Sprachkompression und -dekompression wie in den Ansprüchen 1 bzw. 23 angegeben zur Verfügung. Die Erfindung stellt eine Sprachsignalkodiereinrichtung und eine Sprachsignaldekodiereinrichtung zur Verfügung, die eine skalierbare Bandbreitenstruktur ergeben. Die Erfindung betrifft auch Verfahren wie in Anspruch 27 und 28 angegeben, die mit dem vorhandenen standardmäßigen Schmalbandkompressor kompatibel sind.
  • Die vorliegende Erfindung stellt auch Vorrichtungen für Sprachkompression und -dekompression zur Verfügung, in einer Sprachsignaldekodiereinrichtung und -dekodiereinrichtung mit einer skalierbaren Bandbreitenstruktur, und Verfahren, in denen ein Sprachsignal komprimiert und dekomprimiert wird, indem akustische Charakteristiken des Sprachsignals verwendet werden.
  • Die vorliegende Erfindung stellt auch Vorrichtungen und Verfahren für Sprachkompression und -dekompression zur Verfügung, in denen Verzerrung aufgrund von Schmalbandsprachkompression durch Bearbeitung der Verzerrung kompensiert wird, wenn ein Hochbandsprachsignal komprimiert wird.
  • Die vorliegende Erfindung stellt auch Vorrichtungen und Verfahren für Sprachkompression und -dekompression zur Verfügung, in denen ein Hochbandsprachsignal unter Verwendung einer Korrelation zwischen Frequenzbändern und Unterrahmen komprimiert wird.
  • Die vorliegende Erfindung stellt auch Vorrichtungen und Verfahren für Sprachkompression und -dekompression zur Verfügung, in denen die Quantisierungseffizienz verbessert wird durch Anwendung einer akustisch bedeutenden Gewichtsfunktion bei der Quantisierung, wenn ein Hochbandsprachsignal komprimiert wird.
  • Die vorliegende Erfindung stellt auch Vorrichtungen und Verfahren für Sprachkompression und -dekompression zur Verfügung, in denen Signalverzerrung und Verlust von Information minimiert werden, durch Berechnen eines Fehlersignals bei der Kompression eines Sprachsignals, wenn ein akustisches Modell bei den Signalen für Hoch- und Tiefband eingesetzt wird.
  • Der obige und weitere Aspekte und Vorteile der vorliegenden Erfindung werden besser ersichtlich aus einer ausführlichen Beschreibung einer exemplarischen Ausführungsform mit Bezug zu den begleitenden Zeichnungen, in denen:
  • 1 ein Blockdiagramm einer Sprachkompressionsvorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung ist;
  • 2 ein Blockdiagramm einer Fehlererfassungseinheit der Sprachkompressionsvorrichtung von 1 ist;
  • 3A die Beziehung zwischen Spektren eines Eingangssignals und eines Ausgangssignals darstellt, wenn ein Fehlersignal gemäß einem herkömmlichen Verfahren erfasst wird;
  • 3B die Beziehung zwischen Spektren eines Eingangssignals und eines Ausgangssignals darstellt, wenn ein Fehlersignal von der in 2 gezeigten Fehlererfassungseinrichtung erfasst wird;
  • 4 ein Blockdiagramm einer Hochbandkompressionseinheit der Sprachkompressionsvorrichtung von 1 ist;
  • 5 ein detailliertes Blockdiagramm einer RMS-Quantisierungseinrichtung der Hochbandkompressionseinheit von 4 ist;
  • 6 den Bandbereich für die DFT-Koeffizientenquantisierung in 4 darstellt;
  • 7 die Bits darstellt, die bei RMS-Quantisierung und DFT-Koeffizientenquantisierung gemäß der vorliegenden Erfindung zugeordnet sind;
  • 8 ein Blockdiagramm einer Sprachdekompressionsvorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung ist;
  • 9 ein detailliertes Blockdiagramm einer Hochbandsprachdekompressionseinheit von 8 ist;
  • 10 ein Fließbild ist, das ein Sprachkompressionsverfahren gemäß einer Ausführungsform der vorliegenden Erfindung darstellt; und
  • 11 ein Fließbild ist, das ein Sprachdekompressionsverfahren gemäß einer Ausführungsform der vorliegenden Erfindung darstellt.
  • Die vorliegende Erfindung wird nun genauer mit Bezug zu den begleitenden Zeichnungen beschrieben, in denen bevorzugte Ausführungsformen der Erfindung gezeigt sind. In den Zeichnungen werden gleiche Bezugszeichen verwendet, um gleiche Elemente zu bezeichnen.
  • 1 ist ein Blockdiagramm einer Sprachkompressionsvorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung. Mit Bezug zu 1 weist die Sprachkompressionsvorrichtung eine erste Bandtransformationseinheit 102, einen Schmalbandsprachkompressor 106, einen Schmalbandsprachdekompressor 108, eine zweite Bandtransformationseinheit 110, eine Fehlererfassungseinheit 114 und eine Hochbandsprachkompressionseinheit 116 auf.
  • Die erste Bandtransformationseinheit 102 transformiert ein Breitbandsprachsignal, das über eine Leitung 101 eingegeben ist, in ein Schmalbandsprachsignal. Das Breitbandsprachsignal wird durch Abtasten eines analogen Signals bei 16 kHz und Quantisieren jeder Abtastung durch 16-Bit Pulskodemodulation (PCM) erhalten.
  • Die erste Bandtransformationseinheit 102 weist einen Tiefpassfilter 104 auf und einen Downsampler 105. Der Tiefpassfilter 104 filtert das über die Leitung 101 eingegebene Breitbandsprachsignal ausgehend von der Grenzfrequenz (Cut-off-Frequenz). Die Cut-off-Frequenz ist durch die Bandbreite eines Schmalbands definiert, des gemäß einer skalierbaren Bandbreitenstruktur definiert ist. Der Tiefpassfilter 104 kann ein Butter worth-Filter fünfter Ordnung sein und die Cut-off-Frequenz kann 3700 Hz betragen. Der Downsampler 105 eliminiert jedes andere Signal, das vom Tiefpassfilter 104 ausgegeben wird um 1/2-Downsampling und gibt ein Schmalbandtiefbandsignal aus. Das Schmalbandtiefbandsignal wird über eine Leitung 103 an den Schmalbandsprachkompressor 106 ausgegeben.
  • Der Schmalbandsprachkompressor 106 komprimiert das Schmalbandtiefbandsignal und gibt ein Tiefbandsprachpaket aus. Das Tiefbandsprachpaket wird über eine Leitung 107 zu einem Kommunikationskanal (nicht gezeigt) und dem Schmalbandsprachdekompressor 108 übertragen.
  • Der Schmalbandsprachdekompressor 108 erhält ein dekomprimiertes Tiefbandsignal in Bezug auf des Tiefbandsprachpaket. Die Funktion des Schmalbandsprachdekompressors 108 hängt von der Funktion des Schmalbandsprachkompressors 106 ab. Wenn ein vorhandener CELP-basierter (CELP, Code Excited Linear Prediction) Standardschmalbandsprachkompressor verwendet wird (wie der Schmalbandsprachkompressor 106), sind der Schmalbandsprachkompressor 106 und der Schmalbandsprachdekompressor 108 in einem einzigen Element integriert, da eine Dekompressionsfunktion im vorhandenen CELP-basierten Standardschmalbandsprachkompressor enthalten ist. Das aus dem Schmalbandsprachdekompressor 108 ausgegebene dekomprimierte Tiefbandsignal wird zur zweiten Bandtransformationseinheit 110 übertragen.
  • Die zweite Bandtransformationseinheit 110 transformiert das dekomprimierte Schmalbandtiefbandsignal in ein dekomprimiertes Breitbandtiefbandsignal. Dies liegt daran, dass das Eingangssprachsignal ein Breitbandsignal ist.
  • Die zweite Bandtransformationseinheit 110 beinhaltet einen Upsampler 112 und einen Tiefpassfilter 113. Wenn das dekomprimierte Schmalbandtiefbandsignal über eine Leitung 109 empfangen wird, setzt der Upsampler 112 eine nullwertige Abtastung zwischen die Abtastungen. Nach Upsampling wird das Abtastsignal dem Tiefpassfilter 113 zugeführt, der auf die selbe Weise funktioniert wie der Tiefpassfilter 104. Der Tiefpassfilter 113 gibt ein dekomprimiertes Breitbandtiefbandsignal über eine Leitung 111 an die Fehlererfassungseinheit 114.
  • Der Schmalbandsprachdekompressor 108 und die zweite Bandtransformationseinheit 110 können als eine einzige Dekompressionseinheit definiert sein, die ein komprimiertes Schmalbandtiefbandsignal in ein dekomprimiertes Breitbandtiefbandsignal dekomprimiert.
  • Die Fehlererfassungseinheit 114 erfasst ein Fehlersignal durch einen Maskierungsvorgang zwischen dem über die Leitung 101 eingegebene Breitbandsprachsignal und dem über die Leitung 111 eingegebenen dekomprimierten Breitbandtiefbandsignal und gibt das Fehlersignal aus. Die Fehlererfassungseinheit 114 kann wie in 2 gezeigt konfiguriert sein. 2 ist ein Blockdiagramm der Fehlererfassungseinheit 114.
  • Mit Bezug zu 2 weist die Fehlererfassungseinheit 114 Filterbänke 201 und 201' auf, Halbwellengleichrichter 203 und 203', Peakselektoren 205 und 205', Maskierungseinheiten 207 und 207' und eine Intersignalmaskierungseinheit 209.
  • Die Filterbank 201, der Halbwellengleichrichter 203, der Peakselektor 205 und die Maskierungseinheit 207 erhalten ein maskiertes Signal für jedes Band in Bezug auf das über die Leitung 101 eingegebene Breitbandsprachsignal.
  • Die Filterbank 201 leitet eine Mehrzahl von Sprachsignalen mit bestimmtem Frequenzband vom Breitbandsprachsignal. Das bestimmte Frequenzband ist durch eine Mittelfrequenz bestimmt. Wenn das Hochbandsprachsignal ein Signal mit einer Frequenz über 2600 Hz ist und das vom Schmalbandsprachkompressor 106 verarbeitete Schmalbandtiefbandsignal ein Signal mit einer Frequenz unter 3700 Hz ist, kann die Filterbank 201 unter Verwendung von zwei Frequenzbändern funktionieren, deren Mittelfrequenz 2900 Hz bzw. 3400 Hz beträgt. Die Filterbank 201 kann eine Gammatone-Filterbank sein. Ein von der Filterbank 201 ausgegebenes Signal wird über eine Leitung 202 zum Halbwellengleichrichter 203 übertragen.
  • Der Halbwellengleichrichter 203 gibt eine Null für jede der Abtastungen aus, die einen negativen Wert für das über die Leitung 202 eingegebene Signal aufweist. Zum Ausgleich der aus der Halbwellengleichrichtung resultierenden Energiereduktion kann der Halbwellengleichrichter 203 so konfiguriert sein, dass er ein halbwellengleichgerichtetes Signal durch Multiplizieren von Abtastungen mit positiven Werten mit einer bestimmten Verstärkung erhält. Die bestimmte Verstärkung kann auf 2,0 gesetzt sein.
  • Der Peakselektor 205 wählt Abtastungen entsprechend einem Peak des über eine Leitung 204 eingegebenen Signals nach Halbwellengleichrichtung. Mit anderen Worten, der Peakselektor 205 wählt die Abtastungen mit Werten größer als benachbarte Abtastungen als die dem Peak entsprechenden Abtastungen wie folgt:
    Figure 00090001
    wobei x[n] eine n-te Abtastung darstellt, die am Peakselektor 205 eingegeben ist, y[n] eine Abtastung darstellt, die vom Peakselektor 205 aus gegeben ist, entsprechend der n-ten Eingabeabtastung. Und x[n – 1] und x[n + 1] stellen die benachbarten Abtastungen dar.
  • Zur Kompensation einer Energiereduktion aufgrund verzögerter Abtastungen, die kein Peak vom Peakselektor 205 sind, kann der Peakselektor 205 das Peaksignal des halbwellengleichgerichteten Signals durch Addieren von Werten der verzögerten Abtastungen zum Wert der ausgewählten Abtastung wie folgt erfassen:
    Figure 00100001
    wobei G eine Konstante ist, die den Kompensationsgrad bestimmt und auf 0,5 gesetzt sein kann.
  • Die Maskierungseinheit 207 ermittelt eine Postmaskierungskurve q[n] und eine Premaskierungskurve z[n] aus einem Peaksignal, das über eine Leitung 206 vom Peakselektor 205 empfangen ist und gibt ein Signal aus, das durch Ersetzen aller Werte unter den beiden Maskierungskurven durch 0 über eine Leitung 208 erhalten ist. Das über die Leitung 208 ausgegebene Signal ist ein maskiertes Signal in Bezug auf das über die Leitung 101 eingegebene Breitbandsprachsignal.
  • Die Postmaskierungskurve q[n] ist definiert als:
    Figure 00100002
    und die Premaskierungskurve z[n] ist definiert als:
    Figure 00110001
  • In Gleichung 3 stellt x[n] ein Eingangssignal der Maskierungseinheit 207 dar, bei dem c0 und c1 Konstanten sind, die die Intensität der Maskierung bestimmen, wobei bevorzugt ist, dass c0 gleich e–0,5 ist und c1 gleich e–0,5 ist. In Gleichung 3 stellt q[n – 1] die vorhergehende Postmaskierungskurve von q[n] dar.
  • Ebenso kann zum Kompensieren einer Energiereduzierung aufgrund von Maskierung in der Maskierungseinheit 207 ein durch Maskieren eliminierter Abtastwert mit einer bestimmten Verstärkung multipliziert werden und einem vorhergehenden oder nachfolgenden Abtastwert hinzuaddiert werden, der durch Maskieren nicht eliminiert ist.
  • Dieser Vorgang kann definiert werden als:
    für n = 0, 1, ... wenn x[n] < q[n], dann x[prev] = x[prev] + x[n]·G, x[n] = 0,0 (5)ansonsten post = n
    für n = 0, 1, ... wenn x[n] < z[n], dann x[post] = x[post] + x[n]·G, x[n] = 0,0 (6)ansonsten post = n
  • Die unter Verwendung von Gleichung 5 ausgeführte Operation kompensiert eine Energiereduzierung aufgrund von Postmaskierung und die unter Verwendung von Gleichung 6 ausgeführte Operation kompensiert eine Energiereduzierung aufgrund von Premaskierung. Wenn N eine Rahmenlänge ist und G eine Konstante ist, die den Kompensationsgrad definiert, kann G auf 0,5 gesetzt sein.
  • Das über die Leitung 111 eingegebene dekomprimierte Breitbandtiefbandsignal wird von der Filterbank 201', dem Halbwellengleichrichter 203', dem Peakselektor 205' und der Maskierungseinheit 207' auf die selbe Weise verarbeitet wie das über die Leitung 101 eingegebene Breitbandsprachsignal. Auf diese Weise wird ein maskiertes Signal in Bezug auf des dekomprimierte Breitbandtiefbandsignal aus der Maskierungseinheit 207' ausgegeben.
  • Die Intersignalmaskierungseinheit 209 empfängt ein von der Maskierungseinheit 207' über eine Leitung 208' ausgegebenes Signal und erhält eine Postmaskierungskurve und eine Premaskierungskurve ausgehend von den Gleichungen 3 und 4. Wenn das über die Leitung 208 eingegebene Signal einen Wert von weniger als die Postmaskierungs- und Premaskierungskurve aufweist, ersetzt die Intersignalmaskierungseinheit 209 einen Wert von 0, was auf diese Weise das Fehlersignal zwischen dem Breitbandsprachsignal und dem dekomprimierten Breitbandtiefbandsignal erfasst.
  • Das erfasste Fehlersignal wird über eine Leitung 115 zur Hochbandsprachkompressionseinheit 116 übertragen. Da in der Intersignalmaskierungseinheit 209 die Energiereduzierung normalerweise proportional zur Differenz zwischen den über die Leitungen 208 und 208' eingegebenen Signalen ist, wird eine Kompensation zur Energiereduzierung aufgrund von Maskierung, wie in den Gleichungen 5 und 6 definiert, nicht angewendet.
  • Eine Fehlererfassung durch die Fehlererfassungseinheit 114 ist gegenüber einem herkömmlichen Verfahren zum Erfassen eines Fehlersignals durch Berechnen einer Differenz zwischen zwei Signalen vorteilhaft, da es Verzerrung bei der Sprachkompression reduziert. Ein solcher Vorteil ist aus den 3A und 3B zu sehen.
  • 3A stellt die Beziehung zwischen Spektren für ein Eingangssignal und ein endgültig dekomprimiertes Signal dar, wenn ein Fehlersignal unter Verwendung des herkömmlichen Verfahrens erfasst ist und 3B stellt die Beziehung zwischen Spektren für das Eingangssignal und das endgültig dekomprimierte Signal dar, wenn das Fehlersignal von der Fehlererfassungseinheit 114 erfasst ist. Unter Berücksichtigung der Frequenzbänder T in den 3A und 3B, ist das endgültig dekomprimierte Signal nicht ausreichend kompensiert, wenn das Fehlersignal unter Verwendung des herkömmlichen Verfahrens erfasst wird. Wenn jedoch das Fehlersignal gemäß der vorliegenden Erfindung erfasst wird, ist das Niveau des endgültig dekomprimierten Signals näher am Eingangssignal.
  • Die Hochbandsprachkompressionseinheit 116 kodiert das über die Leitung 115 eingegebene Fehlersignal (nachfolgend als Fehlersignal 115 bezeichnet) und das über die Leitung 101 eingegebene Breitbandsprachsignal, so dass auf diese Weise ein Hochbandsprachpaket erhalten wird. Zu diesem Zweck ist die Hochbandsprachkompressionseinheit 116 so wie in 4 gezeigt konfiguriert.
  • Mit Bezug zu 4 weist die Hochbandsprachkompressionseinheit 116 eine Filterbank 401, eine diskrete Fourier-Transformation (DFT) 403, einen Quadratmittelwert(RMS)-Kalkulator 405, eine RMS-Quantisierungseinrichtung 407, einen Koeffizientenbetragskalkulator 409, eine Normalisierungseinrichtung 411, eine DFT-Koeffizientenquantisierungseinrichtung 413, einen Gewichtsfunktionskalkulator 416, einen Halbwellengleichrichter 420, einen Peakselektor 421, eine Maskierungseinheit 422 und eine Paketisiereinheit 423 auf.
  • Die Filterbank 401 unterteilt das über die Leitung 101 eingegebene Breitbandsprachsignal in eine Mehrzahl von bestimmten Frequenzbändern. Zum Beispiel kann das Breitbandsprachsignal in vier Frequenz bänder um 4000 Hz, 4800 Hz, 5800 Hz und 7000 Hz zentriert aufgesplittet werden. Da das Fehlersignal 115 schon in zwei Bänder aufgeteilt ist, wird die Funktion der Filterbank 401 beim Fehlersignal 115 nicht angewendet. Die beiden Bänder des Fehlersignals weisen Mittelfrequenzen von 2900 Hz bzw. 3400 Hz auf.
  • Daher weist ein von der Hochbandsprachkompressionseinheit 116 verarbeitetes Hochbandsignal insgesamt sechs Frequenzbänder auf, darunter die beiden über die Leitung 115 übertragenen Frequenzbänder, und die von der Filterbank 401 erhaltenen vier Frequenzbänder. Die sechs Frequenzbänder sind als Band 0 bis Band 5 angegeben. Mit anderen Worten, das Fehlersignal 115 ist durch Band 0 und Band 1 angegeben, und die vier von der Filterbank 401 ausgegebenen Frequenzbänder sind als Band 2 bis Band 5 angegeben.
  • Das Band 0 und Band 1 entsprechende Fehlersignal 115 und ein über eine Leitung 402 von der Filterbank 401 ausgegebenes Signal (nachfolgend als Signal 402 bezeichnet), das Band 0 bis Band 5 entspricht, werden in die DFT 403 eingegeben.
  • Die DFT 403 arbeitet für das Signal 402 und das Fehlersignal 115 getrennt. Da das Signal 402 und das Fehlersignal 115 in ihren entsprechenden Frequenzbändern definiert sind, berechnet die DFT 403 einen DFT-Koeffizienten einer Frequenzdomäne entsprechend jedem Frequenzband. Mit anderen Worten, die DFT 403 transformiert ein Eingangsignal in die entsprechenden Frequenzbänder und berechnet dann den DFT-Koeffizienten für jedes Frequenzband. Der errechnete DFT-Koeffizient wird über eine Leitung 404 dem RMS-Kalkulator 405 und dem Koeffizientenbetragskalkulator 409 zugeführt.
  • Der RMS-Kalkulator 405 berechnet einen RMS-Wert aus einem DFT-Koeffizienten für jedes Band. Zum Beispiel wird DFT bei 10 msec Unter rahmen des Signals 402 und des Fehlersignals 115 durchgeführt, es wird ein RMS-Wert für jeden der errechneten DFT-Koeffizienten erhalten und die erhaltenen RMS-Werte werden in 30 msec Rahmen an die RMS-Quantisierungseinheit 407 ausgegeben. Mit anderen Worten, ein über eine Leitung 406 in die RMS-Quantisierungseinrichtung 407 eingegebener Wert besteht aus 18 RMS-Werten (nachfolgend als RMS-Werte 406 bezeichnet) bezüglich 6 Bänder × 3 Unterrahmen.
  • Die RMS-Quantisierungseinrichtung 407 quantisiert die 18 RMS-Werte 406. Gemäß herkömmlicher Techniken, werden RMS-Werte für jedes Band getrennt skalar quantisiert. Es besteht jedoch hohe Korrelation zwischen den 18 RMS-Werten 406 in Bezug auf die 6 Bänder und 3 Unterrahmen. Daher führt die RMS-Quantisierungseinrichtung 407 prediktive Quantisierung an den 18 RMS-Werten 406 aus, um den Vorteil einer solchen Korrelation zu nutzen. Mit anderen Worten, prediktive Quantisierung wird in der Weise durchgeführt, dass ausgehend von Charakteristiken der 18 RMS-Werte 406 eine Vorhersageeinrichtung ausgewählt wird.
  • Zu diesem Zweck ist die RMS-Quantisierungseinrichtung 407 wie in 5 gezeigt konfiguriert. Mit Bezug zu 5 weist die RMS-Quantisierungseinrichtung 407 eine Bandvorhersageeinrichtung 501, eine Zeitbandvorhersageeinrichtung 503, Quantisierungseinrichtungen 505 und 506, Inverquantisierungseinrichtungen 509 und 510 und einen Vorhersageselektor 513 auf.
  • Dei 18 RMS-Werte 406 sind in einer 3 × 6 Matrix dargestellt, d. h. rms[t][b], wenn t ein Unterrahmenindex ist, der Werte von 0, 1 und 2 aufweist und b ein Bandindex ist, der Werte von 0, 1, 2, 3, 4 und 5 aufweist. Die Bandvorhersageeinrichtung 501 erzeugt einen Bandvorhersagefehlerwert 502 unter Verwendung einer Korrelation zwischen den 18 RMS-Werten 406. Die Bandvorhersagefehlerwerte 502 sind definiert als: Δ1[t][b] = rmsq[t][b] – armsq[t][b – 1] (7)wobei rmsq[t][b – 1] quantisierte RMS-Werte 511 darstellt, die Quantisierung und inverse Quantisierung durch die Quantisierungseinrichtung 505 und die Inversquantisierungseinrichtung 509 erfahren, und a ist ein Vorhersagekoeffizient, der in der Ausführungsform der vorliegenden Erfindung auf 1,0 gesetzt ist. Anfangswerte von rmsq[t][b – 1] sind auf 0 gesetzt. Die Bandvorhersagefehlerwerte 502 werden in der Quantisierungseinrichtung 505 getrennt skalar quantisiert, daher können die 18 RMS-Werte 406 ausgehend von einem Quantisierungsergebnis der Bandvorhersagefehlerwerte 502 unter Verwendung von Gleichung 7 vorhergesagt werden.
  • Die Zeitbandvorhersageeinrichtung 503 führt gleichzeitig Zeit- und Bandvorhersage unter Verwendung der Korrelation zwischen den 18 RMS-Werten 406 durch. Die Zeitbandvorhersagefehlerwerte 504 für die 18 RMS-Werte 406 können wie folgt definiert werden: Δ2[t][b] = rms[t][b] – g(rmsq[t][b – 1] + rmsq[t – 1][b]) (8)wobei g ein Vorhersagekoeffizient der Zeitbandvorhersageeinrichtung 503 ist, der in der Ausführungsform der vorliegenden Erfindung auf 0,5 gesetzt ist und Anfangswerte von rmsq[t][b – 1] und rmsq[t – 1][b] auf 0 gesetzt sind.
  • Die Quantisierungseinrichtung 505 führt skalare Quantisierung für die Bandvorhersagefehlerwerte 502 durch, so dass damit ein RMS-Quantisierungsindex erhalten wird. Die Quantisierungseinrichtung 506 führt skalar Quantisierung der Zeitbandvorhersagefehlerwerte 504 durch, so dass damit ein RMS-Quantisierungsindex erhalten wird. Die Inversquantisierungseinrichtung 509 ermittelt die quantisierten RMS-Werte 511 unter Verwendung von Gleichung 7, wie in Gleichung 9 gezeigt. Die Inversquantisierungseinrichtung 510 ermittelt quantisierte RMS-Werte 512 unter Verwendung von Gleichung 8, wie in Gleichung 10 gezeigt. rmsq[t][b] = Δ1q[t][b] + armsq[t][b – 1] (9) rmsq[t][b] = Δ2q[t][b] + g(rmsq[t][b– 1] + rmsq[t – 1][b]) (10)
  • Aus den Inversquantisierungseinrichtungen 509 und 510 ausgegebene Signale werden in die Bandvorhersageeinrichtung 501 bzw. die Zeitbandvorhersageeinrichtung 503 eingegeben und zur Vorhersage verwendet wie in den Gleichungen 7 und 8 definiert.
  • Schrittgrößen der Quantisierungseinrichtungen 505 und 506 und der Inversquantisierungseinrichtungen 509 und 510 werden gemäß der Anzahl von Bits bestimmt, die Jedem Bandvorhersagefehlerwert 502 und Zeitbandvorhersagefehlerwert 504 zugewiesen sind. Gemäß der Ausführungsform der vorliegenden Erfindung ist die Zuordnung von Bits wie in 7 gezeigt. Die Quantisierungseinrichtungen 505 und 506 können die Bandvorhersagefehlerwerte 502 und die Zeitbandvorhersagefehlerwerte 504 gemäß dem mu-Law quantisieren. Da die Bänder oder Zeiten, in denen die Effekte der Vorhersage nicht erhalten werden, d. h. Δ1[t][0] der Bandvorhersageeinrichtung 501 und Δ2[0][0] der Zeitbandvorhersageeinrichtung 503, dem ursprünglichen RMS-Wert entsprechen und nicht die Charakteristiken von Fehlern aufweisen, werden sie durch allgemeine lineare Quantisierung basierend auf der Verteilung des ursprünglichen RMS-Werts verarbeitet.
  • Der Vorhersageselektor 513 berechnet Quantisierungsfehlerenergien unter Verwendung von Ausgaben der Quantisierungseinrichtungen 505 und 506 und der Inversquantisierungseinrichtungen 509 und 510. Der Vorhersageselektor 513 wählt eine Vorhersageeinrichtung, die die kleinere Quantisierungsfehlerenergie aufweist.
  • Wenn die Quantisierungsfehlerenergie der Bandvorhersageeinrichtung 501 die kleinere Quantisierungsfehlerenergie aufweist als die der Zeitbandvorhersageeinrichtung 503, gibt der Vorhersageselektor 513 die quantisierten RMS-Werte 511 aus der Inversquantisierungseinrichtung 509 über eine Leitung 408, den RMS-Quantisierungsindex der ausgewählten Bandvorhersageeinrichtung 501 über eine Leitung 418 und einen ausgewählten Vorhersageeinrichtungstypindex, der angibt, dass die Bandvorhersageeinrichtung 501 ausgewählt ist, über eine Leitung 417 aus.
  • Wenn hingegen die Quantisierungsfehlerenergie der Zeitbandvorhersageeinrichtung 503 die kleinere Quantisierungsfehlerenergie aufweist als die der Bandvorhersageeinrichtung 501, gibt der Vorhersageselektor 513 die quantisierten RMS-Werte 512 aus der Inversquantisierungseinrichtung 510 über die Leitung 408, den RMS-Quantisierungsindex der ausgewählten Zeitbandvorhersageeinrichtung 503 über die Leitung 418 und einen ausgewählten Vorhersageeinrichtungstypindex, der angibt, dass die Zeitbandvorhersageeinrichtung 503 ausgewählt ist, über die Leitung 417 aus.
  • Der Koeffizientenbetragskalkulator 409 berechnet einen DFT-Koeffizientenbetrag für jedes Frequenzband und gibt ihn über eine Leitung 410 aus. Der Koeffizientenbetragskalkulator 409 ermittelt einen Absolutwert eines DFT-Koeffizienten, der eine komplexe Zahl ist.
  • Die Normalisierungseinrichtung 411 normalisiert den DFT-Koeffizientenbetrag unter Verwendung der quantisierten RMS-Werte 408 für jedes Frequenzband. Die Normalisierungseinrichtung 411 teilt den über die Leitung 410 übertragenen DFT-Koeffizientenbetrag durch die quanti sierten RMS-Werte 408 für jedes Frequenzband, so dass der normalisierte DFT-Koeffizientenbetrag ermittelt wird. Der normalisierte DFT-Koeffizientenbetrag jedes Frequenzband wird zur DFT-Koeffizientenquantisierungseinrichtung 413 übertragen.
  • Die DFT-Koeffizientenquantisierungseinrichtung 413 quantisiert einen DFT-Koeffizienten für jedes Frequenzband unter Verwendung einer Gewichtungsfunktion 414, die vom Gewichtsfunktionskalkulator 416 ausgegeben ist und gibt einen DFT-Koeffizientenindex über eine Leitung 419 aus. Mit anderen Worten, die DFT-Koeffizientenquantisierungseinrichtung 413 führt Vektorquantisierung für den normalisierten DFT-Koeffizientenbetrag jedes Frequenzbands durch. In der Ausführungsform der vorliegenden Erfindung beträgt die verwendete Mittelfrequenz in jeder Filterbank 2900 Hz, 3400 Hz, 4000 Hz, 4800 Hz, 5800 Hz und 7000 Hz und DFT wird bei jedem Unterrahmen von 10 msec durchgeführt. Auf diese Weise ist der DFT-Koeffizientenbetrag gleich 160 und der DFT-Koeffizientenindex für jedes Frequenzband ist wie in 6 gesetzt.
  • Der Gewichtsfunktionskalkulator 416 ermittelt die Gewichtsfunktion unter Verwendung eines maskierten Signals 415 von Band 2 bis Band 5 und des Fehlersignals 115. Mit anderen Worten, der Gewichtsfunktionskalkulator 416 definiert die Gewichtsfunktion basierend auf akustischer Information, transformiert die Gewichtsfunktion in eine Frequenzdomäne und gibt die transformierte Gewichtsfunktion 414 an die DFT-Koeffizientenquantisierungseinrichtung 413 zur DFT-Koeffizientenquantisierung.
  • Ein akustisch bedeutsames Signal im Signal 402 und dem Fehlersignal 115 ist sowohl im maskierten Signal 415 wie im Fehlersignal 115 enthalten. Wenn die Formen des maskierten Signals 415 und des Fehlersignals 115 nach Quantisierung erhalten bleiben, wird angenommen, dass keine akustische Verzerrung auftritt.
  • Gleichzeitig ist die Lage jedes Impulses des maskierten Signals 415 und des Fehlersignals 115 von Bedeutung. Insbesondere die Lage eines großen Impulses ist von größerer Bedeutung. Daher wird in einem quantisierten Zeitdomänensignal für jedes Frequenzband (das heißt ein Ergebnis von inverser DFT bei einem quantisierten DFT-Koeffizienten) die Signifikanz jeder Abtastung durch die Lage und Größe jedes Impulses des maskierten Signals 45 und des Fehlersignals 115 bestimmt. Ein gewichtetes mittleres Fehlerquadrat in der Zeitdomäne ist definiert als:
    Figure 00200001
    wobei w[n] eine Gewichtsfunktion in einer Zeitdomäne ist und x[n] das von der Filterbank 401 ausgegebene Signal 402 oder das Fehlersignal 115 ist und xq[n] ein Signal darstellt, das durch Transformieren des quantisierten DFT-Koeffizienten in die Zeitdomäne erhalten ist. Da nur der DFT-Koeffizientenbetrag in der Koeffizientenquantisierungseinrichtung 413 quantisiert wird, führt der Gewichtsfunktionskalkulator 416 inverse DFT für das maskierte Signal 415 unter Verwendung der ursprünglichen Phase des Signals 402 durch. w[n] ist definiert als:
    Figure 00200002
    wobei y[n] das maskierte Signal 415 oder das Fehlersignal 115 für jedes Frequenzband darstellt.
  • Die Gewichtsfunktion 414 in der Frequenzdomäne kann in Matrixform dargestellt werden: Wf = DTWD (13),wobei D eine Matrix ist, die inverser DFT entspricht und W eine Matrix ist, die als W = diag[w[0], w[1], ... w[N – 1]] definiert ist.
  • Auf diese Weise berechnet der Gewichtsfunktionskalkulator 416 w[n] unter Verwendung von Gleichung 12 und das maskierte Signal 415 für jedes Frequenzband und das Fehlersignal 115 und ermittelt die Gewichtsfunktion 414 für jedes Frequenzband in Matrixform durch Einsetzen des errechneten w[n] in Gleichung 13. Die Gewichtsfunktion 414 für jedes Frequenzband wird in die DFT-Koeffizientenquantisierungseinrichtung 413 eingegeben. Der gewichtete Quadratmittelfehlerwert für jedes Frequenzband ist WMSE = ETWfE(14)
  • Durch Ermitteln eines Kodevektors i, der das Ergebnis von Gleichung 14 in Bezug auf jedes Frequenzband minimiert, kann Quantisierung in der Weise durchgeführt werden, dass eine akustische Verzerrung minimiert wird. Hier ist E in jedem Frequenzband ein Fehlervektor in Bezug auf den Kodevektor i. In der Ausführungsform der vorliegenden Erfindung ist die Anzahl an jedem Frequenzband zugewiesenen Bits in 7 gezeigt.
  • Die Paketisiereinrichtung 423 paketisiert den RMS-Quantisierungsindex 418, den ausgewählten Vorhersageeinrichtungstypindex 417 und einen DFT-Koeffizientenquantisierungsindex 419 für jedes Frequenzband, so dass auf diese Weise ein Hochpassbandsprachpaket erzeugt wird. Das erzeugte Hochpassbandsprachpaket wird über eine Leitung 117 zu einem Kommunikationskanal (nicht gezeigt) übertragen.
  • Die von der Filterbank 401 ausgegebenen Vierfrequenzbandsignale werden vom Halbwellengleichrichter 420, dem Peakselektor 421 und der Maskierungseinheit 422 wie mit Bezug zu 2 beschrieben verarbeitet, und es wird ein maskiertes Signal für jedes Frequenzband erhalten.
  • 8 ist ein Blockdiagramm einer Sprachdekompressionseinrichtung gemäß einer Ausführungsform der vorliegenden Erfindung. Mit Bezug zu 8 weist die Sprachdekompressionseinrichtung einen Schmalbandsprachdekompressor 802, eine dritte Bandtransformationseinheit 804, eine Hochbandsprachdekompressionseinrichtung 809 und einen Addierer 811 auf.
  • Der Schmalbandsprachdekompressor 802 ist in der selben Weise konfiguriert wie der Schmalbandsprachdekompressor 108 von 1. Wenn daher ein Tiefbandsprachpaket über eine Leitung 801 eingegeben wird, gibt der Schmalbandsprachdekompressor 802 ein dekomprimiertes Schmalbandtiefbandsprachsignal 803 aus.
  • Die dritte Bandtransformationseinheit 804 konvertiert das dekomprimierte Schmalbandtiefbandsprachsignal 803 in ein dekomprimiertes Breitbandtiefbandsprachsignal 807. Die dritte Bandtransformationseinheit 804 umfasst einen Upsampler 805 und einen Tiefpassfilter 806 und funktioniert auf die selbe Weise wie die zweite Bandtransformationseinheit 110 von 1.
  • Sobald ein Hochbandsprachpaket über eine Leitung 808 eingegeben wird, ermittelt die Hochbandsprachdekompressionseinrichtung 809 ein dekomprimiertes Hochbandsprachsignal. Die Hochbandsprachdekompressionseinrichtung 809 ist durch die Hochbandsprachkompressionseinheit 116 von 1 definiert.
  • Auf diese Weise kann die Hochbandsprachdekompressionseinrichtung 809 entsprechend der Hochbandsprachkompressionseinrichtung 116 wie in 9 gezeigt konfiguriert sein. Mit Bezug zu 9 weist die Hochbanddekompressionseinheit 809 eine Inversquantisierungseinrichtung 904, eine Vorhersageeinrichtung 906, ein Kodebuch 908, einen Multiplier 910, einen DFT-Koeffizientenphasenkalkulator 912, eine inverse DFT-Einheit 914, eine Filterbank 916 und einen Addierer 918 auf.
  • Die Inversquantisierungseinrichtung 904 weist Inversquantisierungseinrichtungen (nicht gezeigt) auf, die der Bandvorhersageeinrichtung 501 und der Zeitbandvorhersageeinrichtung 503, wie in 5 gezeigt, entsprechen. Auf diese Weise wählt die Inversquantisierungseinrichtung 904 eine Inversquantisierungseinrichtung aus den Inversquantisierungseinrichtungen unter Verwendung des über eine Leitung 902 eingegebenen ausgewählten Vorhersageeinrichtungstypindex aus und berechnet einen invers-quantisierten Vorhersagefehlerwert Δ1q[t][b] oder Δ2q [t][b] unter Verwendung eines über eine Leitung 901 eingegebenen RMS-Quantisierungsindex. Der RMS-Quantisierungsindex und der ausgewählte Vorhersageeinrichtungstypindex sind im eingegebenen Hochbandsprachpaket 808 enthalten.
  • Der von der Inversquantisierungseinrichtung 904 ausgegebene inversquantisierte Vorhersagefehlerwert wird über eine Leitung 905 zur Vorhersageeinrichtung 906 übertragen. Die Vorhersageeinrichtung 906 weist die Bandvorhersageeinrichtung 501 und die Zeitbandvorhersageeinrichtung 503 der RMS-Quantisierungseinrichtung 407 auf und wählt die Vorhersageeinrichtung, die dem über die Leitung 902 eingegebenen ausgewählten Vorhersageeinrichtungstypindex entspricht. Sobald eine Vorhersageeinrichtung ausgewählt ist, setzt die Vorhersageeinrichtung 906 den über die Leitung 905 eingegebenen quantisierten Vorhersagefehlerwert in die Gleichungen 9 und 10 ein und ermittelt quantisierte RMS-Werte. Die quantisierten RMS-Werte werden über eine Leitung 907 ausgegeben.
  • Sobald der DFT-Koeffizientenindex über eine Leitung 903 eingegeben ist, gibt das Kodebuch 908 den normalisierten DFT-Koeffizientenbetrag aus, der dem eingegebenen DFT-Koeffizientenindex entspricht. Der DFT-Koeffizientenindex ist im eingegebenen Hochbandsprachpaket 808 enthalten. Der normalisierte DFT-Koeffizientenbetrag wird über eine Leitung 909 zum Multiplier 910 übertragen.
  • Der Multiplier 910 multipliziert die über die Leitung 907 eingegebenen quantisierten RMS-Werte mit dem über die Leitung 909 eingegebenen normalisierten DFT-Koeffizientenbetrag, so dass ein quantisierter DFT-Koeffizientenbetrag erhalten wird. Der quantisierte DFT-Koeffizientenbetrag wird über eine Leitung 911 ausgegeben.
  • Der DFT-Koeffizientenphasenkalkulator 912 führt zyklisch Selbstberechnung einer DFT-Koeffizientenphase θi[m] durch, die über eine Leitung 913 ausgegeben wird. ν(0)i [m] = ν(–1)i [m] + wcN θi[m] = ν(0)i [m] + ψ[m] (15),wobei m der DFT-Koeffizientenindex ist, i der Bandindex ist und ν (0) / i[m] und ν (–1) / i[m] einem anstehenden Unterrahmen und einem vorhergehenden Unterrahmen entsprechen, und der Anfangswert des DFT-Koeffizientenphase 0 beträgt, wc eine Mittelfrequenz jedes Frequenzbands und in Radian ausgedrückt ist, N die Anzahl an DFT-Koeffizienten ist, ψ[m] ein statistischer Wert ist der in (–π, π) gleichmäßig verteilt ist.
  • Die inverse DFT-Einheit 914 erzeugt ein Zeitdomänensignal für jedes Frequenzband unter Verwendung des über die Leitung 911 eingegebenen DFT-Koeffizientenbetrags und der über die Leitung 913 eingegebenen DFT-Koeffizientenphase θi[m]. Das Zeitdomänensignal für jedes Frequenzband wird über eine Leitung 915 ausgegeben.
  • Die Filterbank 916 ist durch die Filterbanken 201 und 201' der Fehlererfassungseinheit 114 für Band 0 und Band 1 definiert, und ist durch die Filterbank 401 der Hochbandsprachkompressionseinheit 116 in Band 2 bis Band 5 definiert. Auf diese Weise ist in der Filterbank 916 jedes Frequenzband durch die Mittelfrequenz definiert, die in den Filterbanken 201 und 201' oder der Filterbank 401 definiert sind. Die Filterbank 916 ermittelt ein endgültiges Sprachsignal für jedes Frequenzband unter Verwendung des Zeitdomänensignals für jedes Frequenzband. Das endgültige Sprachsignal für jedes Frequenzband und das Fehlersignal 115 werden über eine Leitung 917 zur Addiereinrichtung 918 übertragen.
  • Der Addieren 918 addiert die über die Leitung 917 eingegebenen Sprachsignale für die Frequenzbänder und ermittelt ein dekomprimiertes Hochbandsprachsignal. Das dekomprimierte Hochbandsprachsignal wird über eine Leitung 810 ausgegeben.
  • Der Addierer 818 addiert das über die Leitung 810 eingegebene dekomprimierte Hochbandsprachsignal und das über eine Leitung 807 eingegebene dekomprimierte Breitbandtiefbandsprachsignal und gibt ein dekomprimiertes Breitbandsprachsignal über eine Leitung 812 aus.
  • 10 ist ein Fließbild, das ein Sprachkompressionsverfahren gemäß einer Ausführungsform der vorliegenden Erfindung darstellt.
  • Wenn ein Breitbandsprachsignal eingegeben wird, wird das Breitbandsprachsignal im Vorgang 1001 in ein Schmalbandtiefbandsprachsignal transformiert. Die Transformation wird wie mit Bezug zur ersten Bandtransformationseinheit 102 von 1 beschrieben durchgeführt.
  • Beim Vorgang 1002 wird das Schmalbandtiefbandsprachsignal unter Verwendung eines herkömmlichen Schmalbandkompressionsstandardverfahrens komprimiert und das komprimierte Signal wird zu einem Kommunikationskanal ausgegeben. Das komprimierte Signal ist ein Tiefbandsprachpaket, das dem Breitbandsprachsignal entspricht.
  • Beim Vorgang 1003 wird das Tiefbandsprachpaket dekomprimiert und das dekomprimierte Tiefbandsprachsignal in ein dekomprimiertes Breitbandtiefbandsprachsignal transformiert. Die Dekompression wird wie mit Bezug zum Schmalbandsprachdekompressor 108 und der zweiten Bandtransformationseinheit 110 von 1 beschrieben durchgeführt.
  • Beim Vorgang 1004 wird ein Fehlersignal entsprechend einer Differenz zwischen dem Breitbandsprachsignal und dem dekomprimierten Breitbandtiefbandsprachsignal erfasst. Die Erfassung des Fehlersignals wird wie mit Bezug zu 2 beschrieben durchgeführt.
  • Beim Vorgang 1005 werden das Fehlersignal und ein Hochbandsprachsignal in ein einziges Signal komprimiert und das komprimierte Signal zum Kommunikationskanal (nicht gezeigt) übertragen. Das komprimierte Signal ist ein Hochbandsprachpaket, das dem Breitbandsprachsignal entspricht. Kompression des Fehlersignals und des Hochbandsprachsignals werden wie mit Bezug zu den 4 und 5 beschrieben durchgeführt.
  • 11 ist ein Fließbild, dass ein Sprachdekompressionsverfahren gemäß einer Ausführungsform der vorliegenden Erfindung darstellt.
  • Wenn ein Tiefbandsprachpaket und ein Hochbandsprachpaket durch den Kommunikationskanal (nicht gezeigt) empfangen werden, wird das Tiefbandpaket dekomprimiert und in Vorgang 1101 ein Schmalbandtiefbandsignal erhalten. Die Dekompression des Tiefbandpakets wird wie mit Bezug zum Schmalbandsprachdekompressor 802 von 8 beschrieben durchgeführt. Das Hochbandsprachpaket wird ebenfalls dekomprimiert und ein Hochbandsprachsignal erhalten. Die Dekompression des Hochbandsprachpakets wird wie mit Bezug zu den 8 und 9 beschrieben durchgeführt.
  • Beim Vorgang 1102 wird das Schmalbandtiefpasssignal in ein dekomprimiertes Breitbandtiefbandsprachsignal transformiert. Die Transformation des dekomprimierten Breitbandtiefbandsprachsignals wird wie mit Bezug zur dritten Bandtransformationseinheit 804 von 8 beschrieben durchgeführt.
  • Beim Vorgang 1103 werden das dekomprimierte Breitbandtiefbandsprachsignal und das dekomprimierte Hochbandsprachsignal addiert und das Ergebnis der Addition als dekomprimiertes Breitbandsprachsignal ausgegeben, das dem Tiefbandsprachpaket und dem Hochbandsprachpaket entspricht.
  • Gemäß den Ausführungsformen der vorliegenden Erfindung weist eine Sprachsignalkodiereinrichtung und -dekodiereinrichtung mit einer skalierbaren Bandbreitenstruktur eine Sprachkompressionsvorrichtung und Sprachdekompressionsvorrichtung auf, die mit einem herkömmlichen Standardschmalbandkompressor kompatibel ist oder ein Verfahren entsprechend der Sprachkompressionsvorrichtung und Sprachdekompressionsvorrichtung durchführt.
  • Ebenso ist es möglich, durch zusätzliches Komprimieren von Verzerrung, die durch den Schmalbandsprachkompressor bedingt ist, wenn ein Hochbandsprachsignal komprimiert wird, Verzerrung zu kompensieren, die im Schmalbandsprachkompressor auftritt.
  • Darüber hinaus kann bei der Kompression des Hochbandsprachsignals durch Anwenden einer Gewichtsfunktion, die akustische Eigenschaften eines Sprachsignals berücksichtigt, die Quantifizierungseffizienz verbessert werden. Wenn das Hochbandsprachsignal komprimiert und dekomprimiert wird, werden Korrelationen zwischen Bändern und zwischen Band und Zeit berücksichtigt. Gleichzeitig wird ein Fehlersignal zwischen einem dekomprimierten Breitbandtiefbandsprachsignal und einem Breitbandsprachsignal erfasst und das erfasste Fehlersignal wird verwendet, wodurch Informationsverlust aufgrund von Kompression und Dekompression minimiert wird.
  • Während die vorliegende Erfindung insbesondere mit Bezug zu beispielhaften Ausführungsformen gezeigt und beschrieben wurde, versteht es sich für die Fachleute, dass verschiedene Änderungen in Form und Details hierzu vorgenommen werden können, ohne vom Rahmen der Erfindung abzuweichen, wie er durch die beigefügten Ansprüche und ihre Äquivalente definiert ist.

Claims (28)

  1. Sprachkompressionsvorrichtung umfassend: eine erste Bandtransformationseinheit (102) so angeordnet, dass sie ein Breitbandsprachsignal in ein Schmalbandtiefbandsprachsignal transformiert; einen Schmalbandsprachkompressor (106) so angeordnet, dass er das von der ersten Bandtransformationseinheit ausgegebene Schmalbandtiefbandsprachsignal komprimiert und ein Ergebnis der Kompression als Tiefbandsprachpaket ausgibt; eine Dekompressionseinheit (108) so angeordnet, dass sie das Tiefbandsprachpaket dekomprimiert und ein dekomprimiertes Breitbandtiefbandsprachsignal erhalten wird; eine Fehlererfassungseinheit (114) so angeordnet, dass sie ein Fehlersignal erfasst, das einer Differenz zwischen dem Breitbandsprachsignal und dem dekomprimierten Breitbandtiefbandsprachsignal entspricht; und eine Hochbandsprachkompressionseinheit (116) so angeordnet, dass sie das von der Fehlererfassungseinheit erfasste Fehlersignal und ein Hochbandsprachsignal des Breitbandsprachsignals komprimiert und das Ergebnis der Kompression als Hochbandsprachpaket ausgibt; dadurch gekennzeichnet, dass die Fehlererfassungseinheit (114) so angeordnet ist, dass sie das Fehlersignal durch einen Maskierungsvorgang zwischen dem Breitbandsprachsignal und dem dekomprimierten Breitbandtiefbandsprachsignal erfasst; und das Hochbandsprachpaket einen quantisierten RMS-Wert, einen bei der Kompression erhaltenen Vorhersagetypindex und einen quantisierten DFT-Koeffizienten aufweist.
  2. Sprachkompressionsvorrichtung nach Anspruch 1, so angeordnet, dass sie die Maskierung derart durchführt, dass ein maskiertes Signal für das Breitbandsprachsignal durch ein maskiertes Signal für das dekomprimierte Breitbandtiefbandsprachsignal maskiert wird.
  3. Sprachkompressionsvorrichtung nach einem der vorhergehenden Ansprüche, wobei die Fehlererfassungseinheit umfasst: eine erste Filterbank (201) so angeordnet, dass sie das Breitbandsprachsignal in einem ersten bestimmten Frequenzband filtert und ein erstes gefiltertes Signal ausgibt; einen ersten Halbwellengleichrichter (203) so angeordnet, dass er Halbwellengleichrichtung für das erste gefilterte Signal durchführt und ein erstes gleichgerichtetes Halbwellensignal ausgibt; einen ersten Peakdetektor (205) so angeordnet, dass er ein erstes Peaksignal vom ersten gleichgerichteten Halbwellensignal erfasst; eine erste Maskierungseinheit (207) so angeordnet, dass sie ein erstes maskiertes Signal für das Breitbandsprachsignal vom ersten Peaksignal erzeugt; eine zweite Filterbank (201') so angeordnet, dass sie das dekomprimierte Breitbandtiefbandsprachsignal in einem zweiten bestimmten Frequenzband filtert und ein zweites gefiltertes Signal ausgibt; einen zweiten Halbwellengleichrichter (203') so angeordnet, dass er Halbwellengleichrichtung für das zweite gefilterte Signal durchführt und ein zweites gleichgerichtetes Halbwellensignal ausgibt; einen zweiten Peakdetektor (205') so angeordnet, dass er ein zweites Peaksignal vom zweiten gleichgerichteten Halbwellensignal erfasst; eine zweite Maskierungseinheit (207') so angeordnet, dass sie ein zweites maskiertes Signal für das dekomprimierte Breitbandtiefbandsprachsignal vom zweiten Peaksignal erzeugt; und eine Intersignalmaskierungseinheit (209) zur Durchführung von Intersignalmaskierung am ersten und zweiten maskierten Signal.
  4. Sprachkompressionsvorrichtung nach Anspruch 3, so angeordnet, dass sie Intersignalmaskierung durchführt, so dass eine Maskierungskurve unter Verwendung des zweiten maskierten Signals erhalten wird, und Abtastungen unter der Maskierungskurve von Abtastungen, die im ersten maskierten Signal enthalten sind, eliminiert werden.
  5. Sprachkompressionsvorrichtung nach Anspruch 3 oder 4, wobei der erste Halbwellengleichrichter (203) und der zweite Halbwellengleichrichter (203') so angeordnet sind, dass sie Abtastungen der Eingangssignale, die positive Werte aufweisen mit einer bestimmten Verstärkung multiplizieren, so dass Energiereduzierung der in den ersten Halbwellengleichrichter und den zweiten Halbwellengleichrichter eingegebenen Signale aufgrund der Halbwellengleichrichtung kompensiert wird.
  6. Sprachkompressionsvorrichtung nach Anspruch 3 oder 4, wobei zum Kompensieren der Energiereduktion der in den ersten Peakdetektor und den zweiten Peakdetektor eingegebenen Signale, aufgrund der Eliminierung von Abtastungen, die keine Peakwerte aufweisen, aus dem Eingangssignal der erste Peakdetektor (205) so angeordnet ist, dass er durch Multiplizieren der Amplitude der eliminierten Abtastungen mit einer bestimmten Verstärkung erhaltene Werte zu den Peakwerten addiert, die aus dem Eingangssignal erfasst sind, und die addierten Werte als das erste Peaksignal ausgibt, der zweite Peakdetektor (205') so angeordnet ist, dass er durch Multiplizieren der Amplitude der eliminierten Abtastungen mit einer bestimmten Verstärkung erhaltene Werte zu den Peakwerten addiert, die aus dem Eingangssignal erfasst sind, und die addierten Werte als das zweite Peaksignal ausgibt.
  7. Sprachkompressionsvorrichtung nach Anspruch 3 oder 4, wobei zum Kompensieren der Energiereduktion der in die erste Maskierungseinheit und die zweite Maskierungseinheit eingegebenen Signale, aufgrund der Maskierung der Eingangssignale, die erste Maskierungseinheit (207) und die zweite Maskierungseinheit (207') so angeordnet sind, dass sie bei der Maskierung eliminierte Abtastungen mit einer bestimmten Verstärkung multiplizieren und das Ergebnis der Multiplizierung zu den Abtastungen addieren, die bei der Maskierung nicht eliminiert sind, so dass das erste und zweite maskierte Signal erhalten werden.
  8. Sprachkompressionsvorrichtung nach einem der vorhergehenden Ansprüche, wobei das Fehlersignal eine Mehrzahl von Frequenzbändern auf weist und die Hochbandkompressionseinheit (116) so angeordnet ist, dass sie das Breitbandsprachsignal in die Mehrzahl von Frequenzbändern aufteilt und Kompression für jedes der Frequenzbänder durchführt.
  9. Sprachkompressionsvorrichtung nach Anspruch 8, wobei die Hochbandsprachkompressionseinheit (116) so angeordnet ist, dass sie einen diskreten Fourier-Transformationskoeffizienten (DFT-Koeffizient) für jedes der Frequenzbänder erhält, so dass ein Quadratmittelwert (RMS, root mean square) für jedes der Frequenzbänder unter Verwendung des DFT-Koeffizienten erhalten wird, und die RMS-Werte quantisiert werden.
  10. Sprachkompressionsvorrichtung nach Anspruch 9, so angeordnet, dass die RMS-Werte quantisiert werden durch getrenntes Durchführen von Vorhersage in Bezug auf Zeit und Frequenzbänder und Vorhersage in Bezug auf Frequenzbänder für jedes der Frequenzbänder.
  11. Sprachkompressionsvorrichtung nach Anspruch 9, so angeordnet, dass die RMS-Werte durch zweidimensionale Durchführung von Vorhersage in Bezug auf Zeit und Frequenzbänder durch Ermitteln der RMS-Werte für jeden Unterrahmen und jedes Band und Vorhersage eines aktuellen RMS-Werts unter Verwendung von Information sowohl eines vorhergehenden Unterrahmens und eines vorhergehenden Bandes quantisiert werden.
  12. Sprachkompressionsvorrichtung nach Anspruch 9, so angeordnet, dass die RMS-Werte durch Ermitteln von Vorhersagefehlerwerten von Eingangssignalen unter Verwendung einer Mehrzahl von Vorhersageeinrichtungen, Quantisierung der Vorhersagefehlerwerte, Vergleichen von Ergebnissen der Quantisierung der Vorhersagefehlerwerte, Auswählen einer Vorhersageeinrichtung unter der Mehrzahl von Vorhersageeinrichtungen und Ausgeben des Ergebnisses der Quantisierung der ermittelten Vorhersagefehlerwerte unter Verwendung der ausgewählten Vorhersageeinrichtung als quantisierten RMS-Wert quantisiert werden.
  13. Sprachkompressionsvorrichtung nach Anspruch 9, wobei die Hochbandsprachkompressionseinheit (116) eine RMS-Quantisierungseinrichtung (407) aufweist, die die RMS-Werte quantisiert, wobei die RMS-Quantisierungseinrichtung umfasst: eine Bandvorhersageeinrichtung (501) so angeordnet, dass sie einen Bandvorhersagefehler für die RMS-Werte durch Vorhersage zwischen Bändern bestimmt und den Bandvorhersagefehler für die RMS-Werte ausgibt; eine erste Quantisierungseinrichtung (505) so angeordnet, dass sie den Bandvorhersagefehler für die RMS-Werte quantisiert und den quantisierten Bandvorhersagefehler ausgibt; eine Zeitbandvorhersageeinrichtung (503) so angeordnet, dass sie einen Zeitbandvorhersagefehler zweidimensional für die RMS-Werte ermittelt; eine zweite Quantisierungseinrichtung (506) so angeordnet, dass sie den Zeitbandvorhersagefehler quantisiert und den quantisierten Zeitbandvorhersagefehler ausgibt; und einen Vorhersageselektor (513) so angeordnet, dass er den quantisierten Bandvorhersagefehler mit dem quantisierten Zeitbandvorhersagefehler vergleicht, wobei entweder die Bandvorhersageeinrichtung oder die Zeitbandvorhersageeinrichtung ausgewählt werden und die ausgewählte Vorhersageeinrichtung zum Quantisieren der RMS-Werte verwendet wird.
  14. Sprachkompressionsvorrichtung nach Anspruch 13, wobei die RMS-Quantisierungseinrichtung ferner umfasst: eine erste Dequantisierungseinrichtung (509) so angeordnet, dass sie den quantisierten Bandvorhersagefehler dequantisiert und Ergebnisse der Dequantisierung an die Bandvorhersageeinrichtung (501) ausgibt; und eine zweite Dequantisierungseinrichtung (510) so angeordnet, dass sie den quantisierten Zeitbandvorhersagefehler dequantisiert und Ergebnisse der Dequantisierung an die Zeitbandvorhersageeinrichtung (503) und den Vorhersageselektor (513) ausgibt.
  15. Sprachkompressionsvorrichtung nach Anspruch 13 oder 14, wobei die erste Quantisierungseinrichtung (505) und die zweite Quantisierungseinrichtung (506) so angeordnet sind, dass sie skalare Quantisierung durchführen.
  16. Sprachkompressionsvorrichtung nach einem der Ansprüche 9 bis 15, wobei die Hochbandsprachkompressionseinheit (116) so angeordnet ist, dass sie einen normalisierten DFT-Koeffizienten für den DFT-Koeffizienten unter Verwendung des quantisierten RMS-Werts ermittelt und Vektorquantisierung für den normalisierten DFT-Koeffizienten durchführt.
  17. Sprachkompressionsvorrichtung nach Anspruch 16, wobei bei der Vektorquantisierung die Hochbandsprachkompressionseinheit so angeordnet ist, dass sie eine Vektorquantisierungsgewichtsfunktion erzeugt, die für jedes der Mehrzahl von Frequenzbändern akustisch bedeutend ist und die erzeugte Vektorquantisierungsgewichtsfunktion bei der Vektorquantisierung des DFT-Koeffizienten einsetzt.
  18. Sprachkompressionsvorrichtung nach Anspruch 17, wobei die Vektorquantisierungsgewichtsfunktion durch Berücksichtigung des Fehlersignals und des maskierten Signals für das Breitbandsprachsignal ermittelt wird.
  19. Sprachkompressionsvorrichtung nach Anspruch 18, wobei die Vektorquantisierungsgewichtsfunktion durch Ermitteln der Zeitdomänengewichtsfunktion wie folgt berechnet wird: w[n] = y[n]max y[n] wobei y[n] das maskierte Signal ist.
  20. Sprachkompressionsvorrichtung nach Anspruch 19, wobei die Vektorquantisierungsgewichtsfunktion die Zeitdomänengewichtsfunktion in eine Frequenzdomäne transformiert und die Vektorquantisierung des DFT-Koeffizienten in der Frequenzdomäne durchgeführt wird.
  21. Sprachkompressionsvorrichtung nach einem der vorhergehenden Ansprüche, wobei die Hochbandsprachkompressionseinheit (116) umfasst: eine Filterbank (401) zum Unterteilen des Breitbandsprachsignals in eine Mehrzahl von Frequenzbändern und Ausgeben der Mehrzahl von unterteilten Breitbandsprachsignalen; eine Maskierungseinheit (422) so angeordnet, dass sie maskierte Signale für die Mehrzahl von unterteilten Breitbandsprachsignalen erzeugt; einen Gewichtsfunktionskalkulator (416) so angeordnet, dass er eine Frequenzdomänengewichtsfunktion unter Verwendung der maskierten Signale und des Fehlersignals berechnet; eine diskrete Fourier-Transformation (DFT) (403) so angeordnet, dass sie DFT-Koeffizienten für die Mehrzahl von unterteilten Breitbandsprachsignalen unter Verwendung des Fehlersignals ermittelt, das von der Fehlererfassungseinheit ausgebeben ist und eine Mehrzahl von Frequenzbändern aufweist; eine RMS-Quantisierungseinrichtung (407) so angeordnet, dass sie einen RMS-Wert für jedes der Frequenzbänder unter Verwendung des DFT-Koeffizienten ermittelt, wobei der RMS-Wert quantisiert wird; eine Normalisierungseinrichtung (411) so angeordnet, dass sie den DFT-Koeffizienten unter Verwendung des quantisierten RMS-Werts normalisiert; eine DFT-Koeffizientenquantisierungseinrichtung (413), so angeordnet, dass sie den normalisierten DFT-Koeffizienten unter Verwendung der Frequenzdomänengewichtsfunktion quantisiert; und eine Paketisiereinrichtung (423) so angeordnet, dass sie den quantisierten RMS-Wert und den DFT-Koeffizienten paketisiert und das Ergebnis der Paketisierung als Hochbandsprachpaket ausgibt.
  22. Sprachkompressionsvorrichtung nach einem der vorhergehenden Ansprüche, wobei die Dekompressionseinheit (108) umfasst: einen Schmalbandsprachdekompressor zum Dekomprimieren des Tiefbandsprachpakets, das vom Schmalbandsprachkompressor ausgegeben ist und Ausgeben eines dekomprimierten Sprachsignals; und eine zweite Bandtransformationseinheit zum Transformieren des dekomprimierten Sprachsignals in das dekomprimierte Breitbandtiefbandsprachsignal.
  23. Sprachdekompressionsvorrichtung, die ein Sprachsignal dekomprimiert, das in eine skalierbare Bandbreitenstruktur komprimiert ist, wobei die Sprachdekompressionsvorrichtung umfasst: einen Schmalbandsprachdekompressor (802) so angeordnet, dass er ein Tiefbandsprachpaket des Sprachsignals empfängt, das Tiefbandsprachpaket dekomprimiert und ein dekomprimiertes Schmaltiefbandsprachsignal ausgibt; eine Hochbandsprachdekompressionsvorrichtung (809) so angeordnet, dass sie ein Hochbandsprachpaket des Sprachsignals empfängt, das Hochbandsprachpaket dekomprimiert und ein dekomprimiertes Hochbandsprachsignal ausgibt; und einen Addierer (811) so angeordnet, dass er das dekomprimierte Schmaltiefbandsprachsignal und das dekomprimierte Hochbandsprachsignal addiert und das Ergebnis der Addition als dekomprimiertes Breitbandsprachsignal ausgibt; dadurch gekennzeichnet, dass das Hochbandsprachpaket einen quantisierten RMS-Wert, einen Vorhersagetypindex, der verwendet wird, wenn das Sprachsignal komprimiert wird, und einen quantisierten DFT-Koeffizienten beinhaltet, und die Hochbandsprachdekompressionsvorrichtung so angeordnet ist, dass sie eine DFT-Koeffizientenphase selbst berechnet und verwendet, wenn der quantisierte DFT-Koeffizient inverse DFT erfährt.
  24. Sprachdekompressionsvorrichtung nach Anspruch 23, ferner umfassend eine Bandtransformationseinheit (804) zum Transformieren des dekomprimierten Schmaltiefbandsprachsignals in ein dekomprimiertes Breitbandtiefbandsprachsignal.
  25. Sprachdekompressionsvorrichtung nach Anspruch 23, wobei die DFT-Koeffizientenphase für jeden DFT-Koeffizienten wie folgt ermittelt wird: v(o)i [m] = v(–1)i [m] + wcN θi[m] = v(0)i [m] + ψ[m]wobei θi[m] die DFT-Koeffizientenphase ist, m ein Index des quantisierten DFT-Koeffizienten, i ein Frequenzbandindex und v (o) / i[m] und v (–1) / i[m] einem aktuellen Unterrahmen bzw. einem vorhergehenden Unterrahmen entsprechen.
  26. Sprachdekompressionsvorrichtung nach Anspruch 23, 24 oder 25, wobei das Hochbandsprachpaket einen Index eines quantisierten RMS-Werts beinhaltet, einen Vorhersagetypindex, der verwendet wird, wenn das Sprachsignal komprimiert wird und einen Index eines quantisierten DFT-Koeffizienten, wobei die Hochbandsprachdekompressionsvorrichtung (809) umfasst: eine Inversquantisierungseinrichtung (904) so angeordnet, dass sie eine Inversquantisierungseinrichtung aus einer Mehrzahl von Inversquantisierungseinrichtungen unter Verwendung des Vorhersagetypindex auswählt und einen quantisierten Vorhersagefehlerwert unter Verwendung der ausgewählten Inversquantisierungseinrichtung und des Index des quantisierten RMS-Werts berechnet; eine Vorhersageeinrichtung (906) so angeordnet, dass sie eine Vorhersageeinrichtung aus einer Mehrzahl von Vorhersageeinrichtungen in Abhängigkeit vom Vorhersagetypindex auswählt und einen quantisierten RMS-Wert unter Verwendung der ausgewählten Vorhersageeinrichtung berechnet, der dem quantisierten Vorhersagefehlerwert entspricht; ein Kodebuch (908) so angeordnet, dass es einen normalisierten DFT-Koeffizientenbetrag ausgibt, der dem Index des quantisierten DFT-Koeffizienten entspricht; einen Multiplier (910) so angeordnet, dass er den quantisierten RMS-Wert mit dem normalisierten DFT-Koeffizientenbetrag multipliziert; einen DFT-Phasenkalkulator (912), so angeordnet, dass er eine DFT-Koeffizientenphase berechnet, die dem Index des quantisierten DFT-Koeffizienten entspricht; eine inverse DFT-Einheit (914) so angeordnet, dass sie ein Zeitdomänensignal für jedes der Frequenzbänder unter Verwendung des DFT-Koeffizientenbetrags, der vom Multiplier ausgeben ist und der DFT-Koeffizientenphase, die vom DFT-Phasenkalkulator ausgeben ist ermittelt; eine Filterbank (916) so angeordnet, dass sie ein Sprachsignal für jedes der Frequenzbänder unter Verwendung des Zeitdomänensignals ermittelt und das Sprachsignal ausgibt; und einen Addierer (918) so angeordnet, dass er die Sprachsignale für jedes der Frequenzbänder addiert und das Ergebnis der Addition als dekomprimiertes Hochbandsprachsignal ausgibt, das dem komprimierten Hochbandsprachpaket entspricht.
  27. Sprachkompressionsverfahren umfassend: Transformieren (1001) eines Breitbandsprachsignals in ein Schmalbandtiefbandsprachsignal; Komprimieren (1002) des Schmalbandtiefbandsprachsignals und Übertragen des komprimierten Schmalbandtiefbandsprachsignals als Tiefbandsprachpaket; Dekomprimieren (1003) des Tiefbandsprachpakets und Ermitteln eines dekomprimierten Breitbandtiefbandsignals; Erfassen eines Fehlersignals (1004) entsprechend einer Differenz zwischen dem dekomprimierten Breitbandtiefbandsignal und dem Breitbandsprachsignal; und Komprimieren (1005) des Fehlersignals und eines Hochbandsprachsignals und Übertragen des komprimierten Fehlersignals und Hochbandsprachsignals des Breitbandsprachsignals als Hochbandsprachpaket; gekennzeichnet durch Erfassen des Fehlersignals durch einen Maskierungsvorgang zwischen dem Breitbandsprachsignal und dem dekomprimierten Tiefbandsprachsignal, und Einfügen eines quantisierten RMS-Werts, eines bei der Kompression erhaltenen Vorhersagetypindex und eines quantisierten DFT-Koeffizienten in das Hochbandsprachpaket.
  28. Sprachdekompressionsverfahren, bei dem ein in eine skalierbare Bandbreitenstruktur dekomprimiertes Sprachsignal dekomprimiert wird, wobei das Sprachdekompressionsverfahren umfasst: Dekomprimieren (1101) eines Tiefbandsprachpakets des Sprachsignals und Ermitteln eines Schmalbandtiefbandsprachsignals und Dekomprimieren eines Hochbandsprachpakets des Sprachsignals und Ermitteln eines Hochbandsprachsignals; Transformieren (1102) des Schmalbandtiefbandsprachsignals in ein dekomprimiertes Breitbandtiefbandsprachsignal; und Addieren (1103) des dekomprimierten Breitbandtiefbandsprachsignals und des Hochbandsprachsignals und Ausgeben eines Ergebnisses der Addition als dekomprimiertes Breitbandsprachsignal; dadurch gekennzeichnet, dass das Hochbandsprachpaket einen quantisierten RMS-Wert, einen Vorhersagetypindex, der verwendet wird, wenn das Sprachsignal komprimiert wird, und einen quantisierten DFT-Koeffizienten aufweist, und die Hochbandsprachdekompressionseinheit so angeordnet ist, dass sie eine DFT-Koeffizientenphase selbst berechnet und verwendet, wenn der quantisierte DFT-Koeffizient inverse DFT erfährt.
DE602004004445T 2003-07-03 2004-06-30 Vorrichtungen zum Komprimieren und Dekomprimieren von Sprache und Verfahren zum Bereitstellen von skalierbaren Bandbreitestrukturen Active DE602004004445T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2003-0044842A KR100513729B1 (ko) 2003-07-03 2003-07-03 계층적인 대역폭 구조를 갖는 음성 압축 및 복원 장치와그 방법
KR2003044842 2003-07-03

Publications (2)

Publication Number Publication Date
DE602004004445D1 DE602004004445D1 (de) 2007-03-15
DE602004004445T2 true DE602004004445T2 (de) 2007-11-08

Family

ID=33432457

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602004004445T Active DE602004004445T2 (de) 2003-07-03 2004-06-30 Vorrichtungen zum Komprimieren und Dekomprimieren von Sprache und Verfahren zum Bereitstellen von skalierbaren Bandbreitestrukturen

Country Status (5)

Country Link
US (2) US7624022B2 (de)
EP (1) EP1494211B1 (de)
JP (2) JP4726442B2 (de)
KR (1) KR100513729B1 (de)
DE (1) DE602004004445T2 (de)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100513729B1 (ko) * 2003-07-03 2005-09-08 삼성전자주식회사 계층적인 대역폭 구조를 갖는 음성 압축 및 복원 장치와그 방법
US7599833B2 (en) 2005-05-30 2009-10-06 Electronics And Telecommunications Research Institute Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
KR101171098B1 (ko) * 2005-07-22 2012-08-20 삼성전자주식회사 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
EP1988544B1 (de) * 2006-03-10 2014-12-24 Panasonic Intellectual Property Corporation of America Kodieranordnung und kodiermethode
KR101393298B1 (ko) * 2006-07-08 2014-05-12 삼성전자주식회사 적응적 부호화/복호화 방법 및 장치
US8041770B1 (en) * 2006-07-13 2011-10-18 Avaya Inc. Method of providing instant messaging functionality within an email session
KR100848324B1 (ko) * 2006-12-08 2008-07-24 한국전자통신연구원 음성 부호화 장치 및 그 방법
US8050934B2 (en) * 2007-11-29 2011-11-01 Texas Instruments Incorporated Local pitch control based on seamless time scale modification and synchronized sampling rate conversion
GB2473267A (en) * 2009-09-07 2011-03-09 Nokia Corp Processing audio signals to reduce noise
US9009037B2 (en) * 2009-10-14 2015-04-14 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, and methods therefor
US8351621B2 (en) * 2010-03-26 2013-01-08 Bose Corporation System and method for excursion limiting
US8818797B2 (en) 2010-12-23 2014-08-26 Microsoft Corporation Dual-band speech encoding
US10264116B2 (en) * 2016-11-02 2019-04-16 Nokia Technologies Oy Virtual duplex operation
US11037330B2 (en) 2017-04-08 2021-06-15 Intel Corporation Low rank matrix compression

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
JPH06289900A (ja) * 1993-04-01 1994-10-18 Mitsubishi Electric Corp オーディオ符号化装置
KR100289733B1 (ko) * 1994-06-30 2001-05-15 윤종용 디지탈 오디오 부호화 방법 및 장치
JP3139602B2 (ja) * 1995-03-24 2001-03-05 日本電信電話株式会社 音響信号符号化方法及び復号化方法
ATE184140T1 (de) * 1996-03-07 1999-09-15 Fraunhofer Ges Forschung Codierverfahren zur einbringung eines nicht hörbaren datensignals in ein audiosignal, decodierverfahren, codierer und decodierer
JP2891193B2 (ja) * 1996-08-16 1999-05-17 日本電気株式会社 広帯域音声スペクトル係数量子化装置
JPH10233692A (ja) * 1997-01-16 1998-09-02 Sony Corp オーディオ信号符号化装置および符号化方法並びにオーディオ信号復号装置および復号方法
JPH11251917A (ja) * 1998-02-26 1999-09-17 Sony Corp 符号化装置及び方法、復号化装置及び方法、並びに記録媒体
KR100304092B1 (ko) * 1998-03-11 2001-09-26 마츠시타 덴끼 산교 가부시키가이샤 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치
US7136810B2 (en) * 2000-05-22 2006-11-14 Texas Instruments Incorporated Wideband speech coding system and method
US7330814B2 (en) * 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
JP4530567B2 (ja) * 2001-03-30 2010-08-25 三洋電機株式会社 デジタルオーディオ復号装置
EP1423847B1 (de) * 2001-11-29 2005-02-02 Coding Technologies AB Wiederherstellung von hochfrequenzkomponenten
KR100513729B1 (ko) * 2003-07-03 2005-09-08 삼성전자주식회사 계층적인 대역폭 구조를 갖는 음성 압축 및 복원 장치와그 방법

Also Published As

Publication number Publication date
EP1494211A1 (de) 2005-01-05
KR20050004596A (ko) 2005-01-12
US20100036658A1 (en) 2010-02-11
EP1494211B1 (de) 2007-01-24
JP2005025203A (ja) 2005-01-27
KR100513729B1 (ko) 2005-09-08
JP2011154378A (ja) 2011-08-11
JP5314720B2 (ja) 2013-10-16
US20050004794A1 (en) 2005-01-06
US7624022B2 (en) 2009-11-24
DE602004004445D1 (de) 2007-03-15
US8571878B2 (en) 2013-10-29
JP4726442B2 (ja) 2011-07-20

Similar Documents

Publication Publication Date Title
DE69915400T2 (de) Vorrichtung zur Kodierung und Dekodierung von Audiosignalen
DE60013785T2 (de) VERBESSERTE SUBJEKTIVE QUALITäT VON SBR (SPECTRAL BAND REPLICATION)UND HFR (HIGH FREQUENCY RECONSTRUCTION) KODIERVERFAHREN DURCH ADDIEREN VON GRUNDRAUSCHEN UND BEGRENZUNG DER RAUSCHSUBSTITUTION
DE602004004445T2 (de) Vorrichtungen zum Komprimieren und Dekomprimieren von Sprache und Verfahren zum Bereitstellen von skalierbaren Bandbreitestrukturen
DE60019268T2 (de) Breitbandiges audio-übertragungssystem
DE69724126T2 (de) Audiosignalkodier- und dekodierverfahren und audiosignalkodierer und -dekodierer
DE60011051T2 (de) Celp-transkodierung
DE69836785T2 (de) Audiosignalkompression, Sprachsignalkompression und Spracherkennung
DE19811039B4 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE69821089T2 (de) Verbesserung von quellenkodierung unter verwendung von spektralbandreplikation
DE60313332T2 (de) Audiocodierung mit niedriger bitrate
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE69535452T2 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit Variabler Rate
DE69619284T3 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE69924431T2 (de) Vorrichtung und Verfahren zur dynamischen Bitverteilung für Audiokodierung
DE60038279T2 (de) Beitband Sprachkodierung mit parametrischer Kodierung des Hochfrequenzanteils
DE112010005020T5 (de) Sprachsignal-Wiederherstellungsvorrichtung und Sprachsignal-Wiederherstellungsverfahren
EP0962015B1 (de) Verfahren und vorrichtungen zum codieren von diskreten signalen bzw. zum decodieren von codierten diskreten signalen
DE602004007550T2 (de) Verbesserte frequenzbereichs-fehlerverbergung
DE60311891T2 (de) Audiocodierung
DE10310785B4 (de) Verfahren und Architektur einer digitalen Codierung zum Übertragen und Packen von Audiosignalen
DE602004001101T2 (de) Breitbandsprachsignalkompressionsvorrichtung, Breitbandsprachsignaldekompressionsvorrichtung, Breitbandsprachsignalkompressionsverfahren, Breitbandsprachsignaldekompressionsverfahren
DE60032068T2 (de) Sprachdekodierung
DE60102975T2 (de) Vorrichtung und Verfahren zur Breitbandcodierung von Sprachsignalen
EP1239455A2 (de) Verfahren und Anordnung zur Durchführung einer an die Übertragungsfunktion menschilcher Sinnesorgane angepassten Fourier Transformation sowie darauf basierende Vorrichtungen zur Geräuschreduktion und Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition