DE60225381T2

DE60225381T2 - Verfahren zur Kodierung von Sprach- und Musiksignalen

Info

Publication number: DE60225381T2
Application number: DE60225381T
Authority: DE
Inventors: Kazuhuito Redmond Koishida; Vladimir Goleta Cuperman; Amir H. Woodinville Majidimehr; Allen Santa Barbara Gersho
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2001-06-26
Filing date: 2002-05-15
Publication date: 2009-04-23
Anticipated expiration: 2022-05-16
Also published as: US20030004711A1; EP1278184A3; DE60225381D1; EP1278184B1; JP2010020346A; ATE388465T1; JP5208901B2; EP1278184A2; JP2003044097A; US6658383B2

Description

GEBIET DER ERFINDUNG
Diese Erfindung betrifft im Allgemeinen ein Verfahren und eine Vorrichtung zum Codieren von Signalen, und insbesondere betrifft diese Erfindung ein Verfahren und eine Vorrichtung zum Codieren von sowohl Sprachsignalen als auch Musiksignalen.
HINTERGRUND DER ERFINDUNG
Sprache und Musik werden in Wirklichkeit durch sehr unterschiedliche Signale dargestellt. In Bezug auf die typischen spektralen Merkmale besitzt das Spektrum für gesprochene Sprache im Allgemeinen eine feine periodische Struktur, die mit künstlichen Obertönen (Pitch Harmonics), bei denen die Spitzen der Obertöne einen sanften spektralen Tonumfang bilden, assoziiert ist, wohingegen das Spektrum für die Musik typischerweise viel komplexer ist, wobei es mehrere Ausgangstöne für Tonhöhen sowie Obertöne aufweist. Der spektrale Tonumfang kann ebenso weitaus komplexer sein. Codiertechnologien für diese zwei Signalmodi sind ebenfalls sehr verschieden, wobei das Codieren von Sprache durch modellbasierte Ansätze, wie beispielsweise durch das Code Excited Linear Prediction-(CELP)Verfahren und einer Synthetisierung aus Sinuskomponenten (Sinusoidal Coding) dominiert wird, und das Codieren von Musik durch Transformationstechnologien, wie beispielsweise der Modified Lapped Transformation (MIT), die zusammen mit Maskieren von Umgebungsgeräuschen (Noise Masking) verwendet wird, dominiert wird.
In der letzten Zeit war eine Zunahme des Codierens für sowohl Sprach- als auch Musiksignalen für Anwendungen wie beispielsweise Internet-Multimedien, Fernseh-/Rundfunksenden, Telefonkonferenzführung, oder die kabellosen Medien zu verzeichnen. Die Herstellung eines universalen Codierer-Decodierers (Codec) zum effizienten und effektiven Wiedergeben von sowohl Sprachsignalen als auch Musiksignalen wird jedoch nicht leicht erreicht, da die Codierer für die zwei Signaltypen optimalerweise auf separaten Verfahren basieren. So können beispielsweise auf linearer Prädiktion basierte Verfahren, wie beispielsweise das Code Excited Linear Prediction-(CELP)Verfahren eine qualitativ hochwertige Wiedergabe für Sprachsignale erzeugen, jedoch eine unakzeptable Qualität bei der Wiedergabe von Musiksignalen produzieren. Im Gegensatz dazu liefern die auf Transformationscodierung basierenden Verfahren eine gute Qualität bei der Wiedergabe von Musiksignalen, jedoch verschlechtert sich der Ausgang signifikant für Sprachsignale, insbesondere beim Codieren mit niedriger Bitrate.
Eine Alternative dazu besteht in der Entwicklung einer Codiereinrichtung für mehrere Modi, die sowohl Sprachsignale als auch Musiksignale bearbeiten kann. Frühe Versuche, solche Codiereinrichtungen bereitzustellen, sind beispielsweise der Hybrid ACEL/Transform Coding Excitation-Codierer oder der Multi-mode Transform Predictive Coder (MTPC). Ungünstigerweise sind diese Codierungsalgorithmen zu komplex und/oder für das praktische Codieren von Sprach- und Musiksignalen uneffizient.
Bessette et al. beschreibt in dem Dokument „A Wideband Speech and Audio Codec at 16/24/32 kBit/s using Hybrid ACELP/TCX Techniques" einen hybriden ACELP/TCX-Algorithmus zum Codieren von Sprach- und Musiksignalen. Der Algorithmus schaltet zwischen ACELP und TXC-Modi auf einer Basis von 20-ms-Rahmen um.
ZUSAMMENFASSUNG DER ERFINDUNG
Es ist die Aufgabe der vorliegenden Erfindung, einen einfachen und effizienten hybriden Codierungsalgorithmus zum Codieren von sowohl Sprach- als auch Musiksignalen bereitzustellen, der speziell auf die Verwendung in Umgebungen mit niedrigen Bitraten angepasst ist.
Diese Aufgabe wird durch die Erfindung, wie diese in den unabhängigen Ansprüchen definiert ist, erfüllt.
Ausführungsformen werden in den abhängigen Ansprüchen dargelegt.
Ausführungsformen stellen eine Methode der Transformations-Codierung zum effizienten Codieren von Musiksignalen bereit. Die Methode der Transformations-Codierung ist für die Verwendung in einem hybriden Codierer-Decodierer (Codec) geeignet, wobei ein gemeinsames lineares Prädiktions-(LP)Synthesefilter sowohl für Sprach- als auch für Musiksignale verwendet wird. Der Eingang des linearen Prädiktions-Synthesefilters wird zwischen einem Sprach-Erregungsgenerator und einem Transformations-Erregungsgenerator umgeschaltet, jeweils in Abhängigkeit davon, ob es sich um das Codieren eines Sprachsignals oder eines Musiksignals handelt. In einer bevorzugten Ausführungsform umfasst das lineare Prädiktions-Synthesefilter eine Interpolation der linearen Prädiktionskoeffizienten. Beim Codieren von Sprachsignalen kann eine herkömmliche Excited Linear Prediction-(CELP) Methode oder eine andere auf linearer Prädiktion basierende Methode verwendet werden, wohingegen beim Codieren von Musiksignalen vorzugsweise ein Verfahren asymmetrischer Overlap-Add-Transformation angewendet wird.
Zusätzliche Leistungsmerkmale und Vorteile der Erfindung werden anhand der folgenden ausführlichen Beschreibung von illustrativen Ausführungsformen offensichtlich gemacht, die unter Bezugnahme auf die begleitenden Zeichnungen dargelegt wird.
KURZE BESCHREIBUNG DER ERFINDUNG
Während die angehängten Ansprüche die Leistungsmerkmale der vorliegenden Erfindung in Einzelheiten darlegen, wird die Erfindung zusammen mit ihren Aufgaben und Vorteilen möglicherweise am besten anhand der folgenden ausführlichen Beschreibung, wenn diese zusammen mit den begleitenden Zeichnungen betrachtet wird, verstanden, in denen:
1 exemplarische mit einem Netzwerk verbundene hybride Sprach-/Musik-Codecs in Übereinstimmung mit einer Ausführungsform der Erfindung darstellt;
2a illustriert ein vereinfachtes Diagramm der Architektur eines hybriden Sprach-/Musik-Codierers in Übereinstimmung mit einer Ausführungsform der Erfindung;
2b illustriert ein vereinfachtes Diagramm der Architektur eines hybriden Sprach-/Musik-Decodierers in Übereinstimmung mit einer Ausführungsform der Erfindung;
3a ist ein Logikdiagramm eines Transformations-Codierungsalgorithmus in Übereinstimmung mit einer Ausführungsform der Erfindung;
3b ist ein Zeitablaufdiagramm, das eine Operation des asymmetrischen Overlap-Add-Fensterns (windowing) und ihren Effekt in Übereinstimmung mit einer Ausführungsform der Erfindung darstellt;
4 ist ein Blockdiagramm eines Transformations-Decodierungsalgorithmus in Übereinstimmung mit einer Ausführungsform der Erfindung;
Die 5a und 5b sind Ablaufpläne, die exemplarische Schritte darstellen, die für das Codieren von Sprach- und Musiksignalen in Übereinstimmung mit einer Ausführungsform der Erfindung durchgeführt werden;
Die 6a und 6b sind Ablaufpläne, die exemplarische Schritte darstellen, die für das Decodieren von Sprach- und Musiksignalen in Übereinstimmung mit einer Ausführungsform der Erfindung durchgeführt werden;
7 ist eine vereinfachte schematische Illustration einer Architektur einer Computervorrichtung, die durch eine Computervorrichtung verwendet wird, in der eine Ausführungsform der Erfindung ausgeführt werden kann.
AUSFÜHRLICHE BESCHREIBUNG DER ERFINDUNG
Die vorliegende Erfindung stellt eine effiziente Methode der Transformations-Codierung zum Codieren von Musiksignalen bereit, wobei die Methode für die Verwendung in einem hybriden Codierer-Decodierer (Codec) geeignet ist, in dem ein gemeinsames lineares Prädiktions-(LP)Synthesefilter für die Wiedergabe von sowohl Sprach- als auch Musiksignalen verwendet wird. Allgemein formuliert, wird der Eingang des linearen Prädiktions-(LP)Synthesefilters dynamisch zwischen einem Sprach-Erregungsgenerator und einem Transformations-Erregungsgenerator, der jeweils dem Empfang von entweder einem codierten Sprachsignal oder einem codierten Musiksignal entspricht, umgeschaltet. Eine Sprach-/Musik-Klassifiziereinrichtung identifiziert ein Eingangssprach-/Eingangsmusiksignal als entweder Sprache oder Musik und überträgt das identifizierte Signal an entweder einen Sprach-Codierer oder an einen Musik-Codierer, wie dies jeweils angemessen erscheint. Während des Codierens eines Sprachsignals kann ein herkömmliches Code Excited Linear Prediction(CELP)-Verfahren verwendet werden.
Für das Codieren der Musiksignale wird jedoch eine neuartige Methode asymmetrischer Overlap-Add-Transformation angewendet. In einer bevorzugten Ausführungsform der Erfindung umfasst das gemeinsame lineare Prädiktions-Synthesefilter eine Interpolation von linearen Prädiktionskoeffizienten, wobei die Interpolation alle mehrerer Abtastwerte über einem Bereich durchgeführt wird, in dem die Erregung über mittels eines Overlap erzielt wird. Da der Ausgang des Synthesefilters nicht umgeschaltet wird, sondern lediglich der Eingang des Synthesefilters umgeschaltet wird, wird eine Quelle einer hörbaren Signalunstetigkeit vermieden.
Im Folgenden wird in Bezug auf 1 eine exemplarische Konfiguration eines Sprach-/Musik-Codecs, in dem eine Ausführungsform der Erfindung implementiert werden kann, beschrieben. Die illustrierte Umgebung umfasst Codierer-Decodierer (Codecs) 110, 120, die miteinander über ein Netzwerk 100 kommunizieren, das durch eine Wolke dargestellt ist. Das Netzwerk 100 kann viele gut bekannte Komponenten, wie beispielsweise Router, Gateways, Hubs und so weiter enthalten und kann Kommunikationen sowohl über verdrahtete als auch über drahtlose Medien bereitstellen. Jeder Codierer-Decodierer (Codec) umfasst wenigstens einen Codierer 111, 121, einen Decodierer 112, 122 und eine Sprach-/Musik-Klassifizierungseinrichtung 113, 123.
In einer Ausführungsform der Erfindung wird ein gemeinsames lineares Prädiktions-Synthesefilter sowohl für Musik- als auch für Sprachsignale verwendet. In Bezug auf die 2a und 2b wird die Struktur eines exemplarischen Sprach- und Musik-Codecs, in dem die Erfindung implementiert werden kann, dargestellt. Insbesondere zeigt 2a die High-Level-Struktur eines hybriden Sprach-/Musik-Codierers, während 2b die High-Level-Struktur eines hybriden Sprach-/Musik-Decodierers darstellt. In Bezug auf 2a umfasst der Sprach-/Musik-Codierer eine Sprach-/Musik-Klassifizierungseinrichtung 250, die ein Eingangssignal als entweder ein Sprachsignal oder ein Musiksignal klassifiziert. Das identifizierte Signal wird anschließend in Übereinstimmung damit jeweils zu entweder einem Sprach-Codierer 260 oder zu einem Musik-Codierer 270 gesendet, und ein Modus-Bit, das die Sprach-/Musik-Natur des Eingangssignals charakterisiert, wird generiert. So stellt beispielsweise ein Modus-Bit von Null ein Sprachsignal dar, und ein Modus-Bit von 1 stellt ein Musiksignal dar. Der Sprach-Codierer 260 codiert eine eingegebene Sprache auf Basis des Prinzips linearer Prädiktion, das den Personen mit der gewöhnlichen Erfahrung auf dem Gebiet der Technik gut bekannt ist und gibt einen codierten Sprach-Bitstrom aus. Das Sprach-Codieren wird beispielsweise für eine Codebook Excitation Linear Predictive-(CELP)Methode verwendet, wie dies den Personen mit der gewöhnlichen Erfahrung auf dem Gebiet der Technik bekannt ist. Im Gegensatz dazu codiert der Musik-Codierer 270 ein Eingangs-Musiksignal gemäß einer Transformations-Codierungsmethode, die im weiteren Verlauf der Beschreibung zu beschreiben ist, und gibt einen codierten Musik-Bitstrom aus.
In Bezug auf 2b umfasst ein Sprach-/Musik-Decodierer in Übereinstimmung mit einer Ausführungsform der Erfindung ein lineares Prädiktions-Synthesefilter 240 und eine Sprach-/Musik-Umschalteinrichtung 230, die mit dem Eingang des Filters 240 zum Umschalten zwischen einem Sprach-Erregungsgenerator 210 und einem Transformations-Erregungsgenerator 220 verbunden ist. Der Sprach-Erregungsgenerator 210 empfängt den übertragenen codierten Sprach-/Musik-Bitstrom und erzeugt Sprach-Erregungssignale. Der Musik-Erregungsgenerator 220 empfängt das übertragene codierte Sprach-/Musiksignal und erzeugt Musik-Erregungssignale. Es sind zwei Modi in dem Codierer vorhanden, nämlich ein Sprachmodus und ein Musikmodus. Der Modus des Decodierers für einen aktuellen Frame (Rahmen) oder einen Superframe wird durch das übertragene Modus-Bit bestimmt. Die Sprach-/Musik-Umschalteinrichtung 230 wählt entsprechend des Modus-Bits eine Erregungssignal-Quelle aus, wobei ein Musik-Erregungssignal in dem Musikmodus und ein Sprach-Erregungssignal in dem Sprachmodus ausgewählt werden. Die Umschalteinrichtung 230 überträgt anschließend das ausgewählte Erregungssignal an das lineare Prädiktions-Synthesefilter 240, um die geeigneten rekonstruierten Signale zu erzeugen. Die Erregung oder der Restwert in dem Sprachmodus werden unter Verwendung eines sprachoptimierten Verfahrens wie beispielsweise der Code Excited Linear Predictive-(CELP)Codierung codiert, wohingegen die Erregung in dem Musikmodus durch eine Methode der Transformations-Codierung, beispielsweise einem Transform Coding Excitation (TCX) quantifiziert wird. Das lineare Prädiktions-Synthesefilter 240 ist den Musiksignalen und den Sprachsignalen gemein. Ein herkömmlicher Codierer für das Codieren von entweder Sprach- oder Musiksignalen arbeitet an Blöcken oder Segmenten, die für gewöhnlich Frames (Rahmen) von 10 ms bis 40 ms genannt werden. Da im Allgemeinen die Transformations-Codierung effizienter ist, wenn die Frame-Größe groß ist, sind im Allgemeinen diese Frames von 10 ms bis 40 ms zu kurz, um einen Transformations-Codierer so auszurichten, dass eine ak zeptable Qualität erhalten wird, insbesondere bei niedrigen Bitraten. Eine Ausführungsform der vorliegenden Erfindung arbeitet dementsprechend an Superframes, die aus einer ganzzahligen Anzahl von standardmäßigen Frames von 20 ms bestehen. Eine typische Größe eines Superframes, die in einer Ausführungsform verwendet wird, ist 60 ms. Demzufolge führt die Sprach-/Musik-Klassifizierungseinrichtung vorzugsweise ihre Klassifizierung ein Mal für jeden darauffolgenden Superframe durch.
Im Gegensatz zu den aktuellen Transformations-Codierern zum Codieren von Musiksignalen wird der Codierungsprozess in Übereinstimmung mit der Erfindung in der Erregungs-Domäne durchgeführt. Dies ist ein Produkt aus der Verwendung eines einzelnen linearen Prädiktions-Synthesefilters für die Wiedergabe von beiden Typen von Signalen, den Sprachsignalen und den Musiksignalen. In Bezug auf 3a ist ein Transformations-Codierer in Übereinstimmung mit einer Ausführungsform der Erfindung illustriert. Ein lineares Prädiktions-Synthesefilter 310 analysiert Musiksignale des klassifizierten Musik-Superframes, der von der Sprach-/Musik-Klassifizierungseinrichtung 250 ausgegeben wurde, um geeignete lineare Prädiktionskoeffizienten (LPC, Linear Predictive Coefficients) zu erhalten. Ein Modul für lineare Prädiktions-Quantisierung 320 quantifiziert die berechneten linearen Prädiktionskoeffizienten. Die linearen Prädiktionskoeffizienten und die Musiksignale des Superframes werden anschließend auf ein inverses Filter 330 angewendet, das als Eingang die Musiksignale hat und als Ausgang ein Restwertsignal erzeugt.
Die Verwendung von Superframes anstelle von typischen Frames hilft dabei, eine Transformations-Codierung einer hohen Qualität zu erhalten. Dennoch kann eine blockierende Verzerrung an den Grenzen der Superframes Probleme hinsichtlich der Qualität verursachen. Eine bevorzugte Lösung zum Mindern der Auswirkung blockierender Verzerrung findet sich in der Methode des Overlap-Add-Fensterns (windowing), so beispielsweise bei der Modified Lapped Transform-(MIT)Methode, die ein Überlappen von angrenzenden Frames zu 50% aufweist. Es erweist sich jedoch als schwierig, eine solche Lösung in einem auf CELP-Verfahren basierten hybriden Codec (Codierer-Decodierer) zu integrieren, da CELP Null Überlappung für das Sprach-Codieren verwendet. Um diese Schwierigkeit zu überwinden und die Leistung einer hohen Qualität des Systems im Musikmodus sicherzustellen, stellt eine Ausführungsform der Erfindung eine Methode asymmetrischen Overlap-Add-Fensterns (windowing) bereit, wie dies durch das in 3a dargestellte Overlap-Add-Modul 340 implementiert ist. 3b stellt die asymmetrische Overlap-Add-Fenster-Operation sowie deren Effekte dar. In Bezug auf 3b berücksichtigt das Overlap-Add-Fenstern die Möglichkeit, dass der vorangehende Superframe die Superframe-Länge und die Overlap-Länge mit jeweils unterschiedlichen Werten bezeichnet hat, so beispielsweise mit N_p und L_p. Die Bezeichnungen N_c und L_c stellen jeweils die Superframe-Länge und die Overlap-Länge für den aktuellen Superframe dar. Der Codierungsblock für den aktuellen Superframe umfasst die Abtastwerte und die Overlap-Abtastwerte des aktuellen Superframes. Das Overlap-Add-Fenstern tritt an den ersten Abtastwerten N_p und an den letzten Abtastwerten L_p in dem aktuellen Codierungsblock auf. Im Sinne eines Beispiels und nicht im einschränkenden Sinne zu erachten, wird ein Eingangssignal x(n) durch eine Overlap-Add-Window-Funktion w(n) transformiert und ein gefenstertes Signal y(n) wie folgt erzeugt: y(n) = x(n)w(n), 0 ≤ n ≤ Nc + Lc – 1. (Gleichung 1)und die Fenster-Funktion w(n) wird folgendermaßen definiert:
wobei N_c und L_c jeweils die Superframe-Länge und die Overlap-Länge für den aktuellen Superframe sind.
Anhand der Overlap-Add-Fenster-Form in 3b kann gesehen werden, dass die Overlap-Add-Bereiche 390, 391 asymmetrisch sind, so unterscheidet sich beispielsweise der Bereich, der mit 390 markiert ist, von dem Bereich, der mit 391 markiert ist, und die Overlap-Add-Fenster können voneinander abweichende Größen aufweisen. Solche Fenster mit unterschiedlichen Größen überwinden den Blockierungseffekt und das Vor echo. Da darüber hinaus die Overlap-Bereiche verglichen mit dem 50% Overlap, der in dem MLT-Verfahren verwendet wird, klein sind, ist diese Methode des asymmetrischen Oberlap-Add-Fenstern effizient für einen Transformations-Codierer, der in einem auf CELP basierenden Sprach-Codierer integriert werden kann.
Unter erneuter Bezugnahme auf 3a wird das Restwertsignal, das von dem inversen linearen Prädiktions-Synthesefilter 330 ausgegeben wird, durch das Modul für asymmetrisches Overlap-Add-Fenstern (windowing) 340 verarbeitet, um ein gefenstertes Signal zu erzeugen. Das gefensterte Signal wird anschließend in ein Modul für diskrete Kosinustransformation (DCT) 350 eingegeben, in dem das gefensterte Signal in die Frequenzdomäne transformiert wird und ein Satz an DCT-Koeffizienten erhalten wird. Die diskrete Kosinustransformation (DCT) wird folgendermaßen definiert:
wobei c(k) folgendermaßen definiert ist:
Obgleich die diskrete Kosinustransformation bevorzugt wird, können auch andere Transformationsmethoden verwendet werden, wie beispielsweise Methoden, die die modifizierte diskrete Kosinustransformation (MDCT) und die schnelle Fourier-Transformation (FFT, Fast Fourier Transformation) umfassen. Um die DCT-Koeffizienten auf effiziente Weise zu quantifizieren, werden dynamische Bitzuweisungs-Informationen als ein Teil der Quantisierung der DCT-Koeffizienten verwendet. Die dynamischen Bitzuweisungs-Informationen werden von einem Modul für dynamische Bitzuweisung 370 gemäß Maskierungsschwellenwerten erhalten, die durch ein Modul für Schwellenwertmaskierung 360 berechnet werden, wobei die Schwellenwertmaskierung auf dem Eingangssignal oder den linearen Prädiktionskoeffizienten, die von dem Modul zur Analyse der linearen Prädiktions-Codierung ausgegeben werden, basiert. Die dynamischen Bitzuweisungs-Informationen können auch durch Analysieren der Eingangs-Musiksignale erhalten wer den. Mit den dynamischen Bitzuweisungs-Informationen werden die DCT-Koeffizienten durch das Quantisierungsmodul 380 quantifiziert und anschließend zu dem Decodierer übertragen.
Unter Beibehaltung des Codierungsalgorithmus, der in der voranstehend beschriebenen Ausführungsform der Erfindung verwendet wird, ist in 4 der Transformations-Decodierer dargestellt. In Bezug auf 4 umfasst der Transformations-Decodierer ein Modul für inverse dynamische Bitzuweisung 410, ein Modul für inverse Quantisierung 420, ein Modul für inverse diskrete Kosinustransformation 430, ein Modul für asymmetrisches Overlap-Add-Fenstern 440, und ein Overlap-Add-Modul 450. Das Modul für inverse dynamische Bitzuweisung 410 empfängt die übertragenen Bitzuweisungs-Informationen, die von dem in 3a dargestellten Modul für dynamische Bitzuweisung 370 ausgegeben werden und stellt dem Modul für inverse Quantisierung 420 die Bitzuweisungs-Informationen bereit. Das Modul für inverse Quantisierung 420 empfängt den übertragenen Musik-Bitstrom und die Bitzuweisungs-Informationen und wendet eine inverse Quantisierung auf den Bitstrom an, um decodierte DCT-Koeffizienten zu erhalten. Das Modul für inverse diskrete Kosinustransformation 430 führt anschließend inverse Kosinustransformation der decodierten DCT-Koeffizienten durch und erzeugt ein Zeitdomäne-Signal. Die inverse Kosinustransformation wird wie folgt dargestellt:
wobei c(k) wie folgt definiert ist:
Das Modul für asymmetrisches Overlap-Add-Fenstern 440 führt die Operation des asymmetrischen Overlap-Add-Fensterns (windowing) an dem Zeitdomäne-Signal durch, so beispielsweise y ^'(n) = w(n)y ^(n) wobei y ^(n) das Zeitdomäne-Signal darstellt, w(n) bezeichnet die Fenster-Funktion und y ^'(n) ist das resultierende gefensterte Signal. Das gefensterte Signal wird anschließend in das Overlap-Add-Modul 450 eingegeben, wobei ein Erregungssignal durch das Durchführen einer Overlap-Add-Operation erhalten wird. Im Sinne eines Beispiels und nicht im einschränkenden Sinne zu erachten, sieht eine exemplarische Overlap-Add-Operation folgendermaßen aus:
wobei e ^(n) das Erregungssignal ist, und y ^_p(n) und y ^_c(n) jeweils die vorangehenden und aktuellen Zeitdomäne-Signale sind. Die Funktionen w_p(n) und w_c(n) sind jeweils die Overlap-Add-Fenster-Funktionen für die vorangehenden und aktuellen Superframes. Die Werte N_p und N_c sind jeweils die Größen der vorangehenden und aktuellen Superframes. Der Wert L_p ist die Overlap-Add-Größe des vorangehenden Superframes. Das erzeugte Erregungssignal e ^(n) wird anschließend umschaltbar in ein lineares Prädiktions-Synthesefilter eingegeben, wie dies in 2b dargestellt ist, um das ursprüngliche Musiksignal zu rekonstruieren.
Eine Methode der Interpolations-Synthese wird vorzugsweise in der Verarbeitung des Erregungssignals angewendet. Die linearen Prädiktionskoeffizienten werden aller mehrerer Abtastwerte über dem Bereich von 0 ≤ n ≤ L_p – 1 abgetastet, wobei das Erregungssignal durch Verwenden der Overlap-Add-Operation erhalten wird. Die Interpolation der linearen Prädiktionskoeffizienten wird in der Line Spectral Pairs-(LSP)Domäne durchgeführt, wobei die Werte der interpolierten LSP-Koeffizienten durch folgende Gleichung gegeben sind: f(i) = (1 – v(i))f ^p(i) + v(i)f ^c(i), 0 ≤ i ≤ M – 1 (Gleichung 6) wobei f ^_p(i) und )f ^_c(i jeweils die quantifizierten LSP-Parameter der vorangehenden und der aktuellen Superframes sind. Der Faktor v(i) ist der Interpolations-Gewichtungsfaktor, während der Wert M die Ordnung der linearen Prädiktionskoeffizienten ist. Nach der Anwendung des Interpolationsverfahrens können herkömmliche lineare Prädiktionssynthese-Verfahren an dem Erregungssignal angewendet werden, um ein rekonstruiertes Signal zu erhalten.
In Bezug auf die 5a und 5b werden exemplarische Schritte, die zum Codieren der Interleaving (Verschachtelung) unterzogenen Eingangs-Sprach- und Musiksignale verwendet werden, in Übereinstimmung mit einer Ausführungsform der Erfindung beschrieben. In Schritt 501 wird ein Eingangssignal empfangen, und ein Superframe wird geformt. In Schritt 503 wird eine Entscheidung dahingehend getroffen, ob sich der aktuelle Superframe hinsichtlich des Typs (das heißt, Musik/Sprache) von einem vorangehenden Superframe unterscheidet. Wenn sich die Superframes voneinander unterscheiden, wird in diesem Fall ein „Superframe-Übergang" an dem Anfang des aktuellen Superframe definiert, und der Prozessfluss der Operationen bildet eine Abzweigung zu Schritt 505. In Schritt 505 wird die Abfolge des vorangehenden Superframe und des aktuellen Superframe festgestellt, so beispielsweise durch Feststellen, ob es sich bei dem aktuellen Superframe um Musik handelt. Dementsprechend resultiert beispielsweise die Ausführung des Schrittes 505 in einem „Ja", wenn es sich bei dem vorangehenden Superframe um einen Sprach-Superframe handelt, an den sich ein aktueller Musik-Superframe anschließt. Auf gleiche Weise resultiert der Schritt 505 in einem „Nein", wenn es sich bei dem vorangehenden Superframe um einen Musik-Superframe handelt, an den sich ein aktueller Sprach-Superframe anschließt. In Schritt 511 resultiert eine Abzweigung von einem „Ja" in Schritt 505, die Overlap-Länge L_p für den vorangehenden Superframe wird auf Null eingestellt, was bedeutet, dass kein Overlap-Add-Fenstern an dem Anfang des aktuellen Codierungsblockes durchgeführt wird. Der Grund hierfür besteht darin, dass auf CELP basierte Sprach-Codierer keine Overlap-Signale für angrenzende Frames oder Superframes bereitstellen oder diese verwenden. Von Schritt 511 werden Transformations-Codierungsprozeduren für den Musik-Superframe in Schritt 513 durchgeführt. Wenn die Entscheidung in Schritt 505 in einem „Nein" resultiert, nimmt der Prozessfluss eine Abzweigung zu Schritt 509, in dem die Overlap-Abtastwerte in dem vorangehenden Musik-Superframe entfernt werden. Anschließend wird in Schritt 515 CELP-Codierung für den Sprach-Superframe durchgeführt. In Schritt 507, der eine Abzweigung von Schritt 503 nimmt, nachdem ein „Nein"-Resultat auftritt, wird eine Entscheidung dahingehend getroffen, ob der aktuelle Superframe ein Musik- oder ein Sprach-Superframe ist. Wenn der aktuelle Superframe ein Musik-Superframe ist, wird in Schritt 513 Transformations-Codierung angewendet, währenddessen, wenn es sich bei dem aktuellen Superframe um Sprache handelt, in Schritt 515 CELP-Codierungs-Prozeduren angewendet werden. Nachdem in Schritt 513 die Transformations-Codierung abgeschlossen ist, wird ein codierter Musik-Bitstrom erzeugt. Auf gleiche Weise wird nach dem Durchführen des CELP-Codierens in Schritt 515 ein codierter Sprach-Bitstrom erzeugt.
Die Transformations-Codierung, die in Schritt 513 durchgeführt wird, umfasst eine Abfolge von Unterschritten, wie dies in 5b dargestellt ist. In Schritt 523 werden die linearen Prädiktionskoeffizienten der Eingangs-Signale berechnet. In Schritt 533 werden die berechneten linearen Prädiktionskoeffizienten quantisiert. In Schritt 543 arbeitet ein inverses Filter an dem empfangenen Superframe und den berechneten linearen Prädiktionskoeffizienten, um ein Restwertsignal x(n) zu erzeugen. In Schritt 553 wird das Overlap-Add-Fenster auf das Restwertsignal x(n) angewendet, indem x(n) mit der Fenster-Funktion w(n) wie folgt multipliziert wird: y(n) = x(n)w(n)wobei die Fenster-Funktion w(n) wie in Gleichung 2 definiert ist. In Schritt 563 wird die diskrete Kosinustransformation an dem gefensterten Signal y(n) durchgeführt, und es werden die DCT-Koeffizienten erhalten. In Schritt 583 werden die dynamischen Bitzuweisungs-Informationen gemäß einem Maskierungsschwellenwert, der in Schritt 573 erhalten wird, erhalten. Unter Verwendung der Bitzuweisungs-Informationen werden anschließend in Schritt 593 die DCT-Koeffizienten quantifiziert, um einen Musik-Bitstrom zu erzeugen.
Unter Beibehaltung der Codierungsschritte, die in den 5a und 5b dargestellt sind, illustrieren die 6a und 6b die Schritte, die durch den Decodierer ausgeführt werden, um in einer Ausführungsform der Erfindung ein synthetisiertes Signal bereitzustellen. In Bezug auf 6a werden in Schritt 601 der übertragene Bitstrom und das Modus-Bit empfangen. In Schritt 603 wird gemäß dem Modus-Bit festgestellt, ob der aktuelle Superframe Sprache oder Musik entspricht. Wenn das Signal Musik entspricht, wird in Schritt 607 eine Transformations-Erregung erzeugt. Wenn der Bitstrom Sprache entspricht, wird Schritt 605 durchgeführt, um ein Sprach-Erregungssignal so durch die CELP-Analyse zu erzeugen. Beide der Schritte 607 und 605 laufen in Schritt 609 zusammen. In Schritt 609 wird eine Umschalteinrichtung so eingestellt, dass das lineare Prädiktions-Synthesefilter entweder das Musik-Erregungssignal oder das Sprach-Erregungssignal, wie dies jeweils angemessen ist, empfängt. Wenn Superframes in einem Bereich Overlap-Add unterzogen sind, wie beispielsweise 0 ≤ n ≤ L_p – 1, wird bevorzugt, dass die LPC-Koeffizienten der Signale in diesem Overlap-Add-Bereich eines Superframe interpoliert werden. In Schritt 611 wird die Interpolation der LPC-Koeffizienten durchgeführt. So kann beispielsweise Gleichung 6 angewendet werden, um die Interpolation der LPC-Koeffizienten durchzuführen. Daran anschließend wird in Schritt 613 das ursprüngliche Signal rekonstruiert oder über ein lineares Prädiktions-Synthesefilter auf eine Weise synthetisiert, die durch die Personen mit der gewöhnlichen Erfahrung auf dem Gebiet der Technik gut verstanden wird.
In Übereinstimmung mit der Erfindung kann der Sprach-Erregungsgenerator ein beliebiger Erregungsgenerator sein, der für die Sprachsynthese geeignet ist, jedoch ist der Transformations-Erregungsgenerator vorzugsweise eine speziell angepasste Methode, wie beispielsweise die, die durch die 6b beschrieben wird. In Bezug auf 6b wird nach dem Empfangen des übertragenen Bitstroms in Schritt 617 inverse Bitzuweisung in Schritt 627 durchgeführt, um Bitzuweisungs-Informationen zu erhalten. In Schritt 637 werden die DCT-Koeffizienten durch Durchführen von inverser Quantisierung der diskreten Kosinustransformation der DCT-Koeffizienten erhalten. In Schritt 647 wird ein vorläufiges Zeitdomäne-Erregungssignal durch Durchführen einer inversen diskreten Kosinustransformation, die durch Gleichung 4 definiert ist, an den OCT-Koeffizienten erhalten. In Schritt 657 wird das rekonstruierte Erregungssignal durch Anwenden eines Overlap-Add-Fensters, das durch Gleichung 2 definiert ist, weiter verarbeitet. In Schritt 667 wird eine Overlap-Add-Operation durchgeführt, um das Musik-Erregungssignal zu erhalten, wie dies durch Gleichung 5 definiert ist.
Obgleich dies nicht erforderlich ist, kann die vorliegende Erfindung unter Verwendung von Anweisungen, wie beispielsweise Programmmodulen, die durch einen Computer ausgeführt werden, implementiert werden. Im Allgemeinen umfassen Programmmodule Routinen, Objekte, Komponenten, Datenstrukturen und Ähnliches, die bestimmte Aufgaben durchführen oder bestimmte abstrakte Datentypen implementieren. Der Begriff „Programm", wie dieser hierin verwendet ist, umfasst ein oder mehrere Programmmodule.
Die Erfindung kann in einer Reihe verschiedener Typen von Maschinen, einschließlich Zellulartelefonen, Personalcomputern (PCs), tragbaren Vorrichtungen, Multiprozessorsystemen, auf Mikroprozessoren basierenden programmierbaren Unterhaltungselektronikgeräten, Netzwerk-PCs, Minicomputern, Mainframe-Computern und Ähnlichem oder in einer beliebigen anderen Maschine implementiert werden, die zum Codieren oder Decodieren von Audiosignalen, wie dies hierin beschrieben worden ist, und zum Speichern, Abrufen, Übertragen oder Empfangen von Signalen verwendet werden kann. Die Erfindung kann in einem verteilten Computersystem verwendet werden, in dem Aufgaben durch entfernte Computer, die miteinander über ein Kommunikationsnetzwerk verbunden sind, durchgeführt werden.
In Bezug auf 7 enthält ein exemplarisches System zum Implementieren von Ausführungsformen der Erfindung eine Computervorrichtung, wie beispielsweise eine Computervorrichtung 700. In ihrer grundlegendsten Konfiguration enthält die Computervorrichtung 700 typischerweise wenigstens eine Verarbeitungseinheit 702 und einen Speicher 704. In Abhängigkeit von der exakten Konfiguration und dem Typ von Computervorrichtung kann der Speicher 704 flüchtig (wie beispielsweise ein Direktzugriffsspeicher RAM), nicht flüchtig (wie beispielsweise ein Festwertspeicher ROM, Flash-Speicher und so weiter) oder eine Kombination aus den beiden sein. Diese grundlegendste Konfiguration ist in 7 innerhalb der Linie 706 illustriert. Zusätzlich dazu kann die Computervorrichtung 700 auch zusätzliche Speicher (entnehmbare und/oder nicht entnehmbare) enthalten, einschließlich, aber nicht beschränkt auf, magnetische oder optische Platten oder Band. Solche zusätzlichen Speicher sind in 7 durch den entnehmbaren Speicher 708 und den nicht entnehmbaren Speicher 710 dargestellt. Computerspeichermedien umfassen flüchtige und nicht flüchtige, entnehmbare und nicht entnehmbare Medien, die in einem beliebigen Verfahren oder einer Technologie zum Speichern von Informationen, wie beispielsweise durch Computer lesbaren Anweisungen, Datenstrukturen, Programmmodulen oder anderen, implementiert sind. Der Speicher 704, der ent nehmbare Speicher 708 und der nicht entnehmbare Speicher 710 sind allesamt Beispiele von Computerspeichermedien. Computerspeichermedien umfassen, sind aber nicht beschränkt auf, Direktzugriffsspeicher RAM, Festwertspeicher ROM, elektrisch lösch- und programmierbare Speicher EEPROM, Flash-Speicher oder andere Speichertechnologien, CD-ROMs, Digital Versstile Disks (DVD) oder andere optische Speicher, Magnetkassetten, Magnetband, magnetische Plattenspeicher oder andere magnetische Speichervorrichtungen oder ein beliebiges anderes Medium, das zum Speichern der gewünschten Informationen verwendet werden kann, und auf das durch die Computervorrichtung 700 zugegriffen werden kann. Jedes beliebige solcher Computerspeichermedien kann ein Bestandteil der Computervorrichtung 700 sein.
Die Computervorrichtung 700 kann darüber hinaus eine oder mehrere Kommunikationsverbindungen 712 enthalten, die es der Computervorrichtung ermöglichen, mit anderen Vorrichtungen zu kommunizieren. Die Kommunikationsverbindungen 712 sind ein Beispiel von Kommunikationsmedien. Die Kommunikationsmedien werden typischerweise durch durch Computer lesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal, wie beispielsweise einer Trägerwelle oder einen anderen Transportmechanismus verkörpert, und enthalten beliebige Informationsübertragungsmedien. Der Begriff „moduliertes Datensignal" bezeichnet ein Signal, bei dem eine oder mehrere seiner Eigenschaften auf eine Weise eingestellt oder verändert werden, dass die Informationen in dem Signal codiert werden. Im Sinne eines Beispiels und nicht im restriktiven Sinne zu erachten, enthalten die Kommunikationsmedien verdrahtete Medien, wie beispielsweise ein verdrahtetes Netzwerk oder eine direkt verdrahtete Verbindung, sowie drahtlose Medien, wie beispielsweise akustische, HF-, Infrarot- und andere drahtlose Medien. Wie dies voranstehend beschrieben worden ist, umfasst der Begriff computerlesbare Medien, wie dieser hierin verwendet wird, sowohl Speichermedien als auch Kommunikationsmedien.
Die Computervorrichtung 700 kann auch eine oder mehrere Eingabegeräte 714, wie beispielsweise eine Tastatur, eine Maus, einen Pen, eine Spracheingabevorrichtung, eine Toucheingabe-Vorrichtung und so weiter aufweisen. Es können eine oder mehrere Ausgabevorrichtungen 716, wie beispielsweise eine Anzeige, Lautsprecher, Drucker, und so weiter, enthalten sein. Alle diese Vorrichtungen sind auf dem Gebiet der Technik gut bekannt und müssen an dieser Stelle nicht ausführlicher diskutiert werden.
Es wurde eine neuartige und nützliche Methode zur Transformations-Codierung, die für das Codieren von Musiksignalen effizient und geeignet für den Einsatz in einem hybriden Codec ist, der ein gemeinsames lineares Prädiktions-Synthesefilter verwendet, vorgeschlagen. In Anbetracht der vielen möglichen Ausführungsformen, auf die die Prinzipien dieser Erfindung angewendet werden können, sollte beachtet werden, dass die hierin in Bezug auf die Zeichnungsfiguren beschriebenen Ausführungsformen lediglich im illustrativen Sinne zu verstehen sind, und nicht als in dem den Umfang der Erfindung einschränkenden Sinne erachtet werden sollten. Die Personen mit der gewöhnlichen Erfahrung auf dem Gebiet der Technik werden erkennen, dass die illustrierten Ausführungsformen in der Anordnung und in Einzelheiten modifiziert werden können, ohne dabei von dem Umfang der Erfindung abzuweichen. Dementsprechend können, obgleich die Erfindung so beschrieben worden ist, dass sie eine diskrete Kosinustransformation verwendet, auch andere Transformationsverfahren, wie beispielsweise die Fourier-Transformation, oder die modifizierte diskrete Kosinustransformation innerhalb des Umfangs der Erfindung angewendet werden. Auf ähnliche Weise können auch andere beschriebene Einzelheiten geändert oder ersetzt werden, ohne dabei vom Umfang der Erfindung abzuweichen. Dementsprechend umfasst die Erfindung, so wie diese hierin beschrieben worden ist, sämtliche solcher Ausführungsformen, die in den Umfang der folgenden Ansprüche sowie Entsprechungen davon fallen können.

Claims

Verfahren zum Decodieren eines Teils eines codierten Signals, wobei der Teil ein codiertes Sprachsignal oder ein codiertes Musiksignal umfasst und das Verfahren umfasst: Feststellen (603), ob der Teil des codierten Signals einem codierten Sprachsignal oder einem codierten Musiksignal entspricht; Bereitstellen des Teils des codierten Signals für einen Sprach-Erregungsgenerator (210), wenn festgestellt wird, dass der Teil des codierten Signals einem codierten Sprachsignal entspricht, wobei der Sprach-Erregungsgenerator (210) ein Sprach-Erregungssignal als Ausgang erzeugt (605); Bereitstellen des Teils des codierten Signals für einen Transformations-Erregungsgenerator (220), wenn festgestellt wird, dass der Teil des codierten Signals einem codierten Musiksignal entspricht, wobei der Transformations-Erregungsgenerator (220) ein Transformations-Erregungssignal als Ausgang erzeugt (607) und der Teil des codierten Signals, der einem codierten Musiksignal entspricht, gemäß einer Methode asymmetrischer Overlap-Add-Transformation ausgebildet wird, die umfasst: Empfangen eines Eingangs-Musiksignals; Erzeugen (523, 533, 543) linearer Prädiktionskoeffizienten und eines Erregungssignals des Eingangs-Musiksignals; Durchführen (553) von asymmetrischem Overlap-Add-Fenstern (windowing) an einem Superframe des Erregungssignals des Eingangs-Musiksignals durch Ausbilden von Overlap-Add-Bereichen, die asymmetrisch und voneinander verschieden sind, an den ersten Abtastwerten und den letzten Abtastwerten des Superframe; Frequenztransformation (563) des gefensterten Signals, um Transformationskoeffizienten zu erzeugen; und Quantisieren (593) der Transformationskoeffizienten; und Umschalten (609) des Eingangs eines gemeinsamen linearen Prädiktions-Synthesefilters (240) zwischen dem Ausgang des Sprach-Erregungsgenerators (210) und dem Ausgang des Transformations-Erregungsgenerators (220), wobei das gemeinsame lineare Prädiktions-Synthesefilter (240) als Ausgang ein rekonstruiertes Signal bereitstellt, das dem Eingangs-Erregungssignal entspricht.
Verfahren nach Anspruch 1, wobei die Methode asymmetrischer Overlap-Add-Transformation des Weiteren umfasst: Berechnen (573) dynamischer Bitzuweisungs-Informationen aus dem Eingangs-Musiksignal oder den linearen Prädiktionskoeffizienten, wobei bei dem Quantisieren (593) die Bitzuweisungs-Informationen verwendet werden.
Verfahren nach Anspruch 1 oder 2, wobei die Frequenztransformation (563) eine diskrete Kosinustransformation anwendet.
Verfahren nach einem der Ansprüche 1–3, wobei nach dem asymmetrischen Overlap-Add-Fenstern das gefensterte Signal modifizierte Abtastwerte für einen aktuellen Superframe und nicht modifizierte Abtastwerte für den aktuellen Superframe umfasst.
Verfahren zum Decodieren eines Teils eines codierten Signals, wobei der Teil ein codiertes Sprachsignal oder ein codiertes Musiksignal umfasst und das Verfahren umfasst: Feststellen (603), ob der Teil des codierten Signals einem codierten Sprachsignal oder einem codierten Musiksignal entspricht; Bereitstellen des Teils des codierten Signals für einen Sprach-Erregungsgenerator (210), wenn festgestellt wird, dass der Teil des codierten Signals einem codierten Sprachsignal entspricht, wobei der Sprach-Erregungsgenerator (210) ein Sprach-Erregungssignal als Ausgang erzeugt (605); Bereitstellen des Teils des codierten Signals für einen Transformations-Erregungsgenerator (220), wenn festgestellt wird, dass der Teil des codierten Signals einem codierten Musiksignal entspricht, wobei der Transformations-Erregungsgenerator (220) ein Transformations-Erregungssignal als Ausgang erzeugt (607) und Decodieren des Teils des codierten Signals, das einem codierten Musiksignal entspricht, umfasst: inverses Quantisieren (637) von Transformations-Koeffizienten; inverse Frequenztransformation (647) der invers quantisierten Transformations-Koeffizienten, um ein vorläufiges Erregungssignal zu erzeugen; Durchführen (657) von asymmetrischem Overlap-Add-Fenstern an einem Superframe des vorläufigen Erregungssignals durch Ausbilden von Overlap-Add-Bereichen, die asymmetrisch und voneinander verschieden sind, an den ersten Abtastwerten und den letzten Abtastwerten des Superframe; und Durchführen (667) einer Overlap-Add-Operation, um das Transformations-Erregungssignal zu erzeugen; und Umschalten (609) des Eingangs eines gemeinsamen linearen Prädiktions-Synthesefilters (240) zwischen dem Ausgang des Sprach-Erregungsgenerators (210) und dem Ausgang des Transformations-Erregungsgenerators (220), wobei das gemeinsame lineare Prädiktions-Synthesefilter (240) als Eingang ein rekonstruiertes Signal bereitstellt, das dem Eingangs-Erregungssignal entspricht.
Verfahren nach Anspruch 5, wobei das Decodieren des Weiteren umfasst: Durchführen (617) von inverser Bitzuweisung, um Bitzuweisungs-Informationen zu gewinnen, wobei bei dem inversen Quantisieren (637) die Bitzuweisungs-Informationen verwendet werden.
Verfahren nach Anspruch 5 oder 6, wobei die inverse Frequenztransformation (647) eine inverse diskrete Kosinustransformation anwendet.
Verfahren nach einem der Ansprüche 5–7, wobei nach dem asymmetrischen Overlap-Add-Fenstern das gefensterte Signal modifizierte Abtastwerte für einen aktuellen Superframe und unmodifizierte Abtastwerte für den aktuellen Superframe umfasst und wobei die Overlap-Add-Operation Kombinieren der modifizierten Abtastwerte des aktuellen Superframe mit modifizierten Overlap-Abtastwerten eines vorangehenden Superframe umfasst.
Verfahren nach einem der Ansprüche 1–8, das des Weiteren umfasst: Interpolieren (611) linearer Prädiktivkoeffizienten, die von dem gemeinsamen linearen Prädiktiv-Synthesefilter (240) verwendet werden.
Verfahren zum Verarbeiten eines Teils eines Signals, wobei der Teil ein Sprachsignal oder ein Musiksignal umfasst und das Verfahren umfasst: Klassifizieren (505, 507) des Teils des Signals als ein Sprachsignal oder Musiksignal; Codieren (55) des Sprachsignals oder Codieren (513) des Musiksignals mit einem Sprach-/Musik-Codierer und Bereitstellen einer Vielzahl codierter Signale, wobei der Sprach-/Musik-Codierer einen Musik-Codierer (270) umfasst, der das Codieren (513) des Musiksignals durchführt, indem er: lineare Prädiktionskoeffizienten und ein Erregungssignal des Musiksignals erzeugt (523, 533, 543); asymmetrisches Overlap-Add-Fenstern an einem Superframe des Erregungssignals des Musiksignals durchführt (553), indem er Overlap-Add-Bereiche, die asymmetrisch und voneinander verschieden sind, an den ersten Abtastwerten und den letzten Abtastwerten des Superframe ausbildet; Frequenztransformation (563) des gefensterten Signals durchführt, um Transformationskoeffizienten zu erzeugen; und die Transformationskoeffizienten quantisiert (593); und Decodieren der codierten Signale mit einem Sprach-/Musik-Decodierer, wobei das Decodieren umfasst: inverses Quantisieren (637) der Transformationskoeffizienten; inverse Frequenztransformation (647) der invers quantisierten Transformations-Koeffizienten, um ein vorläufiges Erregungssignal zu erzeugen; Durchführen (657) von asymmetrischem Overlap-Add-Fenstern an dem Superframe des vorläufigen Erregungssignals durch Ausbilden von Overlap-Add-Bereichen, die asymmetrisch und voneinander verschieden sind, an den ersten Abtastwerten und den letzten Abtastwerten des Superframe; Durchführen (667) einer Overlap-Add-Operation, um das Erregungssignal des Musiksignals zu rekonstruieren; und Erzeugen eines rekonstruierten Signals gemäß den linearen Prädiktionskoeffizienten und dem Erregungssignal des Musiksignals mit einem gemeinsamen linearen Prädiktions-Synthesefilter (240), wobei das Filter (240) für die Reproduktion sowohl von Musik- als auch von Sprachsignalen verwendet werden kann.
Verfahren nach Anspruch 10, das des Weiteren umfasst: während des Codierens (513) des Musiksignals, Berechnen (573) dynamischer Bitzuweisungs-Informationen aus dem Eingangs-Musiksignal oder den mehreren linearen Prädiktionskoeffizienten, wobei bei dem Quantisieren (593) die Bitzuweisungs-Informationen verwendet werden; und während des Decodierens Durchführen (617) inverser Bitzuweisung, um die Bitzuweisungs-Informationen zu gewinnen, wobei bei dem inversen Quantisieren (637) die Bitzuweisungs-Informationen verwendet werden.
Verfahren nach Anspruch 10 oder 11, wobei die Frequenztransformation (563) eine diskrete Kosinustransformation anwendet und wobei die inverse Frequenztransformation (647) eine inverse diskrete Kosinustransformation anwendet.
Verfahren nach einem der Ansprüche 10–12, wobei nach dem asymmetrischen Overlap-Add-Fenstern an dem vorläufigen Erregungssignal das gefensterte Signal modifizierte Abtastwerte für einen aktuellen Superframe und unmodifizierte Abtastwerte für den aktuellen Superframe umfasst und wobei die Overlap-Add-Operation Kombinieren der modifizierten Abtastwerte des aktuellen Superframe mit modifizierten Overlap-Abtastwerten eines vorangehenden Superframe umfasst.
Verfahren nach einem der Ansprüche 10–13, wobei der Sprach-/Musik-Codierer des Weiteren einen Sprach-Codierer (260) umfasst, der das Codieren (515) des Sprachsignals mit dem CLP – (code-excited linear prediction)-Verfahren durchführt.
Verfahren nach einem der Ansprüche 1–14, wobei ein Modus-Bit anzeigt, ob der Teil als Sprache oder Musik klassifiziert wird.
Verfahren nach einem der Ansprüche 1–15, wobei das asymmetrische Overlap-Add-Fenstern eine Fenster-Funktion verwendet, die in Abhängigkeit von der Overlap-Länge eines vorangehenden Superframe, der Länge eines aktuellen Superframe und der Overlap-Länge des aktuellen Superframe variiert.
Verfahren nach Anspruch 16, wobei Abtastwerte des aktuellen Superframe erste Abtastwerte innerhalb der Overlap-Länge des vorangehenden Superframe und zweite Abtastwerte nach der Overlap-Länge des vorangehenden Superframe enthalten und wobei die Fenster-Funktion: die ersten Abtastwerte des aktuellen Superframe modifiziert; die zweiten Abtastwerte des aktuellen Superframe weiterleitet; und Overlap-Abtastwerte nach den zweiten Abtastwerten des aktuellen Superframe modifiziert.
Verfahren nach Anspruch 16 oder 17, wobei die Overlap-Länge des vorangehenden Superframe sich von der Overlap-Länge des aktuellen Superframe unterscheidet.
Verfahren nach Anspruch 16 oder 17, wobei die Overlap-Länge des vorangehenden Superframe kleiner ist als die Hälfte der Länge des aktuellen Superframe und kleiner als die Hälfte der Länge des vorangehenden Superframe und wobei die Overlap-Länge des aktuellen Superframe kleiner ist als die Hälfte der Länge des aktuellen Superframe und kleiner als die Hälfte der Länge eines nächsten Superframe.
Verfahren nach Anspruch 16 oder 17, wobei der vorangehende Superframe ein Sprach-Superframe ist, die Overlap-Länge des vorangehenden Superframe Null beträgt und die Overlap-Länge des aktuellen Superframe nicht Null beträgt.
Verfahren nach einem der Ansprüche 1–15, wobei der Abschnitt des codierten Signals, der einem codierten Musiksignal entspricht, für einen aktuellen Superframe vorhanden ist, der aktuelle Superframe einen Overlap mit einem nächsten Musik-Superframe aufweist, jedoch keinen Overlap mit einem vorangehenden Sprach-Superframe aufweist.
Computerlesbares Medium, das durch Computer ausführbare Befehle speichert, die ein damit programmiertes Computersystem veranlassen, das Verfahren nach einem der Ansprüche 1 bis 21 durchzuführen.
Vorrichtung, die so eingerichtet ist, dass sie das Verfahren nach einem der Ansprüche 1–21 durchführt.