DE60225381T2 - Verfahren zur Kodierung von Sprach- und Musiksignalen - Google Patents

Verfahren zur Kodierung von Sprach- und Musiksignalen Download PDF

Info

Publication number
DE60225381T2
DE60225381T2 DE60225381T DE60225381T DE60225381T2 DE 60225381 T2 DE60225381 T2 DE 60225381T2 DE 60225381 T DE60225381 T DE 60225381T DE 60225381 T DE60225381 T DE 60225381T DE 60225381 T2 DE60225381 T2 DE 60225381T2
Authority
DE
Germany
Prior art keywords
signal
superframe
overlap
music
coded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60225381T
Other languages
English (en)
Other versions
DE60225381D1 (de
Inventor
Kazuhuito Redmond Koishida
Vladimir Goleta Cuperman
Amir H. Woodinville Majidimehr
Allen Santa Barbara Gersho
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of DE60225381D1 publication Critical patent/DE60225381D1/de
Application granted granted Critical
Publication of DE60225381T2 publication Critical patent/DE60225381T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

  • GEBIET DER ERFINDUNG
  • Diese Erfindung betrifft im Allgemeinen ein Verfahren und eine Vorrichtung zum Codieren von Signalen, und insbesondere betrifft diese Erfindung ein Verfahren und eine Vorrichtung zum Codieren von sowohl Sprachsignalen als auch Musiksignalen.
  • HINTERGRUND DER ERFINDUNG
  • Sprache und Musik werden in Wirklichkeit durch sehr unterschiedliche Signale dargestellt. In Bezug auf die typischen spektralen Merkmale besitzt das Spektrum für gesprochene Sprache im Allgemeinen eine feine periodische Struktur, die mit künstlichen Obertönen (Pitch Harmonics), bei denen die Spitzen der Obertöne einen sanften spektralen Tonumfang bilden, assoziiert ist, wohingegen das Spektrum für die Musik typischerweise viel komplexer ist, wobei es mehrere Ausgangstöne für Tonhöhen sowie Obertöne aufweist. Der spektrale Tonumfang kann ebenso weitaus komplexer sein. Codiertechnologien für diese zwei Signalmodi sind ebenfalls sehr verschieden, wobei das Codieren von Sprache durch modellbasierte Ansätze, wie beispielsweise durch das Code Excited Linear Prediction-(CELP)Verfahren und einer Synthetisierung aus Sinuskomponenten (Sinusoidal Coding) dominiert wird, und das Codieren von Musik durch Transformationstechnologien, wie beispielsweise der Modified Lapped Transformation (MIT), die zusammen mit Maskieren von Umgebungsgeräuschen (Noise Masking) verwendet wird, dominiert wird.
  • In der letzten Zeit war eine Zunahme des Codierens für sowohl Sprach- als auch Musiksignalen für Anwendungen wie beispielsweise Internet-Multimedien, Fernseh-/Rundfunksenden, Telefonkonferenzführung, oder die kabellosen Medien zu verzeichnen. Die Herstellung eines universalen Codierer-Decodierers (Codec) zum effizienten und effektiven Wiedergeben von sowohl Sprachsignalen als auch Musiksignalen wird jedoch nicht leicht erreicht, da die Codierer für die zwei Signaltypen optimalerweise auf separaten Verfahren basieren. So können beispielsweise auf linearer Prädiktion basierte Verfahren, wie beispielsweise das Code Excited Linear Prediction-(CELP)Verfahren eine qualitativ hochwertige Wiedergabe für Sprachsignale erzeugen, jedoch eine unakzeptable Qualität bei der Wiedergabe von Musiksignalen produzieren. Im Gegensatz dazu liefern die auf Transformationscodierung basierenden Verfahren eine gute Qualität bei der Wiedergabe von Musiksignalen, jedoch verschlechtert sich der Ausgang signifikant für Sprachsignale, insbesondere beim Codieren mit niedriger Bitrate.
  • Eine Alternative dazu besteht in der Entwicklung einer Codiereinrichtung für mehrere Modi, die sowohl Sprachsignale als auch Musiksignale bearbeiten kann. Frühe Versuche, solche Codiereinrichtungen bereitzustellen, sind beispielsweise der Hybrid ACEL/Transform Coding Excitation-Codierer oder der Multi-mode Transform Predictive Coder (MTPC). Ungünstigerweise sind diese Codierungsalgorithmen zu komplex und/oder für das praktische Codieren von Sprach- und Musiksignalen uneffizient.
  • Bessette et al. beschreibt in dem Dokument „A Wideband Speech and Audio Codec at 16/24/32 kBit/s using Hybrid ACELP/TCX Techniques" einen hybriden ACELP/TCX-Algorithmus zum Codieren von Sprach- und Musiksignalen. Der Algorithmus schaltet zwischen ACELP und TXC-Modi auf einer Basis von 20-ms-Rahmen um.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Es ist die Aufgabe der vorliegenden Erfindung, einen einfachen und effizienten hybriden Codierungsalgorithmus zum Codieren von sowohl Sprach- als auch Musiksignalen bereitzustellen, der speziell auf die Verwendung in Umgebungen mit niedrigen Bitraten angepasst ist.
  • Diese Aufgabe wird durch die Erfindung, wie diese in den unabhängigen Ansprüchen definiert ist, erfüllt.
  • Ausführungsformen werden in den abhängigen Ansprüchen dargelegt.
  • Ausführungsformen stellen eine Methode der Transformations-Codierung zum effizienten Codieren von Musiksignalen bereit. Die Methode der Transformations-Codierung ist für die Verwendung in einem hybriden Codierer-Decodierer (Codec) geeignet, wobei ein gemeinsames lineares Prädiktions-(LP)Synthesefilter sowohl für Sprach- als auch für Musiksignale verwendet wird. Der Eingang des linearen Prädiktions-Synthesefilters wird zwischen einem Sprach-Erregungsgenerator und einem Transformations-Erregungsgenerator umgeschaltet, jeweils in Abhängigkeit davon, ob es sich um das Codieren eines Sprachsignals oder eines Musiksignals handelt. In einer bevorzugten Ausführungsform umfasst das lineare Prädiktions-Synthesefilter eine Interpolation der linearen Prädiktionskoeffizienten. Beim Codieren von Sprachsignalen kann eine herkömmliche Excited Linear Prediction-(CELP) Methode oder eine andere auf linearer Prädiktion basierende Methode verwendet werden, wohingegen beim Codieren von Musiksignalen vorzugsweise ein Verfahren asymmetrischer Overlap-Add-Transformation angewendet wird.
  • Zusätzliche Leistungsmerkmale und Vorteile der Erfindung werden anhand der folgenden ausführlichen Beschreibung von illustrativen Ausführungsformen offensichtlich gemacht, die unter Bezugnahme auf die begleitenden Zeichnungen dargelegt wird.
  • KURZE BESCHREIBUNG DER ERFINDUNG
  • Während die angehängten Ansprüche die Leistungsmerkmale der vorliegenden Erfindung in Einzelheiten darlegen, wird die Erfindung zusammen mit ihren Aufgaben und Vorteilen möglicherweise am besten anhand der folgenden ausführlichen Beschreibung, wenn diese zusammen mit den begleitenden Zeichnungen betrachtet wird, verstanden, in denen:
  • 1 exemplarische mit einem Netzwerk verbundene hybride Sprach-/Musik-Codecs in Übereinstimmung mit einer Ausführungsform der Erfindung darstellt;
  • 2a illustriert ein vereinfachtes Diagramm der Architektur eines hybriden Sprach-/Musik-Codierers in Übereinstimmung mit einer Ausführungsform der Erfindung;
  • 2b illustriert ein vereinfachtes Diagramm der Architektur eines hybriden Sprach-/Musik-Decodierers in Übereinstimmung mit einer Ausführungsform der Erfindung;
  • 3a ist ein Logikdiagramm eines Transformations-Codierungsalgorithmus in Übereinstimmung mit einer Ausführungsform der Erfindung;
  • 3b ist ein Zeitablaufdiagramm, das eine Operation des asymmetrischen Overlap-Add-Fensterns (windowing) und ihren Effekt in Übereinstimmung mit einer Ausführungsform der Erfindung darstellt;
  • 4 ist ein Blockdiagramm eines Transformations-Decodierungsalgorithmus in Übereinstimmung mit einer Ausführungsform der Erfindung;
  • Die 5a und 5b sind Ablaufpläne, die exemplarische Schritte darstellen, die für das Codieren von Sprach- und Musiksignalen in Übereinstimmung mit einer Ausführungsform der Erfindung durchgeführt werden;
  • Die 6a und 6b sind Ablaufpläne, die exemplarische Schritte darstellen, die für das Decodieren von Sprach- und Musiksignalen in Übereinstimmung mit einer Ausführungsform der Erfindung durchgeführt werden;
  • 7 ist eine vereinfachte schematische Illustration einer Architektur einer Computervorrichtung, die durch eine Computervorrichtung verwendet wird, in der eine Ausführungsform der Erfindung ausgeführt werden kann.
  • AUSFÜHRLICHE BESCHREIBUNG DER ERFINDUNG
  • Die vorliegende Erfindung stellt eine effiziente Methode der Transformations-Codierung zum Codieren von Musiksignalen bereit, wobei die Methode für die Verwendung in einem hybriden Codierer-Decodierer (Codec) geeignet ist, in dem ein gemeinsames lineares Prädiktions-(LP)Synthesefilter für die Wiedergabe von sowohl Sprach- als auch Musiksignalen verwendet wird. Allgemein formuliert, wird der Eingang des linearen Prädiktions-(LP)Synthesefilters dynamisch zwischen einem Sprach-Erregungsgenerator und einem Transformations-Erregungsgenerator, der jeweils dem Empfang von entweder einem codierten Sprachsignal oder einem codierten Musiksignal entspricht, umgeschaltet. Eine Sprach-/Musik-Klassifiziereinrichtung identifiziert ein Eingangssprach-/Eingangsmusiksignal als entweder Sprache oder Musik und überträgt das identifizierte Signal an entweder einen Sprach-Codierer oder an einen Musik-Codierer, wie dies jeweils angemessen erscheint. Während des Codierens eines Sprachsignals kann ein herkömmliches Code Excited Linear Prediction(CELP)-Verfahren verwendet werden.
  • Für das Codieren der Musiksignale wird jedoch eine neuartige Methode asymmetrischer Overlap-Add-Transformation angewendet. In einer bevorzugten Ausführungsform der Erfindung umfasst das gemeinsame lineare Prädiktions-Synthesefilter eine Interpolation von linearen Prädiktionskoeffizienten, wobei die Interpolation alle mehrerer Abtastwerte über einem Bereich durchgeführt wird, in dem die Erregung über mittels eines Overlap erzielt wird. Da der Ausgang des Synthesefilters nicht umgeschaltet wird, sondern lediglich der Eingang des Synthesefilters umgeschaltet wird, wird eine Quelle einer hörbaren Signalunstetigkeit vermieden.
  • Im Folgenden wird in Bezug auf 1 eine exemplarische Konfiguration eines Sprach-/Musik-Codecs, in dem eine Ausführungsform der Erfindung implementiert werden kann, beschrieben. Die illustrierte Umgebung umfasst Codierer-Decodierer (Codecs) 110, 120, die miteinander über ein Netzwerk 100 kommunizieren, das durch eine Wolke dargestellt ist. Das Netzwerk 100 kann viele gut bekannte Komponenten, wie beispielsweise Router, Gateways, Hubs und so weiter enthalten und kann Kommunikationen sowohl über verdrahtete als auch über drahtlose Medien bereitstellen. Jeder Codierer-Decodierer (Codec) umfasst wenigstens einen Codierer 111, 121, einen Decodierer 112, 122 und eine Sprach-/Musik-Klassifizierungseinrichtung 113, 123.
  • In einer Ausführungsform der Erfindung wird ein gemeinsames lineares Prädiktions-Synthesefilter sowohl für Musik- als auch für Sprachsignale verwendet. In Bezug auf die 2a und 2b wird die Struktur eines exemplarischen Sprach- und Musik-Codecs, in dem die Erfindung implementiert werden kann, dargestellt. Insbesondere zeigt 2a die High-Level-Struktur eines hybriden Sprach-/Musik-Codierers, während 2b die High-Level-Struktur eines hybriden Sprach-/Musik-Decodierers darstellt. In Bezug auf 2a umfasst der Sprach-/Musik-Codierer eine Sprach-/Musik-Klassifizierungseinrichtung 250, die ein Eingangssignal als entweder ein Sprachsignal oder ein Musiksignal klassifiziert. Das identifizierte Signal wird anschließend in Übereinstimmung damit jeweils zu entweder einem Sprach-Codierer 260 oder zu einem Musik-Codierer 270 gesendet, und ein Modus-Bit, das die Sprach-/Musik-Natur des Eingangssignals charakterisiert, wird generiert. So stellt beispielsweise ein Modus-Bit von Null ein Sprachsignal dar, und ein Modus-Bit von 1 stellt ein Musiksignal dar. Der Sprach-Codierer 260 codiert eine eingegebene Sprache auf Basis des Prinzips linearer Prädiktion, das den Personen mit der gewöhnlichen Erfahrung auf dem Gebiet der Technik gut bekannt ist und gibt einen codierten Sprach-Bitstrom aus. Das Sprach-Codieren wird beispielsweise für eine Codebook Excitation Linear Predictive-(CELP)Methode verwendet, wie dies den Personen mit der gewöhnlichen Erfahrung auf dem Gebiet der Technik bekannt ist. Im Gegensatz dazu codiert der Musik-Codierer 270 ein Eingangs-Musiksignal gemäß einer Transformations-Codierungsmethode, die im weiteren Verlauf der Beschreibung zu beschreiben ist, und gibt einen codierten Musik-Bitstrom aus.
  • In Bezug auf 2b umfasst ein Sprach-/Musik-Decodierer in Übereinstimmung mit einer Ausführungsform der Erfindung ein lineares Prädiktions-Synthesefilter 240 und eine Sprach-/Musik-Umschalteinrichtung 230, die mit dem Eingang des Filters 240 zum Umschalten zwischen einem Sprach-Erregungsgenerator 210 und einem Transformations-Erregungsgenerator 220 verbunden ist. Der Sprach-Erregungsgenerator 210 empfängt den übertragenen codierten Sprach-/Musik-Bitstrom und erzeugt Sprach-Erregungssignale. Der Musik-Erregungsgenerator 220 empfängt das übertragene codierte Sprach-/Musiksignal und erzeugt Musik-Erregungssignale. Es sind zwei Modi in dem Codierer vorhanden, nämlich ein Sprachmodus und ein Musikmodus. Der Modus des Decodierers für einen aktuellen Frame (Rahmen) oder einen Superframe wird durch das übertragene Modus-Bit bestimmt. Die Sprach-/Musik-Umschalteinrichtung 230 wählt entsprechend des Modus-Bits eine Erregungssignal-Quelle aus, wobei ein Musik-Erregungssignal in dem Musikmodus und ein Sprach-Erregungssignal in dem Sprachmodus ausgewählt werden. Die Umschalteinrichtung 230 überträgt anschließend das ausgewählte Erregungssignal an das lineare Prädiktions-Synthesefilter 240, um die geeigneten rekonstruierten Signale zu erzeugen. Die Erregung oder der Restwert in dem Sprachmodus werden unter Verwendung eines sprachoptimierten Verfahrens wie beispielsweise der Code Excited Linear Predictive-(CELP)Codierung codiert, wohingegen die Erregung in dem Musikmodus durch eine Methode der Transformations-Codierung, beispielsweise einem Transform Coding Excitation (TCX) quantifiziert wird. Das lineare Prädiktions-Synthesefilter 240 ist den Musiksignalen und den Sprachsignalen gemein. Ein herkömmlicher Codierer für das Codieren von entweder Sprach- oder Musiksignalen arbeitet an Blöcken oder Segmenten, die für gewöhnlich Frames (Rahmen) von 10 ms bis 40 ms genannt werden. Da im Allgemeinen die Transformations-Codierung effizienter ist, wenn die Frame-Größe groß ist, sind im Allgemeinen diese Frames von 10 ms bis 40 ms zu kurz, um einen Transformations-Codierer so auszurichten, dass eine ak zeptable Qualität erhalten wird, insbesondere bei niedrigen Bitraten. Eine Ausführungsform der vorliegenden Erfindung arbeitet dementsprechend an Superframes, die aus einer ganzzahligen Anzahl von standardmäßigen Frames von 20 ms bestehen. Eine typische Größe eines Superframes, die in einer Ausführungsform verwendet wird, ist 60 ms. Demzufolge führt die Sprach-/Musik-Klassifizierungseinrichtung vorzugsweise ihre Klassifizierung ein Mal für jeden darauffolgenden Superframe durch.
  • Im Gegensatz zu den aktuellen Transformations-Codierern zum Codieren von Musiksignalen wird der Codierungsprozess in Übereinstimmung mit der Erfindung in der Erregungs-Domäne durchgeführt. Dies ist ein Produkt aus der Verwendung eines einzelnen linearen Prädiktions-Synthesefilters für die Wiedergabe von beiden Typen von Signalen, den Sprachsignalen und den Musiksignalen. In Bezug auf 3a ist ein Transformations-Codierer in Übereinstimmung mit einer Ausführungsform der Erfindung illustriert. Ein lineares Prädiktions-Synthesefilter 310 analysiert Musiksignale des klassifizierten Musik-Superframes, der von der Sprach-/Musik-Klassifizierungseinrichtung 250 ausgegeben wurde, um geeignete lineare Prädiktionskoeffizienten (LPC, Linear Predictive Coefficients) zu erhalten. Ein Modul für lineare Prädiktions-Quantisierung 320 quantifiziert die berechneten linearen Prädiktionskoeffizienten. Die linearen Prädiktionskoeffizienten und die Musiksignale des Superframes werden anschließend auf ein inverses Filter 330 angewendet, das als Eingang die Musiksignale hat und als Ausgang ein Restwertsignal erzeugt.
  • Die Verwendung von Superframes anstelle von typischen Frames hilft dabei, eine Transformations-Codierung einer hohen Qualität zu erhalten. Dennoch kann eine blockierende Verzerrung an den Grenzen der Superframes Probleme hinsichtlich der Qualität verursachen. Eine bevorzugte Lösung zum Mindern der Auswirkung blockierender Verzerrung findet sich in der Methode des Overlap-Add-Fensterns (windowing), so beispielsweise bei der Modified Lapped Transform-(MIT)Methode, die ein Überlappen von angrenzenden Frames zu 50% aufweist. Es erweist sich jedoch als schwierig, eine solche Lösung in einem auf CELP-Verfahren basierten hybriden Codec (Codierer-Decodierer) zu integrieren, da CELP Null Überlappung für das Sprach-Codieren verwendet. Um diese Schwierigkeit zu überwinden und die Leistung einer hohen Qualität des Systems im Musikmodus sicherzustellen, stellt eine Ausführungsform der Erfindung eine Methode asymmetrischen Overlap-Add-Fensterns (windowing) bereit, wie dies durch das in 3a dargestellte Overlap-Add-Modul 340 implementiert ist. 3b stellt die asymmetrische Overlap-Add-Fenster-Operation sowie deren Effekte dar. In Bezug auf 3b berücksichtigt das Overlap-Add-Fenstern die Möglichkeit, dass der vorangehende Superframe die Superframe-Länge und die Overlap-Länge mit jeweils unterschiedlichen Werten bezeichnet hat, so beispielsweise mit Np und Lp. Die Bezeichnungen Nc und Lc stellen jeweils die Superframe-Länge und die Overlap-Länge für den aktuellen Superframe dar. Der Codierungsblock für den aktuellen Superframe umfasst die Abtastwerte und die Overlap-Abtastwerte des aktuellen Superframes. Das Overlap-Add-Fenstern tritt an den ersten Abtastwerten Np und an den letzten Abtastwerten Lp in dem aktuellen Codierungsblock auf. Im Sinne eines Beispiels und nicht im einschränkenden Sinne zu erachten, wird ein Eingangssignal x(n) durch eine Overlap-Add-Window-Funktion w(n) transformiert und ein gefenstertes Signal y(n) wie folgt erzeugt: y(n) = x(n)w(n), 0 ≤ n ≤ Nc + Lc – 1. (Gleichung 1)und die Fenster-Funktion w(n) wird folgendermaßen definiert:
    Figure 00080001
    wobei Nc und Lc jeweils die Superframe-Länge und die Overlap-Länge für den aktuellen Superframe sind.
  • Anhand der Overlap-Add-Fenster-Form in 3b kann gesehen werden, dass die Overlap-Add-Bereiche 390, 391 asymmetrisch sind, so unterscheidet sich beispielsweise der Bereich, der mit 390 markiert ist, von dem Bereich, der mit 391 markiert ist, und die Overlap-Add-Fenster können voneinander abweichende Größen aufweisen. Solche Fenster mit unterschiedlichen Größen überwinden den Blockierungseffekt und das Vor echo. Da darüber hinaus die Overlap-Bereiche verglichen mit dem 50% Overlap, der in dem MLT-Verfahren verwendet wird, klein sind, ist diese Methode des asymmetrischen Oberlap-Add-Fenstern effizient für einen Transformations-Codierer, der in einem auf CELP basierenden Sprach-Codierer integriert werden kann.
  • Unter erneuter Bezugnahme auf 3a wird das Restwertsignal, das von dem inversen linearen Prädiktions-Synthesefilter 330 ausgegeben wird, durch das Modul für asymmetrisches Overlap-Add-Fenstern (windowing) 340 verarbeitet, um ein gefenstertes Signal zu erzeugen. Das gefensterte Signal wird anschließend in ein Modul für diskrete Kosinustransformation (DCT) 350 eingegeben, in dem das gefensterte Signal in die Frequenzdomäne transformiert wird und ein Satz an DCT-Koeffizienten erhalten wird. Die diskrete Kosinustransformation (DCT) wird folgendermaßen definiert:
    Figure 00090001
    wobei c(k) folgendermaßen definiert ist:
    Figure 00090002
  • Obgleich die diskrete Kosinustransformation bevorzugt wird, können auch andere Transformationsmethoden verwendet werden, wie beispielsweise Methoden, die die modifizierte diskrete Kosinustransformation (MDCT) und die schnelle Fourier-Transformation (FFT, Fast Fourier Transformation) umfassen. Um die DCT-Koeffizienten auf effiziente Weise zu quantifizieren, werden dynamische Bitzuweisungs-Informationen als ein Teil der Quantisierung der DCT-Koeffizienten verwendet. Die dynamischen Bitzuweisungs-Informationen werden von einem Modul für dynamische Bitzuweisung 370 gemäß Maskierungsschwellenwerten erhalten, die durch ein Modul für Schwellenwertmaskierung 360 berechnet werden, wobei die Schwellenwertmaskierung auf dem Eingangssignal oder den linearen Prädiktionskoeffizienten, die von dem Modul zur Analyse der linearen Prädiktions-Codierung ausgegeben werden, basiert. Die dynamischen Bitzuweisungs-Informationen können auch durch Analysieren der Eingangs-Musiksignale erhalten wer den. Mit den dynamischen Bitzuweisungs-Informationen werden die DCT-Koeffizienten durch das Quantisierungsmodul 380 quantifiziert und anschließend zu dem Decodierer übertragen.
  • Unter Beibehaltung des Codierungsalgorithmus, der in der voranstehend beschriebenen Ausführungsform der Erfindung verwendet wird, ist in 4 der Transformations-Decodierer dargestellt. In Bezug auf 4 umfasst der Transformations-Decodierer ein Modul für inverse dynamische Bitzuweisung 410, ein Modul für inverse Quantisierung 420, ein Modul für inverse diskrete Kosinustransformation 430, ein Modul für asymmetrisches Overlap-Add-Fenstern 440, und ein Overlap-Add-Modul 450. Das Modul für inverse dynamische Bitzuweisung 410 empfängt die übertragenen Bitzuweisungs-Informationen, die von dem in 3a dargestellten Modul für dynamische Bitzuweisung 370 ausgegeben werden und stellt dem Modul für inverse Quantisierung 420 die Bitzuweisungs-Informationen bereit. Das Modul für inverse Quantisierung 420 empfängt den übertragenen Musik-Bitstrom und die Bitzuweisungs-Informationen und wendet eine inverse Quantisierung auf den Bitstrom an, um decodierte DCT-Koeffizienten zu erhalten. Das Modul für inverse diskrete Kosinustransformation 430 führt anschließend inverse Kosinustransformation der decodierten DCT-Koeffizienten durch und erzeugt ein Zeitdomäne-Signal. Die inverse Kosinustransformation wird wie folgt dargestellt:
    Figure 00100001
    wobei c(k) wie folgt definiert ist:
    Figure 00100002
  • Das Modul für asymmetrisches Overlap-Add-Fenstern 440 führt die Operation des asymmetrischen Overlap-Add-Fensterns (windowing) an dem Zeitdomäne-Signal durch, so beispielsweise y ^'(n) = w(n)y ^(n) wobei y ^(n) das Zeitdomäne-Signal darstellt, w(n) bezeichnet die Fenster-Funktion und y ^'(n) ist das resultierende gefensterte Signal. Das gefensterte Signal wird anschließend in das Overlap-Add-Modul 450 eingegeben, wobei ein Erregungssignal durch das Durchführen einer Overlap-Add-Operation erhalten wird. Im Sinne eines Beispiels und nicht im einschränkenden Sinne zu erachten, sieht eine exemplarische Overlap-Add-Operation folgendermaßen aus:
    Figure 00110001
    wobei e ^(n) das Erregungssignal ist, und y ^p(n) und y ^c(n) jeweils die vorangehenden und aktuellen Zeitdomäne-Signale sind. Die Funktionen wp(n) und wc(n) sind jeweils die Overlap-Add-Fenster-Funktionen für die vorangehenden und aktuellen Superframes. Die Werte Np und Nc sind jeweils die Größen der vorangehenden und aktuellen Superframes. Der Wert Lp ist die Overlap-Add-Größe des vorangehenden Superframes. Das erzeugte Erregungssignal e ^(n) wird anschließend umschaltbar in ein lineares Prädiktions-Synthesefilter eingegeben, wie dies in 2b dargestellt ist, um das ursprüngliche Musiksignal zu rekonstruieren.
  • Eine Methode der Interpolations-Synthese wird vorzugsweise in der Verarbeitung des Erregungssignals angewendet. Die linearen Prädiktionskoeffizienten werden aller mehrerer Abtastwerte über dem Bereich von 0 ≤ n ≤ Lp – 1 abgetastet, wobei das Erregungssignal durch Verwenden der Overlap-Add-Operation erhalten wird. Die Interpolation der linearen Prädiktionskoeffizienten wird in der Line Spectral Pairs-(LSP)Domäne durchgeführt, wobei die Werte der interpolierten LSP-Koeffizienten durch folgende Gleichung gegeben sind: f(i) = (1 – v(i))f ^p(i) + v(i)f ^c(i), 0 ≤ i ≤ M – 1 (Gleichung 6) wobei f ^p(i) und )f ^c(i jeweils die quantifizierten LSP-Parameter der vorangehenden und der aktuellen Superframes sind. Der Faktor v(i) ist der Interpolations-Gewichtungsfaktor, während der Wert M die Ordnung der linearen Prädiktionskoeffizienten ist. Nach der Anwendung des Interpolationsverfahrens können herkömmliche lineare Prädiktionssynthese-Verfahren an dem Erregungssignal angewendet werden, um ein rekonstruiertes Signal zu erhalten.
  • In Bezug auf die 5a und 5b werden exemplarische Schritte, die zum Codieren der Interleaving (Verschachtelung) unterzogenen Eingangs-Sprach- und Musiksignale verwendet werden, in Übereinstimmung mit einer Ausführungsform der Erfindung beschrieben. In Schritt 501 wird ein Eingangssignal empfangen, und ein Superframe wird geformt. In Schritt 503 wird eine Entscheidung dahingehend getroffen, ob sich der aktuelle Superframe hinsichtlich des Typs (das heißt, Musik/Sprache) von einem vorangehenden Superframe unterscheidet. Wenn sich die Superframes voneinander unterscheiden, wird in diesem Fall ein „Superframe-Übergang" an dem Anfang des aktuellen Superframe definiert, und der Prozessfluss der Operationen bildet eine Abzweigung zu Schritt 505. In Schritt 505 wird die Abfolge des vorangehenden Superframe und des aktuellen Superframe festgestellt, so beispielsweise durch Feststellen, ob es sich bei dem aktuellen Superframe um Musik handelt. Dementsprechend resultiert beispielsweise die Ausführung des Schrittes 505 in einem „Ja", wenn es sich bei dem vorangehenden Superframe um einen Sprach-Superframe handelt, an den sich ein aktueller Musik-Superframe anschließt. Auf gleiche Weise resultiert der Schritt 505 in einem „Nein", wenn es sich bei dem vorangehenden Superframe um einen Musik-Superframe handelt, an den sich ein aktueller Sprach-Superframe anschließt. In Schritt 511 resultiert eine Abzweigung von einem „Ja" in Schritt 505, die Overlap-Länge Lp für den vorangehenden Superframe wird auf Null eingestellt, was bedeutet, dass kein Overlap-Add-Fenstern an dem Anfang des aktuellen Codierungsblockes durchgeführt wird. Der Grund hierfür besteht darin, dass auf CELP basierte Sprach-Codierer keine Overlap-Signale für angrenzende Frames oder Superframes bereitstellen oder diese verwenden. Von Schritt 511 werden Transformations-Codierungsprozeduren für den Musik-Superframe in Schritt 513 durchgeführt. Wenn die Entscheidung in Schritt 505 in einem „Nein" resultiert, nimmt der Prozessfluss eine Abzweigung zu Schritt 509, in dem die Overlap-Abtastwerte in dem vorangehenden Musik-Superframe entfernt werden. Anschließend wird in Schritt 515 CELP-Codierung für den Sprach-Superframe durchgeführt. In Schritt 507, der eine Abzweigung von Schritt 503 nimmt, nachdem ein „Nein"-Resultat auftritt, wird eine Entscheidung dahingehend getroffen, ob der aktuelle Superframe ein Musik- oder ein Sprach-Superframe ist. Wenn der aktuelle Superframe ein Musik-Superframe ist, wird in Schritt 513 Transformations-Codierung angewendet, währenddessen, wenn es sich bei dem aktuellen Superframe um Sprache handelt, in Schritt 515 CELP-Codierungs-Prozeduren angewendet werden. Nachdem in Schritt 513 die Transformations-Codierung abgeschlossen ist, wird ein codierter Musik-Bitstrom erzeugt. Auf gleiche Weise wird nach dem Durchführen des CELP-Codierens in Schritt 515 ein codierter Sprach-Bitstrom erzeugt.
  • Die Transformations-Codierung, die in Schritt 513 durchgeführt wird, umfasst eine Abfolge von Unterschritten, wie dies in 5b dargestellt ist. In Schritt 523 werden die linearen Prädiktionskoeffizienten der Eingangs-Signale berechnet. In Schritt 533 werden die berechneten linearen Prädiktionskoeffizienten quantisiert. In Schritt 543 arbeitet ein inverses Filter an dem empfangenen Superframe und den berechneten linearen Prädiktionskoeffizienten, um ein Restwertsignal x(n) zu erzeugen. In Schritt 553 wird das Overlap-Add-Fenster auf das Restwertsignal x(n) angewendet, indem x(n) mit der Fenster-Funktion w(n) wie folgt multipliziert wird: y(n) = x(n)w(n)wobei die Fenster-Funktion w(n) wie in Gleichung 2 definiert ist. In Schritt 563 wird die diskrete Kosinustransformation an dem gefensterten Signal y(n) durchgeführt, und es werden die DCT-Koeffizienten erhalten. In Schritt 583 werden die dynamischen Bitzuweisungs-Informationen gemäß einem Maskierungsschwellenwert, der in Schritt 573 erhalten wird, erhalten. Unter Verwendung der Bitzuweisungs-Informationen werden anschließend in Schritt 593 die DCT-Koeffizienten quantifiziert, um einen Musik-Bitstrom zu erzeugen.
  • Unter Beibehaltung der Codierungsschritte, die in den 5a und 5b dargestellt sind, illustrieren die 6a und 6b die Schritte, die durch den Decodierer ausgeführt werden, um in einer Ausführungsform der Erfindung ein synthetisiertes Signal bereitzustellen. In Bezug auf 6a werden in Schritt 601 der übertragene Bitstrom und das Modus-Bit empfangen. In Schritt 603 wird gemäß dem Modus-Bit festgestellt, ob der aktuelle Superframe Sprache oder Musik entspricht. Wenn das Signal Musik entspricht, wird in Schritt 607 eine Transformations-Erregung erzeugt. Wenn der Bitstrom Sprache entspricht, wird Schritt 605 durchgeführt, um ein Sprach-Erregungssignal so durch die CELP-Analyse zu erzeugen. Beide der Schritte 607 und 605 laufen in Schritt 609 zusammen. In Schritt 609 wird eine Umschalteinrichtung so eingestellt, dass das lineare Prädiktions-Synthesefilter entweder das Musik-Erregungssignal oder das Sprach-Erregungssignal, wie dies jeweils angemessen ist, empfängt. Wenn Superframes in einem Bereich Overlap-Add unterzogen sind, wie beispielsweise 0 ≤ n ≤ Lp – 1, wird bevorzugt, dass die LPC-Koeffizienten der Signale in diesem Overlap-Add-Bereich eines Superframe interpoliert werden. In Schritt 611 wird die Interpolation der LPC-Koeffizienten durchgeführt. So kann beispielsweise Gleichung 6 angewendet werden, um die Interpolation der LPC-Koeffizienten durchzuführen. Daran anschließend wird in Schritt 613 das ursprüngliche Signal rekonstruiert oder über ein lineares Prädiktions-Synthesefilter auf eine Weise synthetisiert, die durch die Personen mit der gewöhnlichen Erfahrung auf dem Gebiet der Technik gut verstanden wird.
  • In Übereinstimmung mit der Erfindung kann der Sprach-Erregungsgenerator ein beliebiger Erregungsgenerator sein, der für die Sprachsynthese geeignet ist, jedoch ist der Transformations-Erregungsgenerator vorzugsweise eine speziell angepasste Methode, wie beispielsweise die, die durch die 6b beschrieben wird. In Bezug auf 6b wird nach dem Empfangen des übertragenen Bitstroms in Schritt 617 inverse Bitzuweisung in Schritt 627 durchgeführt, um Bitzuweisungs-Informationen zu erhalten. In Schritt 637 werden die DCT-Koeffizienten durch Durchführen von inverser Quantisierung der diskreten Kosinustransformation der DCT-Koeffizienten erhalten. In Schritt 647 wird ein vorläufiges Zeitdomäne-Erregungssignal durch Durchführen einer inversen diskreten Kosinustransformation, die durch Gleichung 4 definiert ist, an den OCT-Koeffizienten erhalten. In Schritt 657 wird das rekonstruierte Erregungssignal durch Anwenden eines Overlap-Add-Fensters, das durch Gleichung 2 definiert ist, weiter verarbeitet. In Schritt 667 wird eine Overlap-Add-Operation durchgeführt, um das Musik-Erregungssignal zu erhalten, wie dies durch Gleichung 5 definiert ist.
  • Obgleich dies nicht erforderlich ist, kann die vorliegende Erfindung unter Verwendung von Anweisungen, wie beispielsweise Programmmodulen, die durch einen Computer ausgeführt werden, implementiert werden. Im Allgemeinen umfassen Programmmodule Routinen, Objekte, Komponenten, Datenstrukturen und Ähnliches, die bestimmte Aufgaben durchführen oder bestimmte abstrakte Datentypen implementieren. Der Begriff „Programm", wie dieser hierin verwendet ist, umfasst ein oder mehrere Programmmodule.
  • Die Erfindung kann in einer Reihe verschiedener Typen von Maschinen, einschließlich Zellulartelefonen, Personalcomputern (PCs), tragbaren Vorrichtungen, Multiprozessorsystemen, auf Mikroprozessoren basierenden programmierbaren Unterhaltungselektronikgeräten, Netzwerk-PCs, Minicomputern, Mainframe-Computern und Ähnlichem oder in einer beliebigen anderen Maschine implementiert werden, die zum Codieren oder Decodieren von Audiosignalen, wie dies hierin beschrieben worden ist, und zum Speichern, Abrufen, Übertragen oder Empfangen von Signalen verwendet werden kann. Die Erfindung kann in einem verteilten Computersystem verwendet werden, in dem Aufgaben durch entfernte Computer, die miteinander über ein Kommunikationsnetzwerk verbunden sind, durchgeführt werden.
  • In Bezug auf 7 enthält ein exemplarisches System zum Implementieren von Ausführungsformen der Erfindung eine Computervorrichtung, wie beispielsweise eine Computervorrichtung 700. In ihrer grundlegendsten Konfiguration enthält die Computervorrichtung 700 typischerweise wenigstens eine Verarbeitungseinheit 702 und einen Speicher 704. In Abhängigkeit von der exakten Konfiguration und dem Typ von Computervorrichtung kann der Speicher 704 flüchtig (wie beispielsweise ein Direktzugriffsspeicher RAM), nicht flüchtig (wie beispielsweise ein Festwertspeicher ROM, Flash-Speicher und so weiter) oder eine Kombination aus den beiden sein. Diese grundlegendste Konfiguration ist in 7 innerhalb der Linie 706 illustriert. Zusätzlich dazu kann die Computervorrichtung 700 auch zusätzliche Speicher (entnehmbare und/oder nicht entnehmbare) enthalten, einschließlich, aber nicht beschränkt auf, magnetische oder optische Platten oder Band. Solche zusätzlichen Speicher sind in 7 durch den entnehmbaren Speicher 708 und den nicht entnehmbaren Speicher 710 dargestellt. Computerspeichermedien umfassen flüchtige und nicht flüchtige, entnehmbare und nicht entnehmbare Medien, die in einem beliebigen Verfahren oder einer Technologie zum Speichern von Informationen, wie beispielsweise durch Computer lesbaren Anweisungen, Datenstrukturen, Programmmodulen oder anderen, implementiert sind. Der Speicher 704, der ent nehmbare Speicher 708 und der nicht entnehmbare Speicher 710 sind allesamt Beispiele von Computerspeichermedien. Computerspeichermedien umfassen, sind aber nicht beschränkt auf, Direktzugriffsspeicher RAM, Festwertspeicher ROM, elektrisch lösch- und programmierbare Speicher EEPROM, Flash-Speicher oder andere Speichertechnologien, CD-ROMs, Digital Versstile Disks (DVD) oder andere optische Speicher, Magnetkassetten, Magnetband, magnetische Plattenspeicher oder andere magnetische Speichervorrichtungen oder ein beliebiges anderes Medium, das zum Speichern der gewünschten Informationen verwendet werden kann, und auf das durch die Computervorrichtung 700 zugegriffen werden kann. Jedes beliebige solcher Computerspeichermedien kann ein Bestandteil der Computervorrichtung 700 sein.
  • Die Computervorrichtung 700 kann darüber hinaus eine oder mehrere Kommunikationsverbindungen 712 enthalten, die es der Computervorrichtung ermöglichen, mit anderen Vorrichtungen zu kommunizieren. Die Kommunikationsverbindungen 712 sind ein Beispiel von Kommunikationsmedien. Die Kommunikationsmedien werden typischerweise durch durch Computer lesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal, wie beispielsweise einer Trägerwelle oder einen anderen Transportmechanismus verkörpert, und enthalten beliebige Informationsübertragungsmedien. Der Begriff „moduliertes Datensignal" bezeichnet ein Signal, bei dem eine oder mehrere seiner Eigenschaften auf eine Weise eingestellt oder verändert werden, dass die Informationen in dem Signal codiert werden. Im Sinne eines Beispiels und nicht im restriktiven Sinne zu erachten, enthalten die Kommunikationsmedien verdrahtete Medien, wie beispielsweise ein verdrahtetes Netzwerk oder eine direkt verdrahtete Verbindung, sowie drahtlose Medien, wie beispielsweise akustische, HF-, Infrarot- und andere drahtlose Medien. Wie dies voranstehend beschrieben worden ist, umfasst der Begriff computerlesbare Medien, wie dieser hierin verwendet wird, sowohl Speichermedien als auch Kommunikationsmedien.
  • Die Computervorrichtung 700 kann auch eine oder mehrere Eingabegeräte 714, wie beispielsweise eine Tastatur, eine Maus, einen Pen, eine Spracheingabevorrichtung, eine Toucheingabe-Vorrichtung und so weiter aufweisen. Es können eine oder mehrere Ausgabevorrichtungen 716, wie beispielsweise eine Anzeige, Lautsprecher, Drucker, und so weiter, enthalten sein. Alle diese Vorrichtungen sind auf dem Gebiet der Technik gut bekannt und müssen an dieser Stelle nicht ausführlicher diskutiert werden.
  • Es wurde eine neuartige und nützliche Methode zur Transformations-Codierung, die für das Codieren von Musiksignalen effizient und geeignet für den Einsatz in einem hybriden Codec ist, der ein gemeinsames lineares Prädiktions-Synthesefilter verwendet, vorgeschlagen. In Anbetracht der vielen möglichen Ausführungsformen, auf die die Prinzipien dieser Erfindung angewendet werden können, sollte beachtet werden, dass die hierin in Bezug auf die Zeichnungsfiguren beschriebenen Ausführungsformen lediglich im illustrativen Sinne zu verstehen sind, und nicht als in dem den Umfang der Erfindung einschränkenden Sinne erachtet werden sollten. Die Personen mit der gewöhnlichen Erfahrung auf dem Gebiet der Technik werden erkennen, dass die illustrierten Ausführungsformen in der Anordnung und in Einzelheiten modifiziert werden können, ohne dabei von dem Umfang der Erfindung abzuweichen. Dementsprechend können, obgleich die Erfindung so beschrieben worden ist, dass sie eine diskrete Kosinustransformation verwendet, auch andere Transformationsverfahren, wie beispielsweise die Fourier-Transformation, oder die modifizierte diskrete Kosinustransformation innerhalb des Umfangs der Erfindung angewendet werden. Auf ähnliche Weise können auch andere beschriebene Einzelheiten geändert oder ersetzt werden, ohne dabei vom Umfang der Erfindung abzuweichen. Dementsprechend umfasst die Erfindung, so wie diese hierin beschrieben worden ist, sämtliche solcher Ausführungsformen, die in den Umfang der folgenden Ansprüche sowie Entsprechungen davon fallen können.

Claims (23)

  1. Verfahren zum Decodieren eines Teils eines codierten Signals, wobei der Teil ein codiertes Sprachsignal oder ein codiertes Musiksignal umfasst und das Verfahren umfasst: Feststellen (603), ob der Teil des codierten Signals einem codierten Sprachsignal oder einem codierten Musiksignal entspricht; Bereitstellen des Teils des codierten Signals für einen Sprach-Erregungsgenerator (210), wenn festgestellt wird, dass der Teil des codierten Signals einem codierten Sprachsignal entspricht, wobei der Sprach-Erregungsgenerator (210) ein Sprach-Erregungssignal als Ausgang erzeugt (605); Bereitstellen des Teils des codierten Signals für einen Transformations-Erregungsgenerator (220), wenn festgestellt wird, dass der Teil des codierten Signals einem codierten Musiksignal entspricht, wobei der Transformations-Erregungsgenerator (220) ein Transformations-Erregungssignal als Ausgang erzeugt (607) und der Teil des codierten Signals, der einem codierten Musiksignal entspricht, gemäß einer Methode asymmetrischer Overlap-Add-Transformation ausgebildet wird, die umfasst: Empfangen eines Eingangs-Musiksignals; Erzeugen (523, 533, 543) linearer Prädiktionskoeffizienten und eines Erregungssignals des Eingangs-Musiksignals; Durchführen (553) von asymmetrischem Overlap-Add-Fenstern (windowing) an einem Superframe des Erregungssignals des Eingangs-Musiksignals durch Ausbilden von Overlap-Add-Bereichen, die asymmetrisch und voneinander verschieden sind, an den ersten Abtastwerten und den letzten Abtastwerten des Superframe; Frequenztransformation (563) des gefensterten Signals, um Transformationskoeffizienten zu erzeugen; und Quantisieren (593) der Transformationskoeffizienten; und Umschalten (609) des Eingangs eines gemeinsamen linearen Prädiktions-Synthesefilters (240) zwischen dem Ausgang des Sprach-Erregungsgenerators (210) und dem Ausgang des Transformations-Erregungsgenerators (220), wobei das gemeinsame lineare Prädiktions-Synthesefilter (240) als Ausgang ein rekonstruiertes Signal bereitstellt, das dem Eingangs-Erregungssignal entspricht.
  2. Verfahren nach Anspruch 1, wobei die Methode asymmetrischer Overlap-Add-Transformation des Weiteren umfasst: Berechnen (573) dynamischer Bitzuweisungs-Informationen aus dem Eingangs-Musiksignal oder den linearen Prädiktionskoeffizienten, wobei bei dem Quantisieren (593) die Bitzuweisungs-Informationen verwendet werden.
  3. Verfahren nach Anspruch 1 oder 2, wobei die Frequenztransformation (563) eine diskrete Kosinustransformation anwendet.
  4. Verfahren nach einem der Ansprüche 1–3, wobei nach dem asymmetrischen Overlap-Add-Fenstern das gefensterte Signal modifizierte Abtastwerte für einen aktuellen Superframe und nicht modifizierte Abtastwerte für den aktuellen Superframe umfasst.
  5. Verfahren zum Decodieren eines Teils eines codierten Signals, wobei der Teil ein codiertes Sprachsignal oder ein codiertes Musiksignal umfasst und das Verfahren umfasst: Feststellen (603), ob der Teil des codierten Signals einem codierten Sprachsignal oder einem codierten Musiksignal entspricht; Bereitstellen des Teils des codierten Signals für einen Sprach-Erregungsgenerator (210), wenn festgestellt wird, dass der Teil des codierten Signals einem codierten Sprachsignal entspricht, wobei der Sprach-Erregungsgenerator (210) ein Sprach-Erregungssignal als Ausgang erzeugt (605); Bereitstellen des Teils des codierten Signals für einen Transformations-Erregungsgenerator (220), wenn festgestellt wird, dass der Teil des codierten Signals einem codierten Musiksignal entspricht, wobei der Transformations-Erregungsgenerator (220) ein Transformations-Erregungssignal als Ausgang erzeugt (607) und Decodieren des Teils des codierten Signals, das einem codierten Musiksignal entspricht, umfasst: inverses Quantisieren (637) von Transformations-Koeffizienten; inverse Frequenztransformation (647) der invers quantisierten Transformations-Koeffizienten, um ein vorläufiges Erregungssignal zu erzeugen; Durchführen (657) von asymmetrischem Overlap-Add-Fenstern an einem Superframe des vorläufigen Erregungssignals durch Ausbilden von Overlap-Add-Bereichen, die asymmetrisch und voneinander verschieden sind, an den ersten Abtastwerten und den letzten Abtastwerten des Superframe; und Durchführen (667) einer Overlap-Add-Operation, um das Transformations-Erregungssignal zu erzeugen; und Umschalten (609) des Eingangs eines gemeinsamen linearen Prädiktions-Synthesefilters (240) zwischen dem Ausgang des Sprach-Erregungsgenerators (210) und dem Ausgang des Transformations-Erregungsgenerators (220), wobei das gemeinsame lineare Prädiktions-Synthesefilter (240) als Eingang ein rekonstruiertes Signal bereitstellt, das dem Eingangs-Erregungssignal entspricht.
  6. Verfahren nach Anspruch 5, wobei das Decodieren des Weiteren umfasst: Durchführen (617) von inverser Bitzuweisung, um Bitzuweisungs-Informationen zu gewinnen, wobei bei dem inversen Quantisieren (637) die Bitzuweisungs-Informationen verwendet werden.
  7. Verfahren nach Anspruch 5 oder 6, wobei die inverse Frequenztransformation (647) eine inverse diskrete Kosinustransformation anwendet.
  8. Verfahren nach einem der Ansprüche 5–7, wobei nach dem asymmetrischen Overlap-Add-Fenstern das gefensterte Signal modifizierte Abtastwerte für einen aktuellen Superframe und unmodifizierte Abtastwerte für den aktuellen Superframe umfasst und wobei die Overlap-Add-Operation Kombinieren der modifizierten Abtastwerte des aktuellen Superframe mit modifizierten Overlap-Abtastwerten eines vorangehenden Superframe umfasst.
  9. Verfahren nach einem der Ansprüche 1–8, das des Weiteren umfasst: Interpolieren (611) linearer Prädiktivkoeffizienten, die von dem gemeinsamen linearen Prädiktiv-Synthesefilter (240) verwendet werden.
  10. Verfahren zum Verarbeiten eines Teils eines Signals, wobei der Teil ein Sprachsignal oder ein Musiksignal umfasst und das Verfahren umfasst: Klassifizieren (505, 507) des Teils des Signals als ein Sprachsignal oder Musiksignal; Codieren (55) des Sprachsignals oder Codieren (513) des Musiksignals mit einem Sprach-/Musik-Codierer und Bereitstellen einer Vielzahl codierter Signale, wobei der Sprach-/Musik-Codierer einen Musik-Codierer (270) umfasst, der das Codieren (513) des Musiksignals durchführt, indem er: lineare Prädiktionskoeffizienten und ein Erregungssignal des Musiksignals erzeugt (523, 533, 543); asymmetrisches Overlap-Add-Fenstern an einem Superframe des Erregungssignals des Musiksignals durchführt (553), indem er Overlap-Add-Bereiche, die asymmetrisch und voneinander verschieden sind, an den ersten Abtastwerten und den letzten Abtastwerten des Superframe ausbildet; Frequenztransformation (563) des gefensterten Signals durchführt, um Transformationskoeffizienten zu erzeugen; und die Transformationskoeffizienten quantisiert (593); und Decodieren der codierten Signale mit einem Sprach-/Musik-Decodierer, wobei das Decodieren umfasst: inverses Quantisieren (637) der Transformationskoeffizienten; inverse Frequenztransformation (647) der invers quantisierten Transformations-Koeffizienten, um ein vorläufiges Erregungssignal zu erzeugen; Durchführen (657) von asymmetrischem Overlap-Add-Fenstern an dem Superframe des vorläufigen Erregungssignals durch Ausbilden von Overlap-Add-Bereichen, die asymmetrisch und voneinander verschieden sind, an den ersten Abtastwerten und den letzten Abtastwerten des Superframe; Durchführen (667) einer Overlap-Add-Operation, um das Erregungssignal des Musiksignals zu rekonstruieren; und Erzeugen eines rekonstruierten Signals gemäß den linearen Prädiktionskoeffizienten und dem Erregungssignal des Musiksignals mit einem gemeinsamen linearen Prädiktions-Synthesefilter (240), wobei das Filter (240) für die Reproduktion sowohl von Musik- als auch von Sprachsignalen verwendet werden kann.
  11. Verfahren nach Anspruch 10, das des Weiteren umfasst: während des Codierens (513) des Musiksignals, Berechnen (573) dynamischer Bitzuweisungs-Informationen aus dem Eingangs-Musiksignal oder den mehreren linearen Prädiktionskoeffizienten, wobei bei dem Quantisieren (593) die Bitzuweisungs-Informationen verwendet werden; und während des Decodierens Durchführen (617) inverser Bitzuweisung, um die Bitzuweisungs-Informationen zu gewinnen, wobei bei dem inversen Quantisieren (637) die Bitzuweisungs-Informationen verwendet werden.
  12. Verfahren nach Anspruch 10 oder 11, wobei die Frequenztransformation (563) eine diskrete Kosinustransformation anwendet und wobei die inverse Frequenztransformation (647) eine inverse diskrete Kosinustransformation anwendet.
  13. Verfahren nach einem der Ansprüche 10–12, wobei nach dem asymmetrischen Overlap-Add-Fenstern an dem vorläufigen Erregungssignal das gefensterte Signal modifizierte Abtastwerte für einen aktuellen Superframe und unmodifizierte Abtastwerte für den aktuellen Superframe umfasst und wobei die Overlap-Add-Operation Kombinieren der modifizierten Abtastwerte des aktuellen Superframe mit modifizierten Overlap-Abtastwerten eines vorangehenden Superframe umfasst.
  14. Verfahren nach einem der Ansprüche 10–13, wobei der Sprach-/Musik-Codierer des Weiteren einen Sprach-Codierer (260) umfasst, der das Codieren (515) des Sprachsignals mit dem CLP – (code-excited linear prediction)-Verfahren durchführt.
  15. Verfahren nach einem der Ansprüche 1–14, wobei ein Modus-Bit anzeigt, ob der Teil als Sprache oder Musik klassifiziert wird.
  16. Verfahren nach einem der Ansprüche 1–15, wobei das asymmetrische Overlap-Add-Fenstern eine Fenster-Funktion verwendet, die in Abhängigkeit von der Overlap-Länge eines vorangehenden Superframe, der Länge eines aktuellen Superframe und der Overlap-Länge des aktuellen Superframe variiert.
  17. Verfahren nach Anspruch 16, wobei Abtastwerte des aktuellen Superframe erste Abtastwerte innerhalb der Overlap-Länge des vorangehenden Superframe und zweite Abtastwerte nach der Overlap-Länge des vorangehenden Superframe enthalten und wobei die Fenster-Funktion: die ersten Abtastwerte des aktuellen Superframe modifiziert; die zweiten Abtastwerte des aktuellen Superframe weiterleitet; und Overlap-Abtastwerte nach den zweiten Abtastwerten des aktuellen Superframe modifiziert.
  18. Verfahren nach Anspruch 16 oder 17, wobei die Overlap-Länge des vorangehenden Superframe sich von der Overlap-Länge des aktuellen Superframe unterscheidet.
  19. Verfahren nach Anspruch 16 oder 17, wobei die Overlap-Länge des vorangehenden Superframe kleiner ist als die Hälfte der Länge des aktuellen Superframe und kleiner als die Hälfte der Länge des vorangehenden Superframe und wobei die Overlap-Länge des aktuellen Superframe kleiner ist als die Hälfte der Länge des aktuellen Superframe und kleiner als die Hälfte der Länge eines nächsten Superframe.
  20. Verfahren nach Anspruch 16 oder 17, wobei der vorangehende Superframe ein Sprach-Superframe ist, die Overlap-Länge des vorangehenden Superframe Null beträgt und die Overlap-Länge des aktuellen Superframe nicht Null beträgt.
  21. Verfahren nach einem der Ansprüche 1–15, wobei der Abschnitt des codierten Signals, der einem codierten Musiksignal entspricht, für einen aktuellen Superframe vorhanden ist, der aktuelle Superframe einen Overlap mit einem nächsten Musik-Superframe aufweist, jedoch keinen Overlap mit einem vorangehenden Sprach-Superframe aufweist.
  22. Computerlesbares Medium, das durch Computer ausführbare Befehle speichert, die ein damit programmiertes Computersystem veranlassen, das Verfahren nach einem der Ansprüche 1 bis 21 durchzuführen.
  23. Vorrichtung, die so eingerichtet ist, dass sie das Verfahren nach einem der Ansprüche 1–21 durchführt.
DE60225381T 2001-06-26 2002-05-15 Verfahren zur Kodierung von Sprach- und Musiksignalen Expired - Lifetime DE60225381T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US892105 1992-06-02
US09/892,105 US6658383B2 (en) 2001-06-26 2001-06-26 Method for coding speech and music signals

Publications (2)

Publication Number Publication Date
DE60225381D1 DE60225381D1 (de) 2008-04-17
DE60225381T2 true DE60225381T2 (de) 2009-04-23

Family

ID=25399378

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60225381T Expired - Lifetime DE60225381T2 (de) 2001-06-26 2002-05-15 Verfahren zur Kodierung von Sprach- und Musiksignalen

Country Status (5)

Country Link
US (1) US6658383B2 (de)
EP (1) EP1278184B1 (de)
JP (2) JP2003044097A (de)
AT (1) ATE388465T1 (de)
DE (1) DE60225381T2 (de)

Families Citing this family (112)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
AU2001239077A1 (en) * 2000-03-15 2001-09-24 Digital Accelerator Corporation Coding of digital video with high motion content
JP3467469B2 (ja) * 2000-10-31 2003-11-17 Necエレクトロニクス株式会社 音声復号装置および音声復号プログラムを記録した記録媒体
JP4867076B2 (ja) * 2001-03-28 2012-02-01 日本電気株式会社 音声合成用圧縮素片作成装置、音声規則合成装置及びそれらに用いる方法
US20060148569A1 (en) * 2002-05-02 2006-07-06 Beck Stephen C Methods and apparatus for a portable toy video/audio visual program player device - "silicon movies" played on portable computing devices such as pda (personal digital assistants) and other "palm" type, hand-held devices
JP4208533B2 (ja) * 2002-09-19 2009-01-14 キヤノン株式会社 画像処理装置及び画像処理方法
WO2004029935A1 (en) * 2002-09-24 2004-04-08 Rad Data Communications A system and method for low bit-rate compression of combined speech and music
AU2003208517A1 (en) * 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
DE10328777A1 (de) * 2003-06-25 2005-01-27 Coding Technologies Ab Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
FR2867649A1 (fr) * 2003-12-10 2005-09-16 France Telecom Procede de codage multiple optimise
US20050154636A1 (en) * 2004-01-11 2005-07-14 Markus Hildinger Method and system for selling and/ or distributing digital audio files
US20050159942A1 (en) * 2004-01-15 2005-07-21 Manoj Singhal Classification of speech and music using linear predictive coding coefficients
FI118835B (fi) 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
FI118834B (fi) 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
GB0408856D0 (en) * 2004-04-21 2004-05-26 Nokia Corp Signal encoding
US7739120B2 (en) * 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
CN1954365B (zh) * 2004-05-17 2011-04-06 诺基亚公司 使用不同编码模型的音频编码
EP1747554B1 (de) * 2004-05-17 2010-02-10 Nokia Corporation Audiocodierung mit verschiedenen codierungsrahmenlängen
US7596486B2 (en) * 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
ES2327566T3 (es) * 2005-04-28 2009-10-30 Siemens Aktiengesellschaft Procedimiento y dispositivo para la supresion de ruidos.
US20080215340A1 (en) * 2005-05-25 2008-09-04 Su Wen-Yu Compressing Method for Digital Audio Files
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
KR100715949B1 (ko) * 2005-11-11 2007-05-08 삼성전자주식회사 고속 음악 무드 분류 방법 및 그 장치
WO2007083931A1 (en) * 2006-01-18 2007-07-26 Lg Electronics Inc. Apparatus and method for encoding and decoding signal
KR100717387B1 (ko) * 2006-01-26 2007-05-11 삼성전자주식회사 유사곡 검색 방법 및 그 장치
KR100749045B1 (ko) * 2006-01-26 2007-08-13 삼성전자주식회사 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
US7461106B2 (en) 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
KR20090013178A (ko) 2006-09-29 2009-02-04 엘지전자 주식회사 오브젝트 기반 오디오 신호를 인코딩 및 디코딩하는 방법 및 장치
EP2092517B1 (de) * 2006-10-10 2012-07-18 QUALCOMM Incorporated Verfahren und vorrichtung zur kodierung und dekodierung von audiosignalen
JP5123516B2 (ja) * 2006-10-30 2013-01-23 株式会社エヌ・ティ・ティ・ドコモ 復号装置、符号化装置、復号方法及び符号化方法
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
WO2008063035A1 (en) * 2006-11-24 2008-05-29 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
BRPI0718738B1 (pt) 2006-12-12 2023-05-16 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Codificador, decodificador e métodos para codificação e decodificação de segmentos de dados representando uma corrente de dados de domínio de tempo
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
AU2008215232B2 (en) 2007-02-14 2010-02-25 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US9653088B2 (en) 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US20090006081A1 (en) * 2007-06-27 2009-01-01 Samsung Electronics Co., Ltd. Method, medium and apparatus for encoding and/or decoding signal
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
EP2198426A4 (de) * 2007-10-15 2012-01-18 Lg Electronics Inc Verfahren und vorrichtung zur verarbeitung eines signals
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
AU2012201692B2 (en) * 2008-01-04 2013-05-16 Dolby International Ab Audio Encoder and Decoder
EP2077550B8 (de) * 2008-01-04 2012-03-14 Dolby International AB Audiokodierer und -dekodierer
KR101441896B1 (ko) * 2008-01-29 2014-09-23 삼성전자주식회사 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치
AU2009220321B2 (en) * 2008-03-03 2011-09-22 Intellectual Discovery Co., Ltd. Method and apparatus for processing audio signal
EP2259254B1 (de) * 2008-03-04 2014-04-30 LG Electronics Inc. Verfahren und vorrichtung zur verarbeitung eines tonsignals
US7889103B2 (en) * 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
JP2011518345A (ja) * 2008-03-14 2011-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング
US8639519B2 (en) * 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
EP2139000B1 (de) * 2008-06-25 2011-05-25 Thomson Licensing Verfahren und Vorrichtung zur Kodierung und Dekodierung von Sprache bzw. Nicht-Sprache-Audioeingabesignalen
WO2010003254A1 (en) * 2008-07-10 2010-01-14 Voiceage Corporation Multi-reference lpc filter quantization and inverse quantization device and method
AU2009267518B2 (en) 2008-07-11 2012-08-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
JP5325293B2 (ja) * 2008-07-11 2013-10-23 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 符号化されたオーディオ信号を復号化するための装置および方法
EP2144231A1 (de) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiokodierungs-/-dekodierungschema geringer Bitrate mit gemeinsamer Vorverarbeitung
MX2011000369A (es) * 2008-07-11 2011-07-29 Ten Forschung Ev Fraunhofer Codificador y decodificador de audio para codificar marcos de señales de audio muestreadas.
EP2144230A1 (de) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiokodierungs-/Audiodekodierungsschema geringer Bitrate mit kaskadierten Schaltvorrichtungen
CN102089817B (zh) * 2008-07-11 2013-01-09 弗劳恩霍夫应用研究促进协会 用于计算频谱包络数目的装置与方法
KR101756834B1 (ko) * 2008-07-14 2017-07-12 삼성전자주식회사 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
KR20100007738A (ko) * 2008-07-14 2010-01-22 한국전자통신연구원 음성/오디오 통합 신호의 부호화/복호화 장치
KR101261677B1 (ko) 2008-07-14 2013-05-06 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
PL2146344T3 (pl) 2008-07-17 2017-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób kodowania/dekodowania sygnału audio obejmujący przełączalne obejście
CN102216982A (zh) * 2008-09-18 2011-10-12 韩国电子通信研究院 在基于修正离散余弦变换的译码器与异质译码器间转换的编码设备和解码设备
EP2169670B1 (de) * 2008-09-25 2016-07-20 LG Electronics Inc. Vorrichtung zur Verarbeitung eines Audiosignals und zugehöriges Verfahren
JP5555707B2 (ja) * 2008-10-08 2014-07-23 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチ分解能切替型のオーディオ符号化及び復号化スキーム
FR2936898A1 (fr) * 2008-10-08 2010-04-09 France Telecom Codage a echantillonnage critique avec codeur predictif
WO2010044593A2 (ko) 2008-10-13 2010-04-22 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
KR101649376B1 (ko) 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8200496B2 (en) * 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8219408B2 (en) * 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8140342B2 (en) * 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
JP4977157B2 (ja) 2009-03-06 2012-07-18 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
JP5519230B2 (ja) * 2009-09-30 2014-06-11 パナソニック株式会社 オーディオエンコーダ及び音信号処理システム
KR101137652B1 (ko) * 2009-10-14 2012-04-23 광운대학교 산학협력단 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
BR112012009032B1 (pt) * 2009-10-20 2021-09-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Codificador de sinal de áudio, decodificador de sinal de áudio, método para prover uma representação codificada de um conteúdo de áudio, método para prover uma representação decodificada de um conteúdo de áudio para uso em aplicações de baixo retardamento
US9613630B2 (en) 2009-11-12 2017-04-04 Lg Electronics Inc. Apparatus for processing a signal and method thereof for determining an LPC coding degree based on reduction of a value of LPC residual
JP5395649B2 (ja) * 2009-12-24 2014-01-22 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置及びプログラム
US8442837B2 (en) * 2009-12-31 2013-05-14 Motorola Mobility Llc Embedded speech and audio coding using a switchable model core
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
TWI500276B (zh) 2010-03-22 2015-09-11 Unwired Technology Llc 雙模編碼器、包括此編碼器之系統、及用以產生紅外線信號之方法
AU2011240239B2 (en) 2010-04-13 2014-06-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio or video encoder, audio or video decoder and related methods for processing multi-channel audio or video signals using a variable prediction direction
CN105355209B (zh) 2010-07-02 2020-02-14 杜比国际公司 音高增强后置滤波器
US9047875B2 (en) 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
TWI421860B (zh) * 2010-10-28 2014-01-01 Pacific Tech Microelectronics Inc Dynamic sound quality control device
EP2466580A1 (de) * 2010-12-14 2012-06-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Codierer und Verfahren zur prädiktiven Codierung, Decodierer und Verfahren zur Decodierung, System und Verfahren zur prädiktiven Codierung und Decodierung und prädiktiv codiertes Informationssignal
FR2969805A1 (fr) * 2010-12-23 2012-06-29 France Telecom Codage bas retard alternant codage predictif et codage par transformee
CN102074242B (zh) * 2010-12-27 2012-03-28 武汉大学 语音音频混合分级编码中核心层残差提取系统及方法
EP3244405B1 (de) * 2011-03-04 2019-06-19 Telefonaktiebolaget LM Ericsson (publ) Audiodecodierung mit verstärkungskorrektur nach quantisierung
ES2575693T3 (es) 2011-11-10 2016-06-30 Nokia Technologies Oy Un método y un aparato para detectar tasa de muestreo de audio
TWI591620B (zh) 2012-03-21 2017-07-11 三星電子股份有限公司 產生高頻雜訊的方法
MY168806A (en) * 2012-06-28 2018-12-04 Fraunhofer Ges Forschung Linear prediction based audio coding using improved probability distribution estimation
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
PL401346A1 (pl) * 2012-10-25 2014-04-28 Ivona Software Spółka Z Ograniczoną Odpowiedzialnością Generowanie spersonalizowanych programów audio z zawartości tekstowej
PL401372A1 (pl) * 2012-10-26 2014-04-28 Ivona Software Spółka Z Ograniczoną Odpowiedzialnością Hybrydowa kompresja danych głosowych w systemach zamiany tekstu na mowę
PL401371A1 (pl) * 2012-10-26 2014-04-28 Ivona Software Spółka Z Ograniczoną Odpowiedzialnością Opracowanie głosu dla zautomatyzowanej zamiany tekstu na mowę
CN108074579B (zh) * 2012-11-13 2022-06-24 三星电子株式会社 用于确定编码模式的方法以及音频编码方法
SG11201505898XA (en) * 2013-01-29 2015-09-29 Fraunhofer Ges Forschung Concept for coding mode switching compensation
US10043528B2 (en) 2013-04-05 2018-08-07 Dolby International Ab Audio encoder and decoder
CN104347067B (zh) 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
CN105556601B (zh) * 2013-08-23 2019-10-11 弗劳恩霍夫应用研究促进协会 用于使用交叠范围中的组合来处理音频信号的装置及方法
CN107424622B (zh) 2014-06-24 2020-12-25 华为技术有限公司 音频编码方法和装置
CN104143335B (zh) 2014-07-28 2017-02-01 华为技术有限公司 音频编码方法及相关装置
EP2980797A1 (de) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiodecodierer, Verfahren und Computerprogramm mit Zero-Input-Response zur Erzeugung eines sanften Übergangs
CN108028045A (zh) 2015-07-06 2018-05-11 诺基亚技术有限公司 用于音频信号解码器的位错误检测器
CN111916059B (zh) * 2020-07-01 2022-12-27 深圳大学 一种基于深度学习的平滑语音检测方法、装置及智能设备

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
US5734789A (en) 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5717823A (en) 1994-04-14 1998-02-10 Lucent Technologies Inc. Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders
JP3277682B2 (ja) * 1994-04-22 2002-04-22 ソニー株式会社 情報符号化方法及び装置、情報復号化方法及び装置、並びに情報記録媒体及び情報伝送方法
TW271524B (de) 1994-08-05 1996-03-01 Qualcomm Inc
US5751903A (en) 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
JP3317470B2 (ja) * 1995-03-28 2002-08-26 日本電信電話株式会社 音響信号符号化方法、音響信号復号化方法
IT1281001B1 (it) 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US5778335A (en) * 1996-02-26 1998-07-07 The Regents Of The University Of California Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
AU3372199A (en) * 1998-03-30 1999-10-18 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US6330533B2 (en) 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
JP4359949B2 (ja) * 1998-10-22 2009-11-11 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
US6310915B1 (en) 1998-11-20 2001-10-30 Harmonic Inc. Video transcoder with bitstream look ahead for rate control and statistical multiplexing
US6311154B1 (en) 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding

Also Published As

Publication number Publication date
US20030004711A1 (en) 2003-01-02
EP1278184A3 (de) 2004-08-18
DE60225381D1 (de) 2008-04-17
EP1278184B1 (de) 2008-03-05
JP2010020346A (ja) 2010-01-28
ATE388465T1 (de) 2008-03-15
JP5208901B2 (ja) 2013-06-12
EP1278184A2 (de) 2003-01-22
JP2003044097A (ja) 2003-02-14
US6658383B2 (en) 2003-12-02

Similar Documents

Publication Publication Date Title
DE60225381T2 (de) Verfahren zur Kodierung von Sprach- und Musiksignalen
DE69816810T2 (de) Systeme und verfahren zur audio-kodierung
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE602004007786T2 (de) Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60014363T2 (de) Verringerung der von der quantisierung verursachten datenblock-diskontinuitäten in einem audio-kodierer
DE69926821T2 (de) Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
DE69910240T2 (de) Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals
DE69737489T2 (de) Formung des erkennbaren Rauschsignals in der Zeitdomäne mittels LPC-Voraussage im Frequenzraum
DE60133757T2 (de) Verfahren und vorrichtung zur kodierung von stimmloser sprache
DE60124274T2 (de) Codebuchstruktur und suchverfahren für die sprachkodierung
DE69832358T2 (de) Verfahren zur Sprachkodierung und -dekodierung
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
DE602004003610T2 (de) Halbrätiger Vocoder
DE60128121T2 (de) Wahrnehmungsbezogen verbesserte aufbesserung kodierter akustischer signale
DE60319590T2 (de) Verfahren zur codierung und decodierung von audio mit variabler rate
DE602005003358T2 (de) Audiokodierung
DE60012760T2 (de) Multimodaler sprachkodierer
DE60303346T2 (de) Encodier- und/oder Decodierverfahren für digitale Audiosignale, basierend auf Zeit-Frequenzkorrelation und Vorrichtung hierzu
DE4320990A1 (de) Verfahren zur Redundanzreduktion
JP2009524101A (ja) 符号化/復号化装置及び方法
DE60131766T2 (de) Wahrnehmungsbezogen verbesserte codierung akustischer signale
DE10297751B4 (de) Audiocodierverfahren und Vorrichtung, die die Harmonischen-Extraktion verwenden
WO2006114368A1 (de) Verfahren und vorrichtung zur geräuschunterdrückung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition