DE602005003358T2 - Audiokodierung - Google Patents

Audiokodierung Download PDF

Info

Publication number
DE602005003358T2
DE602005003358T2 DE602005003358T DE602005003358T DE602005003358T2 DE 602005003358 T2 DE602005003358 T2 DE 602005003358T2 DE 602005003358 T DE602005003358 T DE 602005003358T DE 602005003358 T DE602005003358 T DE 602005003358T DE 602005003358 T2 DE602005003358 T2 DE 602005003358T2
Authority
DE
Germany
Prior art keywords
signal
audio
excitation signal
excitation
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE602005003358T
Other languages
English (en)
Other versions
DE602005003358D1 (de
Inventor
Albertus C. Den Brinker
Andreas J. Gerrits
Felipe Riera Palou
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of DE602005003358D1 publication Critical patent/DE602005003358D1/de
Application granted granted Critical
Publication of DE602005003358T2 publication Critical patent/DE602005003358T2/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Description

  • Die vorliegende Erfindung bezieht sich auf das Codieren und Decodieren von Breitbandsignalen, insbesondere von Audiosignalen. Die vorliegende Erfindung bezieht sich auf einen Codierer und einen Decoder, und auf einen nach der vorliegenden Erfindung codierten Audiostrom und auf ein Datenspeichermedium, auf dem ein derartiger Audiostrom gespeichert worden ist.
  • Beim Übertragen von Breitbandsignalen, beispielsweise Audiosignalen, wie Sprache, werden Kompressions- oder Codierungstechniken angewandt um die Bitrate des Signals zu reduzieren. Reduktion der Bitrate entspricht einer Reduktion der zum Übertragen erforderlichen Bandbreite.
  • 1 zeigt eine schematische Darstellung eines bekannten parametrischen Codierers, insbesondere eines sinusoidalen Codierers, der in der vorliegenden Erfindung verwendet wird und der in WO 01/69593 beschrieben wird. In diesem Codierer wird ein Eingangsaudiosignal x(t) in verschiedene (möglicherweise überlappende) Zeitsegmente oder Frames aufgeteilt, typischerweise mit einer Dauer von je 20 ms. Jedes Segment wird in Übergangs-, Sinusform- und Rauschanteile zerlegt und es werden Parameter erzeugt, die diese Signalanteile beschreiben, und zwar CT, CS bzw. CN. Es ist auch möglich, andere Anteile des Eingangsaudiosignals. Wie harmonische Komplexe, herzuleiten, obschon diese für die vorliegende Erfindung nicht relevant sind.
  • Die erste Stufe des Codierers umfasst einen Übergangscodierer 11, der einen Übergangsdetektor (TD) 110, einen Übergangsanalysator (TA) 111 und einen Übergangssynthesizer (TS) 112 aufweist. Der Detektor 110 ermittelt, ob es einen Übergangssignalanteil gibt und die Lage desselben. Diese Information wird dem Übergangsanalysator 111 zugeführt. Wenn die Position eines Übergangssignalanteils bestimmt wird, versucht der Übergangsanalysator 111 den Übergangssignalanteil oder den signifikantesten Teil desselben zu extrahieren. Es koppelt eine Formfunktion an einen Signalanteil, vorzugsweise startend bei einer geschätzten Startposition, und ermittelt Inhalt unterhalb der Formfunktion, durch Benutzung beispielsweise einer (geringen) Anzahl sinusoidaler Anteile. Diese Information befindet sich in dem Übergangscode CT.
  • Der Übergangscode CT wird dem Übergangssynthesizer 112 zugeführt. Der synthetisierte Übergangssignalanteil wird in dem Subtrahierer 16 von dem Eingangssignal x(t) subtrahiert, was zu einem Signal xA führt. Ein Verstärkungssteuermechanismus GC (12) wird verwendet zum Erzeugen von xB aus xA. Das Signal xB wird einem sinusoidalen Codierer 13 zugeführt, wo es in einem sinusoidalen Analysator (SA) 130 analysiert wird, der die sinusoidalen Anteile, d. h. die deterministischen Anteile bestimmt. Das Endergebnis der sinusoidalen Codierung ist ein sinusoidaler Code Cs und ein mehr detailliertes Beispiel, das die herkömmliche Erzeugung eines Beispiels eines sinusoidalen Codes Cs illustriert, gibt es in der internationalen Patentanmeldung Nr. WO 00/79519 A1 .
  • Aus dem sinusoidalen Code Cs, der mit dem sinusoidalen Codierer erzeugt worden ist, wird der sinusoidale Signalanteil durch einen sinusoidalen Synthesizer (SS) 131 rekonstruiert. Dieses Signal wird in dem Subtrahierer 17 von dem Eingangssignal xB zu dem sinusoidalen Codierer 13 subtrahiert, was zu einem Restsignal xC führt, ohne (große) Übergangssignalanteile und (wichtige) deterministische sinusoidale Anteile.
  • Es wird vorausgesetzt, dass das Restsignal xC vorwiegend Rauschwerte aufweist und ein Rauschanalysator 14 erzeugt den Rauschcode CN, der für dieses Rauschen repräsentativ ist, wie in WO 01/89086A1 beschrieben.
  • Die 2(a) und (b) zeigen im Allgemeinen die Form eines Codierers (NA), geeignet zur Verwendung als Rauschanalysator 14 nach 1 und einen entsprechenden Decoder (ND). Ein erstes Audiosignal r1, das dem Restsignal xC aus 1 entspricht, geht in den Rauschcodierer ein, der eine erste lineare Prädiktionsstufe (SE) hat, die das Signal spektral glättet und Prädiktionskoeffizienten (Ps) einer bestimmten Ordnung erzeugt. Insbesondere kann ein Laguerre-Filter verwendet werden um eine frequenzabhängige Glättung des Signals zu schaffen, wie in E.G.P. Schuijvers, A.W.J. Domen, A.C. den Brinker und A.J. Gerrits, "Advances in parametric coding for high-quality audio", "Proc. 1st IEEE Benelux Workshop an Model based Processing and Coding of Audio (MPCA-2002)", Löwen, Belief, den 15. November 2002, Seiten 73–79 beschrieben. Das Restsignal r2 geht in einen Zeitumhüllendenschätzer (TE) ein, der einen Satz Parameter Pt und, möglicherweise ein vorübergehend geglättetes Restsignal r3 erzeugt. Die Parameter Pt können ein Satz mit Verstärkungen sein, welche die Zeitumhüllende beschreibt. Auf alternative Weise können sie Parameter sein, hergeleitet von der linearen Prädiktion in der Frequenzdomäne, wie LSP ("Line Spectral Pairs") oder LSF ("Line Spectral Frequencies"), die eine genormte Zeitumhüllende beschreiben, die danach um einen Verstärkungsparameter je Frame erhöht wird.
  • In dem parametrischen Rauschdecoder (ND) wird eine synthetische Weißrauschssequenz erzeugt (in WNG), was zu einem Signal r3' mit einer zeitlich und spektral flachen Umhüllenden führt. Ein Zeitumhüllendengenerator (TEG) addiert die Zeitumhüllende auf Basis der empfangenen, quantisierten Parameter Pt', wodurch r'2 erzeugt wird, und ein spektraler Umhüllendengenerator (SEG, ein zeitvariables Filter) addiert die Spektralumhüllende auf Basis der empfangenen, quantisierten Parameter Primärstation', was zu einem Rauschsignal r1' führt.
  • In einem Multiplexer 15 wird ein Audiostrom AS gebildet, der die Codes CT, CS und CN umfasst.
  • Der sinusoidale Codierer 13 und der Rauschanalysator 14 werden für alle oder die meisten Segmente verwendet und bildet den größten Teil des Bitratenbudgets.
  • Es ist durchaus bekannt, dass parametrische Audiocodierer eine angemessene bis gute Qualität zu relativ niedrigen Bitraten, beispielsweise 20 kbit/s, liefern können. Bei höheren Bitraten aber nimmt die Qualität zu, da eine Funktion zunehmender Bitrate ziemlich niedrig ist. Auf diese Weise ist eine außergewöhnliche Bitrate erforderlich zum Erhalten einer ausgezeichneten oder transparenten Qualität. Deswegen ist es schwer, Transparenz zu erhalten bei Verwendung parametrischen Codierungsbitraten, die mit denen von beispielsweise Wellenformcodierern vergleichbar sind. Dies bedeutet, dass es schwer ist, parametrische Audiocodierer zu konstruieren, die eine ausgezeichnete bis transparente Qualität haben ohne eine außergewöhnliche Verwendung des Bitbudgets.
  • Der Grund der grundsätzlichen Schwierigkeit bei der parametrischen Codierung um Transparenz zu erreichen, liegt in den Objekten, die definiert werden. Dieser parametrische Codierer ist sehr effizient bei der Codierung von Schallanteilen (sinusoiden) und Rauschanteilen (Rauschcodierer). Aber in echtem Audio fallen viele Signalanteile in ein graues Gebiet: sie können weder durch Rauschen, noch als (eine geringe Anzahl) Sinusoide genau modelliert werden. Deswegen ist die Definition von Objekten in einem parametrischen Audiocodierer, obschon sehr günstig aus der Sicht der Bitrate für mittlere Qualitätspegel, der Engpass bei Erreichen ausgezeichneter oder transparenter Qualitätspegel.
  • Gleichzeitig geben herkömmliche Audiocodierer (Teilband und Transformation) ausgezeichnete bis transparente Codierungsqualität bei bestimmten Bitraten, typischerweise in der Größenordnung von 80–130 kbit/s für Stereosignale, abgetastet bei 44,1 kHz. Kombinationen von Transformations- und parametrischen Codierern (sog. Hybridco dierer) wurden bereits vorgeschlagen, wie beispielsweise in der nicht vorher veröffentlichten Europäischen Patentanmeldung Nr. 02077032.7 , eingereicht am 24. Mai 2002, vorgeschlagen worden ist. Hier werden spetraltemporale Intervalle eines Audiosignals, die sonst teilbandcodiert werden würden, selektiv mit Rauschparametern codiert in einem Versuch, Bitrate zu reduzieren, indem Audioqualität beibehalten wird.
  • Auf alternative Art und Weise kann ein Transformations- oder Teilbandcodierer mit einem parametrischen Codierer von dem in 1 dargestellten Typ in Kaskade geschaltet werden. Aber die erwartete Codierungsverstärkung für eine derartige Anordnung, wobei der parametrische Codierer einem Transformations- oder Teilbandcodierer vorgeschaltet ist, ist minimal. Dies ist weil die wahrnehmbar wichtigsten Gebiete des Audiosignals von dem sinusoidalen Codierer eingefangen werden würden, wobei wenig Möglichkeiten zum Codieren der Verstärkung in dem Transformation/Teilbandcodierer übrig bleibt.
  • Audiocodierer, die spektrale Glättung anwenden und Restsignalmodellierung, die eine geringe Anzahl Bits je Abtastwert verwendet, sind in A. Harma und U.K. Laie: "Warped low-delay CELP for wide band audio coding", "Proc. AES 17th Int. Conf.: High Quality Audio Coding", Seiten 207–215, Florenz, Italien, 2.–5. September 1999; S. Singhal: "High quality audio coding using multi-pulse LPC", "Proc. 1990 Int. Conf. Acoustic Speech Signal Process. (ICASSP90), Seiten 1101–1104, Atlanta GA, 1990, IEEE Piscataway, NJ; und X.Lin: "High quality audio coding using analysis-by synthesis technique", "Proc. 1991 Int. Conf. Acoustic Speech Signal Process. (ICASSP91)". Seiten 3617–3620, Atlanta OA, 1991, IEEE Piscataway, NJ. In einer Anzahl Studien hat es sich herausgestellt, dass diese Codierungsstrategie eine ausgezeichnete bis transparente Qualität bei Bitraten entsprechend 2 bit/Abtastwert für Monosignale (88,2 kbit/s für 44,1 kHz Audio) ermöglicht. In dieser Hinsicht übersteigen sie nicht die Leistung von Teilband- oder Transformationscodierern.
  • Die Möglichkeit einer Skalierung des Bitstroms scheint sehr attraktiv zu sein bei Applikationen, bei denen Audiomaterial die Möglichkeit bieten soll, dass bei verschiedenen Signalqualitäten oder Bitraten darauf zugegriffen werden kann, wie dies in der Musikverteilung oft der Fall ist. Bitstromskalierbarkeit ermöglicht es, dass der Inhaltprovider nur eine einzige Version des codierten Materials zu speichern braucht. Eine andere interessante Applikation könnte die Verwendung der ersten (Basis) Schicht des codierten Signals sein um Audio "Thumbnails" zu schaffen, wobei ein nachfolgender Zugriff auf die volle Version des Bestandes keine Neuübertragung des Basisschichtmaterials erfordert. RPE-basierte Codierer zum Schaffen geschichteter Bitströme sind in S. Zhang und G. Lockhart :"Emebedded RPE based an multistage coding", "IEE Transactions an Speech and Audio Processing", Heft 5 (4), 367–371, 1997 beschrieben worden.
  • Die Erfinder haben erkannt, dass die bekannten Techniken zum Schaffen geschichteter Bitströme behindert werden in der Qualität, und zwar durch Skalierbarkeitsverlust. Es ist daher u. a. eine Aufgabe der vorliegenden Erfindung, den Verlust an Qualität beim Schaffen eines geschichteten Bitstroms zu lindern.
  • Die vorliegende Erfindung bezieht sich folglich auf ein Verfahren zum Codieren eines digitalen Audiosignals, wobei für jedes Zeitsegment des Signals die nachfolgenden Verfahrensschritte durchgeführt werden:
    • – das Codieren des Audiosignals zum Schaffen von Codes, die das Audiosignal darstellen,
    • – das Subtrahieren eines Signals entsprechend den Codes von dem Audiosignal zum Erhalten eines ersten Restsignals,
    • – das spektrale Glätten des ersten Restsignals zum Erhalten eines spektral geglätteten Restsignals (r) und spektral geglätteter Parameter,
    • – das Berechnen eines ersten Anregungssignals aus dem spektral geglätteten Restsignal, und zwar unter Verwendung eines Impulsfolgecodierers,
    • – das Ermitteln der Qualität des ersten Anregungssignals als der Grad der Ähnlichkeit mit dem spektral geglätteten Restsignal,
    • – das Subtrahieren eines Teils des ersten Anregungssignals aus dem spektral geglätteten Restsignal zum Erhalten eines zweiten Restsignals, wobei der Teil von der ermittelten Qualität des ersten Anregungssignals abhängig ist,
    • – das Berechnen eines zweiten Anregungssignals aus dem zweiten Restsignal, und zwar unter Verwendung eines Impulsfolgecodierers, und
    • – das Erzeugen eines Audiostromes, der Folgendes umfasst: – das erste Anregungssignal, – das zweite Anregungssignal, und – einen Parameter, indikativ für die Qualität des ersten Anregungssignals.
  • Die vorliegende Erfindung bezieht sich auch auf einen Audiocodierer unter Anwendung des oben stehenden Verfahrens und der dadurch vorgesehen ist zum Codieren der betreffenden Zeitsegmente eines digitalen Audiosignals, wobei der Codierer Folgendes umfasst:
    • – einen Codierer zum Codieren des digitalen Audiosignals zum Schaffen von Codes, die das Signal darstellen,
    • – einen Subtrahierer zum Subtrahieren eines Signals, das den Codes entspricht, von dem Audiosignal zum Erhalten eines ersten Restsignals,
    • – eine spektrale Glättungseinheit zum spektralen Glätten des ersten Restsignals zum Erhalten eines spektral geglätteten Restsignals und spektral geglätteter Parameter,
    • – einen Impulsfolgecodierer zum Berechnen eines ersten Anregungssignals für das spektral geglättete Restsignal,
    • – Mittel zum Ermitteln der Qualität des ersten Anregungssignals als der Grad der Ähnlichkeit mit dem spektral geglätteten Restsignal,
    • – einen Subtrahierer zum Subtrahieren eines Teils des ersten Anregungssignals von dem spektral geglätteten Restsignal, zum Erhalten eines zweiten Restsignals, wobei der Teil von der ermittelten Qualität des ersten Anregungssignals abhängig ist,
    • – einen Impulsfolgecodierer zum Berechnen eines zweiten Anregungssignals für das zweite Restsignal, und
    • – einen Bitstromgenerator zum Erzeugen eines Audiostroms, der Folgendes umfasst: – das erste Anregungssignal, – das zweite Anregungssignal, und – einen Parameter, indikativ für die Qualität des ersten Anregungssignals.
  • Weiterhin bezieht sich die vorliegende Erfindung auf ein Verfahren zum Decodieren eines empfangenen Audiostroms, wie eines Audiostroms, der unter Anwendung des oben stehenden Verfahrens oder Codierers codiert worden ist, wobei der Audiostrom für jedes Segment einer Anzahl Segmente eines Audiosignals Folgendes umfasst:
    • – ein erstes Anregungssignal,
    • – ein zweites Anregungssignal, und
    • – einen Parameter, indikativ für die Qualität des ersten Anregungssignals, wobei das Verfahren die nachfolgenden Schritte umfasst:
    • – das Kombinieren des ersten und des zweiten Anregungssignals zum Erhalten eines kombinierten Anregungssignals, und zwar in Abhängigkeit von dem Qualitätsparameter, und
    • - das Synthetisieren eines ersten Restsignals aus dem kombinierten Anregungssignal, und zwar unter Verwendung eines linearen Prädiktionssynthesefilters.
  • Auf entsprechende Art und Weise bezieht sich die vorliegende Erfindung auf einen Audiospieler zum Empfangen und Decodieren eines Audiostroms, wobei der Audiostrom für jedes Segment einer Anzahl Segmente eines Audiosignals Folgendes umfasst:
    • – ein erstes Anregungssignal,
    • – ein zweites Anregungssignal, und
    • – einen Parameter, indikativ für die Qualität des ersten Anregungssignal, wobei der Audiospieler Folgendes umfasst:
    • – Mittel zum Kombinieren des ersten und des zweiten Anregungssignals zum Erhalten eines kombinierten Anregungssignals, und zwar in Abhängigkeit von dem Qualitätsparameter, und
    • – Mittel zum Synthetisieren eines ersten Restsignals aus dem kombinierten Anregungssignal, und zwar unter Anwendung von linearer Prädiktion.
  • Zum Schluss bezieht sich die vorliegende Erfindung auf einen Audiostrom, der für jedes Segment einer Anzahl Segmente eines Audiosignals Folgendes umfasst:
    • – ein erstes Anregungssignal, herrührend aus Impulsfolgecodierung eines spektral geglätteten Restsignals, wobei das Restsignal aus der Subtraktion eines codierten Audiosignals von dem Audiosignal herrührt,
    • – ein zweites Anregungssignal, herrührend aus Impulsfolgecodierung eines zweiten Restsignals, wobei das genannte Signal dadurch erzeugt wird, dass ein Teil des ersten Anregungssignals von dem spektral geglätteten Restsignal subtrahiert wird, wobei der Teil von der ermittelten Qualität des ersten Anregungssignals abhängig ist, und
    • – einen Parameter, indikativ für die ermittelte Qualität des ersten Anregungssignals, und auf ein Speichermittel, auf dem ein derartiger Audiostrom gespeichert ist.
  • Ausführungsbeispiele der vorliegenden Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
  • 1 einen herkömmlichen parametrischen Codierer,
  • 2a und 2b einen herkömmlichen parametrischen Rauschcodierer (NA) bzw. einen entsprechenden Rauschdecoder (ND),
  • 3 eine Übersicht eines Codierers,
  • 4 eine Übersicht eines ersten Decoders, der mit dem Codierer nach 3 kompatibel ist,
  • 5 eine Übersicht eines zweiten Decoders, der mit dem Codierer nach 3 kompatibel ist,
  • 6 eine schematische Darstellung eines Codierers nach der vorliegenden Erfindung, und
  • 7 eine schematische Darstellung eines Decoders nach der vorliegenden Erfindung.
  • Die 15 und die damit übereinstimmende Beschreibung widerspiegeln die Beschreibung in der nicht vorher veröffentlichten Europäischen Patentanmeldung Nr. 03104472.0 , eingereicht am 1. Dezember 2003.
  • In 1 ist ein sinusoidaler Codierer 1 von dem in WO 01/69593 beschriebenen Typ beschrieben, und der in einer bevorzugten Ausführungsform der vorliegenden Erfindung verwendet wird. Die Wirkungsweise dieses bekannten Codierers und des entsprechenden Decoders ist durchaus beschrieben worden und an dieser Stelle wird eine Beschreibung nur dann gegeben, wenn dies für die vorliegende Erfindung relevant ist.
  • Der Audiocodierer 1 empfängt ein digitales Audiosignal x(t), abgetastet mit einer bestimmten Abtastfrequenz. Der Codierer 1 teilt danach das abgetastete Eingangssignal in drei Anteile auf: Übergangssignalanteile, angehaltene deterministische Anteile, und angehaltene stochastische Anteile. Der Audiocodierer 1 umfasst einen Übergangscodierer 11, einen sinusoidalen Codierer 13 und einen Rauschcodierer 14.
  • Der Übergangscodierer 11 umfasst einen Übergangsdetektor (TD) 110, einen Übergangsanalysator (TA) 111 und einen Übergangssynthesizer (TS) 112. Zunächst geht das Signal x(t) in den Übergangsdetektor 110 hinein. Dieser Detektor 110 schätzt, ob es einen Übergangssignalanteil gibt und die Position. Diese Information wird dem Übergangsanalysator 111 zugeführt. Wenn die Position eines Übergangssignalanteils ermittelt wird, versucht der Übergangsanalysator 111 den Übergangssignalanteil (oder den Hauptteil davon) zu extrahieren. Es koppelt eine Formfunktion an einen Signalanteil, vorzugsweise startend bei einer geschätzten Startposition, und ermittelt Inhalt unterhalb der Formfunktion, durch Benutzung beispielsweise einer (geringen) Anzahl sinusoidaler Anteile. Diese Information befindet sich in dem Übergangscode CT und mehr detaillierte Information über das Erzeugen des Übergangscodes CT befindet sich in WO 01/69593 .
  • Der Übergangscode CT wird dem Übergangssynthesizer 112 zugeführt. Der synthetisierte Übergangssignalanteil wird in dem Subtrahierer 16 von dem Eingangssignal x(t) subtrahiert, was zu einem Signal xA führt. Ein Verstärkungssteuermechanismus GC (12) wird verwendet zum Erzeugen von xB aus xA.
  • Das Signal xB wird dem sinusoidalen Codierer 13 zugeführt, wo es in einem sinusoidalen Analysator (Schaltungsanordnung) 130 analysiert wird, der die (deterministischen) sinusoidalen Anteile bestimmt. Es dürfte deswegen einleuchten, dass während das Vorhandensein des Übergangsanalysators erwünscht ist, dies nicht notwendig ist und die vorliegende Erfindung kann auch ohne einen derartigen Analysator implementiert werden. Auf alternative Weise kann, wie oben erwähnt, die vorliegende Erfindung auch mit beispielsweise einem harmonischen komplexen Analysator implementiert werden. Kurz gesagt, der codiert der sinusoidale Codierer das Eingangssignal xB als Spuren von sinusoidalen Anteilen, die von dem einen Framesegment zu dem nächsten gekoppelt werden.
  • Der Codierer, wie in 3 dargestellt, wird mit einem Impulsfolgecodierer von dem in P. Kroon, E.F. Deprettere und R.J. Sluijter: "Regular Pulse Excitation – A novel approach to effective and efficient coding of speech", "IEEE Trans. Acoust. Speech, Signal Process., 34, 1986 beschriebenen Typ ergänzt. Es dürfte dennoch einleuchten, dass während die Ausführungsform in Termen eines RPE-Codierers beschrieben worden ist, sie auch mit MPE-Techniken implementiert werden kann, (wie diese in dem US Patent Nr. 4.932.061 oder mit einem ACELP Codierer, wie in K.Farvinen, J.Vainio, P.Kapanen, T. Honkanan, P. Haavisto, R.Salami, C.Laflamme, J-P. Adoul: "GSM enhanced full rate speech codec", "Proc. ICASSP-97", München, Deutschland, 21.–24. April 1997, Heft 2, Seiten 771–774 beschrieben worden ist, die je eine erste LP basierte spektrale Glättungsstufe haben.
  • In dem Codierer aus 3 wird ein gesamtes Bitratenbudget, festgestellt entsprechend der Qualität, erforderlich für den Codierer, in eine Bitrate B, verwendbar durch den parametrischen Codierer und ein RPE Codierungsbudget, aus dem ein RPE Dezimierungsfaktor D hergeleitet werden kann.
  • In 3 wird zunächst ein Eingangsaudiosignal x innerhalb des Blocks TSA ("Transient and Sinusoidal Analysis") verarbeitet, entsprechend den Blöcken 11 und 13 des parametrischen Codierers nach 1. Auf diese Weise erzeugt dieser Block die assoziierten Parameter für Übergänge und Rauschen, wie in 1 beschrieben. Unter der Annahme der Bitrate B begrenzt ein Block BRC ("Bit Rate Control") vorzugsweise die Anzahl Sinusoide und erhält vorzugsweise Übergänge, so dass die gesamte Bitrate für Sinusoide und Übergänge höchstens gleich B ist, typischerweise auf etwa 20 kbit/s eingestellt.
  • Durch den Block TSS ("Transient and Sinuoidal Synthesizer") wird eine Wellenform erzeugt, entsprechend den Blöcken 112 und 131 nach 1 unter Verwendung der Übergangs- und sinusoidalen Parameter (CT und CS) erzeugt von dem Block TSA und modifiziert durch den Block BRC. Dieses Signal wird von dem Eingangssignal x subtrahiert, was zu dem Signal r1 führt, das dem Restsignal xC in 1 entspricht. Im Allgemeinen enthält das Signal r1 keine wesentliche Sinusoide und Übergangsanteile.
  • Aus dem Signal r1 wird die spektrale Umhüllende geschätzt und in dem Block (SE) unter Verwendung eines linearen Prädiktionsfilters, beispielsweise auf Basis einer angezapften Verzögerungsleitung oder eines Laguerre-Filters, wie bekannt in 2(a) geschätzt. Die Prädiktionskoeffizienten Ps des gewählten Filters werden in den Bitstrom AS geschrieben, und zwar zur Übertragung zu einem Decoder als Teil der Rauschcodes CN einer herkömmlichen Typs. Danach wird die zeitliche Umhüllende in dem Block (TE) entfernt, der beispielsweise LSP- oder LSF-Koeffizienten erzeugt, und zwar zusammen mit einer Verstärkung, auch hier wieder wie in der bekannten 2(a) beschrieben. Auf jeden Fall werden die resultierenden Koeffizienten Pt aus der zeitlichen Glättung zu dem Bitstrom AS geschrieben, und zwar zur Übertragung zu dem Decoder als Teil der Rauschcodes CN vom herkömmlichen Typ. Typischerweise erfordern die Koeffizienten PS und PT ein Bitratenbudget von 4–5 kbit/s.
  • Weil Impulsfolge codierer eine erste spektrale Glättungsstufe benutzen, kann der RPE Codierer selektiv auf das spektral geglättete Signal r2 angewandt werden, das von dem Block SE erzeugt worden ist, je nachdem ob dem RPE Codierer ein Bitratenbudget zugeordnet worden ist. In einer alternativen Ausführungsform, angegeben durch die gestichelte Linie, wird der RPE Codierer auf das spektral und temporal geglättete Signal r3 angewandt, das von dem Block TE erzeugt wurde.
  • Wie aus den in dem Hintergrund genannten Dokumenten bekannt, führt der RPE Codierer eine Suche auf eine Weise Analyse-durch-Synthese durch, und zwar an dem Restsignal r2/r3. Wenn ein Dezimierungsfaktor D gegeben ist, führt die RPE Suchprozedur zu einem Versatz (versetzten Wert zwischen 0 und D1, wobei D1 von D abhängig ist), zu den Amplituden der RPE Impulse (beispielsweise ternäre Impulse mit Werten –1, 0 und 1) und zu einem Verstärkungsparameter. Diese Information wird in einer Schicht L0 gespeichert, die in dem Audiostrom AS vorhanden ist zur Übertragung au dem Decoder durch einen Multiplexer (MUX), wenn RPE Codierung angewandt wird.
  • Der RPE Codierer ist bei verschiedenen Bitraten wirksam und liefert auf entsprechende Weise verschiedene Qualitätspegel. Die Bitrate ist effektiv abstimmbar durch den Dezimierungsfaktor D und das Quantisierungsgitter, und durch eine einwandfreie Einstellung dieser Parameter wird bei ansteigenden Bitraten eine monoton ansteigende Qualität erhalten, so dass dies mit den bekannten Codierern über einen wesentlichen Bereich von Bitraten konkurrenzfähig ist.
  • Versuche haben gezeigt, dass der RPE Codierer manchmal zu einem Verlust an Helligkeit in dem rekonstruierten Signal führt, wenn hohe Dezimierungsfaktoren verwendet werden (beispielsweise D = 8). Hinzufügung von etwas Niederpegelrauschen zu der RPE Sequenz lindert dieses Problem. Um den Rauschpegel zu ermitteln wird eine Verstärkung (g) berechnet, und zwar auf Basis beispielsweise der Energie/Leistungsdifferenz zwischen einem aus der codierten RPE Sequenz erzeugten Signal und dem Restsignal r2/r3. Diese Verstärkung wird auch zu dem Decoder als Teil der Schicht L0 Information übertragen.
  • In 4 ist ein Decoder dargestellt, der mit dem Codierer aus 3 kompatibel ist. Ein Demultiplexer (DeM) liest einen eintreffenden Audiostrom AS' und schafft die sinusoidalen, übergangs- und Rauschcodes (CS, CT und CN (Ps, Pt)) zu den betreffenden Synthesizern SiS, TrS und TEG/SEG wie bekannt. Wie in dem Stand der Technik liefert ein Weißrauschgenerator (WNG) ein Eingangssignal für den Zeitumhüllendengenerator TEG. In der Ausführungsform, wo die Information verfügbar ist, erzeugt ein Impulsfolgegenerator (PTG) eine Impulsfolge aus der Schicht L0 und diese wird in dem Block Mx mit dem Rauschsignal gemischt, das vom TEG geliefert wird, und zwar zum Schaffen eines Anregungssignals r2'. Aus dem Codierer ist ersichtlich, dass, da die Rauschcodes CN (Ps, Pt) und die Schicht L0 unabhängig von demselben Restsignal r2 erzeugt wurden, die Signale, die sie erzeugen, modifiziert zu werden brauchen um den einwandfreien Energiepegel für das synthetisierte Anregungssignal r2' zu schaffen. In dieser Ausführungsform werden in einem Mischer (Mx) die Signale, die von den Blöcken TEG und PTG erzeugt werden, kombiniert.
  • Das Anregungssignal r2' wird danach einem Spektralumhüllendengenerator (SEG) zugeführt, der entsprechend den Codes Ps ein synthetisiertes Rauschsignal r1' erzeugt. Dieses Signal wird zu den synthetisierten Signalen hinzuaddiert, die von den herkömmlichen Übergangs- und sinusoidalen Synthesizer erzeugt werden, zum Erzeugen des Ausgangssignals x ^.
  • In einer alternativen Ausführungsform werden die Parameter, die von dem Impulsfolgengenerator PTG erzeugt werden, (angegeben durch die gestrichelte Linie) in Kombination mit dem Rauschcode Pt verwendet um die zeitliche Umhüllende des Signals zu formen, das von dem WNG ausgeliefert wird um ein zeitlich geformtes Rauschsignal zu erzeugen.
  • In 5 ist eine zweite Ausführungsform des Decoders dargestellt, die mit der Ausführungsform nach 3 übereinstimmt, wobei der RPE Block das Restsignal r3 verarbeitet. Hier werden das von einem Weißrauschgenerator (WNG) erzeugte und von einem Block We verarbeitete Signal auf Basis der Verstärkung (g) und CN bestimmt durch den Codierer; und die Impulsfolge, erzeugt von dem Impulsfolgengenerator (PTG) zum Konstruieren eines Anregungssignals r3' addiert. Selbstverständlich wird, wenn keine Schichtinformation L0 verfügbar ist, das weiße Rauschen nicht von dem Block We beeinflusst und als das Anregungssignal r3' einem zeitlichen Umhüllendengeneratorblock (TEG) zugeführt.
  • Die zeitlichen Umhüllendenkoeffizienten (Pt) werdend danach von dem Block TEG dem Anregungssignal r3' überlagert um das synthetisierte Signal r2' zu schaffen, das wie oben verarbeitet wird. Wie oben stehend erwähnt, ist dies vorteilhaft, weil eine Impulsfolgenanregung typischerweise einen gewissen Verlust an Helligkeit mit sich bringt, dem durch eine auf geeignete Art und Weise gewichtete zusätzliche Rauschsequenz entgegengewirkt werden kann. Die Gewichtung kann eine einfache Amplituden- oder Spektralformung umfassen, je auf dem Verstärkungsfaktor g und CN basiert.
  • Wie oben wird das Signal durch beispielsweise ein lineares Prädiktionssynthesefilter in dem Block SEG ("Spectral Envelope Generator") gefiltert, das zu dem Signal eine spektrale Umhüllende hinzufügt. Das resultierende Signal wird danach dem synthetisierten sinusoidalen und Übergangssignal wie oben hinzugefügt.
  • Es dürfte einleuchten, dass in 4 oder 5, wenn kein PTG verwendet wird, Das Decodierungsschema den herkömmlichen sinusoidalen Codierer unter Verwen dung nur eines Rauschcodierers beibehält. Wenn der PTG verwendet wird, wird eine RPE Sequenz hinzugefügt, die das rekonstruierte Signal verbessert, d. h. eine höhere Audioqualität schafft.
  • Es sei bemerkt, dass in der Ausführungsform nach 5 im Gegensatz zu dem Standard-Impulscodierer (RPE oder MPE), wobei eine Verstärkung, die für das komplette Frame fest liegt, verwendet wird, eine zeitliche Umhüllende in das Signal r2' einverleibt wird. Durch Verwendung einer derartigen zeitlichen Umhüllenden kann eine bessere Tonqualität erhalten werden, und zwar wegen der höheren Flexibilität in dem Verstärkungsprofil im Vergleich zu einer festen Verstärkung je Frame.
  • Das oben beschriebene hybride Verfahren kann mit einer großen Varietät von Bitraten funktionieren und bei jeder Bitrate bietet es eine Qualität, die mit der von bekannten Codieren vergleichbar ist. Bei diesem Verfahren enthält die Basisschicht, die durch die Daten gebildet wird, die von dem parametrischen (sinusoidalen) Codierer geliefert werden, die Haupt- oder Basismerkmale des Eingangssignals, und dieses Audiosignal wird mit einer sehr niedrigen Bitrate erhalten.
  • Es wird aber bevorzugt, dass der geschaffene Bitstrom derart skalierbar ist, dass Schichten extrahiert werden können. Es wird vorausgesetzt, dass wir Schichten geordnet haben. Folglich ist es erwünscht, dass der Codierer imstande ist, auf konstruktive Weise die Information hinzuzufügen um eine optimale Qualität für eine bestimmte Bitrate zu erzielen. Die Beschichtung des Bitstromes bedeutet meistens eine Verringerung der Qualität (sog. Skalierbarkeitsverlust), eingeführt durch die Anforderung eines skalierbaren Bitstroms. Die vorliegende Erfindung versucht dieses Problem zu lindern. Aus diesem Grund werden der Codierer, der Decoder und der Bitstrom angepasst.
  • Nachstehen folgt eine Beschreibung eines Verfahrens nach der vorliegenden Erfindung, wobei das Mischen der verschiedenen Anregungssignalschichten in dem Decoder derart durchgeführt wird, dass das ganze Konzept der Skalierbarkeit ohne Kompromiss der Qualität des codierten Signals verwirklicht wird. Die Mischung wird über einen oder mehrere Parameter gesteuert, die in dem Codierer ermittelt und in dem Bitstrom gespeichert sind. Diese Parameter widerspiegeln die Signifikanz der vorhergehenden Schichten, wenn eine neue höhere Schicht konstruiert wird.
  • 6 zeigt einen völlig skalierbaren kombinierten parametrischen (sinusoidalen) und Wellenform (Impuls) Codierer nach der vorliegenden Erfindung. Es sei bemerkt, dass die vorliegende Erfindung jeden beliebigen anderen Codierer als der hier beschriebene verwenden kann. In einem parametrischen Codierer wird ein Eingangssignal empfangen, wobei dieser Codierer in der dargestellten Ausführungsform ein sinusoidaler SSC Codierer ist, wie in 1. Das Restsignal rSSC von dem SSC Codierer wird zunächst spektral geglättet, vorzugsweise unter Anwendung der LPC Analyse, wobei der dynamische Bereich reduziert wird, was an sich dann wieder Fehler in den Quantisierungsschritten reduziert. Das spektral geglättete Restsignal r wird danach einem ersten Wellenformcodierer, hier einer RPE-8 Stufe mit einem Dezimierungsfaktor 8, zugeführt, der ein erstes Anregungssignal x8 aus dem spektral geglätteten Restsignal r erzeugt.
  • Es wird durch eine Kombination des Restsignals r und des bereits berechneten Anregungssignals x8 ein neues Restsignal r8 erzeugt. Insbesondere wird r8 als die Differenz zwischen dem ursprünglichen Restsignal r und dem gewichteten Anregungssignal x8 entsprechend der nachfolgenden Gleichung definiert: r8 = r – ρXs
  • Der Parameter ρ wird derart optimiert, dass die kombinierten Schichten eine maximale Qualität erreichen.
  • Es sei bemerkt, dass die Einstellung von ρ gleich 0 bedeutet, dass wir unabhängige Schichten schaffen, wobei keine Neuverwendung von Information möglich ist. Die Einstellung von ρ gleich 1 ist eine bekannte Technik zum Schaffen abhängiger Schichten in einem skalierbaren Bitstrom, hemmt aber das Erreichen der besten Qualität.
  • Das Restsignal rs wird einem zweiten Wellenformcodierer, hier einer RPE-2 Stufe mit einem Dezimierungsfaktor 2 zugeführt. Die RPE-2 Stufe schafft ein Anregungssignal x2.
  • Auf ideale Weise soll das in dem RPE-8 Codierer berechnete Anregungssignal x8 in dem Decoder verwendet werden, wenn dies eine ziemlich gute Annäherung des Restsignals r schafft, sonst, ist es besser für RPE-2 es zu löschen und direkt mit r statt mit r8 weiter zu fahren. Dies suggeriert, dass es einen Mechanismus geben soll, der die Qualität als die Ähnlichkeit oder Güte von x8 gegenüber r feststellt, d. h. wie gut r durch x8 modelliert wird, und dieses Signal auf entsprechende Weise im Hinblick auf eine Kombination mit x2 verarbeitet. In der einfachsten Form besteht dieser Mechanismus aus nur einer einfachen Verstärkung.
  • Nachstehend wird erläutert, wie die Verstärkung ρ, die auch als Mischkoeffizient bezeichnet wird, verwendet werden kann und berechnet wird zum Bewerten und Verarbeiten von x8.
  • Zum Schluss werden die parametrischen Codes (SSC Codes), das erste Anregungssignal x8, das zweite Anregungssignal x2, der Mischkoeffizient ρ und vorzugsweise auch die spektralen Glättungsparameter kombiniert zum Bilden des codierten Audiostroms AS. Typischerweise würde der Bitstrom dann aus drei Schichten bestehen: einer parametrischen Basisschicht, einer ersten Verfeinerungsschicht, die das erste Anregungssignal enthält, und einer zweiten Schicht, die das zweite Anregungssignal enthält und die Neuverwendbarkeit der ersten Schicht wird in dem Parameter ρ ausgedrückt.
  • Die spektralen Glättungsparameter brauchen nicht in den Audiobitstrom eingeschlossen zu werden. Wenn ein derartiger Audiostrom ohne spektrale Glättungsparameter in einem Audiospieler empfängt, kann der Decoder in dem Audiospieler die spektralen Glättungsparameter durch rückwärtige Anpassung bestimmen.
  • 7 zeigt einen Decoder nach der vorliegenden Erfindung. Der codierte Audiostrom AS wird empfangen und die Anteile, d. h. die parametrischen Codes (SSC Codes), das erste Anregungssignal x8, das zweite Anregungssignal x2, der Mischkoeffizient ρ und die spektralen Glättungsparameter werden wie folgt identifiziert und verarbeitet.
  • Die parametrischen Codes werden einem parametrischen Decoder (SSC Decoder) zum Decodieren der sinusoidalen und Übergangsanteile zugeführt. Ein spektrales Formfilter, hier ein LPC Synthesefilter, empfängt das erste Anregungssignal x8 oder ein kombiniertes Anregungssignal (x2 + ρxs). Unter Verwendung der empfangenen spektralen Glättungsparameter erzeugt das LPC Synthesefilter abermals das geschätzte SSC Restsignal r'SSC mit dem ursprünglichen geformten Spektrum, und das geschätzte SSC Restsignal r'SSC wird zu den decodierten sinusoidalen und Übergangsanteilen hinzugefügt um das decodierte Signal zu formen. Außerdem kann ein Teil des parametrischen Rauschens in das Anregungssignal eingefügt werden, und zwar auf entsprechende Weise wie bei den in den 4 und 5 angewandten Strategien.
  • Eines der möglichen Kriterien zur Bestimmung der Nützlichkeit von x8 in der nächsten RPE Stufe ist die Ähnlichkeit mit dem Eingangsrestsignal r. Folglich ist es natürlich, dass die Verstärkung ρ irgendwie auf die Korrelation dieser zwei Signale bezo gen ist. Die Zielsetzung der Entfernung der Ähnlichkeit zwischen den Signalen r und x8 (4), kann ein optimaler Wert für ρ berechnet werden, und zwar wie folgt:
    Figure 00160001
    wobei x8 und r die auf diese Art und Weise in 6 identifizierten Signale sind, und wobei N die Fensterlänge bestimmt, über die ρ optimiert wird. Die Verstärkung wird vorzugsweise auf Frame-zu-Frame-Basis berechnet, d. h. N ist die Framelänge. Aus der Gleichung (1) folgt, dass die optimale Verstärkung nur die Korrelation von x8 und r normalisiert über die Leistung von x8 ist. Andere Verstärkungen mit ähnlichen Eigenschaften wie die aus der Gleichung (1) könnten auch definiert werden (beispielsweise der Ausdruck in der Gleichung (1) ist in dem Sinne eines quadratischen Fehlerkriteriums optimal; andere Kriterien können aber auch angewandt werden).
  • Es sei bemerkt, dass wenn das Modell von r, geliefert durch x8, einwandfrei ist (d. h. r = x8), der Mischkoeffizient dann eins wird und r8 wird Null, da es keine Notwendigkeit einer zusätzlichen Modellierung gibt. Andererseits wird, wenn x8 kein gutes Modell von r ist, der Mischkoeffizient einen geringen Wert annehmen und die zweite RPE Stufe ist meistens auf r statt r8 wirksam, mit anderen Worten die Dezimierung 2 Schicht mach nur einen begrenzten Gebrauch der Information, die durch die Dezimierung 8 Schicht geliefert wird.
  • Die beschriebene Technik kann auf das volle Bandbreitensignal oder bestimmte Frequenzbänder angewandt werden. Der Qualitätsparameter ρ bedeutet, dass die Möglichkeit für komplette Filter zum Erzeugen von r8 nicht einen einzeigen Parameter sondern verschiedene Parameter beinhaltet. Die hier präsentierten Verfahren übertragen geschichtete Bitströme, die mehr als zwei Anregungssignale enthalten.
  • Text in der Zeichnung
  • 1
    • Stand der Technik
  • 2a
    • Stand der Technik
  • 2b
    • Stand der Technik
  • 6
    • Codierer
    • Analyse
    • Codierer
    • Codierer
  • 7
    • Decoder
    • Synthese

Claims (12)

  1. Verfahren zum Codieren eines digitalen Audiosignals, wobei für jedes Zeitsegment des Signals die nachfolgenden Verfahrensschritte durchgeführt werden: – das Codieren des Audiosignals zum Schaffen von Codes (SSC), die das Audiosignal darstellen, – das Subtrahieren der Codes von dem Audiosignal zum Erhalten eines ersten Restsignals (rSSC), – das spektrale Glätten des ersten Restsignals (r) zum Erhalten eines spektral geglätteten Restsignals (r) und spektral geglätteter Parameter, – das Berechnen eines ersten Anregungssignals aus dem spektral geglätteten Restsignal (r), und zwar unter Verwendung eines Impulsfolgecodierers, – das Ermitteln der Qualität des ersten Anregungssignals (x8) als der Grad der Ähnlichkeit mit dem spektral geglätteten Restsignal (r), – das Subtrahieren eines Teils des ersten Anregungssignals (x8) aus dem spektral geglätteten Restsignal (r) zum Erhalten eines zweiten Restsignals (r8), wobei der Teil von der ermittelten Qualität des ersten Anregungssignals (x8) abhängig ist, – das Berechnen eines zweiten Anregungssignals (x2) aus dem zweiten Restsignal (r8), und zwar unter Verwendung eines Impulsfolgecodierers, und – das Erzeugen eines Audiostromes, der Folgendes umfasst: – das erste Anregungssignal (xs), – das zweite Anregungssignal (x2), und – einen Parameter (ρ), indikativ für die Qualität des ersten Anregungssignals (x8).
  2. Verfahren nach Anspruch 1, wobei die parametrischen Codes sinusoidale und Rauschanteile des Audiosignals enthalten.
  3. Verfahren nach Anspruch 1, wobei die spektrale Glättung unter Anwendung einer linearen prädiktiven Codierung (LPC) erfolgt.
  4. Verfahren nach Anspruch 1, wobei die Qualität des ersten Anregungssignals (x8) auf der Korrelation zwischen dem ersten Anregungssignal (x8) und dem spektral geglätteten Restsignal (r) basiert ist.
  5. Audiocodierer, vorgesehen zum Codieren von Zeitsegmenten eines digitalen Audiosignals, wobei der Codierer Folgendes umfasst: – einen Codierer zum Codieren des digitalen Audiosignals zum Schaffen von Codes (SSC), die das Signal darstellen, – einen Subtrahierer zum Subtrahieren eines Signals, das den Codes entspricht, von dem Audiosignal zum Erhalten eines ersten Restsignals – eine spektrale Glättungseinheit zum spektralen Glätten des ersten Restsignals (rSSC) zum Erhalten eines spektral geglätteten Restsignals (r) und spektral geglätteter Parameter, – einen Impulsfolgecodierer zum Berechnen eines ersten Anregungssignals für das spektral geglättete Restsignal (r), – Mittel zum Ermitteln der Qualität des ersten Anregungssignals (x8) als der Grad der Ähnlichkeit mit dem spektral geglätteten Restsignal (r), – einen Subtrahierer zum Subtrahieren eines Teils des ersten Anregungssignals (x8) von dem spektral geglätteten Restsignal (r), zum Erhalten eines zweiten Restsignals (r8), wobei der Teil von der ermittelten Qualität des ersten Anregungssignals (x8) abhängig ist, – einen Impulsfolgecodierer zum Berechnen eines zweiten Anregungssignals (x2) für das zweite Restsignal (r8), und – einen Bitstromgenerator (15) zum Erzeugen eines Audiostroms (AS), der Folgendes umfasst: – das erste Anregungssignal (x8), – das zweite Anregungssignal (x2), und – einen Parameter (ρ), indikativ für die Qualität des ersten Anregungssignals (x8).
  6. Audiocodierer nach Anspruch 5, wobei die parametrischen Codes sinusoidale und Rauschanteile des Audiosignals aufweisen.
  7. Audiocodierer nach Anspruch 5, mit einem linearen prädiktiven Codierer (LPC), vorgesehen zum Durchführen der spektralen Glättung.
  8. Audiocodierer nach Anspruch 5, wobei der Bruchteil (ρ) auf der Korrelation zwischen dem ersten Anregungssignal (x8) und dem spektral geglätteten Restsignal (r) basiert ist.
  9. Verfahren zum Decodieren eines empfangenen Audiostroms (AS), wobei der Audiostrom für jedes Segment einer Anzahl Segmente eines Audiosignals Folgendes umfasst: – ein erstes Anregungssignal (x8), – ein zweites Anregungssignal (x2), und – einen Parameter (ρ), indikativ für die Qualität des ersten Anregungssignals (x8), wobei das Verfahren die nachfolgenden Schritte umfasst: – das Kombinieren des ersten und des zweiten Anregungssignals (x8, x2) zum Erhalten eines kombinierten Anregungssignals, und zwar in Abhängigkeit von dem Qualitätsparameter (ρ), und – das Synthetisieren eines ersten Restsignals (r'SSC) aus dem kombinierten Anregungssignal, und zwar unter Anwendung einer linearen Prädiktion.
  10. Audiospieler zum Empfangen und Decodieren eines Audiostroms (AS), wobei der Audiostrom für jedes Segment einer Anzahl Segmente eines Audiosignals Folgendes umfasst: – ein erstes Anregungssignal (x8), – ein zweites Anregungssignal (x2), und – einen Parameter (ρ), indikativ für die Qualität des ersten Anregungssignal (x8), wobei der Audiospieler Folgendes umfasst: – Mittel zum Kombinieren des ersten und des zweiten Anregungssignals (x8, x2) zum Erhalten eines kombinierten Anregungssignals, und zwar in Abhängigkeit von dem Qualitätsparameter (ρ), und – Mittel zum Synthetisieren eines ersten Restsignals (r'SSC) aus dem kombinierten Anregungssignal, und zwar unter Anwendung von linearer Prädiktion.
  11. Audiostrom (AS), der für jedes Segment einer Anzahl Segmente eines Au diosignals Folgendes umfasst: – ein erstes Anregungssignal (x8), herrührend aus Impulsfolgecodierung eines spektral geglätteten Restsignals (r), wobei das Restsignal (r) aus der Subtraktion eines codierten Audiosignals von dem Audiosignal herrührt, – ein zweites Anregungssignal (x2), herrührend aus Impulsfolgecodierung eines zweiten Restsignals, wobei das genannte Signal dadurch erzeugt wird, dass ein Teil des ersten Anregungssignals (x8) von dem spektral geglätteten Restsignal (r) subtrahiert wird, wobei der Teil von der ermittelten Qualität des ersten Anregungssignals (x8) abhängig ist, und – einen Parameter (ρ), indikativ für die ermittelte Qualität des ersten Anregungssignals (x8).
  12. Speichermedium mit einem darauf gespeicherten Audiostrom (AS) nach Anspruch 11.
DE602005003358T 2004-06-08 2005-06-03 Audiokodierung Active DE602005003358T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP04102576 2004-06-08
EP04102576 2004-06-08
PCT/IB2005/051821 WO2005122146A1 (en) 2004-06-08 2005-06-03 Audio encoding

Publications (2)

Publication Number Publication Date
DE602005003358D1 DE602005003358D1 (de) 2007-12-27
DE602005003358T2 true DE602005003358T2 (de) 2008-09-11

Family

ID=34969304

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602005003358T Active DE602005003358T2 (de) 2004-06-08 2005-06-03 Audiokodierung

Country Status (7)

Country Link
US (1) US20080312915A1 (de)
EP (1) EP1756807B1 (de)
JP (1) JP2008502022A (de)
CN (1) CN1965352B (de)
AT (1) ATE378676T1 (de)
DE (1) DE602005003358T2 (de)
WO (1) WO2005122146A1 (de)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101213592B (zh) * 2005-07-06 2011-10-19 皇家飞利浦电子股份有限公司 用于参量多声道解码的设备和方法
JPWO2007043643A1 (ja) * 2005-10-14 2009-04-16 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法
JP4707623B2 (ja) * 2006-07-21 2011-06-22 富士通東芝モバイルコミュニケーションズ株式会社 情報処理装置
KR20080073925A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치
KR101413967B1 (ko) 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
EP2434485A4 (de) * 2009-05-19 2014-03-05 Korea Electronics Telecomm Verfahren und vorrichtung zur kodierung und dekodierung von audiosignalen durch hierarchische kodierung sinusoidaler impulse
US20130173275A1 (en) * 2010-10-18 2013-07-04 Panasonic Corporation Audio encoding device and audio decoding device
EP3671741A1 (de) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audioprozessor und verfahren zum erzeugen eines frequenzverbesserten audiosignals mittels impulsverarbeitung

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8500843A (nl) * 1985-03-22 1986-10-16 Koninkl Philips Electronics Nv Multipuls-excitatie lineair-predictieve spraakcoder.
JPH05265492A (ja) * 1991-03-27 1993-10-15 Oki Electric Ind Co Ltd コード励振線形予測符号化器及び復号化器
JP3348759B2 (ja) * 1995-09-26 2002-11-20 日本電信電話株式会社 変換符号化方法および変換復号化方法
JPH1020888A (ja) * 1996-07-02 1998-01-23 Matsushita Electric Ind Co Ltd 音声符号化・復号化装置
JP3464371B2 (ja) * 1996-11-15 2003-11-10 ノキア モービル フォーンズ リミテッド 不連続伝送中に快適雑音を発生させる改善された方法
US6016111A (en) * 1997-07-31 2000-01-18 Samsung Electronics Co., Ltd. Digital data coding/decoding method and apparatus
US6446037B1 (en) * 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
ES2292581T3 (es) * 2000-03-15 2008-03-16 Koninklijke Philips Electronics N.V. Funcion laguerre para la codificacion de audio.
US6996522B2 (en) * 2001-03-13 2006-02-07 Industrial Technology Research Institute Celp-Based speech coding for fine grain scalability by altering sub-frame pitch-pulse
KR100908114B1 (ko) * 2002-03-09 2009-07-16 삼성전자주식회사 스케일러블 무손실 오디오 부호화/복호화 장치 및 그 방법

Also Published As

Publication number Publication date
CN1965352A (zh) 2007-05-16
EP1756807B1 (de) 2007-11-14
ATE378676T1 (de) 2007-11-15
DE602005003358D1 (de) 2007-12-27
CN1965352B (zh) 2011-05-25
EP1756807A1 (de) 2007-02-28
US20080312915A1 (en) 2008-12-18
JP2008502022A (ja) 2008-01-24
WO2005122146A1 (en) 2005-12-22

Similar Documents

Publication Publication Date Title
DE602005003358T2 (de) Audiokodierung
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE60225381T2 (de) Verfahren zur Kodierung von Sprach- und Musiksignalen
DE60124274T2 (de) Codebuchstruktur und suchverfahren für die sprachkodierung
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE69910240T2 (de) Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals
DE69832358T2 (de) Verfahren zur Sprachkodierung und -dekodierung
DE60011051T2 (de) Celp-transkodierung
DE602004007786T2 (de) Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate
DE69926821T2 (de) Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
DE60120766T2 (de) Indizieren von impulspositionen und vorzeichen in algebraischen codebüchern zur codierung von breitbandsignalen
EP2022043B1 (de) Informationssignalcodierung
DE60133757T2 (de) Verfahren und vorrichtung zur kodierung von stimmloser sprache
DE60202881T2 (de) Wiederherstellung von hochfrequenzkomponenten
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE69932460T2 (de) Sprachkodierer/dekodierer
DE60012760T2 (de) Multimodaler sprachkodierer
DE60128121T2 (de) Wahrnehmungsbezogen verbesserte aufbesserung kodierter akustischer signale
DE60126149T2 (de) Verfahren, einrichtung und programm zum codieren und decodieren eines akustischen parameters und verfahren, einrichtung und programm zum codieren und decodieren von klängen
DE602004004950T2 (de) Vorrichtung und Verfahren zum bitraten-skalierbaren Sprachkodieren und -dekodieren
EP1979899B1 (de) Verfahren und anordnungen zur audiosignalkodierung
WO2006114368A1 (de) Verfahren und vorrichtung zur geräuschunterdrückung
DE69820362T2 (de) Nichtlinearer Filter zur Geräuschunterdrückung in linearen Prädiktions-Sprachkodierungs-Vorrichtungen
DE60303346T2 (de) Encodier- und/oder Decodierverfahren für digitale Audiosignale, basierend auf Zeit-Frequenzkorrelation und Vorrichtung hierzu
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms

Legal Events

Date Code Title Description
8364 No opposition during term of opposition