DE60307634T2 - Audiocodierung - Google Patents

Audiocodierung Download PDF

Info

Publication number
DE60307634T2
DE60307634T2 DE60307634T DE60307634T DE60307634T2 DE 60307634 T2 DE60307634 T2 DE 60307634T2 DE 60307634 T DE60307634 T DE 60307634T DE 60307634 T DE60307634 T DE 60307634T DE 60307634 T2 DE60307634 T2 DE 60307634T2
Authority
DE
Germany
Prior art keywords
properties
order
filter
audio
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60307634T
Other languages
English (en)
Other versions
DE60307634D1 (de
Inventor
C. Albertus DEN BRINKER
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of DE60307634D1 publication Critical patent/DE60307634D1/de
Application granted granted Critical
Publication of DE60307634T2 publication Critical patent/DE60307634T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Complex Calculations (AREA)
  • Cereal-Derived Products (AREA)

Description

  • Die vorliegende Erfindung betrifft das Codieren und Decodieren von Audiosignalen.
  • Die lineare prädiktive Codierung (LPC) wird oft bei der Audio- und Sprachcodierung eingesetzt. 1(a) zeigt eine Prädiktionsfilterkomponente 10 vom finiten Impulsreaktions-Typ (FIR-Typ) der Ordnung K für einen herkömmlichen LPC-gestützten Codierer. Das Filter erzeugt eine Schätzung x ^(n) für ein bestimmtes Signal x(n), das aus einer linearen Kombination von K vorherigen Abtastungen des Signals erzeugt wurde. In dem Beispiel von 1(a) kann die Übertragungsfunktion des Filters F(z), die x(n) und r(n) zueinander in Beziehung setzt, folgendermaßen dargestellt werden:
    Figure 00010001
  • Die Prädiktionskoeffizienten αk werden anhand eines Kriteriums, in der Regel ein gewichteter mittlerer quadratischer Fehler, errechnet.
  • Die Schätzung x ^(n) wird wiederum von dem Signal x(n) abgezogen, so dass ein Restsignal r(n) entsteht. Dieses Restsignal und die Informationen für das Prädiktionsfilter, d. h. die Prädiktionskoeffizienten α, werden im Allgemeinen in einer effizienteren Form übertragen oder gespeichert. Zum Beispiel können die Prädiktionskoeffizienten αk auf einen Satz Reflexionskoeffizienten abgebildet werden, und diese wiederum können auf logarithmierte Flächenverhältnisse (Log Area Ratios – LAR) abgebildet werden. Alternativ können die Prädiktionskoeffizienten αk direkt auf Linienspektralfrequenzen (LSF) abgebildet werden, bevor sie zusammen mit dem Restsignal in einem Bitstrom codiert werden, der das Signal x(n) darstellt. (Im Hinblick auf Quantisierungsempfindlichkeiten sind die LAR- und die LSF-Bereiche bevorzugt.) Alternative Darstellungen wie beispielsweise Arkussinus-Reflexionskoeffizienten (Arcsine Reflection Coefficients – ASRCs) und Linienspektralpaare (LSPs) können ebenfalls verwendet werden.
  • In einem Decodierer, 1(b), werden das Restsignal und die Informationen für das Prädiktionsfilter zum Rekonstruieren (oder Approximieren) des ursprünglichen Signals x(n) verwendet. Aus 1 geht hervor, dass ähnliche Mechanismen im Codierer und im Decodierer vorhanden sind. Man muss jedoch feststellen, dass, um die Stabilität des Decodierers – insbesondere im Hinblick auf Verzerrungen, die möglicherweise während der Quantisierung vor dem Codieren des Bitstroms für das Signal x(n) in das Signal hineingetragen wurden – zu gewährleisten, das Filter F(z) in der Regel ein Minimumphasenfilter ist. Das heißt, dass alle Wurzeln (Pole und Nullen) der Übertragungsfunktion F(z) sich im Inneren des Einheitskreises befinden müssen, und das lässt sich im Allgemeinen für FIR-Filter gewährleisten.
  • Die Verwendung eines FIR-Filters des oben beschriebenen Typs gestattet nicht die Abstimmung eines Codierers unter Berücksichtigung eines psycho-akustischen Modells des Hörprozesses.
  • In "Alternatives for Warped Linear Predictors", V. Voitishchuk und Mitarbeiter, Seiten 710-713, Proc. ProRISC Workshop CSSP, Veldhoven (NL), 29.-30. November 2001, und "Stability of Linear Predictive Structures using IIR filters", A. C. den Brinker, Seiten 317-320, Proc. ProRISC Workshop CSSP, Veldhoven (NL), 29.-30. November 2001, ist gezeigt, dass Filter vom Laguerre- und vom Kautz-Typ, die dafür verwendet werden können, einen Codierer/Decodierer in Richtung von Frequenzbereichen abzustimmen, die von größerem Interesse sind und an die man normalerweise eher als Filter vom infiniten Impulsreaktions-Typ (IIR-Typ) denkt, in einer Form dargestellt werden können, wie sie in den 2(a) und 2(b) gezeigt ist.
  • Die Gesamtübertragungsfunktion für das Filter von 2(a), die x(n) und r(n) zueinander in Beziehung setzt, lautet:
    Figure 00020001
    wobei der Satz Hk eine Übertragungsfunktion ist, die zu einem Satz stabiler, kausaler, linearer und linear-unabhängiger Filter gehört.
  • Es wurde gezeigt, dass, wenn man den Satz Hk als Laguerre-Filter wählt, d. h.:
    Figure 00020002
    wobei λ ∊ (-1, 1), die Gesamtübertragung F ein Minimumphasen-IIR-Filter sein kann.
  • Wenn λ real und größer als 0 ist, so wird das Modellieren zu niedrigeren Frequenzen hin verschoben, für die das menschliche Ohr empfindlicher ist, während, wenn λ kleiner als 0 ist, das Modellieren zu höheren Frequenzen hin verschoben wird, wobei λ = 0 dem herkömmlichen Fall von 1 entspricht.
  • Es gibt jedoch insofern ein Problem beim Übertragen der Prädiktionskoeffizienten für Filter des in 2 gezeigten Typs, als dass die Wurzeln des Polynoms
    Figure 00030001
    die zu den Prädiktionskoeffizienten α gehören, allein möglicherweise kein Minimumphasenfilter bilden, und dies kann aufgrund von Rauschen oder Verzerrungen, die während der Quantisierung dieser Parameter hineingetragen werden, zu Instabilität im Decodierer führen.
  • Gemäß der vorliegenden Erfindung werden bereitgestellt: ein Verfahren zum Codieren eines Audiosignals nach Anspruch 1, ein Verfahren zum Decodieren eines Audiostroms nach Anspruch 9, ein Audiocodierer und eine Audiowiedergabevorrichtung nach Anspruch 10 bzw. nach Anspruch 11 sowie ein Audiostrom nach Anspruch 13.
  • Die bevorzugten Ausführungsformen der Erfindung stellen eine Erweiterung einer herkömmlichen LPC-Konfiguration bereit, was es ermöglicht, Prädiktionskoeffizienten vom Laguerre-Typ auf jene eines FIR-Systems abzubilden. Darum können herkömmliche Techniken der linearen prädiktiven Codierung zum Quantisieren und Übertragen oder Speichern der Laguerre-Prädiktionskoeffizienten verwendet werden.
  • Es werden nun Ausführungsformen der vorliegenden Erfindung anhand der begleitenden Zeichnungen beschrieben. In den Zeichnungen:
  • zeigen 1(a) und 1(b) einen Codierer bzw. einen Decodierer für eine herkömmliche Konfiguration zu linearen Prädiktion;
  • zeigen 2(a) und 2(b) einen Codierer bzw. einen Decodierer für eine alternative Konfiguration zur linearen Prädiktion;
  • zeigen 3(a) und 3(b) einen Codierer bzw. einen Decodierer für eine Konfiguration zur linearen Prädiktion gemäß einer ersten Ausführungsform der vorliegenden Erfindung;
  • zeigt 4 einen Codierer gemäß einer zweiten Ausführungsform der Erfindung;
  • zeigt 5 einen generischen Codierer, der die erste und die zweite Ausführungsform der Erfindung umfasst; und
  • zeigt 6 ein System, das einen Audiocodierer und eine Audiowiedergabevorrichtung umfasst.
  • Für ein Filter vom Laguerre-Typ, das mittels der Konfiguration von 2 dargestellt ist, kann die Gesamtübertragungsfunktion F(z) als eine Kombination der Gleichungen 2 und 3 dargestellt werden:
    Figure 00040001
  • Es ist bekannt, dass die Übertragungsfunktion F(z) ein Minimumphasensystem sein kann, wenn die Koeffizienten beispielsweise unter Verwendung eines Dateneingabefensterbildungsverfahrens optimiert werden, wie es bei Woitischtschuk und Mitarbeitern und den Brinker offenbart ist.
  • Bei einer ersten Ausführungsform der vorliegenden Erfindung wird das oben beschriebene Filter auf ein Minimumphasen-FIR-Filter der Ordnung K abgebildet, so dass diese Prädiktionskoeffizienten vom Laguerre-Typ mittels Standardtechniken quantisiert und übertragen werden können.
  • Wenden wir uns nun 3(a) zu, wo ein Codierer 14 gemäß der ersten Ausführungsform der vorliegenden Erfindung gezeigt ist. Der Codierer 14 enthält eine Laguerre-Filterkomponente 16 des Typs, wie er bei Woitischtschuk und Mitarbeitern und den Brinker offenbart ist. Die Komponente 16 ist mit einem Wert λ versehen, der die Frequenzempfindlichkeit des Filters bestimmt. Dieser Wert kann entweder in einem durch den Codierer erzeugten Bitstrom 50 codiert werden, der später von einem Decodierer 22 benutzt wird, 3(b), oder der Wert von λ kann dem Decodierer 22 auf andere Weise bekannt sein.
  • Für das Signal x(n) stellt die Komponente einen Satz Prädiktionskoeffizienten α bereit. Diese werden, zusammen mit dem λ-Wert, einer Synthetisiererkomponente 18 zugeführt, die eine Schätzung des Signals x ^(n) in der in 2(a) gezeigten Weise erzeugt.
  • Bei den bevorzugten Ausführungsformen jedoch werden die Prädiktionskoeffizienten α in einer Transformationskomponente 20 transformiert. Die durch die Komponente 20 vorgenommene Transformation wird unter Verwendung der Form einer oberen Töplitz-Dreiecksmatrix folgendermaßen veranschaulicht:
    Figure 00050001
    wobei α die Laguerre-Prädiktionskoeffizienten sind und
    Figure 00050002
    Die K + 1-Koeffizienten c können einer Übertragungsfunktion G(ν) eines FIR-Filters der K-ten Ordnung zugeordnet werden, wobei
    Figure 00050003
    Wenn die Prädiktionskoeffizienten α zu einem Minimumphasenfilter F(z) gehören, dann stellt G(v) ein Minimumphasen-FIR-Filter dar.
  • In dem Decodierer 22, 3(b), erfolgt durch eine Komponente 24 eine Umkehrtransformation an den Koeffizienten c0...ck, die durch die Vorwärtstransformationskomponente erzeugt wurden. Der Komponente 24 wird der gleiche λ zugeführt, wie er vom Codierer 14 benutzt wird, und die durch die Komponente 24 vorgenommen Transformation wird unter Verwendung der Form einer oberen Töplitz-Dreiecksmatrix folgendermaßen veranschaulicht:
    Figure 00050004
  • Aus dieser Umkehrtransformation ist zu erkennen, dass die Koeffzienten (c0...ck) einer linearen Beschränkung unterliegen, und zwar:
    Figure 00050005
  • Der Parameter c0 kann als redundant angesehen werden, da α0...αk-1 folgendermaßen aus c1...ck rekonstruiert werden können:
    Figure 00060001
  • Kehren wir zum Codierer 14 zurück, wo bei der ersten Ausführungsform die Koeffizienten c0...ck zu einer Normalisierungskomponente 26 geleitet werden. Die Komponente teilt die Koeffizienten c0...ck durch den Wert c0, so dass ein Satz Koeffizienten d0...dk entsteht. Es ist jedoch zu sehen, dass der Wert d0 immer 1 ist, und so entsprechen die Koeffizienten d1...dk den Prädiktionskoeffizienten eines Minimumphasen-FIR-Filters der Ordnung K mit der Übertragungsfunktion
    Figure 00060002
    wenn die Koeffizienten c0...ck ihrerseits ein Minimumphasenfilter darstellen. Da die in der Komponente 26 vorgenommene Normalisierung lediglich eine Teilung aller Koeffizienten durch einen Faktor ist, kann die Reihenfolge der Transformationskomponente 20 und der Normalisierungskomponente 26 geändert werden, d. h. wir können zuerst die Normalisierung und dann die Transformation ausführen. In dem Codierer erfordert dies zuerst die Berechnung von c0, wobei entsprechende Änderungen hinterher vorgenommen werden. Es ist außerdem zu sehen, dass die gleiche Änderung der Reihenfolge der Umkehrtransformation und Entnormalisierung in dem später noch zu erläuternden Decodierer erfolgen kann.
  • Die Normalisierungskomponente 26 leitet die Koeffizienten d1...dk einer Komponente 28 zu, wo die Koeffizienten vorzugsweise in LAR- oder LSF-Parameter umgewandelt und in einer entsprechenden Weise zur Quantisierung der α-Koeffizienten von 1(a) quantisiert werden, nur dass die Indexierung eine andere ist und die Vorzeichen umgekehrt wurden. Die Komponente 28 empfängt ebenfalls das Restsignal r(n), quantisiert es entsprechend und leitet die Werte einer Multiplexeinheit 30 zu, die einen Bitstrom 50 erzeugt, der das Signal x(n) darstellt. Man erkennt deshalb, dass dieser Bitstrom in der gleichen Form übertragen werden kann wie ein Bitstrom, der herkömmliche FIR-Filter-Parameter enthält. Alternativ kann der Bitstrom geringfügig so modifiziert werden, dass er an einem bestimmten Punkt den Wert λ enthält, aber ansonsten braucht sein Format nicht geändert zu werden.
  • Wenden wir uns nun dem Decodierer 22, 3(b), zu, wo der Bitstrom 50 durch eine Demultiplexeinheit 32 decodiert wird. Die extrahierten Parameter werden einer Entquantisierungskomponente zugeführt, die das Restsignal r(n) und die normalisierten Parameter d1...dk des Filters vom FIR-Typ in einer herkömmlichen Weise erzeugt.
  • Zuerst wird mittels einer Entnormalisierungskomponente 36 der Wert c0 bestimmt. Aus Gleichung 5 ist zu erkennen, dass:
    Figure 00070001
    und so kann die Komponente 36, wenn ihr der in dem Codierer benutzte Wert λ zugeleitet wird, die folgende Gleichung verwenden:
    Figure 00070002
    um den Wert für c0 zu bestimmen. Zu Gleichung 7 ist anzumerken, dass, obgleich der Entnormalisierungskomponente nur die Parameter d1...dk zugeführt werden, angenommen werden kann, dass d0 = 1. Somit werden, sobald c0 bestimmt wurde, die übrigen Koeffizienten c1...ck folgendermaßen durch die Komponente 36 bestimmt: ck = dkc0 Gleichung 8
  • Die Koeffizienten c0...ck werden durch die Entnormalisierungskomponente 36 zu der oben beschriebenen Umkehrtransformationseinheit 24 geleitet, wo der Satz Laguerre-Filter-Prädiktionskoeffizienten α erzeugt wird, die wiederum durch eine Decodierersynthetisiererkomponente 18', wie in 2(b) gezeigt, zum Erzeugen des geschätzten Signals x ^(n) benutzt werden können. Dies wird mit dem Restsignal r(n), das durch die Entquantisiererkomponente 34 zugeführt wird, zu dem endgültig decodierten Signal x(n) kombiniert.
  • Es ist zu erkennen, dass Varianten der bevorzugten Ausführungsform möglich sind. Zum Beispiel führt – in einer zweiten Ausführungsform der Erfindung, 4 – ein adaptierter Codierer 14' eine Spitzenwertverbreiterung oder Bandbreitenerweiterung/-ausdehnung/-verbreiterung durch, wie in "Spectral smoothing technique in PARCOR speech analysis-synthesis", Y. Tohkura und F. Itakura und S. Hashimoto, IEEE Trans. Acoust. Speech Signal Process. Band 26, Seiten 587-596, 1978, offenbart. Eine Spektralspitzenwertverbreiterung bei der linearen prädiktiven Codierung erfolgt durch Multiplizieren der Impulsreaktion (Prädiktionskoeffizienten) mit einer exponentiell abnehmenden Sequenz.
  • Im Zusammenhang mit der vorliegenden Erfindung wird die Spitzenwertverbreiterung in der Weise implementiert, dass eine Spitzenwertverbreiterungskomponente 38 zwischen der Transformationskomponente 20 und einer adaptierten Normalisierungskomponente 26' der ersten Ausführungsform angeordnet wird.
  • Nach der Transformation der ursprünglichen Prädiktionskoeffizienten α des Laguerre-Filtertyps zu den Koeffizienten c0...ck stellt der Codierer fest, ob eine Spitzenwertverbreiterung erforderlich ist. Wenn ja, so werden die Koeffizienten c0...ck zu der Spitzenwertverbreiterungskomponente 38 geleitet. Diese multipliziert die Koeffizienten c0...ck mit einer Spitzenwertverbreiterungsreaktion, zum Beispiel der Form: c ~k – ckwk, wobei wk = γk und 0 < γ ≤ 1 Gleichung 9
  • Wie zuvor, muss auch hier eine lineare Beschränkung auf die Koeffizienten c ~ angewendet werden. Somit bestimmt, falls ihnen ein spitzenwertverbreiterter Satz Koeffizienten zugeführt wird, entweder die Komponente 38 oder 26' einen Multiplikator cf wie folgt:
    Figure 00080001
  • Die Koeffizienten c ~k werden durch diesen Multiplikator c k = c ~k/cf geteilt, so dass die resultierenden Koeffizienten c die Beschränkungen von Gleichung 5 erfüllen. Die Normalisierungskomponente 26' kann dann die Koeffizienten c 1...c k normalisieren, so dass die FIR-Koeffizienten d1...k vom normalisierten Typ entstehen, wie schon zuvor.
  • Es ist zu sehen, dass die Spitzenwertverbreiterung sich auf das Signal auswirkt, das schließlich in einem Decodierer, der das spitzenwertverbreiterte Signal liest, synthetisiert wird, und daher müsste ein anderes Restsignal r(n) in dem Codierer 14' errechnet werden, wenn eine Spitzenwertverbreiterung angewendet wurde.
  • So wird in der zweiten Ausführungsform einer Entquantisiererkomponente 34, wie in 2(b), das quantisierte Signal, das durch die Komponente 28 erzeugt wurde, zugeführt, um die Koeffizienten d1...k exakt so zu erzeugen, wie sie in dem Decodierer erzeugt werden würden. Diese werden wiederum durch die Komponenten 36 und 24 entnormalisiert bzw. umkehrtransformiert, wieder entsprechend den Komponenten von 2(b), um einen Satz Prädiktionskoeffizienten α zu erzeugen, wie er in dem De codierer für das spitzenwertverbreiterte Signal erzeugt werden würde. Der Synthetisierer 18 verwendet dann entweder die Prädiktionskoeffizienten α oder α, je nachdem, ob eine Spitzenwertverbreiterung angewendet wurde oder nicht, und subtrahiert dies von dem Signal x(n), um das Restsignal r(n) zu erzeugen.
  • Q Es ist zu sehen, dass, wenn die Koeffizienten c ~0...c ~k oder c 0...c k direkt der Umkehrtransformationskomponente 24 zugeleitet werden würden, nicht die gleichen Prädiktionskoeffizienten α, wie oben beschrieben, erzeugt werden würden. Ungeachtet dessen würden dadurch die Komponenten 34 und 36 in dem Codierer überflüssig werden, und dies kann dort akzeptabel sein, wo ein Codierer Rechenleistungsgrenzen unterworfen ist.
  • Wenn ein Bitstrom, auf den eine solche Spitzenwertverbreiterung angewendet wurde, decodiert wird, so sind die resultierenden Prädiktionskoeffizienten α die Koeffizienten eines spektralspitzenwertverbreiterten Laguerre-Prädiktionsfilters, wo eine Spitzenwertverbreiterung in einem frequenzverschobenen Bereich ausgeführt wurde. Dies bedeutet, dass der Codierer praktisch eine Spitzenwertverbreiterung in einem psychoakustisch relevanten Maßstab ausführt, und ermöglicht es außerdem, dass die Spitzenwertverbreiterungsfunktion, zum Beispiel wk, auf der Grundlage ihrer psycho-akustischen Funktion ausgewählt wird.
  • Es ist zu sehen, dass in Varianten der zweiten Ausführungsform die Spitzenwertverbreiterung auf die Koeffizienten d1...k anstelle der Koeffizienten c0...k angewendet werden könnte, wobei die entsprechenden Änderungen für die Erzeugung des Restsignals erforderlich sind.
  • Wie oben erläutert, ist es wünschenswert, dafür zu sorgen, dass die Prädiktionskoeffizienten, die in dem Codierer verwendet werden, die gleichen sind wie jene, die in dem Decodierer verwendet werden, um die endgültige Schätzung des ursprünglichen Audiosignals zu erzeugen. 5 zeigt eine allgemeinere Form des Codierers 14'', welche die Codierer der ersten und der zweiten Ausführungsform umfasst. In diesem Codierer werden die Schritte des Transformierens, Normalisierens, Quantisierens und optional des Spitzenwertverbreiterns wie zuvor durch die Komponenten 20, 26', 28 bzw. 38/38' ausgeführt. (In 5 zeigen die Komponenten 38/38' an, dass die Spitzenwertverbreiterung entweder vor (38) oder nach (38') der Normalisierung erfolgen kann.)
  • Bei der allgemeinen Form des Codierers jedoch wird das quantisierte Signal durch die Entquantisierungs-, die Entnormalisierungs- und die Umkehrtransformations komponenten 34, 36 bzw. 24 geführt, wie bei der zweiten Ausführungsform, um zu gewährleisten, dass die Prädiktionskoeffizienten, die durch den Codierer verwendet werden, um das Restsignal zu erzeugen, exakt die gleichen sind wie jene, die in dem Decodierer verwendet werden.
  • Aus 5 ist ebenfalls zu erkennen, dass die Erfindung nicht darauf beschränkt ist, ein Restsignal r(n) durch Synthetisieren des Signals x ~(n) zu erzeugen und dies von dem Signal x(n) zu subtrahieren, wie bei den ersten beiden Ausführungsformen. Dieser Aspekt der Erfindung kann allgemeiner dahingehend ausgelegt werden, dass ein Codierer 18'' enthalten ist, der idealerweise die Prädiktionskoeffizienten, die in dem Decodierer verwendet werden, und den Frequenzsensibilisierungsparameter λ verwendet, um eine Anzeige b der Differenz zwischen dem modellierten Aspekt des Signals x ~(n) und dem eigentlichen Signal x(n) zu erzeugen.
  • In dem (nicht gezeigten) Decodierer kombiniert eine entsprechende Komponente diese Anzeige b mit den Prädiktionskoeffizienten und dem Frequenzsensibilisierungsparameter λ, um die endgültige Schätzung des ursprünglichen Audiosignals zu erzeugen.
  • 6 zeigt ein Audiosystem gemäß der Erfindung, das einen Audiocodierer 1, der den Codierer 14, 14', wie in 3(a) oder 4 gezeigt, enthält, und eine Audiowiedergabevorrichtung 2 umfasst, die den Decodierer 22 enthält, wie in 3(b) gezeigt. Der codierte Audiostrom 50 wird vom Audiocodierer über einen Kommunikationskanal 3, bei dem es sich um eine Drahtlosverbindung, einen Datenbus oder ein Speichermedium handeln kann, zur Audiowiedergabevorrichtung geleitet. Falls es sich bei dem Kommunikationskanal 3 um ein Speichermedium handelt, so kann das Speichermedium fest im System integriert sein, oder es kann sich um eine Wechseldatenspeicherdiskette, eine Halbleiterspeichervorrichtung, wie beispielsweise einen Memory StickTM von der Sony Corporation, usw. handeln. Der Kommunikationskanal 3 kann ein Teil des Audiosystems sein, aber man wird ihn häufig außerhalb des Audiosystems finden.
  • Es ist zu beachten, dass die oben beschriebenen Ausführungsformen die Erfindung nicht einschränken, sondern veranschaulichen, und dass ein Fachmann in der Lage sein wird, viele alternative Ausführungsformen zu ersinnen, ohne den Geltungsbereich der angehängten Ansprüche zu verlassen. In den Ansprüchen sind in Klammern gesetzte Bezugszeichen nicht so zu verstehen, als würden sie den Anspruch einschränken. Das Wort "umfassen" schließt nicht das Vorhandensein anderer Elemente oder Schritte neben jenen aus, die in dem Anspruch angeführt sind. Die Erfindung kann mittels Hardware, die verschiedene voneinander unterscheidbare Elemente umfasst, und mittels eines in geeigneter Weise programmierten Computers implementiert werden. In einem eine Vorrichtung betreffenden Anspruch, der verschiedene Mittel aufzählt, können mehrere dieser Mittel durch ein und dieselbe Hardwarekomponente verkörpert sein. Die bloße Tatsache, dass bestimmte Maßangaben in voneinander verschiedenen abhängigen Ansprüchen genannt sind, bedeutet nicht, dass nicht auch eine Kombination dieser Maßangaben nutzbringend verwendet werden kann.
  • 3a
  • 16
    Laguerre-Modellierung
    18
    Synthetisieren
    20
    Transformieren
    26
    Normalisieren
    28
    Quantisieren
    30
    Multiplexen
  • 3b
  • 18'
    Synthetisieren
    24
    Umkehrtransformieren
    36
    Entnormalisieren
    34
    Entquantisieren
    32
    Demultiplexen
  • 4
  • 16
    Laguerre-Modellierung
    18
    Synthetisieren
    20
    Transformieren
    24
    Umkehrtransformieren
    36
    Entnormalisieren
    34
    Entquantisieren
    26'
    Normalisieren
    28
    Quantisieren
    30
    Multiplexen
    38
    Spitzenwertverbreiterung
  • 5
  • 16
    Laguerre-Modellierung
    18''
    Codieren
    20
    Transformieren
    24
    Umkehrtransformieren
    38
    Spitzenwertverbreiterung
    26'
    Normalisieren
    38'
    Spitzenwertverbreiterung
    36
    Entnormalisieren
    28
    Quantisieren
    34
    Entquantisieren
    30
    Multiplexen

Claims (14)

  1. Verfahren zum Codieren eines Audiosignals, wobei das Verfahren folgende Schritte umfasst: Modellieren des Audiosignals entsprechend einem Frequenzsensibilisierungsparameter, um einen ersten Satz Eigenschaften einer Ordnung K vom Typ eines infiniten Impulsreaktions-Filters zu erzeugen, die linear mit dem Sensibilisierungsparameter kombiniert werden können, um eine Schätzung für das Audiosignal zu erhalten, Transformieren des ersten oder eines dritten Satzes Eigenschaften als eine Funktion des Sensibilisierungsparameters, um einen zweiten Satz Eigenschaften zu erhalten, die mit Eigenschaften vom Typ eines finiten Impulsreaktions-Filters kompatibel sind, Normalisieren des zweiten bzw. des ersten Satzes Eigenschaften, um den dritten Satz Eigenschaften zu erhalten, und Erzeugen eines codierten Audiostromes, der Darstellungen eines transformierten und normalisierten Satzes Eigenschaften der Ordnung K enthält.
  2. Verfahren nach Anspruch 1, wobei die Filtereigenschaften vom Typ eines IIR-Filters die Anforderungen eines Minimumphasenfilters erfüllen und die Eigenschaften vom Typ eines FIR-Filters die Anforderungen eines Minimumphasenfilters erfüllen.
  3. Verfahren nach Anspruch 1, das des Weiteren folgenden Schritt umfasst: Subtrahieren der Schätzung von dem Audiosignal, um ein Restsignal zu erhalten, und wobei der Schritt des Erzeugens das Aufnehmen des Restsignals in den codierten Audiostrom enthält.
  4. Verfahren nach Anspruch 1, wobei der Schritt des Modellierens das Modellieren des Audiosignals mit einem Filter vom Laguerre-Typ umfasst, der folgende Übertragungsfunktion hat:
    Figure 00150001
  5. Verfahren nach Anspruch 4, wobei der Schritt des Transformierens das Transformieren der Laguerre-Filter-Koeffizienten gemäß folgender Matrixtransformation umfasst:
    Figure 00150002
  6. Verfahren nach Anspruch 5, wobei der Schritt des Normalisierens umfasst, den zweiten Satz Eigenschaften der Ordnung K + 1 durch eine des zweiten Satzes Eigenschaften zu teilen und den übrigen Teil des geteilten Satzes Eigenschaften als den dritten Satz Eigenschaften der Ordnung K bereitzustellen.
  7. Verfahren nach Anspruch 1, wobei der Schritt des Erzeugens den Frequenzsensibilisierungsparameter in dem Bitstrom enthält.
  8. Verfahren nach Anspruch 1, das des Weiteren den Schritt der Spitzenwertverbreiterung des Satzes Eigenschaften der Ordnung K + 1 umfasst.
  9. Verfahren zum Decodieren eines Audiostroms, wobei das Verfahren folgende Schritte umfasst: Lesen eines codierten Audiostroms, der Darstellungen eines Audiosignals enthält, um einen ersten Satz Eigenschaften einer Ordnung K bereitzustellen, die mit Eigenschaften vom Typ eines finiten Impulsreaktions-Filters kompatibel sind, Kombinieren des ersten Satzes Eigenschaften der Ordnung K mit einem Frequenzsensibilisierungsparameter, um eine Entnormalisierungseigenschaft zu erhalten, Entnormalisieren des ersten oder eines dritten Satzes Eigenschaften vom Typ eines infiniten Impulsreaktions-Filters als eine Funktion der Entnormalisierungseigenschaft, um einen zweiten Satz Eigenschaften zu erhalten, Transformieren des zweiten bzw. des ersten Satzes Eigenschaften als eine Funktion des Sensibilisierungsparameters, um den dritten Satz Eigenschaften zu erhalten, und Synthetisieren des Audiosignals als eine lineare Kombination des Frequenzsensibilisierungsparameters und eines Satzes entnormalisierter und transformierter Eigenschaften der Ordnung K.
  10. Audiocodierer, umfassend: Mittel zum Modellieren eines Audiosignals entsprechend einem Frequenzsensibilisierungsparameter, um einen ersten Satz Eigenschaften einer Ordnung K vom Typ eines infiniten Impulsreaktions-Filters zu erhalten, die linear mit dem Sensibilisierungsparameter kombiniert werden können, um eine Schätzung für das Audiosignal zu erhalten, Mittel zum Transformieren des ersten oder eines dritten Satzes Eigenschaften als eine Funktion des Sensibilisierungsparameters, um einen zweiten Satz Eigenschaften zu erhalten, die mit Eigenschaften vom Typ eines finiten Impulsreaktions-Filters kompatibel sind, Mittel zum Normalisieren des zweiten bzw. des ersten Satzes Eigenschaften, um den dritten Satz Eigenschaften zu erhalten, und Mittel zum Erzeugen eines codierten Audiostroms, der Darstellungen eines transformierten und normalisierten Satzes Eigenschaften der Ordnung K enthält.
  11. Audiowiedergabevorrichtung, umfassend: Mittel zum Lesen eines codierten Audiostroms, der Darstellungen eines Audiosignals enthält, um einen ersten Satz Eigenschaften einer Ordnung K zu erhalten, die mit Eigenschaften vom Typ eines finiten Impulsreaktions-Filters kompatibel sind, Mittel zum Kombinieren des ersten Satzes Eigenschaften der Ordnung K mit einem Frequenzsensibilisierungsparameter, um eine Entnormalisierungseigenschaft zu erhalten, Mittel zum Entnormalisieren des ersten oder eines dritten Satzes Eigenschaften vom Typ eines infiniten Impulsreaktions-Filters als eine Funktion der Entnormalisierungseigenschaft, um einen zweiten Satz Eigenschaften zu erhalten, Mittel zum Transformieren des zweiten bzw. des ersten Satzes Eigenschaften als eine Funktion des Sensibilisierungsparameters, um den dritten Satz Eigenschaften zu erhalten, und Mittel zum Synthetisieren des Audiosignals als eine lineare Kombination des Frequenzsensibilisierungsparameters und eines Satzes entnormalisierter und transformierter Eigenschaften der Ordnung K.
  12. Audiosystem, das einen Audiocodierer nach Anspruch 10 und eine Audiowiedergabevorrichtung nach Anspruch 11 umfasst.
  13. Audiostrom, der Darstellungen eines Audiosignals umfasst, das einem Satz Eigenschaften einer Ordnung K entspricht, wobei der Satz Eigenschaften der Ordnung K mit einem Frequenzsensibilisierungsparameter zu einem Satz Eigenschaften der Ordnung K + 1 kombiniert werden kann, die mit Eigenschaften vom Typ eines finiten Impulsreaktions-Filters kompatibel sind, wobei der Satz Eigenschaften der Ordnung K + 1 als eine Funktion des Sensibilisierungsparameters transformiert werden kann, um einen Satz Eigenschaften der Ordnung K vom Typ eines infiniten Impulsreaktions-Filters zu erhalten.
  14. Speichermedium, auf dem ein Audiostrom nach Anspruch 13 gespeichert ist.
DE60307634T 2002-05-30 2003-05-16 Audiocodierung Expired - Lifetime DE60307634T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP02077128 2002-05-30
EP02077128 2002-05-30
PCT/IB2003/002044 WO2003102922A1 (en) 2002-05-30 2003-05-16 Audio coding

Publications (2)

Publication Number Publication Date
DE60307634D1 DE60307634D1 (de) 2006-09-28
DE60307634T2 true DE60307634T2 (de) 2007-08-09

Family

ID=29595018

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60307634T Expired - Lifetime DE60307634T2 (de) 2002-05-30 2003-05-16 Audiocodierung

Country Status (9)

Country Link
US (1) US20050228656A1 (de)
EP (1) EP1514262B1 (de)
JP (1) JP4446883B2 (de)
KR (1) KR101038446B1 (de)
CN (1) CN100343895C (de)
AT (1) ATE336781T1 (de)
AU (1) AU2003230132A1 (de)
DE (1) DE60307634T2 (de)
WO (1) WO2003102922A1 (de)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0609897A2 (pt) * 2005-05-25 2011-10-11 Koninkl Philips Electronics Nv codificador, decodificador, método para codificação de um sinal de multicanal, sinal de multicanal codificado, produto programa de computador, transmissor, receptor, sistema de transmissão, métodos de transmissão e de recebimento de um sinal de multicanal, dispositivos de registro e de reprodução de áudio, e, meio de armazenamento
DE102006022346B4 (de) * 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
TWI538000B (zh) 2012-05-10 2016-06-11 杜比實驗室特許公司 多階段過濾器,音頻編碼器,音頻解碼器,施行多階段過濾的方法,用以編碼音頻資料的方法,用以將編碼音頻資料解碼的方法,及用以處理編碼位元流的方法和裝置
CN104737463B (zh) * 2012-06-18 2018-03-16 瑞典爱立信有限公司 Mimo接收器中的预滤波
US9548056B2 (en) * 2012-12-19 2017-01-17 Dolby International Ab Signal adaptive FIR/IIR predictors for minimizing entropy
KR101832368B1 (ko) * 2014-01-24 2018-02-26 니폰 덴신 덴와 가부시끼가이샤 선형 예측 분석 장치, 방법, 프로그램 및 기록 매체
CN109188069B (zh) * 2018-08-29 2020-08-28 广东石油化工学院 一种用于负载开关事件检测的脉冲噪声滤除方法
CN118136042B (zh) * 2024-05-10 2024-07-23 四川湖山电器股份有限公司 基于iir频谱拟合的频谱优化方法、系统、终端及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4493048A (en) * 1982-02-26 1985-01-08 Carnegie-Mellon University Systolic array apparatuses for matrix computations
US7423983B1 (en) * 1999-09-20 2008-09-09 Broadcom Corporation Voice and data exchange over a packet based network
JP2001134295A (ja) * 1999-08-23 2001-05-18 Sony Corp 符号化装置および符号化方法、記録装置および記録方法、送信装置および送信方法、復号化装置および符号化方法、再生装置および再生方法、並びに記録媒体
US6931373B1 (en) * 2001-02-13 2005-08-16 Hughes Electronics Corporation Prototype waveform phase modeling for a frequency domain interpolative speech codec system

Also Published As

Publication number Publication date
JP2005528646A (ja) 2005-09-22
KR20050007574A (ko) 2005-01-19
WO2003102922A1 (en) 2003-12-11
CN100343895C (zh) 2007-10-17
ATE336781T1 (de) 2006-09-15
DE60307634D1 (de) 2006-09-28
EP1514262B1 (de) 2006-08-16
JP4446883B2 (ja) 2010-04-07
KR101038446B1 (ko) 2011-06-01
CN1656537A (zh) 2005-08-17
AU2003230132A1 (en) 2003-12-19
EP1514262A1 (de) 2005-03-16
US20050228656A1 (en) 2005-10-13

Similar Documents

Publication Publication Date Title
DE19811039B4 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
DE69518452T2 (de) Verfahren für die Transformationskodierung akustischer Signale
DE69608947T2 (de) Verfahren zur Analyse eines Audiofrequenzsignals durch lineare Prädiktion, und Anwendung auf ein Verfahren zur Kodierung und Dekodierung eines Audiofrequenzsignals
DE69604526T2 (de) Verfahren zur Anpassung des Rauschmaskierungspegels in einem Analyse-durch-Synthese-Sprachkodierer mit einem wahrnehmunggebundenen Kurzzeitfilter
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE69521164T2 (de) System zum Kodieren und Dekodieren von Signalen
DE69737489T2 (de) Formung des erkennbaren Rauschsignals in der Zeitdomäne mittels LPC-Voraussage im Frequenzraum
DE69522979T2 (de) Erzeugung von linearen Prädiktionskoeffizienten bei Ausfall von Datenrahmen oder Verlust von Datenpaketen
EP2022043B1 (de) Informationssignalcodierung
DE69015613T2 (de) Transformationscodierer, -decodierer und -codierer/decodierer mit kurzer zeitverzögerung für audio-anwendungen hoher qualität.
DE4492048C2 (de) Vektorquantisierungs-Verfahren
DE60202881T2 (de) Wiederherstellung von hochfrequenzkomponenten
DE60110679T3 (de) Perzeptuelle Kodierung von Audiosignalen unter Verwendung von getrennter Reduzierung von Irrelevanz und Redundanz
DE69619054T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE69429499T2 (de) Verfahren und vorrichtung zum kodieren oder dekodieren von signalen und aufzeichnungsmedium
EP1495464B1 (de) Vorrichtung und verfahren zum codieren eines zeitdiskreten audiosignals und vorrichtung und verfahren zum decodieren von codierten audiodaten
DE69609099T2 (de) Verfahren zur Modifikation von LPC-Koeffizienten von akustischen Signalen
DE602004006211T2 (de) Verfahren zur Maskierung von Paketverlusten und/oder Rahmenausfall in einem Kommunikationssystem
DE60222692T2 (de) Vorwärtskopplungsprädiktion von skalierungsfaktoren auf der basis zulässiger verzerrungen für die rauschformung bei der komprimierung auf psychoakustischer basis
DE69426860T2 (de) Sprachcodierer und Verfahren zum Suchen von Codebüchern
DE102006051673A1 (de) Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
EP1397799B1 (de) Verfahren und vorrichtung zum verarbeiten von zeitdiskreten audio-abtastwerten
DE4320990A1 (de) Verfahren zur Redundanzreduktion
DE69708191T2 (de) Vorrichtung zur Signalkodierung
DE69420683T2 (de) Kodierer für Sprachparameter

Legal Events

Date Code Title Description
8364 No opposition during term of opposition