DE60110679T3 - Perzeptuelle Kodierung von Audiosignalen unter Verwendung von getrennter Reduzierung von Irrelevanz und Redundanz - Google Patents

Perzeptuelle Kodierung von Audiosignalen unter Verwendung von getrennter Reduzierung von Irrelevanz und Redundanz Download PDF

Info

Publication number
DE60110679T3
DE60110679T3 DE60110679.2T DE60110679T DE60110679T3 DE 60110679 T3 DE60110679 T3 DE 60110679T3 DE 60110679 T DE60110679 T DE 60110679T DE 60110679 T3 DE60110679 T3 DE 60110679T3
Authority
DE
Germany
Prior art keywords
filter
reduction
signal
encoding
spectral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60110679.2T
Other languages
English (en)
Other versions
DE60110679T2 (de
DE60110679D1 (de
Inventor
Bernd Andreas Edler
Gerald Dietrich Schuller
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agere Systems LLC
Original Assignee
Agere Systems LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=24344191&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE60110679(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Agere Systems LLC filed Critical Agere Systems LLC
Application granted granted Critical
Publication of DE60110679D1 publication Critical patent/DE60110679D1/de
Publication of DE60110679T2 publication Critical patent/DE60110679T2/de
Publication of DE60110679T3 publication Critical patent/DE60110679T3/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft allgemein Audiocodiermethoden und insbesondere die wahrnehmungsbasierte Codierung von Audiosignalen, beispielsweise von Sprach- und Musiksignalen.
  • Hintergrund der Erfindung
  • Wahrnehmungs-Audiocodierer (PAC; Perceptual Audio Coders) versuchen, die Bitratenanforderung zur Speicherung oder Übertragung (oder von beiden) digitaler Audiodaten zu minimieren durch Anwenden hochentwickelter Hörmodelle und Signalverarbeitungsmethoden. Wahrnehmungs-Audiocodierer (PAC) sind beispielsweise beschrieben D. Sinha et al „The Perceptual Audio Coder“, Digital Audio, Section 42, 42-1 bis 42-18 (CRC Press1998), hier durch Bezugnahme inkorporiert. Bei nicht vorhandenden Kanalfehlern kann die PAC nahezu die Audioqualität einer Stereo-Kompakt-Disk (CD) bei einer Rate von etwa 128 kbps erreichen. Bei einer geringeren Rate von 96 kbps entspricht die erhaltene Qualität immer noch fast derjenigen einer Audio-CD für viele wichtige Typen von Audiomaterial.
  • Wahrnehmungs-Audiocodierer reduzieren die Informationsmenge, die benötigt wird, um ein Audiosignal darzustellen, indem die menschliche Wahrnehmung ausgenutzt und die wahrgenommene Verzerrung für eine gegebene Bitrate minimiert wird. Wahrnehmungs-Audiocodierer wenden zunächst eine Zeit-Frequenz-Umformung an, die zu einer kompakten Darstellung führt, gefolgt von einer Quantisierung der Spektralkoeffizienten. 1 ist ein schematisches Blockdiagramm eines herkömmlichen Wahrnehmungs-Audiocodierers 100. Wie in 1 gezeigt ist, enthält ein typischer Wahrnehmungs-Audiocodierer 100 eine Analysefilterbank 110, ein Wahrnehmungsmodell 120, einen Quantisier- und Codierblock 130 und einen Bitstrom-Codierer/Multiplexer 140.
  • Die Analysefilterbank 110 wandelt die Eingangsproben um in eine unterabgetastete Spektraldarstellung. Das Wahrnehmungsmodell 120 führt eine Abschätzung des maskierten Schwellenwerts des Signals durch. Für jeden Spektralkoeffizienten liefert der maskierte Schwellenwert einen maximalen Codierfehler, der in das Audiosignaleingeführt werden kann, so dass dieses immer noch eine für die Wahrnehmung transparente Signalqualität beibehält. Der Quantisier- und Codierblock 130 quantisiert und codiert die Vorfilter-Ausgangsproben gemäß der Präzision, die der maskierten Schwellenwertabschätzung entspricht. Damit wird das Quantisierungsrauschen durch das betreffende gesendete Signal verborgen. Schließlich werden die codierten Vorfilter-Ausgangsproben sowie zusätzliche Nebeninformationen in einen Bitstrom gepackt und dem Decodierer über einen Bitstrom-Codierer/Multiplexer zugeleitet.
  • 2 ist ein schematisches Blockdiagramm eines konventionellen Wahrnehmungs-Audiodecodierers 200. Wie in 2 gezeigt ist, enthält der Wahrnehmungs-Audiodecodierer 200 einen Bitstrom-Decodierer/Demultiplexer 210, einen Decodier- und Invers-Quantisierblock 220 sowie eine SyntheseFilterbank 230. Der Bitstrom-Decodier/Demultiplexer 210 analysiert und decodiert den Bitstrom, was codierte Vorfilter-Ausgangsproben und Nebeninformation liefert. Der Decodier- und Invers-Quantisierblock 220 führt eine Decodierung und eine inverse Quantisierung der quantisierten Vorfilter-Ausgangsproben durch. Die Synthesen-Filterbank 230 transformiert die Vorfilter-Ausgangsproben zurück in den Zeitbereich.
  • Grundsätzlich wird die Informationsmenge, die zum Darstellen eines Audiosignals benötigt wird, mit Hilfe zweier bekannter Methoden reduziert, nämlich der Irrelevanzreduktion und der Redundanzbeseitigung. Methoden der Irrelevanzreduktion versuchen, solche Teile des Audiosignals zu beseitigen, die nach dem Codieren für die Wahrnehmung eines Zuhörers ohne Bedeutung sind. Dieses allgemeine Konzept ist z.B. in dem US-Patent 5 341 457 mit dem Titel “Perceptual Coding of Audio Signals"von J. L. Hall und J. D. Johnston beschrieben, erteilt am 23. August 1994, hier durch Bezugnahme inkorporiert.
  • Derzeit verwenden die meisten Audiotransformations-Codierschemata, die mit der Analysefilterbank 110 zum Umwandeln der Eingangsproben in eine unterabgetastete Spektraldarstellung implementiert sind, eine einzige Spektralzerlegung sowohl für die Irrelevanzreduktion als auch die Redundanzreduktion. Die Redundanzreduktion wird erhalten durch dynamisches Steuern der Quantisierer in dem Quantisier- und Codierblock 130 für individuelle spektrale Komponenten gemäß den Wahrnehmungskriterien, die in dem psychoakkustischen Modell 120 enthalten sind. Dies führt zu einem vorübergehenden und spektralförmigen Quantisierungsfehler nach der inversen Transformation im Empfänger 200. Wie in 1 und 2 gezeigt ist, steuert das psychoakkustische Modell 120 die Quantisierer 130 für die Spektralkomponenten und den entsprechenden Dequantisierer 220 innerhalb des Decodierers 200. Damit muss die dynamische Quantisierer-Steuerinformation von dem Wahrnehmungs-Audiocodierer 100 als Teil der Nebeninformation zusätzlich zu den quantisierten Spektralkomponenten übertragen werden.
  • Die Redundanzreduktion basiert auf der Dekorrelationseigenschaft der Transformation. Bei Audiosignalen mit starker temporaler Korrelation führt diese Eigenschaft zu einer Konzentration der Signalenergie in einer relativ geringen Anzahl von Spektralkomponenten und verringert damit die zu übertragende Informationsmenge. Durch Anwenden geeigneter Codiermethoden, beispielsweise der adaptiven Huffmancodierung, führt dies zu einer äußerst effizienten Signaldarstellung.
  • Ein Problem bei Audiotransformations-Codierschemata ist die Auswahl der optimalen Transformationslänge. Die optimale Transformationslänge steht direkt in Beziehung zu der Frequenzauflösung. Für relativ stationäre Signale ist eine lange Transformation mit hoher Frequenzauflösung wünschenswert, so dass ein genaue Formung des Quantisierfehlerspektrums sowie eine starke Redundanzreduktion erreicht wird. Für Transienten in dem Audiosignal hat allerdings eine kürzere Transformation Vorteile aufgrund ihrer höheren temporalen Auflösung. Dies ist vornehmlich notwendig, um eine temporale Spreizung der Quantisierfehler zu vermeiden, die möglicherweise zu Echos in dem dekodierten Signal führen.
  • Wie allerdings in 1 gezeigt ist, machen herkömmliche Wahrnehmungs-Audiocodierer 100 typischerweise Gebrauch von einer einzelnen Spektralzerlegung sowohl für die Irrelevanzreduktion als auch die Redundanzreduktion. Damit müssen die spektrale/temporale Auflösung für die Redundanzreduktion und die Irrelevanzreduktion gleich sein. Während eine hohe Spektralauflösung ein hohes Maß an Redundanzreduktion liefert, führt die resultierende lange Transformationsfenstergröße zu Wortumbildungs-Artefakten, was die Irrelevanzreduktion beeinträchtigt. Es besteht folglich Bedarf an Verfahren und Vorrichtungen zum Codieren von Audiosignalen, die eine unabhängige Auswahl von Spektral- und Temporalauflösungen für die Redundanzreduktion und die Irrelevanzreduktion ermöglichen. Weiterhin besteht Bedarf an Verfahren und Vorrichtungen zum Codieren von Sprache sowie von Musiksignalen unter Verwendung eines psychoakkustischen Modells (eines Rauschformfilters) sowie einer Transformation.
  • Zusammenfassung der Erfindung
  • Die Erfindung stellt ein Verfahren zum Codieren eines Signals gemäß Anspruch 1 bereit. Die Erfindung stellt ferner ein Verfahren zum Codieren eines Signals gemäß Anspruch 6 bereit. Die Erfindung stellt auch einen Codierer gemäß Anspruch 13 bereit. Die Erfindung stellt ferner einen Codierer gemäß Anspruch 14 bereit.
  • Grundsätzlich wird ein Wahrnehmungs-Audiocodierer zum Codieren von Audiosignalen, beispielsweise Sprache oder Musik, mit unterschiedlichen spektralen und temporalen Auflösungen für die Redundanzreduktion und die Irrelevanzreduktion offenbart. Der hier offenbarte Wahrnehmungs-Audiocodierer separiert das psychoakkustische Modell (Irrelevanzreduktion) von der Redundanzreduktion bis zum möglichen Ausmaß. Das Audiosignal wird zunächst einer Spektralformung mit Hilfe eines Vorfilters unterzogen, welches von einem psychoakkustischen Modell gesteuert wird. Die Vorfilter-Ausgangsprobenwerden anschließend zum Minimieren des mittleren quadratischen Fehlers (MSE) über dem Spektrum quantisiert und codiert.
  • Gemäß einer beschriebenen Anordnung verwendet der offenbarte Wahrnehmungs-Audiocodierer fixe Quantisierstufengrößen, da die spektrale Formung mit Hilfe des Vorfilters vor der Quantisierung und Codierung ausgeführt wird. Damit braucht zu dem Decoder keine zusätzliche Quantisiersteuerinformation übertragen zu werden, was eine Einsparung an gesendeten Bits ermöglicht.
  • Das offenbarte Vorfilter und das dazugehörige Postfilter innerhalb des Wahrnehmungs-Audiodecodierers unterstützen die passende frequenzabhängige temporale und spektrale Auflösung für die Irrelevanzreduktion. Eine Filterstruktur, die auf einer Frequenzverzerrungsmethode basiert, ermöglicht den Filterentwurf basierend auf einer nicht linearen Frequenzskala.
  • Die Kennwerte des Vorfilters können angepasst werden an die maskierten Schwellenwerte (wie sie von dem psychoakkustischen Modell generiert werden), wobei mit bekannten Methoden aus der Sprachcodierung gearbeitet wird und lineare Vorhersagekoeffizienten (Linear-Vorhersage-Koeffizienten; Linear-Predicitive Coefficient) als Filterparameter dazu eingesetzt werden, die spektrale Füllkurve der Sprachsignale zu modellieren. In ähnlicher Weise können die Filterkoeffizienten in effizienter Weise unter Verwendung des Postfilters unter Einsatz bekannter Methoden aus der Sprachcodierer zu dem Decodiererübertragen werden, beispielsweise mit Hilfe einer Linienspektralpaare-Darstellung (Linienspektralpaare; Line Spectral Pairs), der temporalen Interpolation oder der vektralen Quantisierung.
  • Ein umfassenderes Verständnis der Erfindung sowie ein Verständnis weiterer Merkmale und Vorteile der vorliegenden Erfindung lassen sich durch Bezugnahme auf die folgende detaillierte Beschreibung und die Zeichnungen gewinnen.
  • Figurenliste
    • 1 ist ein schematisches Blockdiagramm eines herkömmlichen Wahrnehmungs-Audiocodierers;
    • 2 ist ein schematisches Blockdiagramm eines herkömmlichen Wahrnehmungs-Audiodecodierers entsprechend dem in 1 gezeigten Wahrnehmungs-Audiocodierer;
    • 3 ist ein schematisches Blockdiagramm eines Wahrnehmungs-Audiocodierers gemäß der Erfindung mit entsprechendem Wahrnehmungs-Audiodecodierer;
    • 4 zeigt einen nicht rekursiven Vorhersager der Ordnung P und den entsprechenden rekursiven Vorhersager;
    • 5 veranschaulicht einen Allpassfilter erster Ordnung; und
    • 6 ist ein schematisches Diagramm eines nicht rekursiven Filters und des entsprechenden rekursiven Filters mit einer Frequenzverzerrung gemäß einer Ausführungsform der Erfindung.
  • Detaillierte Beschreibung
  • 3 ist ein schematisches Blockdiagramm eines Wahrnehmungs-Audiocodierers 300 gemäß der Erfindung mit dazugehörigem Wahrnehmungs-Audiodecodierer 350 zum Übertragen eines Audiosignals, beispielsweise Sprache oder Musik. Während die vorliegende Erfindung unter Zuhilfenahme von Audiosignalen veranschaulicht wird, sei angemerkt, dass die Erfindung auch auf die Codierung anderer Signale angewendet werden kann, beispielsweise für die zeitliche, die spektrale und die räumliche Empfindlichkeit des menschlichen Sehapparats, wie dies dem Fachmann durch die vorliegende Offenbarung verdeutlicht wird.
  • Gemäß einem Merkmal der vorliegenden Erfindung trennt der Wahrnehmungs-Audiocodierer 300 das psychoakkustische Modell (Irrelevanzreduktion) in größtmöglichem Ausmaß von der Redundanzreduktion. Damit führt der Wahrnehmungs-Audiocodierer 300 zunächst eine Spektralformung des Audiosignals unter Einsatz eines Vorfilters 310 durch, welches von einem psychoakkustischen Modell 315 gesteuert wird. Bezüglich einer detaillierten Diskussion geeigneter psychoakkustischer Modelle sei beispielsweise verwiesen auf D. Sinha et al.; „The Perceptual Audio Coder“, Digital Audio, Section 42, 42-1 bis 42-18 (CRC Press 1998), hier durch Bezugnahme inkorporiert. In ähnlicher Weise invertiert innerhalb des Wahrnehmungs-Audiodecodierers 350 ein von dem psychoakkustischen Modell 315 gesteuertes Nachfilter 318 den Effekt des Vorfilters 310. Wie in 3 gezeigt ist, muss die Filter-Steuerinformation innerhalb der Nebeninformation zusätzlich zu den quantisierten Proben übertragen werden.
  • Quantisierer/Codierer
  • Die Vorfilter-Ausgangsproben werden in der Stufe 320 quantisiert und codiert. Wie weiter unten diskutiert wird, erfolgt die Redundanzreduktion durch den Quantisierer/Codierer 320 und minimiert das mittlere Fehlerquadrat über dem Spektrum.
  • Da das Vorfilter 310 eine spektrale Formung vor dem Quantisieren und Codieren vornimmt, kann der Quantisierer/Codierer 320 feste Quantisierstufengrößen verwenden. Damit braucht eine zusätzliche QuantisierSteuerinformation, beispielsweiseindividuelle Skalenfaktoren für unterschiedliche Bereiche des Spektrums, nicht an den Wahrnehmungs-Audiodecodierer 350 übertragen zu werden.
  • Die Quantisierer/Codiererstufe 320 kann von bekannten Codiermethoden Gebrauch machen, beispielsweise dem adaptiven Huffmancode. Wenn ein Transformations-Codierschema von dem Quantisierer/Codierer 320 auf das vorgefilterte Signal angewendet wird, lassen sich die spektrale und die zeitliche Auflösung zur Erzielung einer maximalen Codierverstärkung unter dem Kriterium des mittleren Fehlerquadrats voll optimieren. Wie unten diskutiert wird, erfolgt die Wahrnehmungs-Rauschformung durch das Nachfilter 380. Unter der Annahme, dass die durch die Quantisierung eingeführten Verzerrungen additives weißes Rauschen sind, wird die zeitliche und spektrale Struktur des Rauschens am Ausgang des Dekodierers 350 vollständig durch die Kennwerte des Nachfilters 380 bestimmt. Es sei angemerkt, dass die Quantisier-/Codier-Stufe 320 eine Filterbank wie z.B. die Analysefilterbank 110 nach 1 enthalten kann. In ähnlicher Weise kann die Decodier-/Dequantisier-Stufe 360 eine Filterbank enthalten, so z.B. die Synthesefilterbank 230 nach 2.
  • Auf psychoakkustischem Modell basierendes Vorfilter/Nachfilter
  • Eine Implementierung des Vorfilters 310 und des Nachfilters 380 wird weiter unten im Abschnitt mit dem Titel „Aufbau des Vorfilters und des Nachfilters“ diskutiert. Wie unten ausgeführt ist, ist es vorteilhaft, wenn die Struktur des Vorfilters 310 und des Nachfilters 380 auch die passende frequenzabhängige zeitliche und spektrale Auflösung besitzt. Deshalb wird eine auf der Frequenzverzerrungsmethode basierende Filterstruktur verwendet, die einen Filterentwurf im nicht-linearen Frequenzmaßstab ermöglicht.
  • Zur Anwendung der Frequenzverzerrungsmethode („Frequency Warping“) müssen die maskierten Schwellenwerte folgendermaßen in eine passende nicht-lineare (d.h. verzerrte oder verzogene) Frequenzskala transformiert werden. Im Allgemeinen lautet die zur Gewinnung der Filterkoeffizienten g geeignete Prozedur:
    • - Die Anwendung des psychoakkustischen Modells liefert einen maskierten Schwellenwert als Leistung (Dichte) über der Frequenz.
    • - Eine nicht-lineare Transformation der Frequenzskala gemäß der Frequenzverzerrung liefert, wie unten diskutiert wird, einen transformierten maskierten Schwellenwert.
    • - Die Anwendung von Linear-Vorhersage-Koeffizienten-Analyse-/Modellmethoden liefert Linear-Vorhersage-Koeffizienten-Filterkoeffizienten h, die sich mit Hilfe einer Transformation in Gitterkoeffizienten oder Linienspektralpaare quantisieren und kodieren lassen.
    • - Zur Verwendung in der 6 gezeigten verzerrten Filterstruktur müssen die Linear-Vorhersage-Koeffizienten-Filterkoeffizienten h in Filterkoeffizienten g umgewandelt werden.
  • Die Kennwerte des Filters 310 lassen sich an die maskierten Schwellenwerte (die von dem psychoakkustischen Modell 315 generiert werden) mit Hilfe aus der Sprachcodierung bekannter Methoden adaptieren, wobei zum Modellieren der spektralen Hüllkurve des Sprachsignals Linear-Vorhersage-Koeffizienten-Filterparameter verwendet werden. Bei herkömmlichen-Sprachcodiermethoden werden Linear-Vorhersage-Koeffizienten-Filterparameter üblicherweise derart erzeugt, dass die spektrale Hüllkurve des Analysefilter-Ausgangssignals maximal flach ist. Anders ausgedrückt: der Amplitudengang des Linear-Vorhersage-Koeffizienten-Analysefilters ist eine Approximation der Inversen der Eingangsspektralhüllkurve. Die Originalhüllkurve des Eingangsspektrums wird in den Decodierer von dem Linear-Vorhersage-Koeffizienten-Synthesefilter rekonstruiert. Deshalb muss dessen Amplitudengang eine Approximation der Eingangs-Spektralhüllkurvesein. Bezüglich einer detaillierteren Diskussion dieser herkömmlichen Sprachcodiermethoden sei z.B. verwiesen auf W. B. Kleijn und K. K. Paliwal „an Introduction to SpeechCoding“ in Speech Coding and Synthesis, Amsterdam: Elsevier (1995), hier durch Bezugnahme inkorporiert.
  • In ähnlicher Weise sollten die Amplitudengänge des psychoakkustischen Nachfilters 380 und des Vorfilters 310 dem maskierten Schwellenwert bzw. dem Inversen davon entsprechen. Aufgrund dieser Ähnlichkeit lassen sich bekannte Linear-Vorhersage-Koeffizienten-Analysemethoden anwenden, wie sie hier modifiziert sind. Insbesondere werden die bekannten Linear-Vorhersage-Koeffizienten-Analysemethoden derart modifiziert, dass die maskierten Schwellenwerte anstelle der Kurzzeit-Spektren verwendet werden. Darüber hinaus muss für das Vorfilter 310 und das Nachfilter 380 nicht nur die Form der Spektralhüllkurve berücksichtigt werden, sondern in das Modell muss auch der durchschnittliche Pegel Eingang finden. Erreicht werden kann dies durch einen Verstärkungsfaktor in dem Nachfilter 380, welcher den durchschnittlichen maskierten Schwellenwert repräsentiert, außerdem dessen inverser Wert innerhalb des Vorfilters 310.
  • In ähnlicher Weise können die Filterkoeffizienten mit Hilfe gut eingeführter Methoden aus der Sprachcodierung effizient übermittelt werden, beispielsweise mittels Linienspektralpaare-Darstellung (Linienspektralpaare = Line Spectral Pairs), zeitliche Interpolation oder Vektorquantisierung. Bezüglich einer detaillierteren Diskussion derartiger Sprachcodiermethoden sei beispielsweise verwiesen auf F. K. Soong und B.-H. Juang, „Line Spectrum Pair (Linienspektralpaare) and Speech Data Compression“, in Proc. ICASSP (1984), hier durch Bezugnahme inkorporiert.
  • Ein bedeutender Vorteil des Vorfilterkonzepts gemäß der Erfindung gegenüber den üblichen Transformations-Audiocodiermethoden ist die größere Flexibilität in der zeitlichen und spektralen Adaption an die Form des maskierten Schwellenwerts. Deshalb sollten die Eigenschaften des menschlichen Gehörs bei der Auswahl der Filterstrukturen berücksichtigt werden. Bezüglich einer detaillierten Diskussion der Eigenschaften der Maskiereffekte sei z.B. verwiesen auf M. R. Schroeder et al. „Optimizing Digital Speech Coders By Exploiting Masking Properties Of The Human Ear", Journal of the Acoust. Soc., Am., V 66, 1647-1652 (Dezember 1979); und J. H. Hall „Auditory Psychophysics for Coding Applications", The Digital Signal Processing Handbook",(V. Madisetti and D. B. Williams, Hrsg.), 39-1; 39-22, CRC Press, IEEE Press, 1998, hier durch Bezugnahme inkorporiert.
  • Grundsätzlich ist das zeitliche Verhalten gekennzeichnet durch eine relative kurze Anstiegszeit noch vor dem Entstehen eines Maskiertons (Maske) und einem längeren Abklingen nach dem Ausschalten. Das tatsächliche Ausmaß des Maskiereffekts hängt auch ab von der Maskiererfrequenz, die zu einer Erhöhung der zeitlichen Auflösung bei höherer Frequenz führt.
  • Bei stationären Einzeltonmaskierern ist die spektrale Form des maskierten Schwellenwerts um die Maskiererfrequenz gespreizt, wobei ein größerer Anteil in Richtung höherer Frequenzen als in Richtung niedrigerer Frequenzen vorhanden ist. Beide Steigungen hängen in starkem Maße ab von der Maskierfrequenz, welche zu einer Abnahme der Frequenzauflösung bei höherer Maskiererfrequenz führt. Allerdings sind auf der nicht-linearen „Bark-Skala“ die Formen der maskierten Schwellenwerte nahezu frequenzunabhängig. Diese Bark-Skala deckt den Frequenzbereich Null „0“ bis 20 kHz mit 24 Einheiten (Bark) ab.
  • Während diese Kennwerte durch das psychoakkustische Modell 315 approximiert wurden, ist es von Vorteil, wenn die Struktur des Vorfilters 310 und des Nachfilters 380 auch die passende frequenzabhängige zeitliche und spektrale Auflösung unterstützt. Daher basiert, wie oben angedeutet, die ausgewählte Filterstruktur, die weiter unten noch beschrieben wird, auf einer Frequenzverzerrungstechnik, die die Möglichkeit bietet, das Filter auf einer nicht-linearen Frequenzskala zu entwerfen.
  • Struktur des Vorfilters und des Nachfilters
  • Das Vorfilter 310 und das Nachfilter 380 müssen die Form des maskierten Schwellenwerts in dem Decodierer 350 und dessen inverse Form in dem Codierer 300 modellieren. Die am weitesten verbreiteten Formen von Vorhersagern (Prediktoren) verwenden in dem Codierer 300 ein Minimalphasen-nicht-rekursiv-Filter (FIR-Filter = nicht rekursives Filter), was zu einem rekursiven Filter (einem rekursiven Filter) in dem Decodierer führt. 4 veranschaulicht einen nicht-rekursiven-Vorhersager 400 der Ordnung P und den entsprechenden rekursiven-Vorhersager 450. Der in 4 gezeigte Aufbau kann relativ einfach zeitlich variierend ausgebildet werden, da die aktuellen Koeffizienten in beiden Filtern gleich sind und sich daher synchron modifizieren lassen.
  • Zum Modellieren maskierter Schwellenwerte ist eine Darstellung mit der Möglichkeit erwünscht, unteren Frequenzen größere Details zu verleihen. Um eine solche ungleiche Auflösung über dem Frequenzbereich zu erreichen, kann in wirksamer Weise eine Frequenzverzerrungsmethode eingesetzt werden, die beispielsweise beschrieben ist in H. C. Strube, „Linear Prediction of a Warped Frequency Scale", J. Of the Acoust. Sock. Am. Vol. 68, 1071-1076 (1980), hier durch Bezugnahme inkorporiert. Diese Methode ist äußerst effizient in dem Sinne, dass eine Approximationsgenauigkeit für eine gegebene Filterordnung erreicht wird, die in enger Beziehung steht zu der erforderlichen Menge an Nebeninformation für die Adaption.
  • Im Allgemeinen basiert die Frequenzverzerrungsmethode auf dem Prinzip, welches auf dem Gebiet des Filterentwurfs aus Methoden ähnlich der Tiefpass-Tiefpass-Transformation oder der Tiefpass-Bandpass-Transformation bekannt ist. In einem diskreten Zeitsystem lässt sich eine äquivalente Transformation dadurch implementieren, dass jede Verzögerungseinheit durch einen Allpass ersetzt wird. Eine Frequenzskala, die die Nichtlinearität der Skala im „kritischen Band“ wiederspiegelt, ist die am besten geeignete. Vergleiche M. R. Schroeder et al. „Optimizing Digital Speech Codes By Exploiting Masking Properties Of the Human Ear", Journal of the Acoust. Soc. Am., v. 66, 1647.1652 (Dez. 1979)und U. K. Laine at al. „Warped Linear Prediction (WLP) in Speech and Audio Processing" IEEE Int. Conf. Acoustics, Speech, Signal Processing, III-349-III-352 (1994), jeweils hier durch Bezugnahme inkorporiert.
  • Grundsätzlich gilt, dass die Verwendung eines Allpassfilters 500 erster Ordnung gemäß 5 eine ausreichende Appproximationsgenauigkeit ergibt. Allerdings ist die direkte Substitution des Allpassfilters 500 erster Ordnung in das nicht-rekursive-Element 400 nach 4 nur für das Vorfilter 310 möglich. Da das Allpassfilter 500 erster Ordnung einen direkten Weg ohne Verzögerung zwischen seinem Eingang und seinem Ausgang besitzt, würde das Einsetzen des Allpassfilters 500 erster Ordnung in die Rückkopplungsstruktur des rekursiven Filters 450 nach 4 zu einer Schleife mit einer Null betragenden Verzögerung führen, deshalb ist eine Modifikation der Filterstruktur erforderlich. Um eine synchrone Adaption der Filterkoeffizienten im Codierer und im Decodierer zu ermöglichen, sollten beide Systeme in der im Folgenden beschriebenen Weise modifiziert werden.
  • Um das Problem der Null betragenden Verzögerung zu überwinden, werden die Verzögerungseinheiten der ursprünglichen Struktur (4) ersetzt durch rekursive Filter erster Ordnung, die ausschließlich den Rückkopplungsteil des Allpassfilters 500 erster Ordnung enthalten, beschrieben in H. W. Strube, hier durch Bezugnahme auf das oben gesagte inkorporiert. 6 ist ein schematisches Diagramm eines nicht-rekursiven-Filters 600 und eines rekursiven Filters 650, die eine Frequenzverzerrung gemäß einer Ausführungsform der Erfindung aufweisen. Die Koeffizienten des Filters 600 müssen modifiziert werden, um die gleiche Frequenz wie eine Struktur mit Allpasseinheiten zu erhalten. Die Koeffizienten gk (0 [k [P) werden aus den ursprünglichen Linearvorhersage-Filterkoeffizienten durch folgende Transformation gewonnen. g k = n = k P C k n h n  mit  C k n = ( n k ) ( 1 a 2 ) k ( a ) n k
    Figure DE000060110679T3_0001
  • Die Verwendung eines Allpasses erster Ordnung in dem nicht-rekursiven-Filter 600 führt zu folgender Abbildung der Frequenzskala: ϖ = ω + arctan α sin ω 1 α cos ω
    Figure DE000060110679T3_0002
  • Die Ableitung dieser Funktion lautet: v ( ω ) = ϖ ω = 1 α 2 1 + α 2 2 α cos ω
    Figure DE000060110679T3_0003
    und gibt an, ob die Frequenzantwort des resultierenden Filters 600 komprimiert (µ > 1) oder gestreckt (µ < 1) erscheint. Der Verzerrungskoeffizient a sollte abhängig von der Abtastfrequenz ausgebildet werden. Bei 32 kHz beispielsweise ist ein Vezerrungskoeffizient mit dem Wert von 0,5 eine gute Wahl für die Vorfilteranwendung.
  • Es sei angemerkt, dass das Vorfilterverfahren gemäß der Erfindung auch für Audiodatei-Speicheranwendungen nützlich ist. Bei einer Audiodatei-Speicheranwendung lässt sich das Ausgangssignal des Vorfilters 310 direkt mit Hilfe eines fixen Quanitisierers quantisieren, und die resultierenden ganzzahligen Werte lassen sich mit Hilfe von verlustlosen Codiermethoden kodieren. Diese können aus Standard-Dateikompressionsmethoden oder Methode, die in hohem Maße optimiert sind zur verlustfreien Codierung von Audiosignalen, bestehen. Diese Vorgehensweise ermöglicht die Anwendbarkeit von Methoden, die bislang nur für die verlustfreie Kompression in Richtung einer Wahrnehmungs-Audiocodierung geeignet waren.
  • Es versteht sich, dass die hier dargestellten und beschriebenen Ausführungsformen und Abwandlungen lediglich beispielhaft sind für die Prinzipien der Erfindung, und dass verschiedene Abwandlungen vom Fachmann implementierbar sind, ohne vom Schutzumfang der Erfindung abzuweichen.

Claims (14)

  1. Verfahren zum Codieren eines Signals, umfassend folgende Schritte: Filtern des Signals mit einem adaptiven Filter, welches durch ein psychoakustisches Modell zur Irrelevanzreduktion gesteuert wird, wobei das adaptive Filter ein Filterausgangssignal erzeugt und einen Amplitudengang besitzt, der eine inverse Form des maskierten Schwellenwerts approximiert; und Quantisieren und Codieren des Filterausgangssignals zusammen mit Nebeninformation zur Filteradaptionssteuerung zur Redundanzreduktion, wobei die spektralen und temporalen Auflösungen der Irrelevanzreduktion und der Redundanzreduktion unterschiedlich sind.
  2. Verfahren nach Anspruch 1, bei dem das Signal ein Audiosignal ist.
  3. Verfahren nach Anspruch 1, weiterhin umfassend den Schritt des Übertragens des codierten Signals zu einem Decodierer.
  4. Verfahren nach Anspruch 1, weiterhin umfassend den Schritt des Aufzeichnens des codierten Signals auf einem Speichermedium.
  5. Verfahren nach Anspruch 1, bei dem das Codieren weiterhin den Schritt des Verwendens einer adaptiven Huffman Codierungsmethode aufweist.
  6. Verfahren zum Codieren eines Signals, umfassend folgende Schritte: Filtern des Signals mit einem adaptiven Filter, welches durch ein psychoakustisches Modell zur Irrelevanzreduktion gesteuert wird, wobei das adaptive Filter ein Filterausgangssignal erzeugt und einen Amplitudengang besitzt, der eine inverse Form des maskierten Schwellenwerts approximiert; und Transformieren des Ausgangssignals unter Verwendung mehrerer Teilbänder, geeignet zur Redundanzreduktion; und Quantisieren und Codieren der Teilbandsignale gemeinsam mit Nebeninformation zur Filteradaptionssteuerung, wobei die spektralen und temporalen Auflösungen der Irrelevanzreduktion und der Redundanzreduktion unterschiedlich sind.
  7. Verfahren nach Anspruch 1 oder Anspruch 6, bei dem der Schritt des Quantisierens und Codierens eine Transformations- oder Analysefilterbank verwendet, die sich zur Redundanzreduktion eignet.
  8. Verfahren nach Anspruch 1 oder Anspruch 6, weiterhin umfassend die Schritte des Quantisierens und Codierens von Spektralkomponenten, die aus einer Transformations- oder Analysefilterbank erhalten werden, wobei die Quantisier- und Codierungschritte feste Quantisierschrittgrößen verwenden.
  9. Verfahren nach Anspruch 1 oder Anspruch 6, bei dem der Schritt des Quantisierens und Codierens den mittleren quadratischen Fehler in dem Signal verringert.
  10. Verfahren nach Anspruch 1 oder Anspruch 6, bei dem eine Filterordnung und Intervalle der Filteradaption des adaptiven Filters in einer für die Irrelevanzreduktion geeigneten Weise ausgewählt werden.
  11. Verfahren nach Anspruch 1 oder Anspruch 6, bei dem der Filterschritt auf einer Frequenzverwerfungsmethode unter Einsatz einer nicht-linearen Frequenzskala basiert.
  12. Verfahren nach Anspruch 1 oder Anspruch 6, bei dem das Codierstadium für Filterkoeffizienten eine Umwandlung aus Linear-Vorhersagekoeffizienten-Filterkoeffizienten in Gitterkoeffizienten oder Linienspektrumpaare beinhaltet.
  13. Codierer zum Codieren eines Signals, umfassend: ein adaptives Filter, welches von einem psychoakustischem Modell zur Irrelevanzreduktion gesteuert wird, wobei das adaptive Filter ein Filterausgangssignal erzeugt und einen Amplitudengang besitzt, der eine inverse Form des maskierten Schwellenwerts approximiert; und einen Quantisierer/Codierer zum Quantisieren und Codieren des Filterausgangssignals zusammen mit Nebeninformation zur Filteradaptionssteuerung zur Redundanzreduktion, wobei die spektralen und temporalen Auflösungen der Irrelevanzreduktion und der Redundanzreduktion unterschiedlich sind.
  14. Codierer zum Codieren eines Signals, umfassend: ein adaptives Filter, welches von einem psychoakustischem Modell zur Irrelevanzreduktion gesteuert wird, wobei das adaptive Filter ein Filterausgangssignal erzeugt und einen Amplitudengang besitzt, der eine inverse Form des maskierten Schwellenwerts approximiert; und mehrere Teilbänder, die sich zur Redundanzreduktion bei der Transformierung des Filterausgangssignals eignen; und einen Quantisierer/Codierer zum Quantisieren und Codieren der Teilbandsignale gemeinsam mit Nebeninformation zur Filteradaptionssteuerung zur Redundanzreduktion, wobei die spektralen und temporalen Auflösungen der Irrelevanzreduktion und der Redundanzreduktion unterschiedlich sind.
DE60110679.2T 2000-06-02 2001-05-22 Perzeptuelle Kodierung von Audiosignalen unter Verwendung von getrennter Reduzierung von Irrelevanz und Redundanz Expired - Lifetime DE60110679T3 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US586072 2000-06-02
US09/586,072 US7110953B1 (en) 2000-06-02 2000-06-02 Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction
EP01304496.1A EP1160770B2 (de) 2000-06-02 2001-05-22 Perzeptuelle Kodierung von Audiosignalen unter Verwendung von getrennter Reduzierung von Irrelevanz und Redundanz

Publications (3)

Publication Number Publication Date
DE60110679D1 DE60110679D1 (de) 2005-06-16
DE60110679T2 DE60110679T2 (de) 2006-04-27
DE60110679T3 true DE60110679T3 (de) 2018-09-20

Family

ID=24344191

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60110679.2T Expired - Lifetime DE60110679T3 (de) 2000-06-02 2001-05-22 Perzeptuelle Kodierung von Audiosignalen unter Verwendung von getrennter Reduzierung von Irrelevanz und Redundanz

Country Status (4)

Country Link
US (2) US7110953B1 (de)
EP (1) EP1160770B2 (de)
JP (1) JP4567238B2 (de)
DE (1) DE60110679T3 (de)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4506039B2 (ja) 2001-06-15 2010-07-21 ソニー株式会社 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
KR100433984B1 (ko) * 2002-03-05 2004-06-04 한국전자통신연구원 디지털 오디오 부호화/복호화 장치 및 방법
JP4050578B2 (ja) * 2002-09-04 2008-02-20 株式会社リコー 画像処理装置及び画像処理方法
US7328150B2 (en) * 2002-09-04 2008-02-05 Microsoft Corporation Innovations in pure lossless audio compression
US7536305B2 (en) 2002-09-04 2009-05-19 Microsoft Corporation Mixed lossless audio compression
US7650277B2 (en) * 2003-01-23 2010-01-19 Ittiam Systems (P) Ltd. System, method, and apparatus for fast quantization in perceptual audio coders
DE602004030594D1 (de) * 2003-10-07 2011-01-27 Panasonic Corp Verfahren zur entscheidung der zeitgrenze zur codierung der spektro-hülle und frequenzauflösung
DE102004007200B3 (de) * 2004-02-13 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007191B3 (de) * 2004-02-13 2005-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007184B3 (de) 2004-02-13 2005-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Quantisieren eines Informationssignals
EP1578134A1 (de) 2004-03-18 2005-09-21 STMicroelectronics S.r.l. Verfahren und Vorrichtungen zur Kodierung/Dekodierung von Signalen, sowie Computerprogrammprodukt dafür
EP1578133B1 (de) 2004-03-18 2007-08-15 STMicroelectronics S.r.l. Verfahren und Vorrichtungen zur Kodierung/Dekodierung von Signalen, sowie Computerprogrammprodukt dafür
US7587254B2 (en) * 2004-04-23 2009-09-08 Nokia Corporation Dynamic range control and equalization of digital audio using warped processing
US7787541B2 (en) * 2005-10-05 2010-08-31 Texas Instruments Incorporated Dynamic pre-filter control with subjective noise detector for video compression
EP1840875A1 (de) * 2006-03-31 2007-10-03 Sony Deutschland Gmbh Signalkodierung und -dekodierung mittels Vor- und Nachverarbeitung
DE102006022346B4 (de) * 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
US8682652B2 (en) * 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
RU2418322C2 (ru) * 2006-06-30 2011-05-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Аудиокодер, аудиодекодер и аудиопроцессор, имеющий динамически изменяющуюся характеристику перекоса
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
WO2008016098A1 (fr) * 2006-08-04 2008-02-07 Panasonic Corporation dispositif de codage audio stéréo, dispositif de décodage audio stéréo et procédé de ceux-ci
JP5103880B2 (ja) 2006-11-24 2012-12-19 富士通株式会社 復号化装置および復号化方法
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
US8290167B2 (en) 2007-03-21 2012-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US8908873B2 (en) * 2007-03-21 2014-12-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US20090006081A1 (en) * 2007-06-27 2009-01-01 Samsung Electronics Co., Ltd. Method, medium and apparatus for encoding and/or decoding signal
KR101413967B1 (ko) * 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치
KR101441896B1 (ko) * 2008-01-29 2014-09-23 삼성전자주식회사 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치
US8386271B2 (en) 2008-03-25 2013-02-26 Microsoft Corporation Lossless and near lossless scalable audio codec
US8407046B2 (en) * 2008-09-06 2013-03-26 Huawei Technologies Co., Ltd. Noise-feedback for spectral envelope quantization
WO2010028292A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive frequency prediction
US8515747B2 (en) * 2008-09-06 2013-08-20 Huawei Technologies Co., Ltd. Spectrum harmonic/noise sharpness control
WO2010028297A1 (en) 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
WO2010031003A1 (en) 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
US8577673B2 (en) * 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
BRPI1005300B1 (pt) * 2009-01-28 2021-06-29 Fraunhofer - Gesellschaft Zur Forderung Der Angewandten Ten Forschung E.V. Codificador de áudio, decodificador de áudio, informações de áudio codificado e métodos para codificar e decodificar um sinal de áudio com base em uma informação de áudio codificado e em uma informação de áudio de entrada.
US20100241423A1 (en) * 2009-03-18 2010-09-23 Stanley Wayne Jackson System and method for frequency to phase balancing for timbre-accurate low bit rate audio encoding
EP2525354B1 (de) * 2010-01-13 2015-04-22 Panasonic Intellectual Property Corporation of America Kodiervorrichtung und kodierverfahren
US8958510B1 (en) * 2010-06-10 2015-02-17 Fredric J. Harris Selectable bandwidth filter
US8532985B2 (en) 2010-12-03 2013-09-10 Microsoft Coporation Warped spectral and fine estimate audio encoding
US8781023B2 (en) * 2011-11-01 2014-07-15 At&T Intellectual Property I, L.P. Method and apparatus for improving transmission of data on a bandwidth expanded channel
US8774308B2 (en) 2011-11-01 2014-07-08 At&T Intellectual Property I, L.P. Method and apparatus for improving transmission of data on a bandwidth mismatched channel
US8831935B2 (en) * 2012-06-20 2014-09-09 Broadcom Corporation Noise feedback coding for delta modulation and other codecs
US9711156B2 (en) 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
EP2981961B1 (de) * 2013-04-05 2017-05-10 Dolby International AB Erweiterter quantisierer
US9384746B2 (en) 2013-10-14 2016-07-05 Qualcomm Incorporated Systems and methods of energy-scaled signal processing
CN113380270B (zh) * 2021-05-07 2024-03-29 普联国际有限公司 一种音频音源分离方法、装置、存储介质及电子设备

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BE1000643A5 (fr) * 1987-06-05 1989-02-28 Belge Etat Procede de codage de signaux d'image.
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
EP0469835B1 (de) * 1990-07-31 1998-09-30 Canon Kabushiki Kaisha Verfahren und Gerät zur Bildverarbeitung
EP0559348A3 (de) * 1992-03-02 1993-11-03 AT&T Corp. Rateurregelschleifenprozessor für einen wahrnehmungsgebundenen Koder/Dekoder
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
US5623577A (en) * 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
EP0692881B1 (de) * 1993-11-09 2005-06-15 Sony Corporation Quantisierungsvorrichtung und -verfahren, kodierer und kodierverfahren mit hoher effizienz, dekodierer und aufzeichnungsträger
US20010047256A1 (en) * 1993-12-07 2001-11-29 Katsuaki Tsurushima Multi-format recording medium
JP3024468B2 (ja) * 1993-12-10 2000-03-21 日本電気株式会社 音声復号装置
ATE191107T1 (de) * 1994-12-20 2000-04-15 Dolby Lab Licensing Corp Verfahren und gerät zum anwenden von wellenformprädiktion auf teilbänder in einem perzeptiven kodiersystem
JPH09101799A (ja) * 1995-10-04 1997-04-15 Sony Corp 信号符号化方法及び装置
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5687191A (en) * 1995-12-06 1997-11-11 Solana Technology Development Corporation Post-compression hidden data transport
US6029126A (en) 1998-06-30 2000-02-22 Microsoft Corporation Scalable audio coder and decoder

Also Published As

Publication number Publication date
DE60110679T2 (de) 2006-04-27
EP1160770B1 (de) 2005-05-11
JP4567238B2 (ja) 2010-10-20
EP1160770A2 (de) 2001-12-05
EP1160770B2 (de) 2018-04-11
DE60110679D1 (de) 2005-06-16
US7110953B1 (en) 2006-09-19
JP2002041097A (ja) 2002-02-08
EP1160770A3 (de) 2003-05-02
US20060147124A1 (en) 2006-07-06

Similar Documents

Publication Publication Date Title
DE60110679T3 (de) Perzeptuelle Kodierung von Audiosignalen unter Verwendung von getrennter Reduzierung von Irrelevanz und Redundanz
DE69737489T2 (de) Formung des erkennbaren Rauschsignals in der Zeitdomäne mittels LPC-Voraussage im Frequenzraum
EP0290581B1 (de) Verfahren zum übertragen digitalisierter tonsignale
DE102006022346B4 (de) Informationssignalcodierung
DE69731677T2 (de) Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung
DE60103424T2 (de) Verbessern der leistung von kodierungssystemen, die hochfrequenz-rekonstruktionsverfahren verwenden
DE69631728T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE602004005197T2 (de) Vorrichtung und verfahren zum kodieren eines audiosignals und vorrichtung und verfahren zum dekodieren eines kodierten audiosignals
DE60310716T2 (de) System für die audiokodierung mit füllung von spektralen lücken
DE69833834T2 (de) Skalierbares Audiokodier-und Dekodierverfahren und Gerät
DE60214599T2 (de) Skalierbare audiokodierung
DE60117471T2 (de) Breitband-signalübertragungssystem
DE19811039B4 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
EP1495464B1 (de) Vorrichtung und verfahren zum codieren eines zeitdiskreten audiosignals und vorrichtung und verfahren zum decodieren von codierten audiodaten
DE69923555T2 (de) Verfahren und vorrichtung zur entropie-kodierung von quantisierten transformationskoeffizienten eines signals
DE4320990B4 (de) Verfahren zur Redundanzreduktion
DE69123500T2 (de) 32 Kb/s codeangeregte prädiktive Codierung mit niedrigen Verzögerung für Breitband-Sprachsignal
DE69127842T2 (de) Hybride wahrnehmungsgebundene Kodierung von Audiosignalen
WO1999004506A1 (de) Verfahren zum codieren eines audiosignals
EP0931386A1 (de) Verfahren zum signalisieren einer rauschsubstitution beim codieren eines audiosignals
EP1397799B1 (de) Verfahren und vorrichtung zum verarbeiten von zeitdiskreten audio-abtastwerten
DE60112407T2 (de) Verfahren und vorrichtung zur konvertierung eines audiosignals zwischen unterschiedlichen datenkompressionsformaten
DE68927927T2 (de) Kodierung von Audiosignalen unter Berücksichtigung der Wahrnehmbarkeit
US6678647B1 (en) Perceptual coding of audio signals using cascaded filterbanks for performing irrelevancy reduction and redundancy reduction with different spectral/temporal resolution
DE19742201C1 (de) Verfahren und Vorrichtung zum Codieren von Audiosignalen

Legal Events

Date Code Title Description
8363 Opposition against the patent