DE69700274T2 - Verfahren und Apparat zur Kodierung eines digitalen Audiosignals - Google Patents

Verfahren und Apparat zur Kodierung eines digitalen Audiosignals

Info

Publication number
DE69700274T2
DE69700274T2 DE69700274T DE69700274T DE69700274T2 DE 69700274 T2 DE69700274 T2 DE 69700274T2 DE 69700274 T DE69700274 T DE 69700274T DE 69700274 T DE69700274 T DE 69700274T DE 69700274 T2 DE69700274 T2 DE 69700274T2
Authority
DE
Germany
Prior art keywords
psychoacoustic
masking threshold
data rate
pam
masking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69700274T
Other languages
English (en)
Other versions
DE69700274D1 (de
Inventor
Jens Spille
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Thomson Brandt GmbH
Original Assignee
Deutsche Thomson Brandt GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Thomson Brandt GmbH filed Critical Deutsche Thomson Brandt GmbH
Publication of DE69700274D1 publication Critical patent/DE69700274D1/de
Application granted granted Critical
Publication of DE69700274T2 publication Critical patent/DE69700274T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Kodieren eines digitalisierten Audiosignals.
  • Hintergrund
  • Das psychoakustische Modell in einem Audiokoder, zum Beispiel in einem MPEG 1- oder MPEG 2 -Audiosystem, berechnet einen Verdeckungsschwellwert zum Zweck einer Datenreduktion. Der Verdeckungsschwellwert kann für jedes Unterband des Audiosignals anders sein. Der sogenannte Bit-Zuordnungs-Vorgang bestimmt für jedes Unterband aufgrund des festgelegten Verdeckungsschwellwertes, mit welcher Auflösung die Abtastwerte des Unterbands quantisiert werden sollen. Dies kann sich zeitlich mit jedem Block von Audiosignal-Abtastwerten ändern. Daher sollte die erforderliche Bitrate für eine optimale Tonqualität ebenfalls für die verschiedenen Blöcke unterschiedlich sein. In der Praxis ist in einem Audiosystem MPEG 1 die verfügbare gewünschte Bitrate normalerweise für jeden Audiokanal gleich. Da bezüglich der gewünschten Bitrate die genaue Anzahl an Bit für die verschiedenen für die Übertragung benötigten Parameter und Daten nicht im voraus genau geschätzt werden kann, bleiben einige Bit übrig, oder es fehlen einige Bit. Im allgemeinen wird eine einfache Zuordnungsstrategie angewendet, um dieses Problem zu lösen, zum Beispiel durch Zuordnung einer nahezu gleichen Bitzahl zu jedem Unterband.
  • Die oben beschriebenen derzeitigen Zuordnungsstrategien berücksichtigen nicht das in dem Koder angewendete psychoakustische Modell. Heutzutage werden Koder für einen kleinen Bereich von Bitraten optimiert. Trotz dieser Tatsache werden derartige Audiokoder auch für einen Betrieb mit einem größeren Bereich an Bitraten angewendet, sind dafür aber nicht optimiert. Die unterschiedlichen Bitraten können zwischen dem linken und dem rechten Kanal und/oder zusätzlichen Kanälen (linkes sogenanntes Surround, rechtes sogenanntes Surround, Mitte) und/oder in der MPEG- LayerIII liegen, wo sich die gewünschte Bitrate von Rahmen zu Rahmen ändern kann.
  • Die WO-A-9407313 beschreibt eine bekannte Sprachkodierung mit zwei verschiedenen Modi zum Kodieren von Sprachsignalen mit unterschiedlichen Bitraten.
  • Zusammenfassung der Erfindung
  • Es ist eine Aufgabe der Erfindung, ein Verfahren zum Erreichen einer besseren Audio-Kodierqualität bezüglich derartiger Zuordnungsstrategien anzugeben. Diese Aufgabe wird durch das im Anspruch 1 angegebene Verfahren gelöst.
  • Es ist eine weitere Aufgabe der Erfindung, eine Vorrichtung anzugeben, die das erfindungsgemäße Verfahren anwendet. Diese Aufgabe wird durch die im Anspruch 6 angegebene Vorrichtung gelöst.
  • Bei einer ersten Ausführungsform der Erfindung werden wenigstens drei psychoakustische Modelle anstelle eines einzigen angewendet, von denen jedes für eine bestimmte Bitrate oder einen Bereich von Bitraten optimiert ist. Abhängig von der gewünschten Kanal- oder Rahmen-Bitrate wählt der Koder das geeignete psychoakustische Modell aus. Der Ausgang einer der psychoakustischen Modelle kann als ein Standard-Verdeckungsschwellwert für eine bestimmte gewünschte Bitrate angesehen werden.
  • Wenn die vorliegende Bitzahl zu hoch ist, wird das zweite psychoakustische Modell angewendet, das im allgemeinen einen höheren Verdeckungsschwellwert aufweist. Dieser höhere Schwellwert ist nicht der Standard-Schwellwert, der über das Spektrum wie im Stand der Technik gleichermaßen angehoben, jedoch gegenüber einem psychoakustischen Modell angehoben ist, das an das vorliegende Eingangsspektrum noch angepaßt ist.
  • Wenn die vorliegende Bitzahl zu niedrig ist, wird das dritte psychoakustische Modell angewendet, das im allgemeinen einen niedrigeren Verdeckungsschwellwert aufweist. Auch hier ist der niedrigere Schwellwert nicht der Standard-Schwellwert, der wie im Stand der Technik gleichmäßig über das Spektrum abgesenkt ist, jedoch relativ zu einem psychoakustischen Modell abgesenkt ist, das an das vorliegende Eingangsspektrum noch angepaßt ist.
  • Eine zweite Ausführungsform der Erfindung löst das Problem der harten Umschaltung zwischen den unterschiedlichen psychoakustischen Modellen, das heißt zwischen dem linken und dem rechten Kanal und/oder in der MPEG LayerI zu LayerIII, wo sich die gewünschte Datenrate von Rahmen zu Rahmen ändern kann. Anstelle der Anwendung einer Binärlogik für die Umschaltung wird eine Fuzzylogik durchgeführt.
  • Im Prinzip ist das erfindungsgemäße Verfahren für die Audiokodierung in MPEG 2 LayerI zu LayerIII und/oder in MPEG 2 NBC-Systemen geeignet.
  • Vorteilhafte weitere Ausführungsformen des erfindungsgemäßen Verfahrens ergeben sich aus den jeweiligen abhängigen Ansprüchen.
  • Vorteilhafte weitere Ausführungsformen der erfindungsgemäßen Vorrichtung ergeben sich aus den jeweiligen abhängigen Ansprüchen.
  • Zeichnungen
  • Bevorzugte Ausführungsformen der Erfindung werden anhand der beigefügten Zeichnung beschrieben. Darin zeigen:
  • Fig. 1 ein Diagramm eines Verfahrens mit einer "Harten Umschaltung" zwischen drei Verdeckungsschwellwerten,
  • Fig. 2 einen Programmaufbau für eine Audio-Kodiervorrichtung, die das Verfahren mit der "Harten Umschaltung" anwendet,
  • Fig. 3 ein Diagramm für das Verfahren mit der "Harten Umschaltung" zwischen drei Verdeckungsschwellwerten,
  • Fig. 4 einen Programmaufbau für eine Audio-Kodiervorrichtung, die das Verfahren mit der "Harten Umschaltung" anwendet,
  • Fig. 5 ein Blockschaltbild für den grundsätzlichen Aufbau einer Audio- Kodiervorrichtung.
  • Bevorzugte Ausführungsformen
  • Nützliche Informationen über eine Audio-Kodiertechnik sind enthalten in dem International Standard 150/IEC 11172-3, First Edition 1993-08-01, 'Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 MBit/s', Part 3 Audio.
  • Das erfindungsgemäße Verfahren wendet mehr als ein psychoakustisches Modell an. Als ein Beispiel werden drei unterschiedliche psychoakustische Modelle angewendet. Jedes der psychoakustischen Modelle ist an eine spezifische, vorbestimmte Datenrate des Audio-Bitstroms angepaßt. Als Beispiel gibt es drei unterschiedliche Datenraten, 32 kBit/s, 56 kBit/s und 80 kBit/s. Die unterschiedlichen psychoakustischen Modelle werden abgekürzt mit PSM_Low, PAM_Mid, PAM_High. PAM_Low ist an die niedrige Datenrate von 32 kBit/s, PAM_Mid an die mittlere Datenrate von 56 kBit/s und PAM_High an die hohe Datenrate von 80 kBit/s angepaßt.
  • Fig. 1 zeigt, in welchen Bereichen welches psychoakustische Modell angewendet wird. Auf der X-Achse in Fig. 1 ist der Bereich von möglichen Datenraten vorgegeben, die durch den Audiokoder angewendet werden können. Auf der Y-Achse ist der Anteil jedes psychoakustischen Modells für jede mögliche Datenrate angegeben. Wenn sich die verfügbare Datenrate innerhalb des Bereichs DRR1 befindet, wird das psychoakustische Modell PAM_Low für die Berechnung des Verdeckungsschwellwertes angewendet. Somit beträgt der Anteilsfaktor 1, das heißt 100% für PAM_Low und 0% für PAM_Mid und PAM_High. Wenn sich die verfügbare Datenrate innerhalb des Bereichs DRR2 befindet, wird das psychoakustische Modell PAM_Mid für die Berechnung des Verdeckungsschwellwertes angewendet. Somit beträgt hier der Anteilsfaktor 1, das heißt 100% für PAM_Mid und 0% für PAM_Low und PAM_High. Wenn sich die verfügbare Datenrate in dem Bereich DRR3 befindet, wird das psychoakustische Modell PAM_High für die Berechnung des Verdeckungsschwellwertes angewendet. Somit beträgt hier der Anteilsfaktor wieder 1, das heißt 100% für PAM_High und 0% für PAM_Low und PAM_Mid. Diese Art der Umschaltung zwischen den unterschiedlichen psychoakustischen Modellen wird von nun an mit "Harter Umschaltung" bezeichnet.
  • Ein geeignetes, einfaches Computerprogramm, das nach diesem Verfahren arbeitet, ist in Fig. 2 dargestellt und wird nunmehr beschrieben.
  • Die Bezugsziffer 10 bezeichnet den Startpunkt des Programms. Die Bezugsziffer 20 bezeichnet einen Entscheidungsschritt, bei dem festgestellt wird, ob die verfügbare Datenrate ADR kleiner ist als der in Fig. 1 dargestellte Datenratenwert DR1. Wenn das der Fall ist, geht das Programm mit dem Schritt 30 weiter. Darin wird der Verdeckungsschwellwert durch Anwendung des psychoakustischen Modells PAM_Low bestimmt. Nach diesem Schritt endet das Programm in dem Schritt 40. Wenn im Schritt 20 festgestellt wird, daß die verfügbare Datenrate ADR größer ist als der Datenratenwert DR1, wird im Schritt 50 untersucht, ob die verfügbare Datenrate ADR kleiner ist als der Datenratenwert DR2 oder nicht. Im Falle einer positiven Feststellung geht das Programm mit dem Schritt 60 weiter, und das psychoakustische Modell PAM_Mid wird für die Berechnung des Verdeckungsschwellwertes angewendet. Im Falle einer negativen Feststellung im Schritt 50 geht das Programm zu dem Entscheidungsschritt 70 weiter. Dort wird untersucht, ob die verfügbare Datenrate kleiner oder gleich dem Datenratenwert DR3 ist. Wenn das der Fall ist, geht das Programm zum Schritt 80 weiter, wo das psychoakustische Modell PAM High für die Berechnung des Verdeckungsschwellwertes angewendet wird. Im Falle einer negativen Antwort im Entscheidungschritt 70 geht das Programm mit dem Schritt 90 weiter, der einen geeigneten Fehlerermittlungs-Algorithmus enthält. Nach den Programmschritten 60, 80, 90 wird das Programm im Schritt 40 beendet.
  • Ein verfeinertes Verfahren für die Umschaltung zwischen den unterschiedlichen psychoakustischen Modellen, genannt "Weiche Umschaltung", wird im folgenden beschrieben. In Fig. 3 sind drei unterschiedliche Bereiche für die verfügbare Datenrate dargestellt, nämlich DRR4, DRR5 und DRR6. Wenn sich die verfügbare Datenrate in dem Bereich DRR4 befindet, dann wird nur das psychoakustische Modell PAM_Low angewendet, das heißt mit 100% Anteil für die Berechnung des Verdeckungsschwellwertes. Wenn sich die verfügbare Datenrate in dem Bereich DRR7 befindet, dann wird nur das psychoakustische Modell PAM_High angewendet. Wenn sich die verfügbare Datenrate in dem Bereich DRR5 befindet, dann werden beide psychoakustischen Modelle PAM_Low und PAM_Mid für die Berechnung des entsprechenden Verdeckungsschwellwertes angewendet. In dem Fall, wenn sich die verfügbare Datenrate in dem Bereich DRR6 befindet, werden die beiden psychoakustischen Modelle PAM_Mid und PAM_High für die Berechnung des Verdeckungsschwellwertes angewendet. Als ein Beispiel ist in Fig. 3 dargestellt, daß sich die verfügbare Datenrate ADR in dem Bereich DRR5 befindet. Das bedeutet, daß zwei Verdeckungsschwellwerte berechnet werden, nämlich ein erster, genannt Mask_Low, entsprechend dem Modell PAM_Low, und ein zweiter, genannt Mask_Mid, entsprechend dem Modell PAM_Mid. Beide Verdeckungsschwellwerte werden zu einem resultierenden Verdeckungsschwellwert Mask kombiniert. Der neue Verdeckungsschwellwert wird berechnet mit einer Mittelwertberechnung entsprechend der Gleichung:
  • Mask = α · Mask_Mid + β · Mask_Low
  • Formel 1: Beispiel für eine Mittelwertberechnung.
  • Darin ist a der Anteilsfaktor für das psychoakustische Modell PAM_Mid und β der Anteilsfaktor für das psychoakustische Modell PAM_Low. Beide Anteilsfaktoren sind in Fig. 3 dargestellt. Sie werden bestimmt durch ein sogenanntes "Looking Up" in Tabellen, die die Werte für die Darstellung der jeweiligen Kurven L und M an dem Punkt der verfügbaren Datenrate ADR enthalten. Mit dieser Technik ist es möglich, einen Audiokoder aufzubauen, der Bitströme mit einem weiten Bereich von Datenraten erzeugen kann.
  • Ein geeignetes Computerprogramm zur Durchführung des beschriebenen Verfahrens mit einer weichen Umschaltung wird nunmehr anhand der Fig. 4 beschrieben. Die Bezugsziffer 100 bezeichnet den Startschritt des Computerprogramms. In dem nächsten Schritt 110 wird untersucht, ob die verfügbare Datenrate ADR kleiner ist als die Datenrate DR4 oder nicht. Ein positives Ergebnis führt zum Schritt 120 als dem nächsten Programmschritt. Dort wird der Verdeckungsschwellwert nur auf der Basis des psychoakustischen Modells PAM_Low berechnet. Nach diesem Schritt wird das Programm im Schritt 130 beendet. Im Falle eines negativen Ergebnisses im Schritt 110 geht das Programm mit dem Schritt 140 weiter. Dort wird ermittelt, ob die verfügbare Datenrate kleiner ist als der Datenratenwert DR5 oder nicht. Wenn dies der Fall ist, dann werden im Schritt 150 zwei Verdeckungsschwellwerte berechnet. Einer entsprechend dem psychoakustischen Modell PAM_Low und der andere entspre chend einem psychoakustischen Modell PAM_Mid. Beide Verdeckungsschwellwerte werden dann zu einem resultierenden Verdeckungsschwellwert kombiniert. Zu diesem Zweck werden beide Verdeckungsschwellwerte mit ihren entsprechenden Wichtungsfaktoren α und β gewichtet, wie in Fig. 3 dargestellt ist. Der Kombiniervorgang verwendet die oben angegebene Formel 1, wie oben beschrieben. Im Falle eines negativen Ergebnisses im Schritt 140 ist der nächste Schritt der Entscheidungsschritt 160. Dort wird ermittelt, ob die verfügbare Datenrate kleiner ist als der Datenratenwert DR6. Wenn dies wahr ist, ist der nächste Schritt der Schritt 170. Dort werden die beiden Verdeckungsschwellwerte Mask_Mid und Mask High berechnet, und zwar basierend auf den entsprechenden psychoakustischen Modellen PAM_Mid und PAM_High. Auch sie werden gewichtet und kombiniert, wie es für den Schritt 150 beschrieben wurde. Ein negatives Ergebnis in dem Entscheidungsschritt 160 führt zu einem Entscheidungsschritt 180. Hier wird untersucht, ob die verfügbare Datenrate ADR kleiner als oder gleich dem in Fig. 3 dargestellten Datenratenwert DR7 ist. Nach einer positiven Entscheidung wird der Programmschritt 190 durchgeführt. Dort wird der Verdeckungsschwellwert auf der Basis des psychoakustischen Modells PAM_High berechnet. Eine negative Entscheidung im Schritt 180 führt zu dem Schritt 200, wo ein Fehler-Ermittlungs-Algorithmus durchgeführt wird. Nach der Durchführung eines der Schritte 150, 170, 190 und 200 wird das Programm im Schritt 130 beendet.
  • Eine Vorrichtung zum Kodieren von Audiosignalen, die das Verfahren des "Weichen Umschaltens" anwendet, wird nunmehr anhand der Fig. 5 beschrieben.
  • Die Vorrichtung basiert auf der allgemein bekannten Unterband-Kodiertechnik. Ein digitalisiertes Audiosignal wird über einen Datenbus 300 einer Filterbank 310 zugeführt. Zur Vereinfachung wird angenommen, daß nur ein einziger Audiokanal (Mono) der Kodiervorrichtung zugeführt wird. Natürlich wird das Audiosignal der Kodiervorrichtung in Blöcken zugeführt. In der Filterbank 310 wird das Audiosignal in 32 Unterbänder aufgeteilt. Die Abtastwerte des Unterbands werden Blöcken 320 zugeführt. Hier werden Normierungsfaktoren oder Skalenfaktoren berechnet. Diese dienen für Zwecke einer Datenreduktion, nämlich zum Unterdrücken der vorderen "0"- und "1"- Bit der Unterband-Abtastwerte. Die Normierungsfaktoren jedes Unterband-Blocks werden einer Quantisiervorrichtung 330 für den Normierungsfaktor zugeführt. Dort werden sie quantisiert, zum Beispiel mit einer Auflösung von 6 Bit. Die quantisierten Normierungsfaktoren werden zu einer Multiplexeinheit 350 weitergegeben. Deren Funktion wird später beschrieben. Die Unterband-Abtastwerte werden in Normierungsschaltungen 360 eingegeben, nachdem sie den Block 320 durchlaufen haben. Hier werden die Abtastwerte mit geeigneten Faktoren 1/Us multipliziert, die aufgrund der quantisierten Normierungsfaktoren ermittelt werden, die über eine Busleitung 340 zugeführt werden. Die normierten Unterband-Abtastwerte werden Quantisierschaltungen 370 zugeführt. Hier wird die auf psychoakustischen Effekten basierende Datenreduktion durchgeführt. Die Bit-Auflösung für die Zwecke der Quantisierung wird entsprechen psychoakustischen Modellen ermittelt, die hierin später beschrieben werden, derart, daß das Quantisiergeräusch durch das menschliche Ohr nicht wahrnehmbar ist. Nach dem Durchlauf durch die Quantisierschaltungen 370 werden die Unterband-Abtastwerte zu der Multiplexeinheit 350 weitergeleitet. Die Multiplexeinheit 350 bildet den Ausgangs-Bitstrom der Kodiervorrichtung einschließlich aller Sychronisier- und Zusatzdaten. Der Bitstrom wird über den Datenbus 380 ausgegeben.
  • Der über den Datenbus 300 ankommende Bitstrom wird einem Block 390 zugeführt. Darin wird das Frequenzspektrum des Signals im Block 400 über einen FFT- Algorithmus (Fast Fourier Transform) berechnet. Außerdem sind in dem Block 390 drei unterschiedliche psychoakustische Modelle 410 bis 430 vorhanden. Der erste davon ist an einen spezifischen Ausgangs-Bitstrom mit niedriger Bitrate, zum Beispiel 32 kBit/s, angepaßt und dafür optimiert. Der zweite ist an einen Ausgangs- Bitstrom mittlerer Bitrate, zum Beispiel 56 kBit/s, angepaßt und dafür optimiert. Der dritte ist an einen Ausgangs-Bitstrom mit hoher Bitrate, zum Beispiel 80 kBit/s, angepaßt und dafür optimiert. Jedes der psychoakustischen Modelle ist in der Lage, einen Verdeckungsschwellwert Mask_Low, Mask_Mid, Mask_High zu ermitteln.
  • In dem MPEG 1- und MPEG 2-Standard besteht die Möglichkeit, die Bitrate in einem weiten Bereich von Bitraten (freies Format) vorzubestimmen. Abhängig von dem vorbestimmten Bitraten-Wert wird in dem Modus mit der "Harten Umschaltung" ein psychoakustisches Modell für die Berechnung des Verdeckungsschwellwertes angewendet. Dies wurde bereits anhand der Fig. 1 und 2 beschrieben. In dem Modus mit der "Weichen Umschaltung" können zwei unterschiedliche psychoakustische Modelle angewendet werden. Das ist abhängig von dem Wert der vorbestimmten Bitrate, wie es anhand der Fig. 3 und 4 beschrieben wurde. Die beiden Verdeckungsschwellwerte werden an eine Kombiniereinheit 440 weitergegeben, wo sie kombiniert werden. Die resultierenden Daten werden einer Bit-Zuordnungseinheit 450 zugeführt. In dem Modus mit der "Harten Umschaltung" wirkt die Kombiniereinheit 450 als eine Auswahleinheit zum Auswählen der geeigneten Verdeckungsschwellwert-Daten und zur Weiterleitung an die Bit-Zuordnungeinheit 450. Die Bit-Zuordnungseinheit berechnet die Bit-Zuordnung und steuert die Quantisierschaltungen 370. Die Bit-Zuordnungsdaten werden an die Multiplexeinheit 350 weitergegeben. Eine Steuereinheit 460 bestimmt die verfügbare Datenrate im voraus, zum Beispiel entsprechend einer Eingabe durch einen Benutzer, und steuert in Abhängigkeit davon die Kombiniereinheit 440 und die Bit-Zuordnungseinheit 450. Sie gibt außerdem zusätzliche Daten in die Multiplexeinheit 350 ein.
  • Die Erfindung ist in nahezu allen Audiosystemen anwendbar, wie MPEG, DAB, DCC, MD.
  • Wenn anstelle eines psychoakustischen Modells ein Modell für die Physiologie des Auges angewendet wird, kann die Erfindung auch für eine Videokodierung wie MPEG 1 oder MPEG 2 angewendet werden.
  • Es sind viele Abwandlungen der beschriebenen Ausführungsformen möglich. Zum Beispiel können die in Fig. 3 dargestellten Kurven L, M und H einen unterschiedlichen Verlauf aufweisen. Auch könnte die Anzahl der psychoakustischen Modelle von drei abweichen. Einige der in Fig. 5 dargestellten Blöcke könnten durch ein geeignetes Computerprogramm gebildet werden, das durch einen Standard- oder speziellen Mikroprozessor durchgeführt wird. Durch die Kombination der Verdeckungsschwellwerte in dem Modus mit der "Weichen Umschaltung" könnte anstelle der Formel 1 auch eine etwas abgewandelte Formel angewendet werden. Ebenso könnten mehr als zwei Verdeckungsschwellwerte kombiniert werden.

Claims (7)

1. Verfahren zum Kodieren eines digitalisierten Audiosignals, wobei eine Datenreduktion durch eine Analyse des Audiosignals aufgrund psychoakustischer Effekte erfolgt, dadurch gekennzeichnet, daß
zwei oder mehrere unterschiedliche psychoakustische Modelle (410, 420, 430) für den Daten-Reduktionsvorgangs angewendet werden, daß jedes der zwei oder mehreren unterschiedlichen psychoakustischen Modelle (410, 420, 430) zu einem bestimmten Verdeckungsschwellwert führt und daß die bestimmten Verdeckungsschwellwerte kombiniert werden und dadurch zu einem resultierenden Verdeckungsschwellwert führen.
2. Verfahren nach Anspruch 1, wobei die Kombination der Verdeckungsschwellwerte eine gewichtete Kombination ist und die Wichtungsfaktoren (α, β) in Abhängigkeit von der verfügbaren Datenrate (ADR) für den kodierten Bitstrom ermittelt werden.
3. Verfahren nach einem der Ansprüche 1 oder 2, wobei die gewichtete Kombination eine lineare Kombination nach der folgenden Gleichung ist:
Mask = α · Mask1 + β · Mask2
wobei Mask der resultierende Verdeckungsschwellwert,
Mask1 der aus dem ersten psychoakustischen Modell (PAM_Low) resultierende Verdeckungsschwellwert,
Mask2 der aus dem zweiten psychoakustischen Modell (PAM_Mid) resultierende Verdeckungsschwellwert,
α der Wichtungsfaktor für Mask1 und
β der Wichtungsfaktor für Mask2 ist.
4. Verfahren nach einem der Ansprüche 1 bis 3, wobei für jedes der zwei oder mehreren psychoakustischen Modelle (410, 420, 430) eine eigene Kurve (L, M, H) vorgesehen ist, die als eine unabhängige Variable die verfügbare Datenrate (ADR) und als Funktionswerte Werte zwischen "0" und "1" zur Ermittlung der Wichtungsfaktoren (α, β) in Abhängigkeit von der verfügbaren Datenrate besitzt.
5. Vorrichtung zum Kodieren eines digitalisierten Audiosignals, enthaltend Mittel (450, 370) zur Datenreduktion zur Reduzierung der digitalen Daten des Audiosignals aufgrund eines Verdeckungsschwellwertes, der unter Berücksichtigung von psychoakustischen Effekten ermittelt wird, dadurch gekennzeichnet, daß zwei oder mehrere Mittel (310, 420, 430) für psychoakustische Modelle für die Berechnung von jeweiligen Verdeckungsschwellwerten vorgesehen sind, wobei jedes Mittel (410, 420, 430) der psychoakustischen Modelle an eine spezifische Datenrate für den kodierten Bitstrom angepaßt ist, wobei Kombiniermittel (440) zum Kombinieren der erzeugten Verdeckungsschwellwerte der zwei oder mehreren Mittel für ein psychoakustisches Modell vorgesehen sind, was zu einem resultierenden Verdeckungsschwellwert führt, der durch die Mittel (450, 350) zur Datenreduktion angewendet wird.
6. Vorrichtung nach Anspruch 5, wobei Wichtungsmittel (440) zum Wichten der zwei oder mehreren Verdeckungsschwellwerte vorgesehen sind, bevor diese kombiniert werden.
7. Vorrichtung nach Anspruch 5 oder 6, wobei die Wichtungsmittel (440) die Wichtungsfaktoren (α, β) in Abhängigkeit von der verfügbaren Datenrate (ADR) für den kodierten Bitstrom ermitteln.
DE69700274T 1996-04-26 1997-04-17 Verfahren und Apparat zur Kodierung eines digitalen Audiosignals Expired - Lifetime DE69700274T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP96106678 1996-04-26

Publications (2)

Publication Number Publication Date
DE69700274D1 DE69700274D1 (de) 1999-07-22
DE69700274T2 true DE69700274T2 (de) 1999-10-14

Family

ID=8222723

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69700274T Expired - Lifetime DE69700274T2 (de) 1996-04-26 1997-04-17 Verfahren und Apparat zur Kodierung eines digitalen Audiosignals

Country Status (4)

Country Link
US (1) US6009399A (de)
JP (1) JP4173209B2 (de)
CN (1) CN1106085C (de)
DE (1) DE69700274T2 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2282906B (en) 1993-10-13 1996-11-06 Dataquill Ltd Data enty systems
JP3515903B2 (ja) * 1998-06-16 2004-04-05 松下電器産業株式会社 オーディオ符号化のための動的ビット割り当て方法及び装置
GB2454208A (en) 2007-10-31 2009-05-06 Cambridge Silicon Radio Ltd Compression using a perceptual model and a signal-to-mask ratio (SMR) parameter tuned based on target bitrate and previously encoded data
CN104011792B (zh) * 2011-08-19 2018-08-24 亚历山大·日尔科夫 多结构的、多级信息形式化和结构化方法和相关联的装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4516258A (en) * 1982-06-30 1985-05-07 At&T Bell Laboratories Bit allocation generator for adaptive transform coder
US4899384A (en) * 1986-08-25 1990-02-06 Ibm Corporation Table controlled dynamic bit allocation in a variable rate sub-band speech coder
DE4231918C1 (de) * 1992-09-24 1993-12-02 Ant Nachrichtentech Verfahren für die Codierung von Sprachsignalen
US5488665A (en) * 1993-11-23 1996-01-30 At&T Corp. Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels
US5608713A (en) * 1994-02-09 1997-03-04 Sony Corporation Bit allocation of digital audio signal blocks by non-linear processing

Also Published As

Publication number Publication date
JPH1093441A (ja) 1998-04-10
DE69700274D1 (de) 1999-07-22
US6009399A (en) 1999-12-28
CN1168034A (zh) 1997-12-17
JP4173209B2 (ja) 2008-10-29
CN1106085C (zh) 2003-04-16

Similar Documents

Publication Publication Date Title
DE69333394T2 (de) Hochwirksames Kodierverfahren und -gerät
DE69525836T2 (de) Kodierung und dekodierung eines breitbandigen digitalen informationssignals
EP0910927B1 (de) Verfahren zum codieren und decodieren von stereoaudiospektralwerten
DE69116476T2 (de) Digitaler Signalverschlüssler
EP0910928B1 (de) Codieren und decodieren von audiosignalen unter verwendung von intensity-stereo und prädiktion
DE69232251T2 (de) Digitaler Kodierer mit dynamischer Quantisierungsbitverteilung
DE69924922T2 (de) Audiokodierungsmethode und Audiokodierungsvorrichtung
DE69401512T2 (de) Hybride adaptive bitzuteilung für audiokoder und -dekoder
DE69225524T2 (de) Einrichtung zur Orthogonaltransformationskodierung eines digitalen Audiosignals
DE69210064T2 (de) Teilbandkodierer und Sender unter Verwendung dieses Kodierers
DE69901273T2 (de) Verfahren zur Codierung und Quantisierung von Audiosignalen
DE4320990B4 (de) Verfahren zur Redundanzreduktion
DE19959156C2 (de) Verfahren und Vorrichtung zum Verarbeiten eines zu codierenden Stereoaudiosignals
DE19526366A1 (de) Verfahren zur Redundanzreduktion bei der Codierung von mehrkanaligen Signalen und Vorrichtung zur Dekodierung von redundanzreduzierten, mehrkanaligen Signalen
DE19742655C2 (de) Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals
DE69510147T2 (de) Perzeptueller Teilbandkodierer
EP0962015B1 (de) Verfahren und vorrichtungen zum codieren von diskreten signalen bzw. zum decodieren von codierten diskreten signalen
DE69807806T2 (de) Verfahren und vorrichtung zur kodierung eines audiosignals mittels "vorwärts"- und "rückwärts"-lpc-analyse
EP0611516B1 (de) Verfahren zur reduzierung von daten bei der übertragung und/oder speicherung digitaler signale mehrerer abhängiger kanäle
DE69106580T2 (de) Codieranordnung mit einem Unterbandcoder und Sender mit der Codieranordnung.
WO1998048531A1 (de) Verfahren zum verschleiern von fehlern in einem audiodatenstrom
DE69107511T2 (de) Codierverfahren und Codieranordnung mit einem Unterbandcoder und Sender mit der Codieranordnung.
DE69217590T2 (de) Verfahren und Einrichtung zur Kodierung eines digitalen Audiosignals
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms
DE60217612T2 (de) Verfahren und Vorrichtung zur Kodierung und Dekodierung von Sprachsignalen

Legal Events

Date Code Title Description
8320 Willingness to grant licences declared (paragraph 23)
8364 No opposition during term of opposition