DE69700274T2 - Verfahren und Apparat zur Kodierung eines digitalen Audiosignals - Google Patents
Verfahren und Apparat zur Kodierung eines digitalen AudiosignalsInfo
- Publication number
- DE69700274T2 DE69700274T2 DE69700274T DE69700274T DE69700274T2 DE 69700274 T2 DE69700274 T2 DE 69700274T2 DE 69700274 T DE69700274 T DE 69700274T DE 69700274 T DE69700274 T DE 69700274T DE 69700274 T2 DE69700274 T2 DE 69700274T2
- Authority
- DE
- Germany
- Prior art keywords
- psychoacoustic
- masking threshold
- data rate
- pam
- masking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 24
- 230000005236 sound signal Effects 0.000 title claims description 12
- 230000000873 masking effect Effects 0.000 claims description 46
- 230000000694 effects Effects 0.000 claims description 3
- 101100269850 Caenorhabditis elegans mask-1 gene Proteins 0.000 claims 3
- 238000011946 reduction process Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 238000013139 quantization Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 102100030891 Actin-associated protein FAM107A Human genes 0.000 description 1
- 101001063917 Homo sapiens Actin-associated protein FAM107A Proteins 0.000 description 1
- 101150016871 LTI6B gene Proteins 0.000 description 1
- 101100370098 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) TOR2 gene Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/665—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Kodieren eines digitalisierten Audiosignals.
- Das psychoakustische Modell in einem Audiokoder, zum Beispiel in einem MPEG 1- oder MPEG 2 -Audiosystem, berechnet einen Verdeckungsschwellwert zum Zweck einer Datenreduktion. Der Verdeckungsschwellwert kann für jedes Unterband des Audiosignals anders sein. Der sogenannte Bit-Zuordnungs-Vorgang bestimmt für jedes Unterband aufgrund des festgelegten Verdeckungsschwellwertes, mit welcher Auflösung die Abtastwerte des Unterbands quantisiert werden sollen. Dies kann sich zeitlich mit jedem Block von Audiosignal-Abtastwerten ändern. Daher sollte die erforderliche Bitrate für eine optimale Tonqualität ebenfalls für die verschiedenen Blöcke unterschiedlich sein. In der Praxis ist in einem Audiosystem MPEG 1 die verfügbare gewünschte Bitrate normalerweise für jeden Audiokanal gleich. Da bezüglich der gewünschten Bitrate die genaue Anzahl an Bit für die verschiedenen für die Übertragung benötigten Parameter und Daten nicht im voraus genau geschätzt werden kann, bleiben einige Bit übrig, oder es fehlen einige Bit. Im allgemeinen wird eine einfache Zuordnungsstrategie angewendet, um dieses Problem zu lösen, zum Beispiel durch Zuordnung einer nahezu gleichen Bitzahl zu jedem Unterband.
- Die oben beschriebenen derzeitigen Zuordnungsstrategien berücksichtigen nicht das in dem Koder angewendete psychoakustische Modell. Heutzutage werden Koder für einen kleinen Bereich von Bitraten optimiert. Trotz dieser Tatsache werden derartige Audiokoder auch für einen Betrieb mit einem größeren Bereich an Bitraten angewendet, sind dafür aber nicht optimiert. Die unterschiedlichen Bitraten können zwischen dem linken und dem rechten Kanal und/oder zusätzlichen Kanälen (linkes sogenanntes Surround, rechtes sogenanntes Surround, Mitte) und/oder in der MPEG- LayerIII liegen, wo sich die gewünschte Bitrate von Rahmen zu Rahmen ändern kann.
- Die WO-A-9407313 beschreibt eine bekannte Sprachkodierung mit zwei verschiedenen Modi zum Kodieren von Sprachsignalen mit unterschiedlichen Bitraten.
- Es ist eine Aufgabe der Erfindung, ein Verfahren zum Erreichen einer besseren Audio-Kodierqualität bezüglich derartiger Zuordnungsstrategien anzugeben. Diese Aufgabe wird durch das im Anspruch 1 angegebene Verfahren gelöst.
- Es ist eine weitere Aufgabe der Erfindung, eine Vorrichtung anzugeben, die das erfindungsgemäße Verfahren anwendet. Diese Aufgabe wird durch die im Anspruch 6 angegebene Vorrichtung gelöst.
- Bei einer ersten Ausführungsform der Erfindung werden wenigstens drei psychoakustische Modelle anstelle eines einzigen angewendet, von denen jedes für eine bestimmte Bitrate oder einen Bereich von Bitraten optimiert ist. Abhängig von der gewünschten Kanal- oder Rahmen-Bitrate wählt der Koder das geeignete psychoakustische Modell aus. Der Ausgang einer der psychoakustischen Modelle kann als ein Standard-Verdeckungsschwellwert für eine bestimmte gewünschte Bitrate angesehen werden.
- Wenn die vorliegende Bitzahl zu hoch ist, wird das zweite psychoakustische Modell angewendet, das im allgemeinen einen höheren Verdeckungsschwellwert aufweist. Dieser höhere Schwellwert ist nicht der Standard-Schwellwert, der über das Spektrum wie im Stand der Technik gleichermaßen angehoben, jedoch gegenüber einem psychoakustischen Modell angehoben ist, das an das vorliegende Eingangsspektrum noch angepaßt ist.
- Wenn die vorliegende Bitzahl zu niedrig ist, wird das dritte psychoakustische Modell angewendet, das im allgemeinen einen niedrigeren Verdeckungsschwellwert aufweist. Auch hier ist der niedrigere Schwellwert nicht der Standard-Schwellwert, der wie im Stand der Technik gleichmäßig über das Spektrum abgesenkt ist, jedoch relativ zu einem psychoakustischen Modell abgesenkt ist, das an das vorliegende Eingangsspektrum noch angepaßt ist.
- Eine zweite Ausführungsform der Erfindung löst das Problem der harten Umschaltung zwischen den unterschiedlichen psychoakustischen Modellen, das heißt zwischen dem linken und dem rechten Kanal und/oder in der MPEG LayerI zu LayerIII, wo sich die gewünschte Datenrate von Rahmen zu Rahmen ändern kann. Anstelle der Anwendung einer Binärlogik für die Umschaltung wird eine Fuzzylogik durchgeführt.
- Im Prinzip ist das erfindungsgemäße Verfahren für die Audiokodierung in MPEG 2 LayerI zu LayerIII und/oder in MPEG 2 NBC-Systemen geeignet.
- Vorteilhafte weitere Ausführungsformen des erfindungsgemäßen Verfahrens ergeben sich aus den jeweiligen abhängigen Ansprüchen.
- Vorteilhafte weitere Ausführungsformen der erfindungsgemäßen Vorrichtung ergeben sich aus den jeweiligen abhängigen Ansprüchen.
- Bevorzugte Ausführungsformen der Erfindung werden anhand der beigefügten Zeichnung beschrieben. Darin zeigen:
- Fig. 1 ein Diagramm eines Verfahrens mit einer "Harten Umschaltung" zwischen drei Verdeckungsschwellwerten,
- Fig. 2 einen Programmaufbau für eine Audio-Kodiervorrichtung, die das Verfahren mit der "Harten Umschaltung" anwendet,
- Fig. 3 ein Diagramm für das Verfahren mit der "Harten Umschaltung" zwischen drei Verdeckungsschwellwerten,
- Fig. 4 einen Programmaufbau für eine Audio-Kodiervorrichtung, die das Verfahren mit der "Harten Umschaltung" anwendet,
- Fig. 5 ein Blockschaltbild für den grundsätzlichen Aufbau einer Audio- Kodiervorrichtung.
- Nützliche Informationen über eine Audio-Kodiertechnik sind enthalten in dem International Standard 150/IEC 11172-3, First Edition 1993-08-01, 'Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 MBit/s', Part 3 Audio.
- Das erfindungsgemäße Verfahren wendet mehr als ein psychoakustisches Modell an. Als ein Beispiel werden drei unterschiedliche psychoakustische Modelle angewendet. Jedes der psychoakustischen Modelle ist an eine spezifische, vorbestimmte Datenrate des Audio-Bitstroms angepaßt. Als Beispiel gibt es drei unterschiedliche Datenraten, 32 kBit/s, 56 kBit/s und 80 kBit/s. Die unterschiedlichen psychoakustischen Modelle werden abgekürzt mit PSM_Low, PAM_Mid, PAM_High. PAM_Low ist an die niedrige Datenrate von 32 kBit/s, PAM_Mid an die mittlere Datenrate von 56 kBit/s und PAM_High an die hohe Datenrate von 80 kBit/s angepaßt.
- Fig. 1 zeigt, in welchen Bereichen welches psychoakustische Modell angewendet wird. Auf der X-Achse in Fig. 1 ist der Bereich von möglichen Datenraten vorgegeben, die durch den Audiokoder angewendet werden können. Auf der Y-Achse ist der Anteil jedes psychoakustischen Modells für jede mögliche Datenrate angegeben. Wenn sich die verfügbare Datenrate innerhalb des Bereichs DRR1 befindet, wird das psychoakustische Modell PAM_Low für die Berechnung des Verdeckungsschwellwertes angewendet. Somit beträgt der Anteilsfaktor 1, das heißt 100% für PAM_Low und 0% für PAM_Mid und PAM_High. Wenn sich die verfügbare Datenrate innerhalb des Bereichs DRR2 befindet, wird das psychoakustische Modell PAM_Mid für die Berechnung des Verdeckungsschwellwertes angewendet. Somit beträgt hier der Anteilsfaktor 1, das heißt 100% für PAM_Mid und 0% für PAM_Low und PAM_High. Wenn sich die verfügbare Datenrate in dem Bereich DRR3 befindet, wird das psychoakustische Modell PAM_High für die Berechnung des Verdeckungsschwellwertes angewendet. Somit beträgt hier der Anteilsfaktor wieder 1, das heißt 100% für PAM_High und 0% für PAM_Low und PAM_Mid. Diese Art der Umschaltung zwischen den unterschiedlichen psychoakustischen Modellen wird von nun an mit "Harter Umschaltung" bezeichnet.
- Ein geeignetes, einfaches Computerprogramm, das nach diesem Verfahren arbeitet, ist in Fig. 2 dargestellt und wird nunmehr beschrieben.
- Die Bezugsziffer 10 bezeichnet den Startpunkt des Programms. Die Bezugsziffer 20 bezeichnet einen Entscheidungsschritt, bei dem festgestellt wird, ob die verfügbare Datenrate ADR kleiner ist als der in Fig. 1 dargestellte Datenratenwert DR1. Wenn das der Fall ist, geht das Programm mit dem Schritt 30 weiter. Darin wird der Verdeckungsschwellwert durch Anwendung des psychoakustischen Modells PAM_Low bestimmt. Nach diesem Schritt endet das Programm in dem Schritt 40. Wenn im Schritt 20 festgestellt wird, daß die verfügbare Datenrate ADR größer ist als der Datenratenwert DR1, wird im Schritt 50 untersucht, ob die verfügbare Datenrate ADR kleiner ist als der Datenratenwert DR2 oder nicht. Im Falle einer positiven Feststellung geht das Programm mit dem Schritt 60 weiter, und das psychoakustische Modell PAM_Mid wird für die Berechnung des Verdeckungsschwellwertes angewendet. Im Falle einer negativen Feststellung im Schritt 50 geht das Programm zu dem Entscheidungsschritt 70 weiter. Dort wird untersucht, ob die verfügbare Datenrate kleiner oder gleich dem Datenratenwert DR3 ist. Wenn das der Fall ist, geht das Programm zum Schritt 80 weiter, wo das psychoakustische Modell PAM High für die Berechnung des Verdeckungsschwellwertes angewendet wird. Im Falle einer negativen Antwort im Entscheidungschritt 70 geht das Programm mit dem Schritt 90 weiter, der einen geeigneten Fehlerermittlungs-Algorithmus enthält. Nach den Programmschritten 60, 80, 90 wird das Programm im Schritt 40 beendet.
- Ein verfeinertes Verfahren für die Umschaltung zwischen den unterschiedlichen psychoakustischen Modellen, genannt "Weiche Umschaltung", wird im folgenden beschrieben. In Fig. 3 sind drei unterschiedliche Bereiche für die verfügbare Datenrate dargestellt, nämlich DRR4, DRR5 und DRR6. Wenn sich die verfügbare Datenrate in dem Bereich DRR4 befindet, dann wird nur das psychoakustische Modell PAM_Low angewendet, das heißt mit 100% Anteil für die Berechnung des Verdeckungsschwellwertes. Wenn sich die verfügbare Datenrate in dem Bereich DRR7 befindet, dann wird nur das psychoakustische Modell PAM_High angewendet. Wenn sich die verfügbare Datenrate in dem Bereich DRR5 befindet, dann werden beide psychoakustischen Modelle PAM_Low und PAM_Mid für die Berechnung des entsprechenden Verdeckungsschwellwertes angewendet. In dem Fall, wenn sich die verfügbare Datenrate in dem Bereich DRR6 befindet, werden die beiden psychoakustischen Modelle PAM_Mid und PAM_High für die Berechnung des Verdeckungsschwellwertes angewendet. Als ein Beispiel ist in Fig. 3 dargestellt, daß sich die verfügbare Datenrate ADR in dem Bereich DRR5 befindet. Das bedeutet, daß zwei Verdeckungsschwellwerte berechnet werden, nämlich ein erster, genannt Mask_Low, entsprechend dem Modell PAM_Low, und ein zweiter, genannt Mask_Mid, entsprechend dem Modell PAM_Mid. Beide Verdeckungsschwellwerte werden zu einem resultierenden Verdeckungsschwellwert Mask kombiniert. Der neue Verdeckungsschwellwert wird berechnet mit einer Mittelwertberechnung entsprechend der Gleichung:
- Mask = α · Mask_Mid + β · Mask_Low
- Darin ist a der Anteilsfaktor für das psychoakustische Modell PAM_Mid und β der Anteilsfaktor für das psychoakustische Modell PAM_Low. Beide Anteilsfaktoren sind in Fig. 3 dargestellt. Sie werden bestimmt durch ein sogenanntes "Looking Up" in Tabellen, die die Werte für die Darstellung der jeweiligen Kurven L und M an dem Punkt der verfügbaren Datenrate ADR enthalten. Mit dieser Technik ist es möglich, einen Audiokoder aufzubauen, der Bitströme mit einem weiten Bereich von Datenraten erzeugen kann.
- Ein geeignetes Computerprogramm zur Durchführung des beschriebenen Verfahrens mit einer weichen Umschaltung wird nunmehr anhand der Fig. 4 beschrieben. Die Bezugsziffer 100 bezeichnet den Startschritt des Computerprogramms. In dem nächsten Schritt 110 wird untersucht, ob die verfügbare Datenrate ADR kleiner ist als die Datenrate DR4 oder nicht. Ein positives Ergebnis führt zum Schritt 120 als dem nächsten Programmschritt. Dort wird der Verdeckungsschwellwert nur auf der Basis des psychoakustischen Modells PAM_Low berechnet. Nach diesem Schritt wird das Programm im Schritt 130 beendet. Im Falle eines negativen Ergebnisses im Schritt 110 geht das Programm mit dem Schritt 140 weiter. Dort wird ermittelt, ob die verfügbare Datenrate kleiner ist als der Datenratenwert DR5 oder nicht. Wenn dies der Fall ist, dann werden im Schritt 150 zwei Verdeckungsschwellwerte berechnet. Einer entsprechend dem psychoakustischen Modell PAM_Low und der andere entspre chend einem psychoakustischen Modell PAM_Mid. Beide Verdeckungsschwellwerte werden dann zu einem resultierenden Verdeckungsschwellwert kombiniert. Zu diesem Zweck werden beide Verdeckungsschwellwerte mit ihren entsprechenden Wichtungsfaktoren α und β gewichtet, wie in Fig. 3 dargestellt ist. Der Kombiniervorgang verwendet die oben angegebene Formel 1, wie oben beschrieben. Im Falle eines negativen Ergebnisses im Schritt 140 ist der nächste Schritt der Entscheidungsschritt 160. Dort wird ermittelt, ob die verfügbare Datenrate kleiner ist als der Datenratenwert DR6. Wenn dies wahr ist, ist der nächste Schritt der Schritt 170. Dort werden die beiden Verdeckungsschwellwerte Mask_Mid und Mask High berechnet, und zwar basierend auf den entsprechenden psychoakustischen Modellen PAM_Mid und PAM_High. Auch sie werden gewichtet und kombiniert, wie es für den Schritt 150 beschrieben wurde. Ein negatives Ergebnis in dem Entscheidungsschritt 160 führt zu einem Entscheidungsschritt 180. Hier wird untersucht, ob die verfügbare Datenrate ADR kleiner als oder gleich dem in Fig. 3 dargestellten Datenratenwert DR7 ist. Nach einer positiven Entscheidung wird der Programmschritt 190 durchgeführt. Dort wird der Verdeckungsschwellwert auf der Basis des psychoakustischen Modells PAM_High berechnet. Eine negative Entscheidung im Schritt 180 führt zu dem Schritt 200, wo ein Fehler-Ermittlungs-Algorithmus durchgeführt wird. Nach der Durchführung eines der Schritte 150, 170, 190 und 200 wird das Programm im Schritt 130 beendet.
- Eine Vorrichtung zum Kodieren von Audiosignalen, die das Verfahren des "Weichen Umschaltens" anwendet, wird nunmehr anhand der Fig. 5 beschrieben.
- Die Vorrichtung basiert auf der allgemein bekannten Unterband-Kodiertechnik. Ein digitalisiertes Audiosignal wird über einen Datenbus 300 einer Filterbank 310 zugeführt. Zur Vereinfachung wird angenommen, daß nur ein einziger Audiokanal (Mono) der Kodiervorrichtung zugeführt wird. Natürlich wird das Audiosignal der Kodiervorrichtung in Blöcken zugeführt. In der Filterbank 310 wird das Audiosignal in 32 Unterbänder aufgeteilt. Die Abtastwerte des Unterbands werden Blöcken 320 zugeführt. Hier werden Normierungsfaktoren oder Skalenfaktoren berechnet. Diese dienen für Zwecke einer Datenreduktion, nämlich zum Unterdrücken der vorderen "0"- und "1"- Bit der Unterband-Abtastwerte. Die Normierungsfaktoren jedes Unterband-Blocks werden einer Quantisiervorrichtung 330 für den Normierungsfaktor zugeführt. Dort werden sie quantisiert, zum Beispiel mit einer Auflösung von 6 Bit. Die quantisierten Normierungsfaktoren werden zu einer Multiplexeinheit 350 weitergegeben. Deren Funktion wird später beschrieben. Die Unterband-Abtastwerte werden in Normierungsschaltungen 360 eingegeben, nachdem sie den Block 320 durchlaufen haben. Hier werden die Abtastwerte mit geeigneten Faktoren 1/Us multipliziert, die aufgrund der quantisierten Normierungsfaktoren ermittelt werden, die über eine Busleitung 340 zugeführt werden. Die normierten Unterband-Abtastwerte werden Quantisierschaltungen 370 zugeführt. Hier wird die auf psychoakustischen Effekten basierende Datenreduktion durchgeführt. Die Bit-Auflösung für die Zwecke der Quantisierung wird entsprechen psychoakustischen Modellen ermittelt, die hierin später beschrieben werden, derart, daß das Quantisiergeräusch durch das menschliche Ohr nicht wahrnehmbar ist. Nach dem Durchlauf durch die Quantisierschaltungen 370 werden die Unterband-Abtastwerte zu der Multiplexeinheit 350 weitergeleitet. Die Multiplexeinheit 350 bildet den Ausgangs-Bitstrom der Kodiervorrichtung einschließlich aller Sychronisier- und Zusatzdaten. Der Bitstrom wird über den Datenbus 380 ausgegeben.
- Der über den Datenbus 300 ankommende Bitstrom wird einem Block 390 zugeführt. Darin wird das Frequenzspektrum des Signals im Block 400 über einen FFT- Algorithmus (Fast Fourier Transform) berechnet. Außerdem sind in dem Block 390 drei unterschiedliche psychoakustische Modelle 410 bis 430 vorhanden. Der erste davon ist an einen spezifischen Ausgangs-Bitstrom mit niedriger Bitrate, zum Beispiel 32 kBit/s, angepaßt und dafür optimiert. Der zweite ist an einen Ausgangs- Bitstrom mittlerer Bitrate, zum Beispiel 56 kBit/s, angepaßt und dafür optimiert. Der dritte ist an einen Ausgangs-Bitstrom mit hoher Bitrate, zum Beispiel 80 kBit/s, angepaßt und dafür optimiert. Jedes der psychoakustischen Modelle ist in der Lage, einen Verdeckungsschwellwert Mask_Low, Mask_Mid, Mask_High zu ermitteln.
- In dem MPEG 1- und MPEG 2-Standard besteht die Möglichkeit, die Bitrate in einem weiten Bereich von Bitraten (freies Format) vorzubestimmen. Abhängig von dem vorbestimmten Bitraten-Wert wird in dem Modus mit der "Harten Umschaltung" ein psychoakustisches Modell für die Berechnung des Verdeckungsschwellwertes angewendet. Dies wurde bereits anhand der Fig. 1 und 2 beschrieben. In dem Modus mit der "Weichen Umschaltung" können zwei unterschiedliche psychoakustische Modelle angewendet werden. Das ist abhängig von dem Wert der vorbestimmten Bitrate, wie es anhand der Fig. 3 und 4 beschrieben wurde. Die beiden Verdeckungsschwellwerte werden an eine Kombiniereinheit 440 weitergegeben, wo sie kombiniert werden. Die resultierenden Daten werden einer Bit-Zuordnungseinheit 450 zugeführt. In dem Modus mit der "Harten Umschaltung" wirkt die Kombiniereinheit 450 als eine Auswahleinheit zum Auswählen der geeigneten Verdeckungsschwellwert-Daten und zur Weiterleitung an die Bit-Zuordnungeinheit 450. Die Bit-Zuordnungseinheit berechnet die Bit-Zuordnung und steuert die Quantisierschaltungen 370. Die Bit-Zuordnungsdaten werden an die Multiplexeinheit 350 weitergegeben. Eine Steuereinheit 460 bestimmt die verfügbare Datenrate im voraus, zum Beispiel entsprechend einer Eingabe durch einen Benutzer, und steuert in Abhängigkeit davon die Kombiniereinheit 440 und die Bit-Zuordnungseinheit 450. Sie gibt außerdem zusätzliche Daten in die Multiplexeinheit 350 ein.
- Die Erfindung ist in nahezu allen Audiosystemen anwendbar, wie MPEG, DAB, DCC, MD.
- Wenn anstelle eines psychoakustischen Modells ein Modell für die Physiologie des Auges angewendet wird, kann die Erfindung auch für eine Videokodierung wie MPEG 1 oder MPEG 2 angewendet werden.
- Es sind viele Abwandlungen der beschriebenen Ausführungsformen möglich. Zum Beispiel können die in Fig. 3 dargestellten Kurven L, M und H einen unterschiedlichen Verlauf aufweisen. Auch könnte die Anzahl der psychoakustischen Modelle von drei abweichen. Einige der in Fig. 5 dargestellten Blöcke könnten durch ein geeignetes Computerprogramm gebildet werden, das durch einen Standard- oder speziellen Mikroprozessor durchgeführt wird. Durch die Kombination der Verdeckungsschwellwerte in dem Modus mit der "Weichen Umschaltung" könnte anstelle der Formel 1 auch eine etwas abgewandelte Formel angewendet werden. Ebenso könnten mehr als zwei Verdeckungsschwellwerte kombiniert werden.
Claims (7)
1. Verfahren zum Kodieren eines digitalisierten Audiosignals, wobei eine
Datenreduktion durch eine Analyse des Audiosignals aufgrund psychoakustischer Effekte
erfolgt, dadurch gekennzeichnet, daß
zwei oder mehrere unterschiedliche psychoakustische Modelle (410, 420, 430) für
den Daten-Reduktionsvorgangs angewendet werden, daß jedes der zwei oder
mehreren unterschiedlichen psychoakustischen Modelle (410, 420, 430) zu einem
bestimmten Verdeckungsschwellwert führt und daß die bestimmten
Verdeckungsschwellwerte kombiniert werden und dadurch zu einem resultierenden
Verdeckungsschwellwert führen.
2. Verfahren nach Anspruch 1, wobei die Kombination der Verdeckungsschwellwerte
eine gewichtete Kombination ist und die Wichtungsfaktoren (α, β) in Abhängigkeit
von der verfügbaren Datenrate (ADR) für den kodierten Bitstrom ermittelt werden.
3. Verfahren nach einem der Ansprüche 1 oder 2, wobei die gewichtete Kombination
eine lineare Kombination nach der folgenden Gleichung ist:
Mask = α · Mask1 + β · Mask2
wobei Mask der resultierende Verdeckungsschwellwert,
Mask1 der aus dem ersten psychoakustischen Modell (PAM_Low) resultierende
Verdeckungsschwellwert,
Mask2 der aus dem zweiten psychoakustischen Modell (PAM_Mid) resultierende
Verdeckungsschwellwert,
α der Wichtungsfaktor für Mask1 und
β der Wichtungsfaktor für Mask2 ist.
4. Verfahren nach einem der Ansprüche 1 bis 3, wobei für jedes der zwei oder
mehreren psychoakustischen Modelle (410, 420, 430) eine eigene Kurve (L, M, H)
vorgesehen ist, die als eine unabhängige Variable die verfügbare Datenrate (ADR) und als
Funktionswerte Werte zwischen "0" und "1" zur Ermittlung der Wichtungsfaktoren
(α, β) in Abhängigkeit von der verfügbaren Datenrate besitzt.
5. Vorrichtung zum Kodieren eines digitalisierten Audiosignals, enthaltend Mittel
(450, 370) zur Datenreduktion zur Reduzierung der digitalen Daten des Audiosignals
aufgrund eines Verdeckungsschwellwertes, der unter Berücksichtigung von
psychoakustischen Effekten ermittelt wird, dadurch gekennzeichnet, daß zwei oder mehrere
Mittel (310, 420, 430) für psychoakustische Modelle für die Berechnung von
jeweiligen Verdeckungsschwellwerten vorgesehen sind, wobei jedes Mittel (410, 420, 430)
der psychoakustischen Modelle an eine spezifische Datenrate für den kodierten
Bitstrom angepaßt ist, wobei Kombiniermittel (440) zum Kombinieren der erzeugten
Verdeckungsschwellwerte der zwei oder mehreren Mittel für ein psychoakustisches
Modell vorgesehen sind, was zu einem resultierenden Verdeckungsschwellwert führt,
der durch die Mittel (450, 350) zur Datenreduktion angewendet wird.
6. Vorrichtung nach Anspruch 5, wobei Wichtungsmittel (440) zum Wichten der zwei
oder mehreren Verdeckungsschwellwerte vorgesehen sind, bevor diese kombiniert
werden.
7. Vorrichtung nach Anspruch 5 oder 6, wobei die Wichtungsmittel (440) die
Wichtungsfaktoren (α, β) in Abhängigkeit von der verfügbaren Datenrate (ADR) für den
kodierten Bitstrom ermitteln.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP96106678 | 1996-04-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69700274D1 DE69700274D1 (de) | 1999-07-22 |
DE69700274T2 true DE69700274T2 (de) | 1999-10-14 |
Family
ID=8222723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69700274T Expired - Lifetime DE69700274T2 (de) | 1996-04-26 | 1997-04-17 | Verfahren und Apparat zur Kodierung eines digitalen Audiosignals |
Country Status (4)
Country | Link |
---|---|
US (1) | US6009399A (de) |
JP (1) | JP4173209B2 (de) |
CN (1) | CN1106085C (de) |
DE (1) | DE69700274T2 (de) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2282906B (en) | 1993-10-13 | 1996-11-06 | Dataquill Ltd | Data enty systems |
JP3515903B2 (ja) * | 1998-06-16 | 2004-04-05 | 松下電器産業株式会社 | オーディオ符号化のための動的ビット割り当て方法及び装置 |
GB2454208A (en) | 2007-10-31 | 2009-05-06 | Cambridge Silicon Radio Ltd | Compression using a perceptual model and a signal-to-mask ratio (SMR) parameter tuned based on target bitrate and previously encoded data |
CN104011792B (zh) * | 2011-08-19 | 2018-08-24 | 亚历山大·日尔科夫 | 多结构的、多级信息形式化和结构化方法和相关联的装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4516258A (en) * | 1982-06-30 | 1985-05-07 | At&T Bell Laboratories | Bit allocation generator for adaptive transform coder |
US4899384A (en) * | 1986-08-25 | 1990-02-06 | Ibm Corporation | Table controlled dynamic bit allocation in a variable rate sub-band speech coder |
DE4231918C1 (de) * | 1992-09-24 | 1993-12-02 | Ant Nachrichtentech | Verfahren für die Codierung von Sprachsignalen |
US5488665A (en) * | 1993-11-23 | 1996-01-30 | At&T Corp. | Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels |
US5608713A (en) * | 1994-02-09 | 1997-03-04 | Sony Corporation | Bit allocation of digital audio signal blocks by non-linear processing |
-
1997
- 1997-03-28 CN CN97104573.9A patent/CN1106085C/zh not_active Expired - Lifetime
- 1997-04-16 US US08/838,297 patent/US6009399A/en not_active Expired - Lifetime
- 1997-04-17 DE DE69700274T patent/DE69700274T2/de not_active Expired - Lifetime
- 1997-04-23 JP JP10618297A patent/JP4173209B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH1093441A (ja) | 1998-04-10 |
DE69700274D1 (de) | 1999-07-22 |
US6009399A (en) | 1999-12-28 |
CN1168034A (zh) | 1997-12-17 |
JP4173209B2 (ja) | 2008-10-29 |
CN1106085C (zh) | 2003-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69333394T2 (de) | Hochwirksames Kodierverfahren und -gerät | |
DE69525836T2 (de) | Kodierung und dekodierung eines breitbandigen digitalen informationssignals | |
EP0910927B1 (de) | Verfahren zum codieren und decodieren von stereoaudiospektralwerten | |
DE69116476T2 (de) | Digitaler Signalverschlüssler | |
EP0910928B1 (de) | Codieren und decodieren von audiosignalen unter verwendung von intensity-stereo und prädiktion | |
DE69232251T2 (de) | Digitaler Kodierer mit dynamischer Quantisierungsbitverteilung | |
DE69924922T2 (de) | Audiokodierungsmethode und Audiokodierungsvorrichtung | |
DE69401512T2 (de) | Hybride adaptive bitzuteilung für audiokoder und -dekoder | |
DE69225524T2 (de) | Einrichtung zur Orthogonaltransformationskodierung eines digitalen Audiosignals | |
DE69210064T2 (de) | Teilbandkodierer und Sender unter Verwendung dieses Kodierers | |
DE69901273T2 (de) | Verfahren zur Codierung und Quantisierung von Audiosignalen | |
DE4320990B4 (de) | Verfahren zur Redundanzreduktion | |
DE19959156C2 (de) | Verfahren und Vorrichtung zum Verarbeiten eines zu codierenden Stereoaudiosignals | |
DE19526366A1 (de) | Verfahren zur Redundanzreduktion bei der Codierung von mehrkanaligen Signalen und Vorrichtung zur Dekodierung von redundanzreduzierten, mehrkanaligen Signalen | |
DE19742655C2 (de) | Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals | |
DE69510147T2 (de) | Perzeptueller Teilbandkodierer | |
EP0962015B1 (de) | Verfahren und vorrichtungen zum codieren von diskreten signalen bzw. zum decodieren von codierten diskreten signalen | |
DE69807806T2 (de) | Verfahren und vorrichtung zur kodierung eines audiosignals mittels "vorwärts"- und "rückwärts"-lpc-analyse | |
EP0611516B1 (de) | Verfahren zur reduzierung von daten bei der übertragung und/oder speicherung digitaler signale mehrerer abhängiger kanäle | |
DE69106580T2 (de) | Codieranordnung mit einem Unterbandcoder und Sender mit der Codieranordnung. | |
WO1998048531A1 (de) | Verfahren zum verschleiern von fehlern in einem audiodatenstrom | |
DE69107511T2 (de) | Codierverfahren und Codieranordnung mit einem Unterbandcoder und Sender mit der Codieranordnung. | |
DE69217590T2 (de) | Verfahren und Einrichtung zur Kodierung eines digitalen Audiosignals | |
EP1023777B1 (de) | Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms | |
DE60217612T2 (de) | Verfahren und Vorrichtung zur Kodierung und Dekodierung von Sprachsignalen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8320 | Willingness to grant licences declared (paragraph 23) | ||
8364 | No opposition during term of opposition |