DE69534115T2 - Bitverteilung für Mehrkanal-Audiokodierer auf Grund von wahrnehmungsgebundener Entropie - Google Patents

Bitverteilung für Mehrkanal-Audiokodierer auf Grund von wahrnehmungsgebundener Entropie Download PDF

Info

Publication number
DE69534115T2
DE69534115T2 DE69534115T DE69534115T DE69534115T2 DE 69534115 T2 DE69534115 T2 DE 69534115T2 DE 69534115 T DE69534115 T DE 69534115T DE 69534115 T DE69534115 T DE 69534115T DE 69534115 T2 DE69534115 T2 DE 69534115T2
Authority
DE
Germany
Prior art keywords
channel frame
intra
bit allocation
channel
bits
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69534115T
Other languages
English (en)
Other versions
DE69534115D1 (de
Inventor
Jong-Il Nam-Ku Kim
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WiniaDaewoo Co Ltd
Original Assignee
Daewoo Electronics Co Ltd
Dongbu Daewoo Electronics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daewoo Electronics Co Ltd, Dongbu Daewoo Electronics Corp filed Critical Daewoo Electronics Co Ltd
Priority claimed from EP95100207A external-priority patent/EP0721257B1/de
Application granted granted Critical
Publication of DE69534115D1 publication Critical patent/DE69534115D1/de
Publication of DE69534115T2 publication Critical patent/DE69534115T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft eine digitale Audiocodiervorrichtung; insbesondere eine verbesserte Vorrichtung zum adaptiven Codieren von digitalen Audioeingangssignalen aus mehreren Kanälen, basierend auf einer Wahrnehmungsentropie für jedes der digitalen Audioeingangssignale konsistent mit der menschlichen Hörwahrnehmung.
  • Beschreibung des Standes der Technik
  • Die Übertragung digitalisierter Audiosignale ermöglicht es, hochqualitative Audiosignale vergleichbar mit denen einer Kompaktdisk und/oder eines digitalen Audiotapes zu liefern. Wenn ein Audiosignal in digitaler Form ausgedrückt wird, muss eine erhebliche Datenmenge übertragen werden, insbesondere im Fall eines hochauflösenden Fernsehsystems. Da jedoch die verfügbare Frequenzbandbreite, die solchen digitalen Audiosignalen zugeordnet ist, beschränkt ist, um die erheblichen Mengen digitaler Daten, z. B. 768 Kbps pro Kanal für 16-bit-PCM-(Pulse Code Modulation)-Audiosignal mit 48 KHz Abtastfrequenz, durch die beschränkte Audiobandbreite von beispielsweise etwa 128 KHz zu übertragen, wird es unausweichlich, die digitalen Audiodaten zu komprimieren.
  • Unter den verschiedenen Audiokompressionsgeräten oder -techniken ist der sog. MPEG(Moving Pictures Expert Group)-Audio-Algorithmus, der einen psychoakustischen Algorithmus anwendet, für HDTV-Anwendungen vorgeschlagen worden.
  • Der MPEG-Audio-Algorithmus wendet vier primäre Abschnitte an: Subbandfiltern, psychoakustisches Modellieren, Quanti sieren und Codieren, sowie Frame-Formatieren. Das Subbandfiltern ist ein Prozess, bei dem ein digitales PCM-Audiosignal vom Zeitbereich auf den Frequenzbereich abgebildet wird. Es kann eine Filterbank mit B (z. B. 32) Subbändern verwendet werden. In jedem Subband werden 12 oder 36 Samples für deren Verarbeitung gruppiert, und die gruppierten Samples von den B Subbändern, d. h. B × 12 oder 36, bilden einen "Frame", der eine Verarbeitungseinheit für das Codieren, Übertragen und Decodieren von Audiosignalen ist. Das psychoakustische Modellieren erzeugt einen Datensatz, z. B. SMR(signal-to-mask-ratio, d. h. Signal-zu-Maskierung-Verhältnis)-Daten für jedes Subband oder jede Gruppe an Subbändern, um deren Quantisierung und Codierung zu steuern. Verfügbare Bits werden dann jedem Subband eines Frames mit Bezug auf das SMR beim Quantisier- und Codiervorgang der Subband-Samples adaptiv zugeordnet. Ein Frame-Formatierer formatiert die Frame-Daten zusammen mit anderer erforderlicher Nebeninformation in einer geeigneten Weise für die Übertragung.
  • Da jedem Frame eine feste Anzahl an Bits zugeordnet wird, kann die obige MPEG-Audiotechnik es jedoch nicht schaffen, solche statistischen Eigenschaften, wie Mittelwert, Standardabweichungen und Wahrnehmungsentropien des digitalen Audioeingangssignals wiederzugeben, die kontinuierlich unter den Frames variieren können. Falls ferner digitale Audioeingangssignale mit unterschiedlichen Wahrnehmungsentropien dem herkömmlichen Gerät, das eine solche Technik aus dem Stand der Technik anwendet, bereitgestellt werden, codiert dieses die digitalen Audioeingangssignale ohne jeglichen Bezug auf die Wahrnehmungsentropien, was zu einer schlechten menschlichen Hörwahrnehmung führt. Die Druckschrift EP-A-0559348 offenbart einen Ratensteuerungsschleifenprozessor für Wahrnehmungscodierer/decodierer.
  • Zusammenfassung der Erfindung
  • Es ist daher ein primäres Ziel der Erfindung, eine neue Vorrichtung zu schaffen, die digitale Audioeingangssignale für mehrere Kanäle basierend auf einer Wahrnehmungsentropie für jedes der digitalen Audioeingangssignale adaptiv codieren kann und dadurch die Codiereffizienz und die Audioqualität verbessert.
  • Die Erfindung erreicht dieses Ziel mit dem Gegenstand des Anspruchs 1. Bevorzugte Ausführungsbeispiele der Erfindung sind in den abhängigen Ansprüchen beschrieben.
  • Kurze Beschreibung der Zeichnung
  • Die obigen und weiteren Ziele und Merkmale der vorliegenden Erfindung werden aus der nachfolgenden Beschreibung bevorzugter Ausführungsbeispiele mit Bezug auf die beigefügte Zeichnung näher erläutert, in der:
  • 1 ein Blockdiagramm zeigt, das die neue Vorrichtung zum adaptiven Codieren digitaler Audioeingangssignale aus mehreren Kanälen gemäß der vorliegenden Erfindung darstellt; und
  • 2 ein detailliertes Blockdiagramm der in 1 gezeigten ersten Bitzuordnungseinheit darstellt.
  • Detaillierte Beschreibung der bevorzugten Ausführungsbeispiele
  • Bezugnehmend auf 1 ist ein Blockdiagramm gezeigt, das schematisch eine Codiervorrichtung 100 gemäß der vorliegenden Erfindung darstellt.
  • Die Codiervorrichtung 100 umfasst eine Subbandfiltereinrichtung 10, eine erste und eine zweite Wahrnehmungsparameterschätzeinrichtung 20 und 30, eine erste, eine zweite und eine dritte Bitzuordnungseinheit 40, 50 und 60, eine Quantisierungseinrichtung 70 und eine Formatierschaltung 80.
  • In der Codiervorrichtung 100 werden digitale Audioeingangssignale X1(m, i) und X2(s, i) des i-ten Frames (oder aktuellen Frames), die über N, z. B. 2, d. h. 1-tem (oder L) und 2-tem (oder R), Kanälen empfangen werden, der ersten Wahrnehmungsparameterschätzeinrichtung 20 und der Subbandfiltereinrichtung 10 zugeführt, wobei die entsprechenden digitalen Audioeingangssignale M und S Samples umfassen, so dass m = 0, 1, ..., M – 1; s = 0, 1, ..., S – 1 und M und S positive ganze Zahlen sind, und die Anzahl jeder der M und S Samples direkt proportional der Abtastfrequenz für jedes der digitalen Audioeingangssignale aus den Kanälen ist. Ein hier verwendeter "Frame" bezeichnet einen Abschnitt des digitalen Audiosignals, der einer festen Anzahl an Audiosamples entspricht, und ist eine Verarbeitungseinheit für die Codierung und Decodierung des digitalen Audiosignals.
  • Wie gezeigt, weist die Subbandfiltereinrichtung 10 mehrere Subbandfilter, z. B. zwei Subbandfilter 11 und 12, auf, die parallel gekoppelt sind, um die digitalen Audioeingangssignale der aktuellen Frames gleichzeitig zu empfangen und das Filtern der digitalen Audioeingangssignale vom 1-ten und 2-ten Kanal durch Anwenden einer im Stand der Technik wohlbekannten Filtertechnik durchzuführen, z. B. dem Verfahren, das in dem sog. MPEG-Audioalgorithmus offenbart ist, der in ISO/IEC JTCI/SC2/WG 11, "Part 3, Audio Proposal", CD-11172-3(1991) beschrieben ist. Das heißt, dass jedes der Subbandfilter 11 und 12 dazu dient, das digitale Audioeingangssignal mit einer Abtastfrequenz fs in B, z. B. 32, gleich beabstandete Subbänder mit Abtastfrequenzen von fs/B aufzuteilen und die aufgeteilten Subband-Audiosamples der Quantisierungseinrichtung 70 bereitzustellen.
  • Andererseits empfängt die erste Wahrnehmungsparameterschätzeinrichtung 20 die digitalen Audioeingangssignale des aktuellen Frames vom 1-ten und 2-ten Kanal und schätzt Signal-zu-Maskierung-Verhältnis(SMR)-Daten SMR1 und SMR2, Schalldruckpegel P1 und P2 und die Maskierungsschwellen M1 und M2 für die jeweiligen Subbänder, die in den aktuellen Frames vom 1-ten und 2-ten Kanal enthalten sind, unter Anwendung eines psychoakustischen Modells, das beispielsweise im MPEG-Audioalgorithmus diskutiert wird. Das SMR1 für jedes Subband aus dem 1-ten Kanal wird wie folgt erhalten: SMR1(j) = P1(j) – M1(j) Gl. (1)wobei j ein Subband-Index ist, mit j = 0, 1, ..., B – 1; B die Gesamtzahl an Subbändern in einem Frame ist; SMR1(j) ein Signal-zu-Maskierung-Verhältnis im Subband j des 1-ten Kanals ist; j ein Schalldruckpegel im Subband j des 1-ten Kanals ist, der über eine FFT(Fast Fourier Transformation)-Technik geschätzt wird; M1(j) eine Maskierungsschwelle im Subband j des 1-ten Kanals ist; und SMR1(j), P1(j) und M1(j) alle in dB (Dezibel)-Einheiten sind.
  • Ähnlich kann das SMR2 für jedes Subband vom 2-ten Kanal wie folgt abgeleitet werden: SMR2 (j) = P2 (j) – M2 (j) dB Gl. (2)wobei j die gleiche Bedeutung wie oben definiert hat.
  • Die Maskierungsschwelle stellt eine Hörgrenze dar, die eine Summe der intrinsischen Hörgrenze oder -schwelle eines Tons und einer Erhöhung ist, die durch das Vorhandensein weiterer tonaler und nicht-tonaler Bestandteile des Audiosignals verursacht wird. Die Signal-zu-Maskierung-Verhältnis-Daten SMR1(j) und SMR2 (j) des 1-ten und des 2-ten Kanals werden dann der dritten Bitzuordnungseinheit 60 zugeführt, während die Schalldruckpegel P1(j) und P2(j) und die Maskierungsschwellen M1(j) und M2(j) des 1-ten und des 2-ten Kanals der zweiten Wahrnehmungsparameterschätzeinrichtung 30 zugeführt werden, die einen Wahrnehmungsentropieschätzer 32 und einen Mittelwert- und Standardabweichungsschätzer 34 aufweist.
  • Der Wahrnehmungsentropieschätzer 32 dient dazu, Wahrnehmungsentropien PE1(i) und PE2(i) für i-te Frames des 1-ten und des 2-ten Kanals basierend auf den Schalldruckpegeln P1(j) und P2(j) und den Maskierungsschwellen M1(j) und M2(j) zu schätzen, die von der ersten Wahrnehmungsparameterschätzeinrichtung 20 geliefert werden. Die Wahrnehmungsentropie PE1(i) für den i-ten Frame des 1-ten Kanals kann, wie im Stand der Technik wohlbekannt, wie folgt dargestellt werden:
    Figure 00060001
    wobei i, j und B die gleichen Bedeutungen wie oben definiert haben.
  • Ähnlich kann die Wahrnehmungsentropie PE2(i) für den i-ten Frame des 2-ten Kanals, wie im Stand der Technik wohlbekannt, wie folgt erhalten werden:
    Figure 00060002
    wobei i, j und B die gleichen Bedeutungen wie oben definiert haben.
  • Gleichungen (3) und (4) können erhalten werden, indem die sog. Rate-Distortion-Theorie angewandt wird; und entsprechen den Wahrnehmungsentropien, basierend auf der menschlichen Hörwahrnehmung. Die Wahrnehmungsentropien für die i-ten Frames des 1-ten und 2-ten Kanals, die beim Wahrnehmungsentropieschätzer 32 geschätzt werden, werden dann der zweiten Bitzuordnungseinheit 50 und dem Mittelwert- und Standardabweichungsschätzer 34 übersandt.
  • Der Mittelwert- und Standardabweichungsschätzer 34 ist ausgestaltet, die geschätzten Wahrnehmungsentropien, d. h. PE1(i – 1), PE1(i), PE2(i – 1) und PE2(i) für Q, z. B. 4, des aktuellen und seines vorhergehenden Frames des 1-ten und des 2-ten Kanals zu gruppieren, die vom Wahrnehmungsentropieschätzer 32 zugeführt werden, um Bits zwischen dem 1-ten und 2-ten Kanal gemäß der Verarbeitung der ersten Bitzuordnungseinheit 40 adaptiv zuzuordnen, die nachfolgend detailliert mit Bezug auf 2 beschrieben wird; und schätzt einen Mittelwert- und einen Standardabweichungsparameter, der deren statistische Eigenschaften darstellt, unter Verwendung der gesamten Wahrnehmungsentropien, die für eine Inter-Kanal-Framegruppe geschätzt wird, welche die vier aktuellen und vorhergehenden Frames für den 1-ten und den 2-ten Kanal einschließen. Der Mittelwertparameter PEm für die gesamten Wahrnehmungsentropien der Inter-Kanal-Framegruppe kann, wie im Stand der Technik wohlbekannt, wie folgt geschätzt werden:
    Figure 00070001
    wobei p ein Frameindex ist, der in der Inter-Kanal-Framegruppe verwendet wird, mit p = 0, 1, ..., Q – 1, und Q die Gesamtframezahl der Inter-Kanal-Framegruppe ist; und PE(p) eine Wahrnehmungsentropie eines p-ten Frames in der Inter-Kanal-Framegruppe darstellt.
  • Dementsprechend kann der Standardabweichungsparameter PEstd für die gesamten Wahrnehmungsentropien der Inter-Kanal-Framegruppe, wie im Stand der Technik wohlbekannt, wie folgt dargestellt werden:
    Figure 00080001
    wobei p und Q die gleichen Bedeutungen wie oben definiert haben.
  • In einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung kopiert der Mittelwert- und Standardabweichungsschätzer 34 auch die geschätzten Wahrnehmungsentropien, d. h. PE1(i) und PE1(i – 1), und PE2(i) und PE2(i – 1) für eine Anzahl von F, z. B. 2, aktuelle und deren vorhergehende Frames für jeden der 1-ten bzw. der 2-ten Kanäle, um jedem der 1-ten und der 2-ten Kanäle und den jeweiligen Frames, die in jedem der Kanäle enthalten sind, entsprechend ihrer Wahrnehmungsentropien adaptiv Bits zuzuordnen, und erzeugt Wahrnehmungsentropien PE(1) und PE(2) für zwei Intra-Kanal-Framegruppen des 1-ten und des 2-ten Kanals. Die Wahrnehmungsentropien PE(1) und PE(2) für den 1-ten und den 2-ten Kanal und der Mittelwert- und Standardabweichungsparameter PEm und PEstd, die beim Mittelwert- und Standardabweichungsschätzer 34 erzeugt und geschätzt werden, werden dann der ersten Bitzuordnungseinheit 40 übertragen.
  • Die erste Bitzuordnungseinheit 40 ist ausgestaltet, Bits für die zwei Intra-Kanal-Framegruppen des 1-ten und des 2-ten Kanals basierend auf den Wahrnehmungsentropien PE(1) und PE(2) und des Mittelwert- und des Standardabweichungsparameters PEm und PEstd vom Mittelwert- und Standardabweichungsschätzer 34 zu bestimmen, und der zweiten Bitzuordnungseinheit 50 und der Formatierschaltung 80 Bitzuordnungsinformation CBI1 und CBI2 bereitzustellen, die den bestimmten Bits für die zwei Intra-Kanal-Framegruppen des 1-ten und des 2-ten Kanals entsprechen.
  • Bezugnehmend auf 2 ist ein detailliertes Blockdiagramm der in 1 gezeigten ersten Bitzuordnungseinheit 40 gezeigt. Die erste Bitzuordnungseinheit 40 umfasst einen Entscheidungspegelschätzer 41, einen Multiplizierer 42, einen Subtrahierer 43, einen Dividierer 44 und eine Bitzuordnungseinrichtung 45.
  • Der Entscheidungspegelschätzer 41 dient dazu, optimale Entscheidungspegel der Inter-Kanal-Framegruppe für die Bitzuordnungseinrichtung 45 zu schätzen, um den beiden Intra-Kanal-Framegruppen des 1-ten bzw. des 2-ten Kanals Bits zuzuordnen, abhängig vom Mittelwert- und vom Standardabweichungsparameter PEm und PEstd vom in 1 gezeigten Mittelwert- und Standardabweichungsschätzer 34. Gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung kann ein k-ter Entscheidungspegel D(k) der Inter-Kanal-Framegruppe wie folgt abgeleitet werden: D(k) = NF·PEstd·k Gl. (7)wobei k ein Entscheidungspegelindex ist, mit k = –q bis q, q eine positive ganze Zahl ist, und NF ein Normalisierungsfaktor in der Inter-Kanal-Framegruppe ist.
  • Wie aus Gl. (7) ersichtlich wird, hängt das Pegelintervall zwischen dem k-ten Entscheidungspegel D(k) und einem (k – 1)-ten Entscheidungspegel D(k – 1) der Inter-Kanal-Framegruppe sowohl von der Standardabweichung PEstd vom Mittelwert- und Standardabweichungsschätzer 34 als auch vom Normalisierungsfaktor NF der Inter-Kanal-Framegruppe ab, während die Gesamtzahl, z. B. 2q + 1, an Entscheidungspegeln vorbestimmt ist. Es ist selbstverständlich, dass die Gesamtzahl an Entscheidungspegeln basierend auf der erforderlichen Codiereffizienz und der Audioqualität der Codiervorrichtung bestimmt werden kann. Der Normalisierungsfaktor NF der Inter-Kanal-Framegruppe, der im Entscheidungspegelschätzer 41 verwendet wird, kann vorzugsweise bestimmt werden, indem der Mittelwert- und der Standardabweichungsparameter PEm und PEstd vom Mittelwert- und Standardabweichungsschätzer 34 und ein Parameter PEgm für einen globalen Mittelwert und ein Parameter PEgstd für den Mittelwert der globalen Standardabweichung, die in einem Speicher (nicht dargestellt) davon vorgespeichert sind, verwendet werden, um die optimalen Entscheidungspegel der Inter-Kanal-Framegruppe abzuleiten, die der aktuellen menschlichen Hörwahrnehmung am nächsten entsprechen. Sowohl der Parameter des globalen Mittelwertes als auch der Parameter für den Mittelwert der globalen Standardabweichung können leicht gemessen werden, indem der Mittelwert- und der Standardabweichungsparameter verwendet werden, die jeweils für eine vorbestimmte Zeitdauer geschätzt werden. Gemäß der vorliegenden Erfindung kann der Normalisierungsfaktor NF der Inter-Kanal-Framegruppe wie folgt erhalten werden:
  • Figure 00100001
  • Wie aus Gleichung (7) und (8) ersichtlich wird, sei bemerkt, dass die Entscheidungspegel der Inter-Kanal-Framegruppe als ein ganzes Vielfaches des Mittelwertparameters dafür bestimmt werden können. Die Entscheidungspegel und die Gesamtzahl an Entscheidungspegeln, die beim Entscheidungspegelschätzer 41 geschätzt und vorbestimmt werden, werden der Bitzuordnungseinrichtung 45 bereitgestellt.
  • Andererseits multipliziert der Multiplizierer 42 den Mittelwertparameter PEm, der vom in 1 gezeigten Mittelwert- und Standardabweichungsschätzer 34 geliefert wird, mit einem Koeffizienten F, z. B. 2 in diesem Fall, der in einem Speicher (nicht dargestellt) davon vorgespeichert ist, der die Gesamtzahl an Frames, die in irgendeiner der beiden In tra-Kanal-Framegruppen enthalten sind, um dadurch einen multiplizierten Ausgangsparameter 2·PEm zu erzeugen. Der beim Multiplizierer 42 erzeugte Ausgangsparameter 2·PEm und die Wahrnehmungsentropien PE(1) und PE(2) für die beiden Intra-Kanal-Framegruppen vom in 1 gezeigten Mittelwert- und Standardabweichungsschätzer 34 werden dann dem Subtrahierer 43 gesendet, der ausgestaltet ist, Differenzsignale E(1) und E(2) für die beiden Intra-Kanal-Framegruppen zu berechnen, indem jede der Wahrnehmungsentropien PE(1) bzw. PE(2) vom Ausgangsparameter 2·PEm subtrahiert werden, und erzeugt berechnete Differenzsignale E(1) und E(2). Der Dividierer 44 ist ausgestaltet, die Differenzsignale E(1) und E(2) vom Subtrahierer 43 zu empfangen, um dadurch die jeweiligen Differenzsignale in die vorbestimmte Framezahl F, z. B. 2 in diesem Fall, zu teilen, die in irgendeiner der Intra-Kanal-Framegruppen enthalten sind, um die optimalen Entscheidungspegel zum Mitteln der Differenzsignale jeweils zu erhalten, und erzeugt dividierte Differenzsignale E(1)/2, E(2)/2. Danach werden die Entscheidungspegel D(k)s und die Gesamtzahl, d. h. 2q + 1, der Entscheidungspegel, die beim Entscheidungspegelschätzer 41 geschätzt und vorbestimmt worden sind, und die Differenzsignale E(1)/2 und E(2)/2, die vom Dividierer 44 erzeugt werden, der Bitzuordnungseinrichtung 45 gleichzeitig bereitgestellt.
  • Die Bitzuordnungseinrichtung 45 dient dazu, Bits für jede der beiden Intra-Kanal-Framegruppen des 1-ten und des 2-ten Kanals basierend auf den Entscheidungspegeln und der Gesamtzahl an Entscheidungspegeln vom Entscheidungspegelschätzer 41 und den Differenzsignalen vom Dividierer 44 zu bestimmen. Gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung kann die Bitzuordnung FB für jeden Kanal wie folgt bestimmt werden:
    Figure 00120001
    wobei r eine positive ganze Zahl ist, die als ein Kanalindex verwendet wird; FBm Mittelwertbits sind, z. B. 3072 Bits pro Frame für 16-Bit-PCM(Pulse Code Modulation)-Audiodaten mit 48 KHz Abtastfrequenz bei einer 128 Kpbs Datenübertragungsrate pro Kanal; BV ein vorbestimmter Bitvariationswert ist; 2q + 1 die Gesamtzahl an vorbestimmten Entscheidungspegeln ist; I ein Pegelindex im Kanal r ist; und F die gleiche Bedeutung wie oben definiert hat.
  • Wie aus Gleichung (9) ersichtlich wird, kann die Bitzuordnung für den r-ten Kanal FB(r) bestimmt werden, indem die Gesamtzahl an Mittelwertbits, F·FBm, mit der Gesamtzahl variierter Bits addiert wird, die aus dem zweiten Term davon abgeleitet werden kann. Der vorbestimmte Bitvariationswert BV darin kann dann als ein Wert bestimmt werden, der den Bitvariationsbereich zwischen minimalen Bits und maximalen Bits der Bitzuordnung darstellt, der unter den jeweiligen Kanälen variieren kann; und der Pegelindex I für die Intra-Kanal-Framegruppe des r-ten Kanals kann basierend auf den Enstcheidungspegeln D(k)s vom Entscheidungspegelschätzer 41 und jedem der Differenzsignale E(1)/2 und E(2)/2 vom Dividierer 44 erhalten werden. Gemäß der vorliegenden Erfindung kann der Pegelindex I für die Intra-Kanal-Framegruppe des r-ten Kanals wie in der Tabelle gezeigt dargestellt werden (wobei angenommen wird, dass das Intervall an Entscheidungspegeln 1.27 ist und der Entscheidungspegelindex –2 bis 2 ist):
  • TABELLE
    Figure 00130001
  • Wie aus der obigen Tabelle ersichtlich wird, kann, falls das Differenzsignal E(r) für die Intra-Kanal-Framegruppe des r-ten Kanals zwischen den Entscheidungspegeln –2.55 und –1.28 existiert, dann dessen Pegelindex I zu –1 gewählt werden; und falls er zwischen den Entscheidungspegeln –1.27 und 1.26 liegt, kann dann der Pegelindex I zu 0 gewählt werden, usw. Auf diese Weise kann die Bitzuordnung FB(r) für die Intra-Kanal-Framegruppe des r-ten Kanals vorteilhaft unter Anwendung von Gl. (9) bestimmt werden.
  • Nachfolgend werden die Bitzuordnungsinformation CBI1 und CBI2 des 1-ten und des 2-ten Kanals, entsprechend den bestimmten Bits für die jeweiligen Kanäle bei der Bitzuordnungseinheit 45 und die Wahrnehmungsentropien PE1(i) und PE2(i) vom in 1 gezeigten Wahrnehmungsentropieschätzer 32 gleichzeitig der zweiten Bitzuordnungseinheit 50 zugeführt; und die Bitzuordnungsinformation CBI1 und CBI2 für die jeweiligen Kanäle wird der Formatierschaltung 80 zugeführt.
  • Bezugnehmend auf 1 bestimmt die zweite Bitzuordnungseinheit 50 Bits für die jeweiligen Frames, die in jeder der beiden Intra-Kanal-Framegruppen für den 1-ten und den 2-ten Kanal enthalten sind, basierend auf deren entsprechenden Wahrnehmungsentropien vom Wahrnehmungsentropieschätzer 32 und der Bitzuordnungsinformation CBI1 und CBI2 von der ersten Bitzuordnungseinheit 40. Bei der zweiten Bitzuordnungseinheit 50 kann die Bitzuordnung für die jeweiligen Frames in jeder der beiden Intra-Kanal-Framegruppen vorzugsweise durch Anwenden einer Bitzuordnungstechnik bestimmt werden, zur Verwendung in einer digitalen Audiocodiervorrichtung, wie sie in einer mitanhängigen Anmeldung, US-5,537,510 vom gleichen Anmelder, mit dem Titel "Adaptive Digital Audio Encoding Apparatus and a Bit Allocation Method Thereof" offenbart ist.
  • Nachfolgend werden die Bitzuordnungsinformation FBI1 und FBI2 des 1-ten und des 2-ten Kanals entsprechend der bestimmten Bits für die jeweiligen Frames, die in jedem der beiden Intra-Kanal-Framegruppen für den 1-ten und den 2-ten Kanal enthalten sind, bei der zweiten Bitzuordnungseinheit 50 und die Signal-zu-Maskierung-Verhältnisdaten SMR1(j) und SMR2(j) von der in 1 gezeigten ersten Wahrnehmungsparameterschätzeinrichtung 20 gleichzeitig der dritten Bitzuordnungseinheit 60 zugeführt; und die Bitzuordnungsinformation FBI1 und FBI2 wird der Formatierschaltung 80 zugeführt.
  • Die dritte Bitzuordnungseinheit 60 empfängt die Signal-zu-Maskierung-Verhältnisdaten SMR1 und SMR2, die von der ersten Wahrnehmungsparameterschätzeinrichtung 20 zugeführt werden, und die Bitzuordnungsinformation FBI1 und FBI2 für die jeweiligen Frames, die von der zweiten Bitzuordnungseinheit 50 zugeführt wird, bestimmt Bits für jedes Subband, das in den jeweiligen Frames der beiden Intra-Kanal-Framegruppen enthalten ist, und stellt eine Bitzuordnungsinformation SBI1 und SBI2, die den bestimmten Bits für die jeweiligen Subbänder des 1-ten und des 2-ten Kanals dem Quantisierer 70 bzw. der Formatierschaltung 80 bereit. Das in der dritten Bitzuordnungseinheit 60 angewandte Prinzip liegt in der Optimierung des gesamten Maskierung-zu-Rausch-Verhältnisses über einem Frame mit der Einschränkung, dass die Anzahl an verwendeten Bits nicht die Anzahl an für diesen Frame verfügbaren Bits überschreitet, die von der zweiten Bitzuordnungseinheit 50 übertragen werden. Danach werden die Bitzuordnungsinformation SBI1 und SBI2 für die jeweiligen Subbänder des 1-ten und des 2-ten Kanals von der dritten Bitzuordnungseinheit 60 und die aufgeteilten Subband-Audiosamples von den Subbandfiltern 11 und 12 gleichzeitig der Quantisiereinrichtung 70 zugeführt, die mehrere Quantisierer, z. B. 71 und 72, aufweist.
  • Jeder der Quantisierer 71 und 72 dient dazu, entsprechende aufgeteilte Subband-Audiosamples von jedem der Subbandfilter 11 und 12 basierend auf seiner entsprechenden Bitzuordnungsinformation von der dritten Bitzuordnungseinheit 60 adaptiv zu quantisieren und das quantisierte Audiosignal für sowohl den 1-ten als auch den 2-ten Kanal der Formatierschaltung 80 bereitzustellen.
  • Bei der Formatierschaltung 80 werden die quantisierten Audiosamples von jedem der Quantisierer 71 und 72 und die Bitzuordnungsinformation von der ersten, zweiten und dritten Bitzuordnungseinheit 40, 50 und 60 formatiert und einem Sender (nicht dargestellt) für deren Übertragung übertragen, wodurch die Codiereffizienz und die Audioqualität der digitalen Audioeingangssignale vom 1-ten und 2-ten Kanal verbessert werden. Die Prinzipien und Funktion der Subbandfiltereinrichtung 10, der ersten Wahrnehmungsparamterschätzeinrichtung 20, der dritten Bitzuordnungseinheit 60, der Quantisierungseinrichtung 70 und der Formatierschaltung 80 sind im wesentlichen identisch denjenigen, die im MPEG-Audioalgorithmus gefunden werden können.
  • Auch wenn die vorliegendem Erfindung mit Bezug auf die speziellen Ausführungsbeispiele gezeigt und beschrieben worden ist, ist es für den Durchschnittsfachmann selbstverständlich, dass zahlreiche Änderungen und Modifikationen durchgeführt werden können, ohne den Geist und Bereich der Erfindung zu verlassen, wie er in den beigefügten Ansprüchen definiert ist.

Claims (4)

  1. Vorrichtung zum adaptiven Codieren von digitalen Audio-Eingangssignalen (X1(m, i), X2(s, i)) aus einer Anzahl von N Kanälen, wobei jedes der digitalen Audio-Eingangssignale mehrere Frames umfaßt, jeder Frame mehrere Subbänder umfaßt, und N eine positive ganze Zahl ist, die folgendes umfaßt: eine Anzahl N Subband-Filtermittel (11, 12), die parallel angeordnet sind zum jeweiligen Empfangen der digitalen Audio-Eingangssignale auf einer Subband-zu-Subband-Basis; ein erstes Schätzmittel (20) zum Schätzen von Signal-zu-Maskierung-Verhältnis-Daten (SMR1(j), SMR2(j2)), Schalldruckpegeln (P1(j), P2(j)) und Maskierungsschwellen (M1(j), M2(j)) für die jeweiligen Subbänder, die in jedem der digitalen Audio-Eingangssignale enthalten sind; ein zweites Schätzmittel (30) zum Schätzen erster Wahrnehmungsentropien (PE1(i), PE2(i)) der jeweiligen Frames, die in jedem der digitalen Audio-Eingangssignale enthalten sind, basierend auf den Schalldruckpegeln und Maskierungsschwellen, um daraus einen Mittelwert(PEm)- und einen Standardabweichung(PEstd)-Parameter für eine Inter-Kanal-Frame-Gruppe abzuleiten, die eine Anzahl N × F aktueller und vorhergehender Frames für die Gesamtzahl von N Kanälen enthält, wobei F eine positive ganze Zahl ist, die die Anzahl an Frames darstellt, die in jeder der Intra-Kanal-Frame-Gruppen enthalten ist, und die Inter-Kanal-Frame-Gruppe den geschätzten Wahrnehmungsentropien entspricht, und zum Schätzen zweiter Wahrnehmungsentropien (PE(1), PE(2)) für eine Intra-Kanal-Frame-Gruppe, die eine Anzahl F aktueller und vorhergehender Frames für jeden der N Kanäle enthält; ein erstes Bitzuordnungsmittel (40) zum adaptiven Bestimmen von Bits für jede der Intra-Kanal-Frame-Gruppen, basierend auf der geschätzten zweiten Wahrnehmungsentropie für jede der Intra-Kanal-Frame-Gruppen und dem Mittelwert- und dem Standardabweichungsparameter und zum Erzeugen einer ersten Bitzuordnungsinformation (CBI1), CBI2), die den bestimmten Bits für jede der Intra-Kanal-Frame-Gruppen entspricht; ein zweites Bitzuordnungsmittel (50) zum Bestimmen von Bits für jeden der Frames, der in jedem der Intra-Kanal-Frame-Gruppen enthalten ist, basierend auf den ersten geschätzten Wahrnehmungsentropien und der ersten Bitzuordnungsinformation, und zum Erzeugen einer zweiten Bitzuordnungsinformation (FBI1, FBI2), die den bestimmten Bits für jeden der Frames entspricht; ein drittes Bitzuordnungsmittel (60) zum Bestimmen von Bits für die jeweiligen Subbänder, die in jedem der Intra-Kanal-Frame-Gruppen enthalten sind, basierend auf den geschätzten Signal-zu-Maskierung-Verhältnis-Daten und der erzeugten zweiten Bitzuordnungsinformation, und zum Erzeugen einer dritten Bitzuordnungsinformation (SBI1, SBI2), die den bestimmten Bits für jedes der Subbänder entspricht; eine Anzahl von N Quantisierungsmitteln (71, 72), die parallel angeordnet sind zum Quantisieren der gefilterten Subband-Audiosignale für die Anzahl an N Kanälen in Antwort auf die dritte Bitzuordnungsinformation, die für die jeweiligen Subbänder in jeder der Intra-Kanal-Frame-Gruppen erzeugt wird; und ein Mittel (80) zum Formatieren der quantisierten Audiosignale zusammen mit der erzeugten ersten, zweiten und dritten Bitzuordnungsinformation.
  2. Vorrichtung nach Anspruch 1, wobei das erste Bitzuordnungsmittel (40) folgendes umfaßt: ein Mittel (41) zum Schätzen von Entscheidungspegeln (D(k)) der Inter-Kanal-Frame-Gruppe, basierend auf den geschätzten zweiten Wahrnehmungsentropien, dem Mittelwert- und dem Standardabweichungsparameter; ein Mittel (42) zum Erzeugen einer Mittelwertsfunktion (2·PEm) durch Multiplizieren des Mittelwertparameters mit einem vorbestimmten Faktor, der die Anzahl an in jeder der Intra-Kanal-Frame-Gruppen enthaltenen Frames darstellt; ein Mittel (43, 44) zum Erzeugen eines Differenzsignals (E(1), E(2)) zum Darstellen der Differenz zwischen jeder der zweiten Wahrnehmungsentropien für die Intra-Kanal-Frame-Gruppen und der erzeugten Mittelwertsfunktion, und zum Bereitstellen eines gewichteten Differenzsignals (E(1)/2, E(2)/2) durch Teilen jedes der erzeugten Differenzsignale durch den vorbestimmten Faktor; und ein Bitzuordnungsmittel (45) zum adaptiven Bestimmen von Bits für jede der Intra-Kanal-Frame-Gruppen, basierend auf den geschätzten Entscheidungspegeln, der Gesamtzahl an Entscheidungspegeln und jedem der bereitgestellten Differenzsignale, und zum Erzeugen der ersten Bitzuordnungsinformation (CBI1, CBI2), die den bestimmten Bits für jede der Intra-Kanal-Frame-Gruppen entspricht.
  3. Vorrichtung nach Anspruch 2, wobei jeder der Entscheidungspegel der Inter-Kanal-Frame-Gruppe D bestimmt wird als: D = NF·PEstd·kwobei k ein Entscheidungspegelindex ist, mit k = –q bis q, q eine positive ganze Zahl, NF ein Normalisierungsfaktor in der Inter-Kanal-Frame-Gruppe; und PEstd der Standardabweichungsparameter der Inter-Kanal-Frame-Gruppe.
  4. Vorrichtung nach Anspruch 2, wobei die Bitzuordnung für einen r-ten Kanal in der Anzahl an N Kanälen, FB(r), erhalten wird als:
    Figure 00190001
    wobei r eine positive ganze Zahl ist, die als Kanalindex verwendet wird; FBm eine Funktion von gemittelten Bits für einen Frame; F ein Faktor, der die Anzahl an Frames darstellt, die in jeder der Intra-Kanal-Frame-Gruppen enthalten ist; BV ein vorbestimmter Bitvariationswert; 2q + 1 die Gesamtzahl an vorbestimmten Entscheidungspegeln; und I ein Pegelindex im r-ten Kanal.
DE69534115T 1995-01-09 1995-01-09 Bitverteilung für Mehrkanal-Audiokodierer auf Grund von wahrnehmungsgebundener Entropie Expired - Lifetime DE69534115T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP95100207A EP0721257B1 (de) 1995-01-09 1995-01-09 Bitverteilung für Mehrkanal-Audiokodierer auf Grund von wahrnehmungsgebundener Entropie

Publications (2)

Publication Number Publication Date
DE69534115D1 DE69534115D1 (de) 2005-05-04
DE69534115T2 true DE69534115T2 (de) 2005-08-11

Family

ID=34400651

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69534115T Expired - Lifetime DE69534115T2 (de) 1995-01-09 1995-01-09 Bitverteilung für Mehrkanal-Audiokodierer auf Grund von wahrnehmungsgebundener Entropie

Country Status (1)

Country Link
DE (1) DE69534115T2 (de)

Also Published As

Publication number Publication date
DE69534115D1 (de) 2005-05-04

Similar Documents

Publication Publication Date Title
DE69233094T2 (de) Verfahren und Anordnung zur Datenkompression bei welchem Quantisierungsbits einem Block in einem gegenwärtigen Rahmen in Abhängigkeit eines Blocks in einem vergangenen Rahmen zugeteilt werden
DE69232251T2 (de) Digitaler Kodierer mit dynamischer Quantisierungsbitverteilung
DE69333394T2 (de) Hochwirksames Kodierverfahren und -gerät
EP0290581B1 (de) Verfahren zum übertragen digitalisierter tonsignale
DE69401512T2 (de) Hybride adaptive bitzuteilung für audiokoder und -dekoder
DE60207061T2 (de) Audiokompression
DE69210064T2 (de) Teilbandkodierer und Sender unter Verwendung dieses Kodierers
DE69431622T2 (de) Verfahren und gerät zum kodieren von mit mehreren bits kodiertem digitalem ton durch subtraktion eines adaptiven zittersignals, einfügen von versteckten kanalbits und filtrierung, sowie kodiergerät zur verwendung bei diesem verfahren
DE69320872T2 (de) Kompression und Dehnung von digitalen Signalen
DE69924431T2 (de) Vorrichtung und Verfahren zur dynamischen Bitverteilung für Audiokodierung
DE60214027T2 (de) Kodiervorrichtung und dekodiervorrichtung
DE69705642T2 (de) Audio-kodierverfahren mit veränderlicher kodelänge unter verwendung einer mehrzahl von teilband-bitverteilungsmoden
DE69804478T2 (de) Verfahren und vorrichtung zur codierung und decodierung mehrere tonkanäle mit geringer bitrate
DE69834010T2 (de) Skalierbares stereo Tonkodierungs- und Tondekodierungsverfahren und Vorrichtung dafür
DE69326484T2 (de) Vorrichtung und Verfahren zur Datenkompression
DE69833834T2 (de) Skalierbares Audiokodier-und Dekodierverfahren und Gerät
DE69401514T2 (de) Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und kodiereinrichtung
DE69319494T2 (de) Kodierungsvorrichtung für Audiosignalen und Verfahren dazu
DE60310716T2 (de) System für die audiokodierung mit füllung von spektralen lücken
DE69525836T2 (de) Kodierung und dekodierung eines breitbandigen digitalen informationssignals
DE69225100T2 (de) Reduzierung der Zusaztinformation bei Teilbandkodierungsverfahren
DE60307252T2 (de) Einrichtungen, verfahren und programme zur kodierung und dekodierung
DE4320990B4 (de) Verfahren zur Redundanzreduktion
DE69533500T2 (de) Verfahren und vorrichtung zum kodieren und dekodieren von nachrichten
DE69534140T2 (de) Verfahren und vorrichtung zur signalkodierung und -dekodierung, aufzeichnungsmedium und signalübertragungsverfahren

Legal Events

Date Code Title Description
8364 No opposition during term of opposition