DE102006053976A1 - Verfahren zur Umschaltung von Fenster und zur Entscheidung des Bandstatus der Mittel/Seitenkodierung für fortgeschrittene Audiokodierung - Google Patents

Verfahren zur Umschaltung von Fenster und zur Entscheidung des Bandstatus der Mittel/Seitenkodierung für fortgeschrittene Audiokodierung Download PDF

Info

Publication number
DE102006053976A1
DE102006053976A1 DE200610053976 DE102006053976A DE102006053976A1 DE 102006053976 A1 DE102006053976 A1 DE 102006053976A1 DE 200610053976 DE200610053976 DE 200610053976 DE 102006053976 A DE102006053976 A DE 102006053976A DE 102006053976 A1 DE102006053976 A1 DE 102006053976A1
Authority
DE
Germany
Prior art keywords
window
signal
short
long
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE200610053976
Other languages
English (en)
Inventor
Chi-Min Liu
Wen-Chieh Lee
Yu-Hua Hsiao
Kang-Yen Peng
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Chiao Tung University NCTU
Original Assignee
National Chiao Tung University NCTU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Chiao Tung University NCTU filed Critical National Chiao Tung University NCTU
Priority to DE200610053976 priority Critical patent/DE102006053976A1/de
Publication of DE102006053976A1 publication Critical patent/DE102006053976A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching

Abstract

Die Erfindung betrifft ein Verfahren zur Umschaltung von Fenstern, das das Global-Energy-Ratio des ersten Teilbereiches eines Audiosignals bestimmt und mit einer ersten Schwelle vergleicht und danach das Zero-Crossing-Ratio des zweiten Teilbereiches des Audiosignals bestimmt und mit einer zweiten Schwelle vergleicht, wobei ein Kurzfenster ausgewählt wird, wenn das Global-Energy-Ratio oder das Zero-Crossing-Ratio die erste oder zweite Schwelle überschreitet und kein Tonal-Attack im dritten Teilbereich des Audiosignals detektiert wird, und ein Langfenster ausgewählt wird, wenn das Global-Energy-Ratio und das Zero-Crossing-Ratio beide die erste und zweite Schwelle nicht überschreiten oder ein Tonal-Attack im dritten Teilbereich des Audiosignals detektiert wird, wonach mit dem ausgewählten Fenster ein vierter Teilbereich des Audiosignals kodiert wird, der für den ersten, zweiten und dritten Teilbereich gemeinsam ist. Die Erfindung betrifft ferner ein Verfahren zur Entscheidung des Bandstatus der Mittel/Seitenkodierung für fortgeschrittene Audiokodierung, das folgende Schritte enthält: mindestens einen Audiostrom mit einer Vielzahl von Bändern erhalten; einen ersten und zweiten Knoten in jedem Band errechnen, das ein Linkssignal, ein Rechtssignal, ein Mittelsignal und ein Seitensignal enthält; einen kostenminimierenden Pfadwert in jedem benachbarten Band errechnen und den Status jedes Bandes entsprechend dem kostenminimierenden Pfadwert entscheiden, wobei der Status ein L/R- ...

Description

  • Technisches Gebiet
  • Die Erfindung betrifft ein Audiosingal, insbesondere die Reduzierung der Kompressionsfehler und die Verbesserung der Entscheidung des Bandstatus der Mittel/Seitenkodierung für fortgeschrittene Audiokodierung (Advanced Audio Koding, AAC).
  • Stand der Technik
  • Viele digitale Audiosysteme verwenden die Signalkompression zur Reduzierung der Größe der Audodatei. Diese Audiosysteme tasten üblicherweise ein eingegebenes Audiosignal mit Ab tastfenstern ab. Z. B. ein Lied von drei Minuten werden mit 1000 Abtastfenstern abgetastet, die jeweils eine Länge von 0,18 Sekunde (180 Sekunden/1000 Fenster) haben. Die Bitauflösung des Abtastfensters, das üblicherweise eine spezifische Bitlänge besitzt, hat einen starken Einfluß auf die Qualität des kodierten Ausiosignals. Z. B. wenn das Abtastfenster von 1,18 Sekunde 128 Bits enthält, besitzt jedes Bit eine Länge von ca. 0,0014 Sekunde (0,18 Sekunde/128 Bits). Diese Zahlen erfüllen jedoch nicht immer der aktuellen Anforderungen. Es ist klar, dass je Mehr die Bits sind, desto feiner die Musik gespeichert werden kann. Die hohe Bitzahl ist jedoch nachteilig für die Komprimierung. Ein bekanntes Audiosystem, das die Komprimierung und die Abstastfenster verwendet, ist MP3 (Motion Picture Expert Group Audio Layer-3).
  • Durch das Fensterumschalten kann die Fenstergröße einer Filterbank verändert werden. Die Filterbank ist eine Vorrichtung, die die Audiossignale der Zeitdomäne als Frequenzdaten kodieren kann, um eine bessere Zeit/Frequenzauflösung zu erhalten. Das Fensterumschalten gestattet eine Umschaltung zwischen einem Langfenster und einem Kurzfenster. Das artifakte oder ungewünschte Rauschen, das durch die Komprimierung erzeugt wird, wie das sogenannte Pre-Echo, tritt auf, wenn ein transientes Signal (z. B. ein sehr kurzer Ton) kodiert wird. Da das transiente Signal hohe Kodierungsauflösung benötigt, um das Sigal präzis zu repräsentieren, kann der Mangel an Bits zu Quantisationsfehlern führen, die in der ganzen Fenstergröße verteilt werden.
  • 1 zeigt ein transierntes Singal, das kodiert wird. Das zu kodierende Signal 100 weist einen Teilbereich mit wenigen Amplituden, einen danach folgenden Teilbereich mit großen Amplituden und einen danach folgenden Teilbereich mit kleinen Amplituden auf. Nach Kodierung des Signals 100 mit Langfenstern 120 wird ein kodiertes Signal 110 erhalten. Die Verteilung der Quantisationsfehler im Teilbereich 130 vor dem Teilbereich mit großen Amplituden des kodierten Signals 110 ist erkennbar. In diesem Teilbereich können die Quantisationsfehler nicht maskiert werden, da wenige Amplituden vorhanden sind. Überlicherweise werden die Quantisationsfehler verteilt, wenn eine Kodierung der Frenquenzdomäne verwendet wird, wobei ein Fenster einen Teilbereich mit unterschieldichen Amplituden enthält. Der Grund dafür ist, dass durch die Komprimierung in der Frequenzdomäne die Charakteristiken für die Daten in einem Fenster gemeinsam sind. Die Quantisationsfehler sind ungewüscht für einen Zuhörer.
  • Diese Quantisationsfehler können durch die Verwendung von Fenstern mit unterschliedlicher Länge reduziert werden. Wie aus 1 ersichtlich ist, wird die Verteilung der Quantisationsfehler in dem Teilbereich 150 des kodierten Signals 140 verringert, wenn die Langfenster 160 mit den Kurzfenstern 170 komibiert werden. Im Vergleich mit dem mit Langfenstern kodierten Signal 110 wird die Verteilung der Quantisationsfehler unterdrückt.
  • Nachfolgend wird das Pre-Echo-Phänomen beschrieben. Die temporale Maskierung enthält eine simultane Maskierung, eine Pre-Maskierung und eine Post-Maskierung. Die Effekte dieser Maskierungen sind in 2 gezeigt. Die Dauer eines effektiven Maskierers der Pre-Maskierung und der Post-Maskierung beträgt ungefähr 20 ms (Millisekunde = 1/1000 Sekunde) und 100 ms. Wenn ein transientes Signal oder eine Audioattacke in der Frequenzdomäne kodiert wird, wird ein Quantisationsfehler in dem ganzen Signalblock der Zeitdomä ne verteilt. Da der Teilbereich des Signals vor der Attacke ziemlich klein ist, liefert die Attacke die meiste Energie für den Signalblock und kontrolliert somit die Festlegung der Maskierungsschwelle. Daher ist die Schwelle in dem ruhigen Teilbereich des Blockes zu hoch. Da die typische Fenstergröße 2048 Abtastwerte enthält und ca. 46 ms repräsentiert, wenn die Abtastrate 44,1 kHz beträgt, und die Pre-Maskierung nicht über 20 ms dauert, kann die Verteilung der Quantisationsfehler leicht von dem Zuhöher gehöht werden, wenn das transiente Signal mit einem Langfenster kodiert wird. Dies heißt Pre-Echo-Phänomen.
  • Die heutige Audiokodierung, M/S (Mittel/Seiten)-Kodierung, ist die Kerntechnik zur Reduzierung der irrelevanten und redundanten Information in den Stereo-Kanälen. Wenn die Anzahl der Kanäle größer als 2 ist, kann eine Methode in MPEG2 ACC und MPEG4 ACC die Kanäle paaren und die M/S-Kodierung für jedes Paar vewendet werden. Die M/S-Kodierung kann sogar für selektive spektrale Teilbereiche verwendet werden, wenn eine Kodierungsverstärkung in AAC vorhanden ist. Im MPEG4 ACC-Kodierungsstandard bietet die Band-zu-Band-M/S-Kodierung mehr Flexibilität zur Reduzierung der Irrelevanz und der Redundanz des Kanals an. Diese Flexibilität erhöht jedoch auch die Designdimension und die Komplexität des Kodierers.
  • Die M/S-Kodierung ist eine erweiterte perzeptuelle Audiokodierung, die ein M/S-Transformationsmodell enthält, um die L/R (Links/Rechts)-Signal in M/S-Signal zu transformieren. 3 zeigt eine Blockschaltung der herkömmlichen perzeptuellen Kodierung mit der M/S-Transformation. Die L/R-Audiosignale werden durch eine Analysefilterbank 10 in überlappte Blöcke unterteilt und in die Frequenzdomäne transformiert. Ein M/S-Transformationsmodell 15 erhält die L/R-Signale der Frequenzdomäne und transformiert diese in M/S-Signale, wenn eine Kodierungsverstärkung vorhanden ist, die von einem psychoakustischen Modell 20 errechnet wird. Ein Quantisation/Kodierungsmodell 25 quantisiert und kodiert diese Signale mit den Parametern, die durch eine Bitzuteilung 30 entschieden ist.
  • Das psychoakustische Modell 20 analysiert die L/R-Signale und errechnet die associierte perzeptuelle Auflösung für das menschliche Hörsystem. Entsprechend dem perzeptuellen Auflösung und die verfügbaren Bits entscheidet die Bitzuleitung 30 die geeignete Quantisationsmethode zur Anpassung an die Bitrate. Ein Packungsmodell packt alle kodierte Informationen mit einem Standardformat. Für diese Band-zu-Band-M/S-Kodierung gibt es einige Probleme:
    Das erste Problem liegt in dem psychoakustischen Modell 20 für die M/S-Signale. Das psychoakustische Modell 20 simuliert das menschliche Hörsystem und bietet die geeignete Maskierungsschwelle für die Quantisation an. Das Maskierungsmodell des psychoakustischen Modells 20 für L- und R-Kanal ist in dem Standard konstruiert. Es ist jedoch nicht geeignet, die gleiche Prozedur für den M- und S-Kanal zu verwenden. Die Komplexität des psychoakustischen Models 20 hat einen Faktor für über 15% in der L/R-Kodierung und führt zu hohen Unkosten für die M/S-Kodierung.
  • Das zweite Problem liegt in der Entscheidung des Bandstatus. Diese Entscheidung ist von der Messung der Kodierungsverstärkung von M/S-Kodierung über L/R-Kodierung abhängig. Das Bandumschalten dient zum Finden der größten Kodierungsverstärkung durch das psychoakustische Modell 20. Die optimale Entscheidung kann durch die Auswertung aller möglichen Zustände, die Berechnung der rekonstruierten Signale und die Suche der minimalen Verzerrung jeder Zustände getroffen werden. Da ein Audiosignal-Farm 49 Bänder enthält, hat die Berechnung für alle mögliche Zustände eine hohe Komplixität.
  • Die M/S-Kodierung, die in dem repräsentativsten AAC-Kodierer, FAAC, verwendet wird, ist in der Untersuchung von Johnston mit einigen subtilen Parametern entwickelt. 4 zeigt ein Ablaufdiagrmm für den herkömmlichen Entscheidungsvorgang des Bandstatus der M/S-Kodierung in FAAC. Das psychoakustische Modell 20 emfpängt die L/R-Signale und entscheidet jeden Bandstatus der M/S-Kodierung. Dieser Vorgang enthält folgende Schritte:
  • Schritt S1 bis Schritt S2: das Linkssignal und das Rechtssignal durch FET (Fast Fourier Transform) in ein FET-Linkssignal und ein FET-Rechtssignal transformieren;
  • Schritt 3: das FET-Linkssignal und das FET-Rechtssignal in ein FET-Mittelsignal und ein FET-Seitensignal transformieren;
  • Schritt S4 bis Schritt S5: die Maskierungsschwellen (TL, TR) des Linkssignals und des Rechtssignals durch das Maskierungsmodell des psychoakutischen Modells 20 errechnen;
  • Schritt S6 bis Schritt S8: die Maskierungsschwellen (TM, TS) des Mittelsignals und des Seitensignals errechen, wobei die M/S-Signale in das Maskierungsmodell zugeführt werden, das das gleiche Modell wie in der R/L-Kodierung ist, um die Maskierungsschwellen zu erhalten, danach die endgültigen Maskierungsschwellen durch den binauralen MLD (Masking Level Difference)-Effekt festlegen;
  • Schritt S9 bis Schritt 14: berechnen und vergleichen, und dann den Schritt S15 durchführen, wenn db < 0,25, ansonsten den Schritt S16 durchführen;
  • Schritt S15: den ith-Bandstatus als M/S-Status entscheiden, dann dem M/S-Transformationsmodell 15 die L/R-Signale des Nth Bandes zuführen, und danach diese M/S-Signale durch das Quantisation/Kodierungsmodell 25 quantisieren und kodieren; und
  • Schritt S16: den Nth-Bandstatus als L/R-Status entscheiden, dann dem Quantisation/Kodierungsmodell 25 die L/R-Signale des Nth Bandes zuführen, und danach quantisieren und kodieren.
  • Die Entscheidung des Bandstatus von FAAC hat einige Probleme. Zunächst verwendet FAAC nur den Differenzdegree der Maskierungsschwelle zur Entscheidung des M/S-Bandes. Die M/S-Signale werden dem Maskierungsmodell zugeführt, das das gleiche Maskierungsmodell wie in der L/R-Kodierung ist, um die Maskierungsschwellen zu erhalten. Dies ist nicht geeignet für die M/S-Signale. Obwohl der Bandstatus durch die Festlegung der Schwelle und den Vergleich der Kriterien entschieden werden kann, ist dies für sukzessive Bandinformation nicht geeignet. Das instabile Zustandsumschalten in einem Rahmen kann das Bit nicht effektiv in jeden Band einführen und die Seiteninformation vergrößern. Die optimale Entscheidung kann selbstverständlich durch die Auswertung aller möglichen Zustände, die Berechnung der rekonstruierten Signale und die Suche der minimalen Verzerrung jeder Zustände getroffen werden. Da ein Audiosignal-Farm 49 Bänder enthält, hat die Berechnung für alle mögliche Zustände eine hohe Komplixität. Daher ist der Rechenaufwand durch die Komplexität O(2^49) zu hoch.
  • Um die Quantisationsfehler, wie Pre-Echo, Zeitkomplexität usw, zu reduzieren, ist ein Verfahren zur Audiokomprimierung und zur Entscheidung des Bandstatus der M/S-Kodierung für AAC erforderlich.
  • Aufgabe der Erfindung
  • Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Reduzierung der Quantisationsfehler zu schaffen.
  • Das erfindungsgemäße Verfahren enthält die folgenden Schritte: einen Block des Audiosignals erhalten; ein Global-Energy-Ratio des ersten Teilbereiches des Audiosignals bestimmen und das Global-Energy-Ratio mit einer ersten Schwelle vergleichen; ein Zero-Crossing-Ratio des zweiten Teilbereiches des Audiosignals bestimmen und das Zero-Crossing-Ratio mit einer zweiten Schwelle vergleichen; einen Kurzfenster auswählen, wenn das Global-Energy-Ratio oder das Zero-Crossing-Ratio die erste oder zweite Schwelle überschreitet und kein Tonal-Attack im dritten Teilbereich des Audiosignals detektiert wird; einem Langfenster auswählen, wenn das Global-Energy-Ratio und das Zero-Crossing-Ratio beide die erste und zweite Schwelle nicht überschreiten oder ein Tonal-Attack im dritten Teilbereich des Audiosignals detektiert wird; und mit dem ausgewählten Fenster einen vierten Teilbereich des Audiosignals kodieren, der für den ersten, zweiten und dritten Teilbereich gemeinsam ist.
  • Erfindungsgemäß ist es vorteilhaft, wenn die Auswahl des Kurzfensters und des Langfensters durch das Global-Energy-Ratio, das Zero-Crossing-Ratio und das Tonal-Attack er folgt, weil die Quantisationsfehler dadurch reduziert werden können.
  • Der Erfindung liegt eine zweite Aufgabe zugrunde, ein Verfahren zur Entscheidung des Bandstatus der Mittel/Seiten-Kodierung für fortgeschrittene Audiokodierung zu schaffen, das durch die individuellen perzeptuellen Entropien den Bandstatus entscheidet, um den Kodierungsstatus der benachbarten Bänder zu verändern, damit die Zeitkomplexität reduziert wird.
  • Der Erfindung liegt eine dritte Aufgabe zugrunde, ein Verfahren zur Entscheidung des Bandstatus der Mittel/Seiten-Kodierung für fortgeschrittene Audiokodierung zu schaffen, das eine niedrigere Rechenkomplixität aufweist, damit der Rechenaufwand reduziert wird.
  • Der Erfindung liegt eine vierte Aufgabe zugrunde, ein Verfahren zur Entscheidung des Bandstatus der Mittel/Seiten-Kodierung für fortgeschrittene Audiokodierung zu schaffen, das das M/S-Maskierungsmodell des psychoakustischen Modells modifiziert, wodurch eine M/S-Maskierungsschwelle erhalten wird, die für die M/S-Signale geeignet ist.
  • Der Erfindung liegt eine vierte Aufgabe zugrunde, ein Verfahren zur Entscheidung des Bandstatus der Mittel/Seiten-Kodierung für fortgeschrittene Audiokodierung zu schaffen, das folgende Schritte enthält: mindestens einen Audiostrom mit einer Vielzahl von Bändern erhalten; einen ersten und zweiten Knoten in jedem Band errechnen, das ein Linkssignal, ein Rechtssignal, ein Mittelsignal und ein Seitensignal enthält, wobei die Summe der perzeptuellen Entropie (PE) des Linkssignals und des Rechtssignals dem ersten Knoten und die Summe der PE-Werte des Mittelsignals und des Seitensignals dem zweiten Knoten entspricht; einen kostenminimierenden Pfadwert in jedem benachbarten Band errechnen, von dem ersten Knoten des Nth Bandes bis zum ersten oder zweiten Knoten des (N + 1)th Bandes oder von dem zweiten Knoten des Nth Bandes bis zum ersten oder zweiten Knoten des (N + 1)th Bandes; den Status jedes Bandes entsprechend dem kostenminimierenden Pfadwert entscheiden, wobei der Status ein L/R- oder M/S-Status sein kann.
  • Weitere Einzelheiten, Merkmale und Vorteile der Erfindung ergeben sich aus der nachfolgenden detaillierten Beschreibung in Verbindung mit den anliegenden Zeichnungen.
  • Kurze Beschreibung der Zeichnungen
  • 1 ein transientes Signal, das kodiert wird.
  • 2 die Effekte von unterschiedlicher Maskierungen,
  • 3 ein Ablaufdiagramm der herkömmlichen perzeptuellen Kodierung mit M/S-Transformation,
  • 4 ein Ablaufdiagramm des herkömmlichen Entscheidungsvorgangs für den Bandstatus der M/S-Kodierung in FAAC,
  • 5 ein Ablaufdiagramm des erfindungsgemäßen AAC-Kodierers,
  • 6 ein kodiertes Fenster und eine Anfangs-Kurz-Endfenstersequenz,
  • 7 eine Kurve eines sich zunehmend verstärkenden transienten Signals, ein herkömmliches Energie-Ratio und ein Global-Energy-Ratio der Erfindung,
  • 8 ein transientes Signal mit einem stabilem Global-Energy-Ratio und einer rapiden spektralen Veränderung,
  • 9 ein Reintonsignal,
  • 10 Frequenzen, die mit 2048 Abtastwerten und 256 Abtastwerten transformiert werden,
  • 11 ein Ablaufdiagramm der Fensterbestimmung der Erfindung,
  • 12 eine Blockschaltung des zweiten Ausführungsbeispiels des erfindungsgemäßen AAC-Kodierers,
  • 13 eine Blockschaltung des dritten Ausführungsbeispiels des erfindungsgemäßen AAC-Kodierers,
  • 14 eine Tabelle des Fensterumschaltens,
  • 15 das psychoakustische Abbildungsergebnis eines Lang-Kurzfensters,
  • 16 ein Beispiel der Kurzfenstergruppierung und der Verschachtelung,
  • 17 ein Ablaufdiagramm der Kurzfenstergruppierung der Erfindung,
  • 18 ein Fensterumschaltungsschema bei der Anwendung von TNS,
  • 19 eine modifizierte Fensterumschaltungstabelle bei der Anwendung von TNS,
  • 20 ein Ablaufdiagramm der Fensterkopplung,
  • 21 ein Beispiel der Kanalkopplung,
  • 22 ein Ablaufdiagramm der Fenster- und Kanalkopplung,
  • 23 eine Blockschaltung eines modifiziertes Viterbi-Algorithmus zur Minimierung der M/S-Kodierungskosten der Erfindung,
  • 24 eine Blockschaltung eines Ausführungsbeispiels der Erfindung, das den modifiziertes Viterbi-Algorithmus verwendet,
  • 25 ein Ablaufdiagramm zur Einscheidung des Bandstatus der M/S-Kodierung der Erfindung.
  • Wege zur Ausführung der Erfindung
  • 5 zeigt eine Blockschaltung des erfindungsgemäßen ACC-Kodierers 300. Der ACC-Kodierer 300 besteht aus einer Gain-Controll-Einheit 310, einem perzeptuellen Modell 320, einer Filterbank 330, einem Fensterbestimmungsmodul 340 und einem Bitstrom-Multiplexer 350. Ein Audiosignal wird in den ACC-Kodierer 300 eingegeben und von der Gain-Controll-Einheit 310 und dem perzeptuellen Modell 320 an das Fensterbestimmungsmodul 340 weitergeleitet (wird später näher beschrieben). Das Fensterbestimmungsmodul 340 wählt eine Fenstergröße aus und sendet die Signale an die Filterbank 330, die mit der gewählten Fenstergröße das Audiosignal kodiert, wodurch ein kodierter Audiostrom erzeugt wird. Der ACC-Kodierer 300 weist ferner einen Fensterumschalter 360, der zwischen dem Fensterbestimmungsmodul 340 und der Filterbank 330 geschaltet ist, und ein Quantisierungsmodul 370 auf, das mit der Filterbank 330 und dem Bitstrom-Multiplexer 350 verbunden ist. Die Erfindung ist jedoch nicht darauf beschränkt. Der ACC-Kodierer 300 kann auch das ISO/IEC MPEGß2/4-Format haben.
  • Die Filterbank 300 führt eine Zeit/Frequenz-Transformation für das Eingangssignal mit einer Länge von 2048 oder 256 Abtastwerten durch, d. h. durch die Auswahl der Fenstergröße. Die zwei Fenstergrößen von 2048 und 256 Abtastwerten sind nur ein Beispiel. Andere Fenstergrößen sind auch denkbar. Die Transformationslänge von 256 Abtastwerten dient zum Kodieren von dem transienten Signal und ist ein guter Kompromiß zwischen der Frequenzauswahl und Pre-Echo-Suppression.
  • Wie aus 1 ersichtlich ist, werden bei der Umschaltung zwischen dem Langfenster und dem Kurzfenster das Anfangsfenster und das Endfenster verwendet, um die TDAC (Time-Domain Aliasing Concellation)-Eigenschaften der MDCT (modi fied discrete cosine transformation)- and IMDCT (inverse MDCT)-Transformation aufrechtzuerhalten. Das Langfenster von 2048 Abtastwerten wird als Langsequenz und das Kurzfenster von 256 Abtastwerten wird als Kurzsequenz bezeichnet. Eine Kurzsequenz kann acht Kurzfenster enthalten, die eine Überlappung von 50% besitzen. Die untere Kurve in 6 zeigt ein Anfangsfenster, acht Kurzfenster und einen Endfenster. Die obere Kurve in 6 zeigt eine Langfenster-Kodierung in Abwesenheit von transientem Signal.
  • Da das Kurzfenster eine höhere Zeitauflösung und das Langfenster eine höhere Frequenzauflösung aufweist, wird für das transiente Signal das Kurzfenster bevorzugt, um den Pre-Echoeffekt zu kontrollieren. Für das stationäre Signal wird das Langfenster bevorzugt, um die Linien in dem Signalspektrum aufzulösen, damit die Redundanz abgetrennt werden. Wenn ein stationäres Signal im Kurzfenster auftritt, reduziert die niedrige Frenquenzauflösung die Fregeunzgenauigkeit des kodierten Signals. Beim ersten Ausführungsbeispiel wählt das Fensterbestimmungsmodul 340 des AAC-Kodierers 300 entsprechend den folgenden drei Faktoren die Fenstergröße aus: Global-Energy-Ratio, Zero-Crossing-Ratio und Tonal-Attack.
  • Global-Energy-Ratio:
  • Transiente Signale treten auf, wenn die Energie der Zeitdomäne schnell verändert wird. Daher kann ein Energieverhältnis zur Detektion der transienten Signale verwendet werden. Dieses Detektionsverfahren berücksichtigt herkömmlicherweise nur das Energieverhältnis zwischen zwei Kurzfenstern. Daher ist es für die Detektion eines sich zunehmend verstärkenden Signals ungenügend. Der Pre-echoeffekt wird üb licherweise von dem Signalanteil mit der Höchstenergie verursacht.
  • 7 zeigt ein Beispiel des Sprachsignals. Die drei Signale in 7, die transiente Signale sind, verstärken sich zunehmend mit dem herkömmlichen Energieverhältnis und dem erfindungsgemäßen Global-Energy-Ratio. Der Höchstwert des herkömmlichen Energierverhältnisses beträgt 2,1. Wenn die Detektionsschwelle auf 2.0 festgelegt wird, kann eine falsche Auswertung leicht auftreten. Das Global-Energy-Ratio bietet einen besser detektierbaren Wert des Energieverhältnisses an und löst somit dieses Problem.
  • Zur Bestimmung der Energiefunktion, En(i), des Fensters mit 256 Abtastwerten, Wi, verwendet die Erfindung die Summe der Quadrate des Eingangssignals Xk:
    Figure 00140001
  • Die Höchstenergie, Max_En, und die Niedrigstenergie, Min_En, in der Energie eines Kurzfenstersatzes werden gefunden. Daher wird das Global-Energie-Ratio wie folgt definiert:
    Figure 00140002
  • Wenn das Global-Energy-Ratio, Global_En_Ratio, einen vorgegebenen Energieschwelle überschreitet, wird das Signal als transientes Signal betrachtet. Durch den Vergleich der unteren zwei Kurven in 7 ist zu erkennen, dass die Gleichungen (1) und (2) die Detektion des transienten Signals verbessern.
  • Zero-Crossing-Ratio:
  • Wenn allein mit dem Global-Energy-Ratio das Signal, das Segmente mit abrupten spektralen Veränderungen besitzt, nicht detektiert werden kann, kann das Zero-Crossing-Ratio verwendet werden. 8 zeigt ein transientes Signal mit einem stabilen Global-Energy-Ratio. Dieses Signal besitzt jedoch abrupte spektrale Veränderungen. Das Zero-Crossing-Ratio kann ein solches transientes Signal detektieren, wenn das Zero-Crossing-Ratio, Ze(i), jedes Kurzfensters mit 256 Abtastwerten wie folgt definiert wird:
    Figure 00150001
  • Das höchste Zero-Crossing-Ratio, Max_Ze, und das niedrigste Zero-Crossing-Ratio, Min_En, in dem Zero-Crossing-Ratio eines Kurzfenstersatzes werden gefunden. Daher wird das Zero-Crossing-Ratio wie folgt definiert:
    Figure 00150002
  • Wenn das Zero-Crossing-Ratio, Ze_Ratio, eine vorgegebene Schwelle überschreitet, wird das Signal als transientes Signal betrachtet. Diese Methode ist einfacher als die herkömmliche Lösung und kann z. B. ein transientes Signal in den Geige- und Sprachsignalen genau detektieren.
  • Tonal-Attack
  • Die Frequenzauflösung des Kurzfensters ist üblicherweise niedriger als die des Langfensters. 9 zeigt ein Beispiel eines Reintonsignals, das durch das Global-Energy- Ratio als transientes Signal betrachtet wird. 8 zeigt die Frequenztranformation mit einem Fenster von 2048 Abtastwerten (oben) und einem Fenster mit 256 Abtastwerten (unten). Wie aus 10 ersichtlich ist, erhöht die Transformation des Tonsignals mit einem Kurzfenster die Seitenbandenergie. Ein Tonal-Attack-Effekt wird definiert, wenn das Signal ein tonales Band aufweist, das mit dem Langfenster-psychoakustischen Modell analysiert wird (wird später beschrieben).
  • Fensterbestimmungsmethode
  • Die Fensterbestimmungsmethode benutzt die folgenden Indikatoren: Global-Energy-Ratio, Zero-Crossing-Ratio und Tonal-Attack. 11 zeigt ein Ablaufdiagramm der Fensterbestimmung, die das Global-Energy-Ratio und das Zero-Crossing-Ratio verwendet, ein transientes Signal zu detektieren, und durch die Tonal-Attack-Analyse eine fehlerhafte Detektion vermeidet. Im Schritt 900 wird die Schwelle für das Global-Energie-Ratio oder das Zero-Crossing-Ratio bestimmt. Wenn eines dieser Verhältnisse diese Schwelle überschreitet, wird im Schritt 910 ein Tonal-Attack detektiert. Wenn keines der beiden Verhältnisse diese Schwelle überschreitet oder ein Tonal-Attack detektiert wird, wird im Schritt 920 ein Langfenster ausgewählt. Wenn eines dieser Verhältnisse diese Schwelle überschreitet und kein Tonal-Attack detektiert wird, wird ein Kurzfenster ausgewählt. Beim ersten bevorzugten Ausführungsbeispiel der Erfindung wird der Vorgang in 11 von dem Fensterbestimmungsmodul 340 des AAC-Kodierers 300 in 5 durchgeführt.
  • Der obengenannte Vorgang wird für ein ganzes Audiosignal wiederholt, um das Audiosignal zu kodieren.
  • Weitere bevorzugte Ausführungsbeispiele:
  • 12 zeigt eine Blockschaltung des AAC-Kodierers 1000 eines weiteren bevorzugten Ausführungsbeispiels der Erfindung. Wie der AAC-Kodierer 300 besteht der AAC-Kodierer 1000 aus einem perzeptuellen Modell 320, einer Filterbank 330, einem Fensterbestimmungsmodul 340 und einem Bitstrom-Multiplexer 350. Der AAC-Kodierer 1000 umfaßt weiterhin einen Fensterumschalter 1010, eine Temporal-Noise-Shaping (TNS)-Einheit 1020, eine Kurzfenster-Skalierungsfaktor-Schätzungseinheit 1030, eine Gruppierungseinheit 1040 und eine M/S-Kodierungseinheit 1050. Der AAC-Kodierer 1000 weist ferner eine Iterationschleife 1060 auf, die die Verstärkungsregelung ermöglicht.
  • 13 zeigt eine Blockschaltung des AAC-Kodierers 1100 eines nochmals weiteren bevorzugten Ausführungsbeispiels der Erfindung. Wie der AAC-Kodierer 300 besteht der AAC-Kodierer 1100 aus einem perzeptuellen Modell 320, einer Filterbank 330, einem Fensterbestimmungsmodul 340 und einem Bitstrom-Multiplexer 350. Wie der AAC-Kodierer 1000 umfaßt der AAC-Kodierer 1100 weiterhin einen Fensterumschalter 1010, eine TNS-Einheit 1020, eine Kurzfenster-Skalierungsfaktor-Schätzungseinheit 1030, eine Gruppierungseinheit 1040 und eine M/S-Kodierungseinheit 1050. Der AAC-Kodierer 1100 weist ferner eine Fensterkopplungseinheit 1105, eine Gruppenkopplungseinheit 1110, eine Kurzfenster-Skalierungsfaktor-Re-Schätzungseinheit 1120 und eine Iterationschleife 1130 auf, die die Verstärkungsregelung ermöglicht.
  • Einige Komponenten sind hier zur Veranschaulichung der Erfindung separat dargestellt und können zusammengesetzt werden. Z. B. die Kurzfenster-Skalierungsfaktor- Schätzungseinheit 1030 und Kurzfenster-Skalierungsfaktor-Re-Schätzungseinheit 1120 können die gleiche physische Einrichtung sein.
  • Fensterumschalter 360, 1010
  • Nachdem das Fensterbestimmungsmodul 340 das Fenster des nächsten Rahmens bestimmt, kann das gegenwärtige Fenster umgeschaltet werden, wobei das nächste und letzte Fenster von dem Fensterumschalter 1010 verglichen werden.
  • Das Anfangsfenster wird zur Überbrückung des Langfensters und des Kurzfensters verwendet. Daher soll das Fensterbestimmungsmodul 340 das Fenster des nächsten Rahmens im voraus bestimmen, damit der gegenwärtige Rahmen auf den Anfangsfenster oder Endfenster umgeschaltet wird, wenn der nächste Rahmen anders als der letzte Rahmen ist.
  • 14 zeigt die Analyse aller möglichen Zustände der Fensterumschaltung. Langfenster, Kurzfenster, Anfangsfenster und Endfenster werden mit L, S, L_S und S_L bezeichnet. Nach Vernachläßigung der unmöglichen Zustände wird der folgende einfache Umschaltungsalgorithmus erhalten:
    Figure 00180001
    Figure 00190001
  • Dieser Algorithmus kann von dem Fensterumschalter 360 und/oder 1010 ausgeführt werden, so dass das gegenwärtige Fenster verändert werden kann, falls es erforderlich ist.
  • Psychoakustisches Modell
  • Das psychoakutische Modell unterscheidet, welche spezifische Tonsignale für die Menschen hörbar sind und welche nicht, und entscheidet, welche Tonsignale vernachläßigt werden können. Unterschiedliche Fenstergrößen benötigen unterschiedliche Interpretierung und Normalisierung des psychoakustischen Modells. Wenn die Fenstersequenz acht Kurzfenster enthält, soll der AAC-Kodierer 300, 1000, 1100 ein Kurzfenster-psychoakutisches Modell achtmal ausführen.
  • Das psychoakustische Modell errechnet die minimale Maskierungsschwelle, die für die Bestimmung von just-noticeable noise-level für jedes Band in der Filterbank 330 erforderlich ist.
  • 15 zeigt ein Beispiel des Abbildungsergebnisses von 49 Bändern in einem Langfenster und 14 Bändern in einem Kurzfenster, wenn die Abtastrate 44,1 kHz beträgt. Falls der Rahmen einen Kurzfenster verwendet, werden SMRs von dem Langfenster entnommen.
  • Diese Verbesserung kann durch das perzeptuellen Modell 320 oder das Fensterbestimmungsmodul 340 des AAC-Kodierers 300, 1000 und 1100 verwirklicht werden.
  • Gruppierungseinheit 1040 und Kurzfenster-Skalierungsfaktor-Schätzungseinheit 1030/1120
  • Wenn eine Fenstersequenz acht Kurzfenster enthält, bilden der 1024 Koeffizientsatz eine Matrix von 8 × 128 Frequenzkoeffizienten, die die Zeit/Frequenz-Auflösung des Signals für das Intervall von acht Kurzfenstern repräsentieren. Der 1024 Koeffizientsatz, c, kann vor der Verschachtelung wie folgt indexiert:
    worin
  • g
    für einen Gruppenindex,
    w
    für einen Fensterindex in einer Gruppe,
    b
    für einen Skalierungsfaktorbandindex in einem Fenster, und
    k
    für einen Koeffizientindex in einem Skalierungsfaktorband steht, wobei der niedrigstwertige Index am rapidesten variiert.
  • Nach Verschachtelung können die Koeffiziente wie folgt indexiert:
    16 zeigt ein Beispiel der Kurzfenstergruppierung und der Verschachtelung. Die Gruppe 0 enthält Kurzfenster, die als 0, 1 und 2 indexiert werden. Nach Verschachtelung bildet das erste Band dieser drei Kurzfenster ein großes Skalierungsfaktorband (sfb 0). Diese Gruppierung bietet eine Flexibiltät der Anzahl der Skalirungsfaktorbänder für unterschiedliche Kodierungsüberlegungen an.
  • Die Kurzfenster können durch die Kontrolle der Verbreitung des Quantisationsrauschens in einem Kurzfenster ein transientes Signal gut verarbeiten. Wenn der ACC-Kodierer 1000, 1100 Kurzfenster verwendet, ist die gesamte Anzahl der Skalierungsfaktorbänder doppelt so groß wie bei der Verwendung eines einzelnen Langfensters.
  • Die Gruppierungsmethode der Gruppierungseinheit 1040 benutzt die Skalierungsfaktoren von acht Kurzfenstern, die von der Kurzfenster-Skalierungsfaktor-Schätzungseinheit 1030 oder 1120 errechnet werden. Da die Skalierungsfaktoren von dem Kurzfenster-Skalierungsfaktor-Schätzungseinheit 1030 errechnet werden, kann die Gruppierungsmehtode flexibler mit anderen Codec-Modi angewendet werden (z. B. M/S-Kodierungseinheit 1050).
  • Zur Errechnung der Skalierungsfaktoren können die folgenden Gleichungen verwendet werden, in denen der erwartete Quantisationsfehler des ungleichförmigen Quantisierers, ei, lautet:
    Figure 00210001
  • Worin Δq für die Quantisationsschrittweite steht, die wie folgt definiert wird:
    Figure 00210002
  • Worin g für globale Verstärkung unabhängig von dem Skalierungsfaktorband q, und Cq für Skalierungsfaktor in jedem Skalierungsfaktorband steht.
  • Die Errechnung des Skalierungsfaktors der Bitverteilung beruht auf die der Bandbreite proportionalen Noise-Shapingkriterien. Der Rauschpegel für die Skalierungsfaktorbänder soll der effektiven Bandbreite, B(q), proportional sein, σ2N(q) = κ·σ2M(q) ·B(q) (7).
  • Worin und für die Rauschenergie und die Maskierungsenergie stehen, die mit dem Skalierungsfaktorband, q, assoziiert sind.
  • Da sich die Gleichung (5) auf den Skalierungsfaktor mit Rauschleitung bezieht, können die Gleichungen (5) und (6) kombiniert werden. Lassen E[e2i ] = σ2N(q) und definieren T2q = σ2M(q) ·B(q). Der erwartete Quantisationsfehler für Bitverteilung lautet:
    Figure 00220001
  • Das Quadrat der Quantisationsschrittweite Δq2 lautet:
    Figure 00220002
  • Die Differenz zwischen der globalen Verstärkung, g, und dem Skalierungsfaktor kann wie folgt berechnet werden:
    Figure 00220003
  • Durch die Gleichung (10) kann die globale Verstärkung, g, wie folgt berechnet werden:
    Figure 00230001
    und die Skalierungsbänder für alle Unterbänder werden erhalten.
  • Da die Skalierungsfaktoren in allen Skalierungsfaktorbändern der Gruppe für die Kurzfenster in der gleichen Gruppe gemeinsam sind, soll die Differenz zwischen den gemeinsamen Skalierungsfaktoren (sharesfbg, b) und den geschätzten Skalierungsfaktoren (sfb, w) der Kurzfenster in der gleichen Gruppe begrenzt werden. Neben der Differenz der Skalierungsfaktoren ist der Einfluß dieser Differenz auch der Bandbreite (bandwidthb) proportional. Daher kann der Skalierungsfaktorfehler, g, der Gruppe, wie folgt berechnet werden:
    Figure 00230002
  • Die Kriterien der Gruppierungsmethode minimiert die Gruppierungszahl. Der Skalierungsfaktorfehler, Eg, jeder Gruppe soll eine Schwelle, M, unterschreiten. Das Ablaufdiagram in 17 zeigt einen Algorithmus, der für die Kriterien verwendet werden kann. Zunächst wird die Schätzung der Skalierungsfaktoren durchgeführt. Anschließend fängt die Gruppierungsmethode mit dem dersten Kurzfenster an. Da die Kurzfenster in einer Gruppe kontinuierlich sein sollen, versucht der Algorithmus, jeden Kurzfenster in die Gruppe des letzten Kurzfensters zu gruppieren. Falls der Skalierungsfaktorfehler der neuen Gruppe die Schwelle, M, unter schreitet, kann ein gegebenes Kurzfenster in die Gruppe gruppiert werden. Ansonsten soll eine neue Gruppe für das Kurzfenster gebildet sein.
  • TNS-Einheit 1020
  • TNS ist eine Technik zur Vermeidung des Pre-Echo-Phänomens. Diese Technik wird in der TNS-Einheit 1020 der Erfindung angewendet. 18 zeigt das Fensterumschaltungsschema, wenn TNS angewendet wird, um Aliasing zu reduzieren. 19 zeigt eine modifizierte Fensterumschaltungstabelle für den Fensterumschalter 1010, der den entsprechenden Algorithmus verwendet:
    Figure 00240001
  • Wie aus 19 ersichtlich ist, wenn der gegenwärtige Fenster ein Langfenster ist, wird es auf das Anfangsfenster umgeschaltet, wenn TNS angewendet wird. Beim nächsten Mal (n + 1) soll der neue Zustand (der letzte Fenster ist ein Startfenster, der gegenwärtige Fenster ist ein Langfenster und der nächste Fenster ist auch ein Langfenster) berücksichtigt werden.
  • M/S-Kodierungseinheit 1050 und Fensterkoppelungseinheit 1105
  • Bei der Stereo-Kodierung ist der M/S-Mechanismus anwendbar, wenn das Fenster und die Gruppierungsweise in den beiden Stereo-Kanälen gleich sind.
  • Die perzeptuelle Entropie (PE), wie in MPEG-Referenz definiert ist, kann wie folgt die Beurteilung der Ähnlichkeit unterstützen:
    Figure 00250001
    worin b für den Index der Partition der Schwellenberechnung, Eb für die Summe der Engergie in Partition b, BWb für die Anzahl der Frequenzlinien in Partition b, und Maskingb für die Maskierung in Partition b steht.
  • Um die Pre-Echo-Kontrolle zu verwirklichen, wird der Begriff Maskingb wie folgt modifiziert: Maskingb = max(qthrb, min(nbb, nb_lb·repelev)) (14)worin qthrb für die Schwelle bei der Geräuschlosigkeit, nbb und nb_lb für die Schwellen der Partition für das gegenwärtige und letzte Fenster, und repelev für eine Konstante steht.
  • Wenn das Signal auf eine hohe Energie aufspringt, werden die Schwellen von nb_lb zu nbb wegen der Zunahme der Signalenergie erhöht. Dann ist Maskingb kleiner und der Wert von PE größer. Wenn der Rahmen PE eine vorbestimmte Schwelle, PE_SWITCH, überschreitet, kann der Kodierer auf das Kurzfenster umschalten, um die Zeitauflösung zu erhöhen und den Pre-Echo-Effekt zu reduzieren.
  • 20 zeigt ein Ablaufdiagramm der Fensterkopplung. Wie dargestellt, wird die Differenz der PE des rechten und linken Kanals mit einer Schwelle T1 verglichen, um die Ähnlichkeit zu beurteilen. Die andere PE-Schwelle T2 wird zur Bestimmung des Fensters verwendet. Die obige Prozedur wird von der M/S-Kodierungseinheit 1050 und der Fensterkopplungseinheit 110 durchgeführt.
  • Gruppenkopplungseinheit 1110
  • Die Summe der Skalierungsfaktorfehler kann in den beiden Kanälen berechnet und simultan in zwei Kanäle gruppiert werden. An der linken Seite der 21 wird die Gruppierungsmehtode individuell in zwei Kanälen verwendet. Die Gruppenkopplung zielt darauf ab, das Gruppierungsschema in den beiden Kanälen gleich zu halten, wie in 21 dargestellt ist.
  • Die Gruppierung minimiert die Gruppenzahl und begrenzt den gesammten Skalierungsfaktorfehler Eg jeder Gruppe in den beiden Kanälen unter einer neuen Schwelle 2M.
  • 22 zeigt ein Ablaufdiagramm der Fenster- und Gruppenkopplung und die Beziehung mit der M/S-Kodierung. Wenn M/S angeschaltet wird, wird die Energie von zwei Kanälen modi fiziert und die Skalierungsfaktoren, die mit jedem Skalierungsfaktorband assoziiert sind, neu geschätzt. Wenn M/S abgeschaltet wird, kann die Gruppierung individuell für die beiden Stereo-Kanäle verwendet werden.
  • Wie obengenannt, dient die distinkte Natur der Elemente, die bei den vorhergehenden Ausführungsbeispielen in den 5, 12 und 13 dargestellt sind, nur zur Veranschaulichung der Erfindung.
  • Die Erfindung betrifft ferner die perzeptuelle Entropie (PE), die mit dem psychoakustischen Modell berechnet wird. Diese perzeptuelle Entropie reflektiert die minimalen Bits für die Rechts-, Links-, Mittel- und Seitenbänder. Der PE-Wert ist die einfachste Methode zur Berechnung der Bits für die Rechts-, Links-, Mittel- und Seitensignale der Bänder. Das psychoakustische Modell berechnet einen kostenminimierenden Pfadwert jedes benachbarten Bandes durch den Vergleich der PE-Werte von L/R- und M/S-Bänder und entscheidet, ob der Bandstatus L/R oder M/S ist.
  • PE wird definiert als: PEi = Wi·log10(Ei/Ti) (1)worin Wi, Ei und Ti für Bandbreite, Energie und Maskierungsschwelle des Bandes stehen.
  • Um die Maskierungsschwelle der M/S-Kanäle abzuleiten, werden die rekonstruierten linken und rechten Kanäle as die folgenden berücksichtigt:
    Figure 00270001
    Figure 00280001
  • Nach (2) und (3) L'i[k] = M'i[k] + S'i[k]und R'i[k] = M'i[k] – S'i[k]
  • Worin L'i[k], R'i[k], M'i[k] und S'i[k] die requantisierten Frequenzlinien von dem Dekodierer sind. Wegen der Quantisationsfehler können die rekonstruierten Signale wie folgt neu geschrieben werden:
    Figure 00280002
    und
    Figure 00280003
    worin
    Figure 00280004
    das associierte Rauschen für jeden Kanal sind. Für transparente Audiokodierung soll die Abweichung von
    Figure 00280005
    unter der Maskierungsschwelle der L- und R-Bandsignale sein. Die Abweichung in bezug auf die Partitionsbänder soll wie folgt beschränkt werden:
    Figure 00280006
    und
    Figure 00280007
  • Die ausreichenden Bedingungen, die die Ungleichheit (4) und (5) befriedigen, sind:
    Figure 00290001
    und
    Figure 00290002
  • Daher können die Schwellen wie folgt die Schwellen, die direkt von M/S-Signalen abgeleitet werden, ersetzen: TM(i) = TS(i) = 0.5·Min(TL(i), TR(i))
  • PE benutzt üblicherweise das Ergebnis, das von FFT (Fast Fourier Transform) im psychoakustischen Modell abgeleitet wird. Die aktuellen Kodierungssignale werden jedoch durch das Ergebnis von MDCT-Analysefilterbank erhalten. Daher ist es erforderlich, die Maskierungsschwellen neu einzustellen und das FET-Format der Energie durch das MDCT-Format zu ersetzen. Die korrigierten Maskierungsschwellen lautet wie folgt:
    Figure 00290003
    und T'M(i) = T'S(i) = 0.5·Min(TL(i), T'R(i)).
  • Nach (1) kann die perzeptuelle Entropie jedes Bandes wie folgt abgeleitet werden:
    Figure 00300001
    und
    Figure 00300002
  • Da alle PEs von L-, R-, M- und S-Band verfügbar sind, kann eine bevorzugte Alternativ durch Vergleich dieser PEs ausgwählt werden.
  • Das psychoakustische Modell berechnet einen kostenmininierenden Pfadwert jedes benachbarten Bandes durch den modifizierten Viterbi-Algorithmus und entscheidet, ob der Bandstatus L/R oder M/S ist. 23 zeigt eine Blockschaltung für den modifizierten Viterbi-Algorithmus zur Minimierung der M/S-Kodierungskosten. Ein Trellis wird konstrukiert zur Minimierung der Kosten Sk(i) für den Status i und endet in dem kth Band, worin der L/R-Status für 0 und der M/S-Status für 1 steht. Jede Kante, die für den transienten Kostenfaktor steht, dient zur Veränderung des Kodierungszustandes und jeder Knoten dient zum Vergleich der Band-PE. Der modifizierte Viterbi-Algorithmus findet den kostenminimierenden Pfadwert von dem ersten Skalierungsfaktorband bis zu dem letzten.
  • Sk(i) zeichnet den akkumulierten kostenminimierenden Status i von dem ersten Band bis zu dem kth Band auf und nk(i) repräsentiert die Knotenkosten des ith Status im kth Band. Dann kann der Viterbi-Algorithmusprozess wie folgt durchgeführt werden:
    (6)
    worin Q für alle Zustände und αi, j für den transienten Kostenfaktor steht. Der kostenminimierende Pfad kann durch die Umkehrung des Tracing-Pfades gefunden werden. Mit anderen Worten kann der optimale Bandstatus durch den modifizierten Viterbi-Algorithmus gefunden werden.
  • Um die Zeitkomplexität zu analysieren, wird abgesehen von dem ersten Knoten alle andere Knoten nur einmal in jedem Stadium verglichen.
  • 24 zeigt eine Blockschaltung eines Ausführungsbeispiels der Erfindung, das einen modifizierten Viterbi-Algorithmus verwendet, bestehend aus einem ersten Band 40, einem zweiten Band 45 und einem dritten Band 50, die jeweils einen ersten und zweiten Knoten umfassen. Der erste Knoten 401 des ersten Bandes 40 wird auf zehn eingestellt, der zweite Knoten 401 des ersten Bandes 40 wird auf zwanzig eingestellt, der ersten Knoten 451 des zweiten Bandes 45 wird auf dreißig eingestellt, der zweite Knoten 452 des zweiten Bandes 45 wird auf vierzig eingestellt, der erste Knoten 501 des dritten Bandes 50 wird auf fünfzig eingestellt, und der zweite Knoten 502 des dritten Bandes 50 wird auf sechzig eingestellt.
  • Die transienten Kosten von dem ersten Knoten 401 des ersten Bandes 40 zu dem ersten Knoten 451 des zweiten Bandes 45 wird auf eins eingestellt, die transienten Kosten von dem ersten Knoten 401 des ersten Bandes 40 zu dem zweiten Knoten 452 des zweiten Bandes 45 wird auf zwei eingestellt, die transienten Kosten von dem zweiten Knoten 402 des ersten Bandes 40 zu dem ersten Knoten 451 des zweiten Bandes 45 wird auf drei eingestellt, die transienten Kosten von dem zweiten Knoten 402 des ersten Bandes 40 zu dem zweiten Knoten 452 des zweiten Bandes 45 wird auf vier eingestellt, die transienten Kosten von dem ersten Knoten 451 des zweiten Bandes 45 zu dem ersten Knoten 501 des dritten Bandes 50 wird auf fünf eingestellt, die transienten Kosten von dem ersten Knoten 451 des zweiten Bandes 45 zu dem zweiten Knoten 502 des dritten Bandes 50 wird auf sechs eingestellt. Es gibt vier Kostenpfadwerte zwischen dem ersten Band 40 und dem zweiten Band 45 und zwei Kostenpfadwerte zwischen dem zweiten Band 45 und dem dritten Band 50.
  • Die Summe des ersten Knotens 401 des ersten Bandes 40, der transienten Kosten und des ersten Knotens 451 des zweiten Bandes 45 ist der erste Kostenpfadwert, der einundvierzig beträgt, die Summe des ersten Knotens 401 des ersten Bandes 40, der transienten Kosten und des zweiten Knotens 452 des zweiten Bandes 45 ist der zweite Kostenpfadwert, der zweiundfünfzig beträgt, die Summe des zweiten Knotens 402 des ersten Bandes 40, der transienten Kosten und des ersten Knotens 451 des zweiten Bandes 45 ist der dritte Kostenpfadwert, der dreiundfünfzig beträgt, die Summe des zweiten Knotens 402 des ersten Bandes 40, der transienten Kosten und des zweiten Knotens 452 des zweiten Bandes 45 ist der vierte Kostenpfadwert, der vierundsechzig beträgt.
  • Die vier Kostenpfadwerte werden miteinander verglichen, wodurch ein kostenminimierender Pfad erhalten wird. Der minimale Kostenpfadwert beträgt einsundvierzig. Der erste Knoten 451 des zweiten Bandes 45 mit einem minimalen Kostenpfadwert enthält einen Akkumulationswert, der auf einsundvierzig eingestellt wird. Hierbei wird der Kostenpfadwert eher von dem ersten Knoten 451 des zweiten Bandes 45 zu den Knoten des dritten Bandes 50 als von dem zweiten Knoten 452 des zweiten Bandes 45 zu den Knoten des dritten Bandes 50 berechnet.
  • Die Summe des Akkumulationswertes, der transienten Kosten und des ersten Knotens 501 des dritten Bandes 50 ist ein erster Kostenpfadwert, der sechsundneuzig beträgt, worin der Akkumulationswert zu dem ersten Knoten 451 des zweiten Bandes 45 gehört. Die Summe des Akkumulationswertes, der transienten Kosten und des zweiten Knotens 502 des dritten Bandes 50 ist ein zweiter Kostenpfadwert, der Hundertsieben beträgt, wobei der Akkumulationswert zu dem ersten Knoten 451 des zweiten Bandes 45 gehört. Die zwei Kostenpfadwerte werden miteinander verglichen, wodurch ein kostenmininierender Pfad erhalten wird. Der kostenminimierende Pfadwert ist sechsundneuzig und der erste Knoten 501 des dritten Bandes 50 mit einem kostenminimierenden Pfadwert enthält einen Akkumulationswert. Schließlich wird ein kostenminimierender Pfad von dem ersten Band 40 zu dem dritten Band 50 gefunden.
  • 25 zeigt ein Ablaufdiagramm für die Entscheidung des Bandstatus der M/S-Kodierung.
  • Im Schritt S21 werden durch das psychoakustische Modell eine Vielzahl von Bändern erhalten, die jeweils ein Linkssignal enthalten, und dann wird das Linkssignal durch FET (Fast Fourier Transform) in ein FET-Linkssignal (LFET) transformiert.
  • Im Schritt 22 werden durch das psychoakustische Modell eine Vielzahl von Bändern erhalten, die jeweils ein Rechtssignal enthalten, und dann wird das Rechtssignal durch FET (Fast Fourier Transform) in ein FET-Rechtssignal (RFET) transformiert.
  • Im Schritt 23 wird das Linkssignal durch MDCT (Modified Discrete Cosine Transform) der Analysefilterbank in ein MDCT-Linkssignal (RMDCT) transformiert.
  • Im Schritt 24 wird das Rechtssignal durch MDCT (Modified Discrete Cosine Transform) der Analysefilterbank in ein MDCT-Rechtssignal (RMDCT) transformiert.
  • Im Schritt 25 werden durch das Linkssignal und das Rechtssignal in dem gleichen Band ein Mittelsignal und ein Seitensignal errechnet.
  • Im Schritt 26 wird das LFET-Signal erhalten und die Maskierungsschwelle (TLFET) des LFET-Signals errechnet.
  • Im Schritt 27 wird das RFET-Signal erhalten und die Maskierungsschwelle (TLFET) des RFET-Signals errechnet.
  • Im Schritt 28 werden das TLFET-Signal, das TRFET-Signal, LFET-Signal, RFET-Signal, LMDCT-Signal und RMDCT-Signal erhalten und die Maskierungsschwellen (TL, TR) des Linkssignals und des Rechtssignals jeweilig errechnet.
  • Im Schritt 29 werden das TL-Signal und das TR-Signal erhalten und die Maskierungsschwellen (TM, TS) des Mittelsignals und des Rechtssignals jeweilig errechnet.
  • Im Schritt 30 werden das TL-Signal und das TR-Signal erhalten und die PE-Werte (PEL) des Linkssignals errechnet.
  • Im Schritt 32 wird ein erster Knoten errechnet, wobei die Summe von PEL und PER dem ersten Knoten entspricht.
  • Im Schritt 33 werden das Tm-Signal und das Mittelsignal erhalten und die PE-Werte (PEM) des Mittelsignals errechnet.
  • Im Schritt 34 werden das Ts-Signal und das Seitensignal erhalten und die PE-Werte (PES) des Mittelsignals errechnet.
  • Im Schritt 35 wird ein zweiter Knoten errechnet, wobei die Summe von PEM und PES dem zweiten Knoten entspricht.
  • Im Schritt 36 wird der kostenminierende Pfad jedes benachbarten Bandes durch einen modifizierten Viterbi-Algorithmus errechnet.
  • Im Schritt 37 wird der Status jedes Bandes entsprechend dem kostenminimierenden Pfadwert entschieden, wobei der Status ein L/R- oder M/S-Status sein kann.
  • Das M/S-Transformationsmodell erhält die L/R-Signale des Nth Bandes, transformiert diese in M/S-Signale und dann quantisiert und kodiert die M/S-Signale des Nth Bandes durch das Quantisation/Kodierungsmodel, wenn der Bandstatus durch das psychoakustische Modell für M/S-Status entschieden ist. Ansonsten erhält das Quantisation/Kodierungsmodell die L/R-Signale des Nth Bandes und quantisiert und kodiert diese Signale.
  • Die Erfindung bietet durch die Band-PEs und den modifizierten Viterbi-Algorithmus eine Methode zur Entscheidung des Bandstatus an. Der modifizierte Viterbi-Algorithmus kann die Komplexität der Folge O(2^49) bis O(4·92) für ACC reduzieren. Ferner werden die M/S-Maskierungsschwellen modifiziert, um von dem L/R-psychoakustischen Modell eine Maskierungsschwelle abzuleiten, die für die M/S-Signale angemessen ist.
  • Aufgrund der obengenannten Tatsachen entspricht die Erfindung in ihrer Verfügbarkeit, Fortschrittlichkeit und Neuheit vollauf den Anforderungen für ein Patent.

Claims (37)

  1. Verfahren zur Kodierung eines Audiosignals, die folgenden Schritte enthält: einen Block des Audiosignals erhalten; ein Global-Energy-Ratio des ersten Teilbereiches des Audiosignals bestimmen und das Global-Energy-Ratio mit einer ersten Schwelle vergleichen; ein Zero-Crossing-Ratio des zweiten Teilbereiches des Audiosignals bestimmen und das Zero-Crossing-Ratio mit einer zweiten Schwelle vergleichen; einen Kurzfenster auswählen, wenn das Global-Energy-Ratio oder das Zero-Crossing-Ratio die erste oder zweite Schwelle überschreitet und kein Tonal-Attack im dritten Teilbereich des Audiosignals detektiert wird; einem Langfenster auswählen, wenn das Global-Energy-Ratio und das Zero-Crossing-Ratio beide die erste und zweite Schwelle nicht überschreiten oder ein Tonal-Attack im dritten Teilbereich des Audiosignals detektiert wird; und mit dem ausgewählten Fenster einen vierten Teilbereich des Audiosignals kodieren, der für den ersten, zweiten und dritten Teilbereich gemeinsam ist.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Global-Energy-Ratio ein Verhältnis von der Maximumenergie des ersten Teilbereiches zu der Minimumenergie des ersten Teilbereiches ist.
  3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Zero-Crossing-Ratio ein Verhältnis von dem Zero-Crossing-Ratio eines ersten Unterbereiches des zweiten Teilbereiches zu dem Zero-Crossing-Ratio eines zweiten Unterbereiches des zweiten Teilbereiches ist, wobei das Zero-Crossing-Ratio des ersten Unterbereiches das Maximum in dem zweiten Teilbereich und das Zero-Crossing-Ratio des zweiten Unterbereiches das Minimum in dem zweiten Teilbereich ist.
  4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Tonal-Attack eine Tonschwelle überschreitet.
  5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Global-Energy-Ratio ein Verhältnis von der Maximumenergie des ersten Teilbereiches zu der Minimu menegie des ersten Teilbereiches ist, und das Zero-Crossing-Ratio ein Verhältnis von dem Zero-Crossing-Ratio eines ersten Unterbereiches des zweiten Teilbereiches zu dem Zero-Crossing-Ratio eines zweiten Unterbereiches des zweiten Teilbereiches ist, wobei das Zero-Crossing-Ratio des ersten Unterbereiches das Maximum in dem zweiten Teilbereich und das Zero-Crossing-Ratio des zweiten Unterbereiches das Minimum in dem zweiten Teilbereich ist, und dass das Tonal-Attack eine Tonschwelle überschreitet.
  6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das ausgewählte Fenster ein nächstes Fenster ist und zwei vorher ausgewählte Fenster ein gegenwärtiges Fenster und ein letztes Fenster ist, wobei das Verfahren die folgenden weiteren Schritte enthält: wenn das letzte Fenster ein Langfenster, das gegenwärtige Fenster ein Langfenster und das nächste Fenster ein Kurzfenster ist, das gegenwärtige Fenster zu einem Lang-zu-Kurz-Transitionsfenster verändern, wenn das letzte Fenster ein Kurzfenster, das gegenwärtige Fenster ein Langfenster und das nächste Fenster ein Langfenster ist, das gegenwärtige Fenster zu einem Kurz-zu-Lang-Transitionsfenster verändern, wenn das letzte Fenster ein Kurzfenster, das gegenwärtige Fenster ein Langfenster und das nächste Fenster ein Kurzfenster ist, das gegenwärtige Fenster zu einem Kurzfenster verändern, und wenn das letzte Fenster ein Kurz-zu-Lang-Transitionsfenster, das gegenwärtige Fenster ein Lang fenster und das nächste Fenster ein Kurzfenster ist, das gegenwärtige Fenster zu einem Lang-zu-Kurz-Transitionsfenster verändern.
  7. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das psychoakustische Modell eines ausgewählten Kurzfensters als das psychoakustische Modell des entsprechenden Teilbereiches in einem hypothetischen Langfenster definiert.
  8. Verfahren nach Anspruch 1, gekennzeichnet durch die folgenden weiteren Schritte: die Skalierungsfaktoren für ein Kurzfenster schätzen; und die Kurzfenster mit Skalierungsfaktoren gruppieren, die in einem vorbestimmten Fehler ähnlich sind.
  9. Verfahren nach Anspruch 8, gekennzeichnet durch die folgenden weiteren Schritte: die M/S-Kodierung für das Audiosignal durchführen; und die Skalierungsfaktoren für ein Kurzfenster neu schätzen.
  10. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das ausgewählte Fenster ein nächstes Fenster ist und zwei vorher ausgewählte Fenster ein gegenwärtiges Fenster und ein letztes Fenster ist, wobei das Verfahren die folgenden weiteren Schritte enthält: das Temporal-Noise-Shaping auf den vierten Teilbereich des Audiosignals anwenden; wenn das letzte Fenster ein Langfenster, das gegenwärtige Fenster ein Langfenster und das nächste Fenster ein Kurzfenster ist, das gegenwärtige Fenster zu einem Lang-zu-Kurz-Transitionsfenster verändern, wenn das letzte Fenster ein Kurzfenster, das gegenwärtige Fenster ein Langfenster und das nächste Fenster ein Langfenster ist, das gegenwärtige Fenster zu einem Kurz-zu-Lang-Transitionsfenster verändern, wenn das letzte Fenster ein Kurzfenster, das gegenwärtige Fenster ein Langfenster und das nächste Fenster ein Kurzfenster ist, das gegenwärtige Fenster zu einem Kurzfenster verändern; wenn das letzte Fenster ein Lang-zu-Kurz-Transitionsfenster, das gegenwärtige Fenster ein Langfenster und das nächste Fenster ein Langfenster ist, das gegenwärtige Fenster zu einem Kurz-zu-Lang-Transitionssignal verändern; wenn das letzte Fenster ein Lang-zu-Kurz-Transitionsfenster, das gegenwärtige Fenster ein Langfenster und das nächste Fenster ein Kurzfenster ist, das gegenwärtige Fenster zu einem Kurzfenster verändern; und wenn das letzte Fenster ein Kurz-zu-Lang-Transitionsfenster, das gegenwärtige Fenster ein Langfenster und das nächste Fenster ein Kurzfenster ist, das gegenwärtige Fenster zu einem Lang-zu-Kurz-Transitionsfenster verändern.
  11. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Audiosignal ein zweikanal-Stereosignal ist, wobei das Verfahren die folgenden weiteren Schritte enthält: wenn die Fenstergröße jedes Kanals des Audiosignals einander nicht entspricht, eine Diferenz in der perzeptuellen Entropie der beiden Kanäle detektieren; und wenn eine Differenz in der perzeptuellen Entropie detektiert wird, Kurzfenster in den beiden Kanälen verwenden, falls die perzeptuelle Entropie der beiden Kanäle eine Entropieschwelle überschreitet, und Langfenster in den beiden Kanäle verwenden, falls die perzeptuelle Entropie der beiden Kanäle eine Entropieschwelle unterschreitet.
  12. Advanced-Audio-Coding (ACC)-Kodierer für das Verfahren nach Anspruch 1, bestehend aus einer Gain-Controll-Einheit (310), einem perzeptuellen Modell (320), einer Filterbank (330), einem Bitstrom-Multiplexer (350) und einem Fensterbestimmungsmodul (340).
  13. Verfahren zur Kodierung eines Audiosignals, die folgenden Schritte enthält: ein Fenster des Audiosignals erhalten; ein Global-Energy-Ratio des ersten Teilbereiches des Audiosignals bestimmen und das Global-Energy-Ratio mit einer ersten Schwelle vergleichen, wobei das Global-Energy-Ratio ein Verhältnis von der Maximumenergie des ersten Teilbereiches zu der Minimumenergie des ersten Teilbereiches ist; ein Zero-Crossing-Ratio des zweiten Teilbereiches des Audiosignals bestimmen und das Zero-Crossing-Ratio mit einer zweiten Schwelle vergleichen, wobei das Zero-Crossing-Ratio ein Verhältnis von dem Zero-Crossing-Ratio eines ersten Unterbereiches des zweiten Teilbereiches zu dem Zero-Crossing-Ratio eines zweiten Unterbereiches des zweiten Teilbereiches ist, wobei das Zero-Crossing-Ratio des ersten Unterbereiches das Maximum in dem zweiten Teilbereich und das Zero-Crossing-Ratio des zweiten Unterbereiches das Minimum in dem zweiten Teilbereich ist; ein Kurzfenster auswählen, wenn das Global-Energy-Ratio oder das Zero-Crossing-Ratio die erste oder zweite Schwelle überschreiten und kein Tonal-Attack im dritten Teilbereich des Audiosignals detektiert wird, wobei das Tonal-Attack eine Tonschwelle überschreitet; ein Langfenster auswählen, wenn das Global-Energy-Ratio und das Zero-Crossing-Ratio beide die erste und zweite Schwelle nicht überschreiten oder ein Tonal-Attack im dritten Teilbereich des Audiosignals detektiert wird; und mit dem ausgewählten Fenster einen vierten Teilbereich des Audiosignals kodieren, der für den ersten, zweiten und dritten Teilbereich gemeinsam ist.
  14. Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass das ausgewählte Fenster ein nächstes Fenster ist und zwei vorher ausgewählte Fenster ein gegenwärtiges Fenster und ein letztes Fenster ist, wobei das Verfahren die folgenden weiteren Schritte enthält: wenn das letzte Fenster ein Langfenster, das gegenwärtige Fenster ein Langfenster und das nächste Fenster ein Kurzfenster ist, das gegenwärtige Fenster zu einem Lang-zu-Kurz-Transitionsfenster verändern, wenn das letzte Fenster ein Kurzfenster, das gegenwärtige Fenster ein Langfenster und das nächste Fenster ein Langfenster ist, das gegenwärtige Fenster zu einem Kurz-zu-Lang-Transitionsfenster verändern, wenn das letzte Fenster ein Kurzfenster, das gegenwärtige Fenster ein Langfenster und das nächste Fenster ein Kurzfenster ist, das gegenwärtige Fenster zu einem Kurzfenster verändern, und wenn das letzte Fenster ein Kurz-zu-Lang-Transitionsfenster, das gegenwärtige Fenster ein Langfenster und das nächste Fenster ein Kurzfenster ist, das gegenwärtige Fenster zu einem Lang-zu-Kurz-Transitionsfenster verändern.
  15. Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass das psychoakustische Modell eines ausgewählten Kurzfensters als das psychoakustische Modell des entsprechenden Teilbereiches in einem hypothetischen Langfenster definiert.
  16. Verfahren nach Anspruch 13, gekennzeichnet durch die folgenden weiteren Schritte: die Skalierungsfaktoren für ein Kurzfenster schätzen; und die Kurzfenster mit Skalierungsfaktoren gruppieren, die in einem vorbestimmten Fehler ähnlich sind.
  17. Verfahren nach Anspruch 16, gekennzeichnet durch die folgenden weiteren Schritte: die M/S-Kodierung für das Audiosignal durchführen; und die Skalierungsfaktoren für ein Kurzfenster neu schätzen.
  18. Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass das ausgewählte Fenster ein nächstes Fenster ist und zwei vorher ausgewählte Fenster ein gegenwärtiges Fenster und ein letztes Fenster ist, wobei das Verfahren die folgenden weiteren Schritte enthält: das Temporal-Noise-Shaping auf den vierten Teilbereich des Audiosignals anwenden; wenn das letzte Fenster ein Langfenster, das gegenwärtige Fenster ein Langfenster und das nächste Fenster ein Kurzfenster ist, das gegenwärtige Fenster zu einem Lang-zu-Kurz-Transitionsfenster verändern, wenn das letzte Fenster ein Kurzfenster, das gegenwärtige Fenster ein Langfenster und das nächste Fenster ein Langfenster ist, das gegenwärtige Fenster zu einem Kurz-zu-Lang-Transitionsfenster verändern, wenn das letzte Fenster ein Kurzfenster, das gegenwärtige Fenster ein Langfenster und das nächste Fenster ein Kurzfenster ist, das gegenwärtige Fenster zu einem Kurzfenster verändern; wenn das letzte Fenster ein Lang-zu-Kurz-Transitionsfenster, das gegenwärtige Fenster ein Langfenster und das nächste Fenster ein Langfenster ist, das gegenwärtige Fenster zu einem Kurz-zu-Lang-Transitionssignal verändern; wenn das letzte Fenster ein Lang-zu-Kurz-Transitionsfenster, das gegenwärtige Fenster ein Langfenster und das nächste Fenster ein Kurzfenster ist, das gegenwärtige Fenster zu einem Kurzfenster verändern; wenn das letzte Fenster ein Kurz-zu-Lang-Transitionsfenster, das gegenwärtige Fenster ein Langfenster und das nächste Fenster ein Kurzfenster ist, das gegenwärtige Fenster zu einem Lang-zu-Kurz-Transitionsfenster verändern.
  19. Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass das Audiosignal ein zweikanal-Stereosignal ist, wobei das Verfahren die folgenden weiteren Schritte enthält: wenn die Fenstergröße jedes Kanals des Audiosignals einander nicht entspricht, eine Diferenz in der perzeptuellen Entropie der beiden Kanäle detektieren; und wenn eine Differenz in der perzeptuellen Entropie detektiert wird, Kurzfenster in den beiden Kanälen verwenden, falls die perzeptuelle Entropie der beiden Kanäle eine Entropieschwelle überschreitet, und Langfen ster in den beiden Kanäle verwenden, falls die perzeptuelle Entropie der beiden Kanäle eine Entropieschwelle unterschreitet.
  20. Advanced-Audio-Coding (ACC)-Kodierer für das Verfahren nach Anspruch 13, bestehend aus einer Gain-Controll-Einheit (310), einem perzeptuellen Modell (320), einer Filterbank (330), einem Bitstrom-Multiplexer (350) und einem Fensterbestimmungsmodul (340).
  21. Verfahren zur Entscheidung des Bandstatus der M/S-Kodierung für fortgeschritte Audiokodierung, das die folgenden Schritte enthält: mindestens einen Audiostrom mit einer Vielzahl von Bändern erhalten, die jeweils ein Linkssignal und ein Rechtssignal enthalten; ein Mittelsignal und ein Seitensignal durch das Linkssignal und das Rechtssignal in dem gleichen Band errechnen; einen ersten und zweiten Knoten in jedem Band errechnen, wobei die Summe der perzeptuellen Entropie (PE) des Linkssignals und des Rechtssignals dem ersten Knoten und die Summe der PE-Werte des Mittelsignals und des Seitensignals dem zweiten Knoten entspricht; einen kostenminimierenden Pfadwert in jedem benachbarten Band errechnen, von dem ersten Knoten des Nth Bandes bis zum ersten oder zweiten Knoten des (N + 1)th Bandes oder von dem zweiten Knoten des Nth Bandes bis zum ersten oder zweiten Knoten des (N + 1)th Bandes, und den Status jedes Bandes entsprechend dem kostenminimierenden Pfadwert entscheiden, wobei der Stauts ein L/R- oder M/S-Status sein kann.
  22. Verfahren nach Anspruch 21, gekennzeichnet durch einen Schritt zum Errechnen eines kostenminimierenden Pfadwertes, enthaltend: eine Vielzahl von Kostenpfadwerten errechnen, wobei jeder Kostenpfadwert von dem Knoten des ersten Bandes zu dem Knoten des zweiten Bandes ist.
  23. Verfahren nach Anspruch 21, dadurch gekennzeichnet, dass der Audiostrom vier Kostenpfadwerte zwischen einem ersten und zweiten Band und zwei Kostenpfadwerte zwischen den restlichen benachbarten Bändern enthält.
  24. Verfahren nach Anspruch 23, gekennzeichnet durch einen Schritt zum Errechnen eines kostenminimierenden Pfadwertes zwischen dem ersten und zweiten Band, enthaltend: jeden Kostenpfadwert durch die Summe des Knotens des ersten Bandes, der transienten Kosten und des Knotens des zweiten Bandes errechnen; und die Kostenpfadwerte vergleichen, damit ein Kostenminimierender Pfadwert erhalten wird.
  25. Verfahren nach Anspruch 23, gekennzeichnet durch einen Schritt zum Errechnen eines kostenminimierenden Pfadwertes zwischen dem Nth Band und dem (N + 1)th Band der restlichen benachbarten Bänder, enthaltend: jeden Kostenpfadwert durch die Summe eines Akkumulationswertes, der transienten Kosten und des Knotens des (N + 1)th Bandes errechnen; und die Kostenpfadwerte vergleichen, damit ein Kostenminimierender Pfadwert erhalten wird.
  26. Verfahren nach Anspruch 25, dadurch gekennzeichnet, dass der Akkumulationswert zu dem Knoten des Nth Bandes mit einem kostenminierenden Pfadwert zwischen dem (N – 1)th Band und dem Nth Band gehört.
  27. Verfahren nach Anspruch 21, gekennzeichnet durch einen Schritt zum Errechnen eines kostenminimierenden Pfadwertes, enthaltend: den konstenminimierenden Pfadwert jedes benachbarten Bandes des Audiostroms durch einen modifizierten Viterbi-Algorithmus errechnen.
  28. Verfahren nach Anspruch 27, gekennzeichnet durch einen Schritt zum Errechnen eines kostenminimierenden Pfadwertes, enthaltend: eine Vielzahl von Kostenpfadwerte errechnen, wobei jeder Kostenpfadwert von dem Knoten des ersten Bandes zu dem Knoten des zweiten Bandes ist, und die Kostenpfadwerte vergleichen, damit ein Kostenminimierender Pfadwert erhalten wird.
  29. Verfahren nach Anspruch 27, dadurch gekennzeichnet, dass der Audiostrom vier Kostenpfadwerte zwischen ei nem ersten und zweiten Band und zwei Kostenpfadwerte zwischen den restlichen benachbarten Bändern des Audiostroms enthält.
  30. Verfahren nach Anspruch 29, gekennzeichnet durch einen Schritt zum Errechnen eines kostenminimierenden Pfadwertes zwischen dem ersten und zweiten Band, enthaltend: jeden Kostenpfadwert durch die Summe des Knotens des ersten Bandes, der transienten Kosten und des Knotens des zweiten Bandes errechnen; und die Kostenpfadwerte vergleichen, damit ein Kostenminimierender Pfadwert erhalten wird.
  31. Verfahren nach Anspruch 29, gekennzeichnet durch einen Schritt zum Errechnen eines kostenminimierenden Pfadwertes zwischen dem Nth Band und dem (N + 1)th Band der restlichen benachbarten Bänder, enthaltend: jeden Kostenpfadwert durch die Summe eines Akkumulationswertes, der transienten Kosten und des Knotens des (N + 1)th Bandes errechnen; und die Kostenpfadwerte vergleichen, damit ein Kostenminimierender Pfadwert erhalten wird.
  32. Verfahren nach Anspruch 31, dadurch gekennzeichnet, dass der Akkumulationswert zu dem Knoten des Nth Bandes mit einem kostenminierenden Pfadwert zwischen dem (N – 1)th Band und dem Nth Band gehört.
  33. Verfahren nach Anspruch 21, gekennzeichnet durch einen Schritt zum Errechnen der perzeptuellen Entropiewerte des Linkssignals und des Rechtssignals, enthaltend: das linkssignal und das Rechtssignal durch FET (Fast Fourier Transform) in ein FET-Linkssignal und ein FET-Rechtssignal transformieren; das FET-Linkssignal und das FET-Rechtssignal erhalten und die Maskierungsschwellen des FET-Linkssignals und des FET-Rechtssignals errechnen; und die Maskierungsschwellen, das FET-Linkssignal und das FET-Rechtssignal erhalten und die PE-Werte des Linkssignals und des Rechtssignals errechnen.
  34. Verfahren nach Anspruch 21, gekennzeichnet durch einen Schritt vor der Errechnung des Mittelsignals und des Seitensignals, wobei das Linkssignal und das Rechtssignal durch MDCT (Modified Discrete Cosine Transform) in ein MDCT-Linkssignal und ein MDCT-Rechtssingal transformiert und das Mittelsignal und Seitensignal errechnet werden.
  35. Verfahren nach Anspruch 34, gekennzeichnet durch einen Schritt zum Errechnen der perzeptuellen Entropiewerte des Mittelsignals und des Seitensignals, enthaltend: die Maskierungsschwellen des Mittelsignals und des Seitensignals errechnen; und die Maskierungsschwellen, das Mittelsignal und das Seitensignal erhalten und die PE-Werte des Mittelsignals und des Seitensignals errechnen.
  36. Verfahren nach Anspruch 35, gekennzeichnet durch einen Schritt zum Errechnen der Maskierungsschwellen des des Mittelsignals und des Seitensignals, enthaltend: das linkssignal und das Rechtssignal durch MDCT (Modified Discrete Cosine Transform) in ein MDCT-Linkssignal und ein MDCT-Rechtssignal transformieren; das linkssignal und das Rechtssignal durch FET (Fast Fourier Transform) in ein FET-Linkssignal und ein FET-Rechtssignal transformieren; das FET-Linkssignal und das FET-Rechtssignal erhalten und die Maskierungsschwellen des FET-Linkssignals und des FET-Rechtssignals errechnen; die Maskierungsschwellen des FET-Linkssignals und des FET-Rechtssignals, das FET-Linkssignal, das FET-Rechtssignal, das MDCT-Linkssignal und das MDCT-Rechtssignal erhalten und die Maskierungsschwellen des Linkssignals und des Rechtssignals errechnen; und die Maskierungsschwellen des Linkssignals und des Rechtssignals, erhalten und die Maskierungsschwellen des Mittelsignals und des Seitensignals errechnen.
  37. Verfahren nach Anspruch 36, dadurch gekennzeichnet, dass die Maskierungsschwellen des Mittelsignals und des Seitensignals auf die Hälfte des Minimums der Maskierungsschwellen des Linkssignals und des Rechtssignal eingestellt werden.
DE200610053976 2006-11-13 2006-11-13 Verfahren zur Umschaltung von Fenster und zur Entscheidung des Bandstatus der Mittel/Seitenkodierung für fortgeschrittene Audiokodierung Ceased DE102006053976A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE200610053976 DE102006053976A1 (de) 2006-11-13 2006-11-13 Verfahren zur Umschaltung von Fenster und zur Entscheidung des Bandstatus der Mittel/Seitenkodierung für fortgeschrittene Audiokodierung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE200610053976 DE102006053976A1 (de) 2006-11-13 2006-11-13 Verfahren zur Umschaltung von Fenster und zur Entscheidung des Bandstatus der Mittel/Seitenkodierung für fortgeschrittene Audiokodierung

Publications (1)

Publication Number Publication Date
DE102006053976A1 true DE102006053976A1 (de) 2008-07-10

Family

ID=39477598

Family Applications (1)

Application Number Title Priority Date Filing Date
DE200610053976 Ceased DE102006053976A1 (de) 2006-11-13 2006-11-13 Verfahren zur Umschaltung von Fenster und zur Entscheidung des Bandstatus der Mittel/Seitenkodierung für fortgeschrittene Audiokodierung

Country Status (1)

Country Link
DE (1) DE102006053976A1 (de)

Similar Documents

Publication Publication Date Title
DE19747132C2 (de) Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
DE69333394T2 (de) Hochwirksames Kodierverfahren und -gerät
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
EP0954909B1 (de) Verfahren zum codieren eines audiosignals
DE69915400T2 (de) Vorrichtung zur Kodierung und Dekodierung von Audiosignalen
DE69833834T2 (de) Skalierbares Audiokodier-und Dekodierverfahren und Gerät
DE69924431T2 (de) Vorrichtung und Verfahren zur dynamischen Bitverteilung für Audiokodierung
EP2022043B1 (de) Informationssignalcodierung
DE19921122C1 (de) Verfahren und Vorrichtung zum Verschleiern eines Fehlers in einem codierten Audiosignal und Verfahren und Vorrichtung zum Decodieren eines codierten Audiosignals
DE60015030T2 (de) Auf Block Umschaltung basierender Teilband-Audiokodierer
DE19959156C2 (de) Verfahren und Vorrichtung zum Verarbeiten eines zu codierenden Stereoaudiosignals
DE60316099T2 (de) Verfahren und Vorrichtung zur Codierung/Dekodierung von Audiodaten mit Skalierbarkeit
DE60319590T2 (de) Verfahren zur codierung und decodierung von audio mit variabler rate
DE19811039A1 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
WO1999004505A1 (de) Verfahren zum signalisieren einer rauschsubstitution beim codieren eines audiosignals
DE60113602T2 (de) Audiokodierer mit psychoakustischer Bitzuweisung
DE102004007200B3 (de) Audiocodierung
DE19706516C1 (de) Verfahren und Vorricntungen zum Codieren von diskreten Signalen bzw. zum Decodieren von codierten diskreten Signalen
DE602004007550T2 (de) Verbesserte frequenzbereichs-fehlerverbergung
DE60300500T2 (de) Signalisierung von Fensterschaltungen in einem MPEG Layer 3 Audio Datenstrom
DE102007029381A1 (de) Digitalsignal-Verarbeitungsvorrichtung, Digitalsignal-Verarbeitungsverfahren, Digitalsignal-Verarbeitungsprogramm, Digitalsignal-Wiedergabevorrichtung und Digitalsignal-Wiedergabeverfahren
DE19743662A1 (de) Verfahren und Vorrichtung zur Erzeugung eines bitratenskalierbaren Audio-Datenstroms
EP1430750B1 (de) Verfahren und vorrichtung zur auswahl eines klangalgorithmus
DE60101984T2 (de) Verfahren zur Vorklassifikation von Audiosignalen für die Audio-Komprimierung
EP1277346B1 (de) Vorrichtung und Verfahren zum Analysieren der spektralen Darstellung eines decodierten Zeitsignales

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8128 New person/name/address of the agent

Representative=s name: PATENTANWAELTE VON KREISLER, SELTING, WERNER ET CO

R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final

Effective date: 20131003