DE69823557T2

DE69823557T2 - Schnelle frequenztransformationstechnik für transform audio koder

Info

Publication number: DE69823557T2
Application number: DE69823557T
Authority: DE
Inventors: Javed Mohammed ABSAR; Sapna George; Mario Antonio ALVAREZ-TINOCO
Original assignee: STMicroelectronics Asia Pacific Pte Ltd
Current assignee: STMicroelectronics Asia Pacific Pte Ltd
Priority date: 1998-02-21
Filing date: 1998-02-21
Publication date: 2005-02-03
Anticipated expiration: 2018-02-22
Also published as: WO1999043110A1; EP1057292A1; EP1057292B1; DE69823557D1

Description

Technisches Gebiet
Die Erfindung ist anwendbar im Gebiet von Multikanalaudiokodierern, die eine modifizierte, diskrete Kosinustransformation als Schritt für die Komprimierung von Audiosignalen verwenden.
Hintergrund der Erfindung
Um Audiosignale effizienter zu übermitteln oder aufzuzeichnen, kann die Informationsmenge, die benötigt wird, um die Audiosignale zu repräsentieren, reduziert werden. In dem Fall von digitalen Audiosignalen kann der Betrag oder die Menge der digitalen Information, die benötigt wird, um die original pulscodemodulierten Abtastungen bzw. Puls Code Modulation (PCM)-Abtastungen zu reproduzieren, durch Anwendung eines digitalen Komprimierungsalgorithmus reduziert werden, was in einer digitalen, komprimierten Darstellung des Originalsignals resultiert. Das Ziel des digitalen Komprimierungsalgorithmus ist es eine digitale Darstellung eines Audiosignals zu erzeugen, das, wenn es dekodiert und reproduziert wird, genauso klingt wie das Originalsignal, während ein Minimum an digitaler Information für die komprimierte oder kodierte Darstellung verwendet wird.
Neuere Fortschritte in der Audiokodierungstechnologie haben zu hohen Komprimierungsverhältnissen geführt, wobei die hörbare Verschlechterung des komprimierten Signals auf ein Minimum beschränkt ist. Diese Kodierer sind für eine Vielzahl von Anwendungen bestimmt, wie z. B. 5.1-Kanalfilmsoundtracks, HDTV, Laser-CDs und Multimedia. Die Beschreibung eines anwendbaren Verfahrens kann in dem Dokument des Standards Advanced Television Systems Committee (ATSC), betitelt „Digital Audio Compression (AC-3) Standard", Dokument A/52, 20. Dezember 1995, gefunden werden.
In diesem grundlegenden Ansatz wird an dem Kodierer das Zeitdomänaudiosignal zuerst in die Frequenzdomäne mittels einer Filterbank konvertiert. Die Frequenzdomänkoeffizienten, die so generiert werden, werden dann in eine so genannte Fixed point- bzw. Fixpunktdarstellung konvertiert. In der Fixpunkt-Syntax wird jeder Koeffizient als eine Mantisse und ein Exponent repräsentiert. Der Großteil des komprimierten Bitstromes, der zum Dekodierer gesendet wird, besteht aus diesem Exponenten und Mantissen.
Die Exponenten werden normalerweise in der ursprünglichen Form gesendet. Jedoch muss jede Mantisse auf eine festgelegte oder variable Anzahl von Dezimalstellen gekürzt werden. Die Anzahl der Bits, die zur Kodierung einer jeden Mantisse verwendet werden, wird von einem Bitzuweisungsalgorithmus erhalten, der z. B. auf den Maskierungs- bzw. Abdeckungseigenschaften des menschlichen Gehörsystems basiert. Eine niedrige Anzahl von Bits resultiert in höheren Komprimierungsverhältnissen, da weniger Raum benötigt wird, um die Koeffizienten zu senden. Dies kann jedoch hohe Quantisierungsfehler bewirken, was zu einer hörbaren Verzerrung führt. Eine gute Verteilung bzw. Zuweisung der zur Verfügung stehenden Bits an jede Mantisse bildet den Kern von fortgeschrittenen Audiokodierern.
Die Frequenztransformationsphase stellt in einem Transformationskodierer die höchsten Rechenanforderungen. Daher kann eine effiziente Implementierung dieser Phase die Rechenleistungsanforderungen des Systems signifikant senken und führt dazu, dass ein Realtime- bzw. Echtzeitbetrieb des Kodierers leichter erreichbar ist.
In einigen Kodierer, wie sie z. B. in dem AC-3 Standard spezifiziert sind, wird die Frequenzdomäntransformation von Signalen durch die modifizierte, diskrete Kosinustransformation (Modified Discrete Cosine Transform (= MDCT)). Bei einer direkten Implementierung benötigt die MDCT O(N²) Addition und Multiplikation. Es wurde jedoch festgestellt, dass es möglich ist, die Anzahl der benötigten Operationen signifikant zu reduzieren, wenn die MDCT-Gleichung auf eine Art und Weise berechnet werden kann, die offen ist für die Verwendung des allseits bekannten Verfahrens der schnellen Fouriertransformation (Fast Fourier Transform (= FFT)) von J. W. Cooley und J. W. Tukey (1960). Eine bekannte Anwendung einer FFT auf eine MDCT ist z. B. in dem EP-A-0564089 offenbart.
Die vorliegende Erfindung dient dazu, ein alternatives Berechnungsverfahren mittels einer schnellen Fouriertransformation vorzusehen. Weiterhin dient die Erfindung dazu eine einzelne FFT für zwei Kanäle zu verwenden, um eine größere Reduktion der Rechenleistungsanforderungen an das System zu erlangen.
Zusammenfassung der Erfindung
Gemäß der vorliegenden Erfindung wird ein Verfahren zum Kodieren von Audiodaten, gemäß der Ansprüche 1 und 8 vorgesehen.
Die vorliegende Erfindung sieht weiterhin ein Verfahren zum Kodieren von Audiodaten, gemäß Anspruch 14 vor, wobei das Verfahren die folgenden Schritte aufweist:
Erhalten erster und zweiter Eingangssequenzen von digitalen Audioabtastungen x[n], y[n], die jeweiligen ersten und zweiten Audiokanälen entsprechen;
Kombinieren der ersten und zweiten Einganssequenzen von Digitalaudioabtastungen in eine einzelne komplexe Eingansabtastungssequenz z[n], wobei z[n] = x[n] + jy[n];
Vorverarbeiten der komplexen Eingangssequenzabtastungen einschließlich des Anwendens eines Vormultiplikationsfaktors cos(πn/N) + jsin(πn/N), um modifizierte, komplexe Einganssequenzabtastungen zu erhalten, wobei N die Anzahl von Audioabtastungen in jeder der ersten Einganssequenzen ist und n = 0, ..., (N – 1);
Transformieren der modifizierten, komplexen Eingangssequenzabtastungen in eine komplexe Transformationskoeffizientensequenz Z_k unter Verwendung einer schnellen Fouriertransformation, wobei k = 0, ..., (N/2 – 1); und
Nachbearbeiten der Sequenz von komplexen Transformationskoeffizienten, um erste und zweite Sequenzen von audiokodierten Frequenzdomänkoeffizienten zu erhalten, die den ersten und zweiten Audiokanälen X_k, Y_k entsprechen und zwar gemäß: Gk = (Zk + Z*N–k–1 )/2 k = 0 ... N/2 – 1 G'k = (Zk + Z*N–k–1 )/2j k = 0 ... N/2 – 1 Xk = cosγ*(gk,rcos(π(k + 1/2)/N) – gk,isin(π(k + 1/2)/N) – sinγ*(gk,rsin(π(k + 1/2)/N) + gk,icos(π(k + 1/2)/N) Yk = cosγ*(g'k,rcos(π(k + 1/2)/N) – g'k,isin(π(k + 1/2)/N) – sinγ*(g'k,rsin(π(k + 1/2)/N + g'k,icos(π(k + 1/2)/N)wobei G_k eine Transformationskoeffizientensequenz für den ersten Kanal ist;
G'_k eine Transformationskoeffizienzensequenz für den zweiten Kanal ist;
g_k,r und g_k,i die realen und imaginären Transformationskoeffizientenbestandteile von G_k sind;
g'_k,r und g'_k,i die realen und imaginären Transformationskoeffizientenbestandteile von G'_k sind;
Z*_N–k–1 das komplexe Konjugat bzw. Konjugierte von Z_N–k–1 ist; und
μ(k) = π(2k + 1)/4.
Die modifizierte, diskrete Kosinustransformationsgleichung kann wie folgt ausgedrückt werden:
wobei x[n] die Einganssequenz für einen Kanal und N die Transformationslänge ist.
Anstatt X_k in der oben gegebenen Form zu bestimmen, könnte es wie folgt berechnet werden: Xk = cosγ*(gk,rcos(π(k + 1/2)/N) – gk,isin(π(k + 1/2)/N)) – sinγ*(gk,rsin(π(k + 1/2)/N) + gk,icos(π(k + 1/2)/N))g_k,r,g_k,i ∈
Satz von reelen Zahlen) wobei
Das Symbol j stellt die Imaginärza √–1 dar. Den Ausdruck
erhält man von dem bekannten FFT-Verfahren, und zwar, indem zuerst die Transformation x'[n] = x[n]*e^jπn/N verwendet wird und dann die FFT
berechnet wird.
Für einen Zweikanalansatz wird eine komplexe Variable z[n] = x[n]*e^jπn/N + jy[n]* e^jπn/N definiert, wobei x[n] und y[n] eine Abtastungssequenz für die zwei Kanäle ist und e^jπn/N den Vormultiplikationsfaktor darstellt. Mittels des FFT-Ansatzes, wird der Frequenzkoeffizient Z_k für die Variable z[n] berechnet. Von Z_k wird der Wert G_k = (Z_k + Z*_N–k–1)/2 und G'_k = (Z_k – Z*_N–k–1)/2j berechnet, der benötigt wird, um die endgültige MDCT für jeden jeweiligen Kanal auszurechnen.
Wenn entweder beide oder einer der Kanäle Transformationen mit kurzer Länge benötigen, werden zwei Kurztransformationen (short transforms) mittels des obigen Ansatzes vorgenommen. Wenn kein Kanal eine Kurztransformation benötigt, wird eine einzelne Langtransformation verwendet. Als ein zusätzlicher Schritt in der Reduzierung der Berechnung kann die Fensterungsfunktion (windowing function) mit der Vorverarbeitungsstufe kombiniert werden.
Kurzbeschreibung der Zeichnungen
Die Erfindung wird im Folgenden im Detail beschrieben, und zwar lediglich als Beispiel und unter Bezug auf bevorzugte Ausführungsbeispiele hiervon und mittels der Hilfe der beigefügten Zeichnungen, wobei die Zeichnungen folgendes zeigen:
1 ist eine Diagrammdarstellung eines Stromes von Audiodaten und die Unterstrukturanordnung hiervon;
2 ist ein funktionales Blockdiagramm eines digitalen Audiokodierers;
3 ist ein funktionales Blockdiagramm eines Systems zum Kodieren eines einzelnen Audikanals; und
4 ist ein funktionales Blockdiagramm eines Systems zum Kodieren eines Paares von Audiokanälen.
Detaillierte Beschreibung der bevorzugten Ausführungsbeispiele
Das oben beschriebene Dokument des Advanced Television Systems Committee (ATSC) Standards, betitelt „Digital Audio Compression (AC-3) Standard" (Dokument A/52, 20. Dezember 1995), beschreibt Verfahren zum Kodieren und Dekodieren von Audiosignalen.
Im Allgemeinen weist die Eingabe an einen Audiokodierer, einen Strom von digitalisierten Abtastungen des Zeitdomänanalogsignals auf. Bei einem Multikanalkodierer besteht der Strom bzw. die Folge aus verschachtelten (interleaved) Abtastungen für jeden Kanal. Der Eingangsstrom ist in Blöcke aufgeteilt bzw. sektioniert, wobei jeder Block N aufeinander folgende Abtastungen eines jeden Kanals (siehe 1) beinhaltet. Somit bilden innerhalb eines Blocks die N Abtastungen eines Kanals eine Sequenz {x[0], x[1], x[2], ..., x[N – 1]}.
Die Zeitdomänabtastungen werden als nächstes in die Frequenzdomäne mittels einer Analysefilterbank (siehe 2) konvertiert. Die Frequenzdomänkoeffizienten, die so generiert werden, bilden einen Koeffizientensatz, der als (X_n, X₁, X₂, ..., X_N/2–1) identifiziert werden kann. Da das Signal real ist, werden nur die ersten N/2-Frequenzkomponenten bedacht bzw. berücksichtigt. Hier ist X₀ die niedrigste Frequenz-(DC, Gleichstrom)-Komponente, während X_N/2–1 die Höchstfrequenzkomponente des Signals ist.
Audiokomprimierung bedeutet bzw. beinhaltet im Wesentlichen das Herausfinden, wie viel Information aus dem Satz (X₀, X₁, ..., X_N/2–1) nötig ist, um dass Originalana logsignal an dem Dekoder zu reproduzieren bei einer minimalen hörbaren Verzerrung.
Der Koeffizientensatz wird normalerweise in ein Gleitkommaformat konvertiert, in dem jeder Koeffizient durch einen Exponenten und eine Mantisse dargestellt ist. Der Exponentensatz wird normalerweise in seinem Originalformat gesendet. Die Mantisse wird jedoch auf eine festgelegte oder variable Zahl von Dezimalstellen gekürzt. Der Wert der Anzahl von Bits für die Kodierung einer Mantisse wird üblicherweise von einem Bitzuweisungsalgorithmus erhalten, der für fortgeschrittene psychoakustische Kodierer auf der Maskierungseigenschaft des menschlichen Hörsystems beruhen kann. Eine niedrige Anzahl von Bits resultiert in einem hohen Komprimierungsverhältnis, da weniger Platz für das Senden der Koeffizienten benötigt wird. Dieses bewirkt jedoch sehr hohe Quantisierungsfehler, was zu hörbaren Verzerrungen führt. Eine gute Verteilung der zur Verfügung stehenden Bits für jede Mantisse stellt den Kern der meisten fortschrittlichen Kodierer dar.
In einigen Kodierern, wie z. B. dem AC-3, wird die Frequenzdomäntransformation der Signale durch die modifizierte, diskrete Kosinustransformation (Modified Discrete Cosine Transform, MDCT) (Gl. 1) ausgeführt.
Bei einer direkten Implementierung in der oben gegebenen Form benötigt die MDCT O(N²)-Additionen und -Multiplikationen.
Einzelkanal FFT
Es ist möglich die Anzahl der benötigten Operationen wesentlich zu reduzieren, wenn es in der Lage ist die Gleichung 1 mittels des bekannten Verfahrens der schnellen Fouriertransformation (Fast Fourier Transform) von J. W. Cooley und J. W. Tukey (1960) auszurechen bzw. zu berechnen. Die allgemeine diskrete Fouriertransformation (Discrete Fourier Transform = DFT) ist unten angegeben (Gl. 2).
Sie benötigt O(N²)-Komplexadditionen und -Multiplikationen. Durch Verwenden des Verfahrens der schnellen Fouriertransformation kann die DFT in Gl. 2 mittels nur O(Nlog2N)-Operationen berechnet werden.
Hier steht j als Symbol für die Imaginärzahl, d. h √–1.
Obwohl es nicht sofort offensichtlich sein mag, wie Gl. 1 in Gl. 2 transformiert werden kann, zeigt eine detaillierte Analyse, dass dies tatsächlich möglich ist. Um die Gleichung bzw. Gl. 1 zu vereinfachen, können zwei Funktionen definiert werden: α(n, k) = 2π(2n + 1)(2k + 1)/4N Gl. 3 γ(k) = π(2k + 1)/4 Gl. 4
Nun kann mittels dieser Funktionen Gl. 1 wie folgt umgeschrieben werden:
In Gl. 6 wird die trigonometrische Gleichung cos(a + b) = cosa cosb – sina sinb für eine Vereinfachung verwendet. Weiterhin kann, da die Funktion γ(k) nicht abhängig ist von der Variable n, diese außerhalb des Summenausdrucks gebracht werden, um Folgendes zu erhalten:
wobei
Die zwei Terme T₁ und T₂ können nun separat ausgerechnet werden. Mittels Eulers Identität
erhält man folgenden Ausdruck: cosα(n, k) = (ejα(n,k) + e–jα(n,k))/2 und sinα(n, k) = (ejα(n,k) – e–jα(n,k))/2j.
Daher kann man den Term T₁ wie folgt umschreiben:
wobei
Ähnlich
Der Term bzw. Ausdruck A₁ kann somit aus Gl. 8 und Gl. 9 berechnet werden
Wenn eine Komplexvariable wie folgt definiert ist: x'[n] = x[n]*ejπn/N Gl. 11dann vereinfacht sich Gl. 10 zu:
wobei
Der komplexe Term G_k = g_k,r + g_k,i, wobei g_k,r un gk,i ∈
(Satz von Realzahlen) ist, in der Gl. 12 ist im Wesentlichen derselbe wie F_k in Gl. 2. Daher kann der FFT-Ansatz verwendet werden, um G_k zu berechnen. Dies verringert die Rechnungen von O(N²) zu O(NlogN). Ähnlich kann der zweite Term A₂ in Gl. 8 und Gl. 9 berechnet werden
wobei
Es sei anzumerken, dass G_k tatsächlich das komplexe Konjugat von G_k ist, das durch Gl. 12 erhalten wurde. Das heißt, wenn G_k = g_k,r + g_k,i wobei g_k,r und g_k,i ∈
wie zuvor definiert, dann G_k* = g_k,r – jg_k,i. Daher muss G_k* in Gl. 13 nicht erneut berechnet werden und das Ergebnis von Gl. 12 kann wieder verwendet werden. Dies bedeutet, dass nur eine FFT für die Errechnung von T₁ berechnet werden muss. Das Ergebnis von Gl. 8 bis Gl. 13 ist somit T1 = 1/2(ejπ(k+1/2)/N Gk + e–jπ(k+1/2)/N G*k ) Gl. 14
Als nächstes kann der Term T₂ analysiert werden
Schlussendlich erhält man nach den Vereinfachungen von Gl. 7, 14 und 15 Xk = cosγ(k)1/2(ejπ(k+1/2)/NGk + e–jπ(k+1/2)/NG*k ) – sinγ(k)1/2j(ejπ(k+1/2)/NGk – e–jπ(k+1/2)NG*k ) = cosγ*(gk,rcos(π(k + 1/2)/N) – gk,isin(π(k + 1/2)/N) – sinγ*(gk,rsin(π(k + 1/2)/N) + gk,icos(π(k + 1/2)/N = cosγ*T1 – sinγ*T2 Gl. 16
Der Ausdruck G_k = g_k,r + jg_k,i wird in O(NlogN)-Operationen durch Verwendung von FFT-Algorithmen berechnet. Die zusätzliche Operation die in Gl. 16 dargelegt ist, um das schlussendliche X_k zu extrahieren, hat nur eine Ordnung bzw. Größenordnung von O(N). Daher kann die MDCT in einer Zeit von O(Nlog₂N) berechnet werden. Die Operationen die benötigt werden, um die MDCT zu erhalten, sind in der 3 dargestellt.
Kombinieren von zwei Kanälen in einer einzelnen FFT
Es wird angenommen, dass der Multikanalkodierer m Audiokanäle verarbeiten muss. Anstelle der Berechnung einer FFT für jeden Kanal, wie es in den vorherigen Abschnitten beschrieben wurde, ist es möglich, eine weitere Reduktion der Rechenleistungsanforderungen an den Kodierer zu reduzieren durch Kombinieren zweier Kanäle und mittels einer einzelnen FFT. Tatsächlich müssen anstelle von m FFTs nur m/2 FFTs berechnet werden.
Wenn die Eingangssequenz reale bzw. reelle Zahlen sind, dann ist es bekannt, dass DFT für beliebige Zweikanäle mit nur einem FFT-Block berechnet werden kann, und zwar dadurch, dass die Eingabe als eine komplexe Zahl angesehen wird. Der Realteil wird von der Sequenz für einen beliebigen Kanal gebildet und der Imaginärteil wird von den Daten eines anderen Kanals gebildet. Nachdem die Fourier-Transformation für die resultierende komplexe Variable berechnet wurde, kann die resultierende Transformation für jeden Kanal einfach wiedergewonnen werden.
In dem vorliegenden Fall sind die Eingangsdaten für den FFT-Block jedoch tatsächlich eine komplexe Zahl (gebildet durch Multiplizieren der Realdaten mit der komplexen Variable e^jπn/N). In diesem Fall gibt es keine einfacher Art und Weise die Frequenztransformation wiederzuerlangen bzw. wiederzugewinnen, nachdem man zwei Kanäle kombiniert hat. Man kann jedoch mittels gewisser Verarbeitung nach der FFT noch immer die DFT von zwei Kanälen mittels eines einzelnen FFT-Blocks berechnen.
Angenommen {x[0], x[1], x[2], ..., x[N–1]} seien N Eingangsabtastungen des ersten Kanals und {y[0], y[1], y[2], ..., y[N–1]} seien Abtastungen für den zweiten Kanal. Wie oben beschreiben, müssen die Frequenzkoeffizienten
(Gl. 12 und 13) für den ersten Kanal erhalten werden; und ähnlich für den zweiten Kanal
Definieren der komplexen Variable z[n] = x[n]*e^jπn/N + jy[n]*e^jπn/N Gl. 17 und Berechnen deren DFT mittels des FFT-Verfahrens, ergibt
Nun Ersetzen von N – k für k in dem obigen Ausdruck
Da e^j2πn = 1, n ∈ I (Satz von Integern) verschwindet der Term e^j2πn in dem obigen Ausdruck. Durch Bilden des komplexen Konjugats von Z_N–k erhält man;
Mittels Gl. 18 und 20 erhält man separate Ausdrücke für G_k und G'_k. In einem einfachen Fall sollten die Konjugate in Gl. 18 und 20 addiert und subtrahiert werden, um die benötigten Ausdrücke zu ergeben. Im vorliegenden Fall ist dies jedoch nicht gegeben. Jedoch wird durch Ersetzen von N – k durch N – k – 1 in Gl. 18 das Folgende erhalten
Nun ist der Ausdruck e^{j2πn(k+1/2)/N} in beiden Gl. 17 und 19 gemeinsam, und es ist möglich, diesen zu isolieren.
Ähnlich
Dies bedeutet Gk = (Zk + Z*N–k–1 )/2 k = 0, ... N/2 – 1 Gl. 22undG'k = (Zk – Z*N–k–1 )/2j k = 0 ... N/2 – 1 Gl. 23
Von dem Ausdruck für Gl. 22 und 23 eingefügt in Gl. 16 wird die MDCT für jeden Kanal erlangt. Der gesamte Prozess ist in der 4 dargestellt.
Transformationslängenanpassungstechnik
Die Freuquenztransformationslänge N wird durch den Kodierer, basierend auf zeitlichen und spektralen Auflösungsanforderungen (temporal und spectral resolution requirements) entschieden bzw. bestimmt. Das Eingangssignal wird normalerweise mit einem Hochfrequenzbandpassfilter analysiert, um das Vorliegen von Transienten zu detektieren. Diese Information wird verwendet, um die Blocklänge anzupassen, Quanitisierungsrauschen, das der Transienten innerhalb eines kleinen zeitlichen Bereichs um die Transiente zugeordnet ist, zu begrenzen, und Vermeiden von zeitlicher Maskierung bzw. Abdeckung (Masking). Somit werden, wenn eine Transiente in einem Kanal detektiert wird, jeweils zwei kurze Transformationen der Länge N/2 genommen. Beim nicht Vorhandensein von Transienten wird eine einzelne lange Transformation der Länge N verwendet, wodurch eine höhere spektrale Auflösung vorgesehen wird.
Von dem Verfahren, dass in dem vorhergehenden Abschnitt beschrieben wurde, und zwar zur Berechnung einer MDCT für zwei Kanäle mittels eines einzelnen FFT-Blocks, ist es offensichtlich bzw. nachgewiesen, dass die Transformationslänge für die zwei gepaarten Kanäle die selbe sein muss. Daher muss die Paarung für die Transformationsphase so sein, dass Kanäle mit identischer Transformationslänge zusammen gruppiert werden.
Es ist jedoch möglich, dass nicht alle Kanäle mit einer solchen Leichtigkeit gepaart werden können. Angenommen die gesamte Anzahl von Kanälen besitzt eine gerade Anzahl (wenn dies nicht der Fall ist, wird eine einzelne FFT für einen Kanal durchgeführt und der Rest bildet eine Gruppe mit gerader Anzahl). Weiterhin sei angenommen, dass, aus den m Kanälen, l eine lange Transformation benötigen, und daher m – l eine kurze Transformation benötigen.
Wenn l eine gerade Anzahl ist, folgt daraus, da die Gesamtzahl gerade ist, dass l – m ebenso gerade ist. In diesem Fall werden von den l Kanälen, die eine lange Transformation benötigen, l/2 Paare gebildet und für jedes der l/2 Paare wird eine einzelne FFT berechnet, um die MDCT für die original gepaarten Kanäle zu schät zen. Ähnlich werden die l – m Kanäle gepaart, um (l – m)/2 Paare zu bilden und für die (l – m)/2 werden zwei kurze FFTs berechnet.
Nun wird der Fall angenommen, wenn 1/ = 2r + 1 eine ungerade Anzahl ist. Daher m – l = 2s + 1 ist ebenfalls eine ungerade Anzahl. Die 2r Kanäle, die eine lange Transformation benötigen, werden zusammen gepaart, um r Paare zu bilden, und es werden dann 2r Transformationen mittels nur r FFTs berechnet. Ähnlich werden für die 2s Kanäle s Paare gebildet. Was übrig bleibt, ist ein Kanal, der eine lange Transformation benötigt und ein weiterer, der zwei kurze Transformationen benötigt. Beide dieser Kanäle werden zusammen gepaart und zwei kurze FFTs werden berechnet, um die MDCT herzuleiten.
Der Grund für die Begrenzung der langen Transformation auf zwei Kurze ist wie folgt. Eine kurze Transformation wird benötigt, um Quantisierungsrauschen zu begrenzen, das der Transiente innerhalb einer kleinen zeitlichen Region um die Transiente zugeordnet ist, und zwar zur Vermeidung von zeitlichem bzw. temporären Maskierens. Eine lange Transformation gibt eine leicht bessere Frequenzauflösung, wobei der Fehler jedoch nicht viel ist im Vergleich zu dem Fall, in dem beim Vorliegen einer Transiente eine lange Transformation verwendet wird. Das Auferzwingen einer langen Transformation auf einem Kanal beim Vorliegen einer Transiente führt zu größerer Verzerrung in der letztendlich produzierten Musik. Diese Annahme wurde durch experimentelle Studien bei Benchmark- bzw. Vergleichsmusikdatenströmen als wahr bewiesen.
Kombinieren der Fensterung (Windowing) mit der Vorverarbeitung
Bevor das Zeitdomänsignal x[n] in die Frequenzdomän transformiert wird, wird normalerweise eine Fensterungsfunktion angewendet. Somit wird, wenn das abgetastete Signal p[n] ist, die Sequenz x[n] = p[n]*w[n], wobei w[n] die Fensterungsfunktion ist, an den Frequenztransformationsblock angelegt. Von den vorhergehenden Abschnitten hat man gesehen, dass bevor die FFT für einen Block berechnet wird, eine Vorverarbeitung gemäß Gl. 11 ausgeführt wird (hier aus Übersichtlichkeitsgründen wiederholt). Somit ist x'[n] = x[n]*ejπn/N = (p[n]*w[n])*ejπn/N = (p[n]*w[n])*(cosπn/N + jsinπn/N) = p[n]*((w[n]*cosπn/N) + j(w[n]*sinπn/N) Gl. 24
Von der Gl. 24 kann man erkennen, dass die Fensterungsfunktion mit der Kosinus- und Sinusmultiplikation, die in Gl. 11 benötigt wird, kombiniert werden kann. Dies verringert die Berechnungen sogar noch mehr, da die Sinus und Kosinus normalerweise in einem Realtime- bzw. Echtzeitsystem als Nachschlagetabelle implementiert sind. Wenn zwei Tabellen wie unten definiert konstruiert werden rcos[n] = w[n]*cos(πn/N) rsin[n] = w[n]*sin(πn/N)dann kann Gl. 11 wie folgt umgeschrieben werden x'[n] = (p[n]*rcos[n]) + j(p[n]*rsin[n]) Gl. 25
Obwohl die Erfindung hierin hauptsächlich in Termen bzw. Ausdrücken ihrer mathematischen Herleitung und Anwendung und den Prozeduren, die für die Implementierung benötigt sind, beschrieben wurde, wird der Fachmann sofort erkennen, dass die beschriebenen Prozeduren mittels einer jeden gewünschten Rechenvorrichtung implementiert werden können. Zum Beispiel kann die Erfindung in einer Computersoftware ausgeführt werden, die auf einer Allzweck-Computerausrüstung operiert, oder sie kann in einer für diesen Zweck gebauten Schaltung ausgeführt werden oder in einem Microcode oder ähnlichem in einer integrierten Schaltung oder einem Satz von integrierten Schaltungen enthalten sein.
Die vorhergehende detaillierte Beschreibung der Ausführungsbeispiele der Erfindung wurde lediglich als eine Beispiel präsentiert, und das Beispiel soll nicht als einschränkend für die Erfindung angesehen werden, wie sie in den hierzu beigefügten Ansprüchen definiert ist.
Glossary bzw. Nachschlageliste der Gleichungen MDCT

Claims

Verfahren zum Kodieren von Audiodaten, wobei das Verfahren die folgenden Schritte aufweist: Erhalten bzw. Erfassen wenigstens einer Eingangssequenz von Digitalaudioabtastungen bzw. -samples; Vorbearbeitung der Eingangssequenzabtastungen einschließlich dem Anlegen eines Vor-Multiplikationsfaktors zum Erhalten modifizierter Eingangssequenzabtastungen; Transformieren der modifizierten Eingangssequenzabtastungen in eine Transformationskoeffizientensequenz unter Verwendung einer Fast-Fourier-Transformation; und Nachbearbeiten der Sequenz aus Transformationskoeffizienten einschließlich des Anlegens erster Nach-Multiplikationsfaktoren an die realen und imaginären Koeffizientenbestandteile, Differenzieren und Kombinieren der nachmultiplizierten realen und imaginären Bestandteile, Anwenden zweiter Nach-Multiplikationsfaktoren auf die Differenz- und Kombinationsergebnisse und Differenzieren zum Erhalten einer Sequenz aus modifizierten diskreten Kosinustransformationskoeffizienten, welche die Eingangssequenz von Digitalaudioabtastungen repräsentieren.
Verfahren nach Anspruch 1, wobei der Vor-Multiplikationsfaktor und die ersten und zweiten Nach-Multiplikationsfaktoren trigonometrische Funktionsfaktoren sind.
Verfahren nach Anspruch 2, wobei der Vor-Multiplikationsfaktor, der an jede digitale Audiostichprobe in der Eingangssequenz angelegt wird, eine trigonometrische Funktion der Audioabtastungssequenzposition und der Anzahl von Abtastungen in der Sequenz ist.
Verfahren nach Anspruch 2, wobei die ersten Nach-Multiplikationsfaktoren für jeden Transformationskoeffizienten in der Sequenz trigonometrische Funktio nen der Transformationskoeffizientensequenzposition und der Anzahl von Koeffizienten in der Sequenz ist.
Verfahren nach Anspruch 2, wobei der zweite Nach-Multiplikationsfaktor für jedes Differenz- oder Kombinationsergebnis trigonometrische Funktionen der Transformationskoeffizientensequenzposition und der Koeffizienten, welche in der Differenz oder Kombination verwendet werden, sind.
Verfahren nach einem der Ansprüche 1 bis 5, wobei die Vorbearbeitungsvorgänge an jeder Stichprobe in der Sequenz individuell durchgeführt werden.
Verfahren nach einem der Ansprüche 1 bis 6, wobei die Nachbearbeitungsvorgänge an jedem Transformationskoeffizienten in der Sequenz individuell durchgeführt werden.
Verfahren zum Kodieren von Audiodaten, wobei das Verfahren die folgenden Schritte aufweist: Erhalten bzw. Erfassen erster und zweiter Eingangssequenzen von Digitalaudioabtastungen bzw. -samples, welche ersten bzw. zweiten Audiokanälen entsprechen; Kombinieren der ersten und zweiten Eingangssequenzen aus Digitalaudioabtastungen in eine einzelne komplexe Eingangsabtastungssequenz; Vorbearbeiten der komplexen Eingangssequenzabtastungen einschließlich des Anlegens eines Vor-Multiplikationsfaktors zum Erhalten modifizierter komplexer Eingangssequenzabtastungen; Transformieren der modifizierten komplexen Eingangssequenzabtastungen in eine komplexe Transformationskoeffizientensequenz unter Verwendung einer Fast-Fourier-Transformation; und Nachbearbeiten der Sequenz aus komplexen Transformationskoeffizienten zum Erhalten erster und zweiter Sequenzen von audiokodierten Frequenzdomainkoeffizienten entsprechend den ersten und zweiten Audiokanälen, wobei die Nachbearbeitung folgendes aufweist: für jeden entsprechenden Frequenzdomainkoeffizienten in den ersten und zweiten Sequenzen Auswählen erster und zweiter komplexer Transformationskoeffizienten aus der Sequenz von komplexer Transformationskoeffizienten aus der Sequenz von komplexen Transformationskoeffizienten, Kombinieren des ersten komplexen Transformationskoeffizienten und des Komplexkonjugat des zweiten komplexen Transformationskoeffizienten für den ersten Kanal und Differenzieren des ersten komplexen Transformationskoeffizienten und des Komplexkonjugat des zweiten komplexen Transformationskoeffizienten für den zweiten Kanal und Anlegen jeweiliger Nach-Multiplikationsfaktoren an die Kombination und die Differenz zum Erhalten der audiokodierten Frequenzdomainkoeffizienten, die den ersten und zweiten Audiokanälen entsprechen.
Verfahren nach Anspruch 8, wobei der Vor-Multiplikationsfaktor für jede Stichprobe in der komplexen Eingangsabtastungssequenz eine komplexe trigonometrische Funktion aus der komplexen Eingangsabtastungssequenzposition und der Anzahl von Abtastungen in der Sequenz ist.
Verfahren nach Anspruch 8 oder 9, wobei die Nachbearbeitung für jeden der ersten und zweiten Kanäle das Anlegen erster Nach-Multiplikationsfaktoren an die realen und imaginären Koeffizientenbestandteile, das Differenzieren und Kombinieren der nach-multiplizierten realen und imaginären Bestandteile, das Anlegen zweiter Nach-Multiplikationsfaktoren an die Differenz- und Kombinationsergebnisse und das Differenzieren umfasst zum Erhalten einer Sequenz von modifizierten diskreten Kosinustransformationskoeffizienten, welche die Eingangssequenz der Digitalaudioabtastungen darstellen.
Verfahren zum Kodieren von Audiodaten nach Anspruch 8, wobei das Verfahren das Untersuchen der ersten und zweiten Sequenzen von Digitalaudioabtastungen umfasst zum Bestimmen einer kurzen oder langen Transformationslänge und zum Kodieren der Audioabtastungen unter Verwendung einer kurzen oder langen Transformationslänge, wie sie bestimmt wurde.
Verfahren zum Kodieren von Audiodaten, die Sequenzen von Digitalaudioabtastungen von einer Vielzahl von Audiokanälen aufweisen, wobei das Verfahren folgendes aufweist: Bestimmen einer Transformationslänge für jeden der Kanäle, Paaren der Kanäle gemäß ihrer bestimmten Transformationslänge und Kodieren der Audioabtastungen der ersten und zweiten Kanäle in jedem Paar nach Anspruch 8, und zwar gemäß der bestimmten Transformationslänge.
Verfahren zum Kodieren von Audiodaten nach einem der vorhergehenden Ansprüche, wobei das Verfahren das Anlegen einer Fensterfunktion in Kombination mit dem Schritt des Anlegens eines Vor-Multiplikationsfaktors umfasst.
Verfahren zum Kodieren von Audiodaten, das die folgenden Schritte aufweist: Erhalten bzw. Erfassen erster und zweiter Eingangssequenzen von Digitalaudioabtastungen x[n], y[n], die jeweiligen ersten und zweiten Audiokanälen entsprechen; Kombinieren der ersten und zweiten Eingangssequenzen von Digitalaudioabtastungen in eine einzelne komplexe Eingangsabtastungssequenz z[n], wobei z[n] = x[n] + jy[n]; Vorbearbeiten der komplexen Eingangssequenzabtastungen einschließlich des Anlegens eines Vor-Multiplikationsfaktors cos(πn/N) + jsin(πn/N) zum Erhalten von modifizierten komplexen Eingangssequenzabtastungen, wobei N die Anzahl von Audioabtastungen in jeder der ersten und zweiten Eingangssequenzen ist und n = 0, ..., (N – 1); Transformieren der modifizierten komplexen Eingangssequenzabtastungen in eine komplexe Transformationskoeffizientensequenz Z_k unter Verwendung einer Fast-Fourier-Transformation, wobei k = 0, ..., (N/2 – 1) ist; und Nachbearbeiten der Sequenz von komplexen Transformationskoeffizienten zum Erhalten erster und zweiter Sequenzen von audiokodierten Frequenzdomainkoeffizienten, die den ersten und zweiten Audiokanälen X_k, Y_k entsprechen, und zwar gemäß Gk = (Zk + Z*N–k–1 )/2 k = 0 ... N/2 – 1 G'k = (Zk + Z*N–k–1 )/2j k = 0 ... N/2 – 1 Xk = cosγ*(gk,rcos(π(k + 1/2)/N) – gk,isin(π(k + 1/2)/N) – sinγ*(gk,rsin(π(k + 1/2)/N) + gk,icos(π(k + 1/2)/N) Yk = cosγ*(g'k,rcos(π(k + 1/2)/N) – g'k,isin(π(k + 1/2)/N) – sinγ*(g'k,rsin(π(k + 1/2)/N + g'k,icos(π(k + 1/2)/N)wobei G_k eine Transformationskoeffizientensequenz für den ersten Kanal ist; G'_k eine Transformationskoeffizientensequenz für den zweiten Kanal ist; g_k,r und g_k,i die realen und imaginären Transformationskoeffizientenbestandteile von G_k sind; g'_k,r und g'_k,i die realen und imaginären Transformationskoeffizientenbestandteile von G'_k sind; Z*_N–k–1 das komplexe Konjugat von Z_N–k–1 ist; und γ(k) = π(2k + 1)/4.