EP1192621B1

EP1192621B1 - Audiokodierung mit harmonischen komponenten

Info

Publication number: EP1192621B1
Application number: EP00949623A
Authority: EP
Inventors: François CAPMAN; Carlo Murgia
Original assignee: Nortel Networks France SAS
Current assignee: Nortel Networks France SAS
Priority date: 1999-07-05
Filing date: 2000-07-04
Publication date: 2004-09-22
Anticipated expiration: 2020-07-04
Also published as: FR2796190B1; WO2001003120A1; ATE277404T1; EP1192621A1; AU6292200A; FR2796190A1; DE60014086D1

Claims

Verfahren zum Codieren eines Audiosignals (x), bei dem eine Grundfrequenz (F₀) des Audiosignals geschätzt wird, ein Spektrum des Audiosignals durch eine Transformation eines Blocks des Audiosignals in den Frequenzbereich bestimmt wird und einem digitalen Ausgangsdatenstrom (Φ) Daten zum Codieren einer harmonischen Komponente des Audiosignals hinzugefügt werden, die Daten umfassen, die für Spektralamplituden, die Vielfachfrequenzen der Grundfrequenz zugeordnet sind, repräsentativ sind, bei dem die Spektralamplitude, die einer der Vielfachfrequenzen der Grundfrequenz zugeordnet ist, ein lokales Maximum des Moduls des Spektrums in der Nähe der Vielfachfrequenz ist, und bei dem die Daten, die für Spektralamplituden, die Vielfachfrequenzen der Grundfrequenz (F₀) zugeordnet sind, repräsentativ sind, mittels Cepstralkoeffizienten (cx_sup) erzielt werden, die durch Transformieren einer komprimierten oberen Einhüllenden (LX_sup) des Spektrums des Audiosignals in den Cepstralbereich berechnet werden.
Verfahren nach Anspruch 1,
bei dem die komprimierte obere Einhüllende (LX_sup) durch Interpolation der den Vielfachfrequenzen der Grundfrequenz (F₀) zugeordneten Spektralamplituden unter Anwendung einer Funktion zur Spektralkompression bestimmt wird.
Verfahren nach Anspruch 2,
bei dem die Interpolation zwischen Punkten durchgeführt wird, deren Abszisse eine Vielfachfrequenz der Grundfrequenz (F₀) ist und deren Ordinate die komprimierte oder nicht komprimierte Spektralamplitude ist, die dieser Vielfachfrequenz zugeordnet ist,.
Verfahren nach einem der vorhergehenden Ansprüche,
bei dem die Transformation der komprimierten oberen Einhüllenden (LX_sup) in den Cepstralbereich gemäß einer nicht linearen Frequenzskala durchgeführt wird.
Verfahren nach einem der vorhergehenden Ansprüche,
bei dem die Cepstralkoeffizienten (cx_sup) quantisiert werden, um die Daten zu bilden, die für die den Vielfachfrequenzen der Grundfrequenz (F₀) zugeordneten Spektralamplituden repräsentativ sind.
Verfahren nach Anspruch 5,
bei dem die Quantisierung der Cepstralkoeffizienten (cx_sup) einen Prädiktionsrestwert für jeden der Cepstralkoeffizienten betrifft.
Verfahren nach Anspruch 6,
bei dem der Prädiktionsrestwert für einen Cepstralkoeffizienten die Form (cx[n,i] - α(i).rcx_q[n - 1,i])/[2 - α(i)] hat, wobei cx[n,i] einen laufenden Wert des Cepstralkoeffizienten bezeichnet, rcx_q[n-1,i] einen vorhergehenden Wert des quantisierten Prädiktionsrestwerts und α(i) einen Prädiktionskoeffizienten bezeichnet.
Verfahren nach Anspruch 6 oder 7,
bei dem unterschiedliche Prädiktoren verwendet werden, um die Prädiktionsrestwerte für wenigstens zwei der Cepstralkoeffizienten zu bestimmen.
Verfahren nach einem der Ansprüche 5 bis 8,
bei dem die Cepstralkoeffizienten (cx_sup) in mehreren cepstralen Untervektoren aufgeteilt sind, die durch eine Vektorquantisierung getrennt quantisiert werden, die einen Prädiktionsrestwert der Cepstralkoeffizienten betrifft.
Verfahren nach einem der Ansprüche 5 bis 9,
bei dem die Cepstralkoeffizienten (cx_sup) vor der Quantisierung normiert werden, indem der Cepstralkoeffizient der Größe 0 derart verändert wird, dass die einer Vielfachfrequenz der Grundfrequenz (F₀) zugeordnete Spektralamplitude genau durch die normierten Cepstralkoeffizienten gebildet wird.
Verfahren einem der Ansprüche 5 bis 10,
bei dem die Cepstralkoeffizienten (cx_sup) vor ihrer Quantisierung durch Lifterung in den Cepstralbereich transformiert werden.
Verfahren nach Anspruch 11,
bei dem die Lifterung die Form c_p(i) = [1 + y₂ ⁱ - y₁ ⁱ].c(i) - (µⁱ/i) hat, wobei c_p(i) und c(i) den Cepstralkoeffizienten mit i>0 vor bzw. nach Lifterung bezeichnen, y₁ und y₂ Koeffizienten zwischen 0 und 1 sind und µ ein Vorentzerrungskoeffizient ist.
Verfahren nach Anspruch 12,
bei dem µ = (y₂ - y₁).c(1).
Verfahren nach einem der Ansprüche 11 bis 13,
bei dem ein Wert des Moduls des Audiosignalspektrums auf der Basis der transformierten und quantisierten Cepstralkoeffizienten (cx_sup_q) auf wenigstens eine Vielfachfrequenz der Grundfrequenz (F₀) umgerechnet wird, und die Lifterung so angepasst wird, dass eine Modulabweichung zwischen dem Spektrum des Audiosignals und wenigstens einem Wert des umgerechneten Moduls minimiert wird.
Verfahren nach einem der Ansprüche 11 bis 13,
bei dem ein Wert des Moduls des Audiosignalspektrums auf der Basis der transformierten und quantisierten Cepstralkoeffizienten (cx_sup_q) auf wenigstens eine Vielfachfrequenz der Grundfrequenz (F₀) umgerechnet wird, die Cepstralkoeffizienten durch Lifterung und Glättung in den Cepstralbereich retransformiert werden, Minimalphasen (ϕ(k)) des Audiosignals auf der Basis der retransformierten Cepstralkoeffizienten (cxl[n]) auf Vielfachfrequenzen der Grundfrequenz berechnet werden, und die vor der Quantisierung durchgeführte Lifterung so angepasst wird, dass eine Abweichung zwischen dem Spektrum des Audiosignals und wenigstens einem komplexen Wert minimiert wird, dessen Modul einen auf eine Vielfachfrequenz der Grundfrequenz umgerechneten Wert hat und dessen Phase durch die für diese Vielfachfrequenz berechnete Minimalphase gegeben ist.
Verfahren nach Anspruch 15,
bei dem die vor und nach der Quantisierung durchgeführten Lifterungen zusammen derart angepasst werden, dass diese Abweichung minimiert wird, und bei dem den Daten zur Codierung der harmonischen Komponente Parameter (iLif) hinzugefügt werden, die für die nach der Quantisierung durchgeführte angepasste Lifterung repräsentativ sind.
Verfahren nach einem der Ansprüche 14 bis 16,
bei dem die zur Anpassung der Lifterung minimierte Abweichung sich auf wenigstens eine Vielfachfrequenz der Grundfrequenz (F₀) bezieht, die auf der Basis der Bedeutung des Moduls des Spektrums in Absolutzahlen ausgewählt ist.
Verfahren nach einem der Ansprüche 14 bis 16,
bei dem mittels eines psychoakustischen Modells eine Kurve der Spektralmaskierung des Audiosignals geschätzt wird, und sich die zur Anpassung der Lifterung minimierte Abweichung auf wenigstens eine Vielfachfrequenz der Grundfrequenz (F₀) bezieht, die auf der Basis der Bedeutung des Moduls des Spektrums in Bezug auf die Maskierungskurve ausgewählt ist.
Verfahren nach Anspruch 1,
bei dem das Spektrum des Audiosignals und die aus der Transformation der komprimierten oberen Einhüllenden resultierenden Cepstralkoeffizienten (cx_sup) für aufeinander folgende Blöcke von N Abtastwerten des Audiosignals bestimmt werden, die gegenseitige Überlappungen aufweisen, und bei dem die Daten, die für Spekralamplituden, die den Vielfachfrequenzen der geschätzten Grundfrequenz (F₀) zugeordnet sind, repräsentativ sind und mittels der durch Transformieren der komprimierten oberen Einhüllenden berechneten Cepstralkoeffizienten erzielt werden, dem digitalen Ausgangsdatenstrom (Φ) bei nur einer einzigen Untergruppe der Blöcke hinzugefügt werden.
Verfahren nach Anspruch 19,
bei dem für die nicht zu dieser Untergruppe gehörenden Blöcke dem digitalen Ausgangsdatenstrom (Φ) Daten (icx[n-1/2]) zur Quantisierung eines Interpolationsfehlers (ecx[n-1/2]) der aus der Transformation der komprimierten oberen Einhüllenden (LX_sup) resultierenden Cepstralkoeffizienten hinzugefügt werden.
Verfahren nach Anspruch 19,
bei dem für die nicht zu dieser Untergruppe gehörenden Blöcke ein optimaler Interpolationsfilter (128) für die aus der Transformation der komprimierten oberen Einhüllenden (LX_sup) resultierenden Cepstralkoeffizienten bestimmt wird und dem digitalen Ausgangsdatenstrom (Φ) Daten (iP) hinzugefügt werden, die diesen optimalen Interpolationsfilter darstellen.
Audio-Codierer mit Mitteln, die zum Durchführen eines Verfahrens nach einem der vorhergehenden Ansprüche angeordnet sind.