DE102014003057B4

DE102014003057B4 - Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung

Info

Publication number: DE102014003057B4
Application number: DE102014003057.1A
Authority: DE
Inventors: Daniel Kotulla
Original assignee: Ask Industries GmbH
Current assignee: Ask Industries GmbH
Priority date: 2014-03-10
Filing date: 2014-03-10
Publication date: 2018-06-14
Anticipated expiration: 2034-03-11
Also published as: DE102014003057A1

Abstract

Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung, mit folgenden Verfahrensschritten:- Umwandlung eines Audiosignals (1) mit Hilfe einer komplexen Wavelet-Transformation (2) in Zeit-Frequenzsignale;- Unterteilung der Signale in Detail-Signale (7) und Annäherungssignale (8) sowohl im realen (3) als auch im imaginären Raum (4);- jeweils Zusammenfassung des Real- und Imaginärteils der ermittelten Detail- (7) und Annäherungssignale (8) zu komplexen Vektoren und Umwandlung dieser kartesischen Koordinaten in Polar-Koordinaten bestehend aus Betrag und Phase zu Betrags- und Phasenvektoren; sowie- Detektion starker Veränderungen benachbarter Koeffizienten (12) in Form von Transienten in der Zeit und in der Frequenz innerhalb der Betragsvektoren der die hohen Frequenzen repräsentierenden ersten und zweiten Wavelet-Bänder; sowie- gezielte Verstärkung (12a) der Veränderungen zur Erzeugung höherer Frequenzen zur wenigstens teilweisen Rückgewinnung von bei einer verlustbehafteten Encodierung des Audiosignals verworfenen hohen Frequenzen sowie- Erzeugung des Audioausgangssignals (15) mittels inverser komplexer Wavelet-Transformation (14) der Koeffizienten (12).

Description

Die Erfindung betrifft ein Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung.
Audioenkodierer, wie beispielsweise der bekannte MP3-Encoder, sind in der Lage, Musiksignale drastisch im Vergleich zu ihrer originalen Größe zu verkleinern. Die Verkleinerung kann bis auf 5 % des originalen Signalvolumens geschehen, wobei die Kompression durch psycho-analytische Analyse sowie durch Reduktion der Bandbreite erreicht wird. Dabei fällt insbesondere die Reduktion der Bandbreite deutlich auf und mindert die Qualität des akustischen Hörsignals.
Als Stand der Technik sind bereits so genannte Enhancer, beispielsweise ein MP3-Enhancer der Firma Harman, bekannt geworden, die in der Lage sind, die akustische Qualität enkodierter Audiosignale wenigstens ansatzweise zu verbessern.
US 2011/0004479 A1 offenbart ein System und ein Verfahren zur Frequenz-Verschiebung und/oder zeitlichen Dehnung und/oder Kompression von akustischen Signalen. Das System ist eingerichtet, aus einem Eingangssignal vermittels eines Verschiebungsfaktors ein Ausgangssignal zu erzeugen.
US 2011/0305352 A1 offenbart ein System zum Enkodieren eines Audiosignals, bei welchem eine Auftrenneinrichtung zur Auftrennung eines bereitgestellten Audiosignals in niedrige und hohe Frequenzanteile und ein Kernenkodierer zur Enkodierung der niedrigen Frequenzanteile verwendet wird.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzugeben, das in der Lage ist, bei verlustbehafteten komprimierten Audiosignalen selektiv eine Rekonstruierung hoher Frequenzen herbeizuführen.
Diese Aufgabe wird durch die Merkmale des Anspruches 1 gelöst, vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen 2-7.
Das Verfahren weist dazu folgende Verfahrensschritte auf:

- Umwandlung eines Audiosignals mit Hilfe einer komplexen Wavelet-Transformation in Zeit-Frequenzsignale;
- Unterteilung der Signale in Detail-Signale und Annäherungssignale sowohl im realen als auch im imaginären Raum;
- jeweils Zusammenfassung des Real- und Imaginärteils der ermittelten Detail- und Annäherungssignale zu komplexen Vektoren und Umwandlung dieser kartesischen Koordinaten in Polar-Koordinaten bestehend aus Betrag und Phase zu Betrags- und Phasenvektoren; sowie
- Detektion starker Veränderungen benachbarter Koeffizienten innerhalb der Betragsvektoren (Amplitudenvektoren) der die hohen Frequenzen repräsentierenden ersten und zweiten Wavelet-Bänder; sowie
- gezielte Verstärkung der Veränderungen zur Erzeugung höherer Frequenzen zur wenigstens teilweisen Rückgewinnung von bei einer verlustbehafteten Encodierung des Audiosignals verworfenen hohen Frequenzen sowie Erzeugung des Audioausgangssignals mittels inverser komplexer Wavelet-Transformation der Koeffizienten.

Mit anderen Worten sieht das Verfahren dem Grunde nach vor, das Audiosignal mit Hilfe einer komplexen Wavelet-Transformation in ein Zeit-Frequenz-Signal umzuwandeln. Dieses Signal besteht aus komplexen Wavelet-Koeffizienten, die zu Betrags- und Phasenvektoren zusammengefasst werden. Die Phasenvektoren werden vorzugsweise unverändert beibehalten, innerhalb der Betragsvektoren werden durch Betrachtung benachbarter Koeffizienten starke Veränderungen, d.h. Transienten in der Zeit und in der Frequenz detektiert. Diese Veränderungen werden durch gezielte Verstärkungen erhöht, wodurch sich die gewünschten höheren Frequenzen rekonstruieren lassen.
Durch die Rücktransformation in den Zeitbereich entsteht ein deutlich verbessertes Audiosignal, das im Gegensatz zu dem Ausgangssignal höhere Frequenzen beinhaltet. Das erzeugte Audiosignal hört sich natürlicher, wärmer und im Stereobild auch deutlich weiter an.
Aus Vorstehendem wird deutlich, dass das Verfahren eine Mehrzahl von Schritten umfasst. Zunächst wird in einem ersten Schritt eine Wavelet-Analyse in einer Filterbank durchgeführt, in einem zweiten Schritt werden die Betrags- und Phasenvektoren erzeugt, in einem dritten Schritt erfolgt dann die Transientendetektion und eine entsprechende selektive Verstärkung und in einem letzten Schritt wird eine Wavelet-Synthese in einer Filterbank durchgeführt, um das Ausgangssignal zu erzeugen.
Die Erfindung ist anhand von Zeichnungsfiguren näher erläutert. Diese zeigen in:

1 eine vereinfachte schematische Darstellung des angewendeten Algorithmus;
2 eine schematische Darstellung einer Wavelet-Analysefilterbank;
3 eine schematische Darstellung der Erstellung der Polarkoordinaten;
4 eine schematische Darstellung der Transientendetektion und Verstärkung; sowie in
5 eine schematische Darstellung einer Synthesefilterbank zur Erzeugung des Ausgangssignals.

In einem Schritt wird anhand von 2 die Wavelet-Analysefilterbank beschrieben.
Wie in 2 schematisch dargestellt, wird das Audiosignal 1 mit Hilfe einer komplexen Wavelet-Transformation 2 in Zeit-Frequenz-Signale gewandelt. Diese Wavelet-Signale werden in Detail-Signale 7 und Annäherungs-Signale 8 unterteilt, jeweils im realen 3 und imaginären Baum 4. Diese Signale beinhalten die so genannten Wavelet-Koeffizienten mit der Anzahl nCoefs. Da nach jeder Filterung eine Dezimation mit dem Faktor 2 stattfindet, verringert sich die Anzahl der Koeffizienten um den Faktor 2 mit jedem zusätzlichem Band. Um den Alising-Effekt zu minimieren, der bei der Rekonstruktion (Upsampling) der Signale entstehen kann, wird eine Wavelet-Transformation mit doppelter Dichte angewandt. Im Allgemeinen bekannt als „double density complex wavelet transform“. Diese Transformation wird im diskreten Bereich mit Hilfe von Hoch- 5 und Tiefpässen 6 mit FIR-Filtern realisiert. Die Hoch-/Tiefpassanordnung wiederholt sich für n-Wavelet Bänder, wobei die Anzahl n im Normalfall zwischen 1 und 6 liegt.
Anhand von 3 wird die Erzeugung der Betrags- und Phasenvektoren erläutert. Die so entstandenen Detail- und Annäherungssignale, bzw. die Wavelet-Koeffizienten, werden als komplexe Zahlen 9 zusammengefasst. Z.B. besteht der komplexe Vektor cD11 aus den Werten von D11_re und D11_im für jeden Koeffizienten. Die komplexen Vektoren werden zu Betrags- und Phasenvektoren zusammengefasst. Dies geschieht durch eine Umwandlung 10 der kartesischen Koordinaten (Real- und Imaginärteil) in Polarkoordinaten (Betrag und Phase).
Anhand von 4 wird die Transientendetektion und Verstärkung beschrieben. Innerhalb der Betragsvektoren des ersten und zweiten Bandes, welche die hohen Frequenzen repräsentieren, werden durch Betrachtung benachbarter Koeffizienten 12a, 12b starke Veränderungen (Transienten) in der Zeit detektiert. Je stärker die Veränderung der Koeffizienten ist, desto höher ist die Frequenz zu diesem Zeitpunkt. Werden nun diese Veränderungen 12a gezielt verstärkt, werden noch höhere Frequenzen erzeugt. Dies bewirkt, dass die bei einer verlustbehafteten Encodierung eines Audiosignals 1 verworfenen hohen Frequenzen wieder zurückgewonnen werden können.
Die Detektion der Veränderung der Koeffizienten 12a, 12b wird mit Hilfe zweier Hüllkurven gewonnen. Eine Hüllkurve mit schnellen Zeitkonstanten „folgt“ quasi den vorhandenen Koeffizienten 12, die zweite Hüllkurve mit großen Zeitkonstanten läuft der Veränderung nach, d.h. sie verändert sich langsam. Die Differenz der beiden Hüllkurven ergibt dann die Verstärkung zum jeweiligen Zeitpunkt. Dieses Verfahren ist aus der Literatur unter dem Begriff „Transient Shaper“ (allerdings für Zeitsignale) bekannt.
Zur Verstärkung des Effekts der dazu gewonnenen hohen Frequenzanteile können zudem alle Koeffizienten 12 jeden Bandes noch gleichmäßig mit dem Faktor a_i angehoben werden. Dies führt zu einer weiteren Verbesserung der Qualität des bearbeiteten Audiosignals. $c_{ij} = a_{i} * c_{ij}$
für i = 0..n Bands; j = 0.. nCoeffs_i
Anschließend werden die Betrags- und Phasenvektoren aller Bänder wieder in kartesische Koordinaten umgewandelt.

D_ij1 = cartesian(Dp_ij1)

D_ij2 = cartesian(Dp_ij2) für i = 0..nBands; j = 0nCoeffs_i

A_ij = cartesian(Ap_ij)
Die Detektion der Veränderungen mit Hilfe zweier Hüllkurven (Transientshaper) ist nur für Zeitsignale bekannt und auf dem in Frage stehenden Gebiet der Erfindung bislang noch nicht eingesetzt worden.
Bezugszeichenliste

1: Audiosignal
2: Wavelet-Transformation
3: realer Raum
4: imaginärer Raum
5: Hochpass
6: Tiefpass
7: Detail-Signal
8: Annäherungssignal
9: komplexe Zahlen
10: Umwandlung
12: Koeffizienten
12a: Verstärkung
12b: Verstärkung
14: Wavelet-Transformation
15: Audioausgangssignal
16: Synthesefilterbank

Claims

Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung, mit folgenden Verfahrensschritten: - Umwandlung eines Audiosignals (1) mit Hilfe einer komplexen Wavelet-Transformation (2) in Zeit-Frequenzsignale; - Unterteilung der Signale in Detail-Signale (7) und Annäherungssignale (8) sowohl im realen (3) als auch im imaginären Raum (4); - jeweils Zusammenfassung des Real- und Imaginärteils der ermittelten Detail- (7) und Annäherungssignale (8) zu komplexen Vektoren und Umwandlung dieser kartesischen Koordinaten in Polar-Koordinaten bestehend aus Betrag und Phase zu Betrags- und Phasenvektoren; sowie - Detektion starker Veränderungen benachbarter Koeffizienten (12) in Form von Transienten in der Zeit und in der Frequenz innerhalb der Betragsvektoren der die hohen Frequenzen repräsentierenden ersten und zweiten Wavelet-Bänder; sowie - gezielte Verstärkung (12a) der Veränderungen zur Erzeugung höherer Frequenzen zur wenigstens teilweisen Rückgewinnung von bei einer verlustbehafteten Encodierung des Audiosignals verworfenen hohen Frequenzen sowie - Erzeugung des Audioausgangssignals (15) mittels inverser komplexer Wavelet-Transformation (14) der Koeffizienten (12).
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Detektion der Veränderungen mit Hilfe zweier Hüllkurven gewonnen wird.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die erste Hüllkurve den Koeffizienten (12) mit schnellen Zeitkonstanten und die zweite Hüllkurve den Koeffizienten (12) mit langsamen Zeitkonstanten folgt.
Verfahren nach einem der Ansprüche 1-3, dadurch gekennzeichnet, dass die Verstärkung (12a) der Veränderungen zum jeweiligen Zeitpunkt aus der Differenz der beiden Hüllkurven ermittelt wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Phasenvektoren unverändert zur Rücktransformation beibehalten werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zur Verstärkung des Effektes der dazu gewonnenen hohen Frequenzanteile alle Koeffizienten (12) eines Wavelet-Bandes gleichmäßig um einen Verstärkungsfaktor angehoben werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Audiosignal (15) aus den Detail- und Annäherungssignalen mit Hilfe einer Synthesefilterbank (16) erzeugt wird.