DE102014003057B4 - Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung - Google Patents

Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung Download PDF

Info

Publication number
DE102014003057B4
DE102014003057B4 DE102014003057.1A DE102014003057A DE102014003057B4 DE 102014003057 B4 DE102014003057 B4 DE 102014003057B4 DE 102014003057 A DE102014003057 A DE 102014003057A DE 102014003057 B4 DE102014003057 B4 DE 102014003057B4
Authority
DE
Germany
Prior art keywords
signals
high frequencies
vectors
wavelet
coefficients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102014003057.1A
Other languages
English (en)
Other versions
DE102014003057A1 (de
Inventor
Daniel Kotulla
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ask Industries GmbH
Original Assignee
Ask Industries GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ask Industries GmbH filed Critical Ask Industries GmbH
Priority to DE102014003057.1A priority Critical patent/DE102014003057B4/de
Publication of DE102014003057A1 publication Critical patent/DE102014003057A1/de
Application granted granted Critical
Publication of DE102014003057B4 publication Critical patent/DE102014003057B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung, mit folgenden Verfahrensschritten:- Umwandlung eines Audiosignals (1) mit Hilfe einer komplexen Wavelet-Transformation (2) in Zeit-Frequenzsignale;- Unterteilung der Signale in Detail-Signale (7) und Annäherungssignale (8) sowohl im realen (3) als auch im imaginären Raum (4);- jeweils Zusammenfassung des Real- und Imaginärteils der ermittelten Detail- (7) und Annäherungssignale (8) zu komplexen Vektoren und Umwandlung dieser kartesischen Koordinaten in Polar-Koordinaten bestehend aus Betrag und Phase zu Betrags- und Phasenvektoren; sowie- Detektion starker Veränderungen benachbarter Koeffizienten (12) in Form von Transienten in der Zeit und in der Frequenz innerhalb der Betragsvektoren der die hohen Frequenzen repräsentierenden ersten und zweiten Wavelet-Bänder; sowie- gezielte Verstärkung (12a) der Veränderungen zur Erzeugung höherer Frequenzen zur wenigstens teilweisen Rückgewinnung von bei einer verlustbehafteten Encodierung des Audiosignals verworfenen hohen Frequenzen sowie- Erzeugung des Audioausgangssignals (15) mittels inverser komplexer Wavelet-Transformation (14) der Koeffizienten (12).

Description

  • Die Erfindung betrifft ein Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung.
  • Audioenkodierer, wie beispielsweise der bekannte MP3-Encoder, sind in der Lage, Musiksignale drastisch im Vergleich zu ihrer originalen Größe zu verkleinern. Die Verkleinerung kann bis auf 5 % des originalen Signalvolumens geschehen, wobei die Kompression durch psycho-analytische Analyse sowie durch Reduktion der Bandbreite erreicht wird. Dabei fällt insbesondere die Reduktion der Bandbreite deutlich auf und mindert die Qualität des akustischen Hörsignals.
  • Als Stand der Technik sind bereits so genannte Enhancer, beispielsweise ein MP3-Enhancer der Firma Harman, bekannt geworden, die in der Lage sind, die akustische Qualität enkodierter Audiosignale wenigstens ansatzweise zu verbessern.
  • US 2011/0004479 A1 offenbart ein System und ein Verfahren zur Frequenz-Verschiebung und/oder zeitlichen Dehnung und/oder Kompression von akustischen Signalen. Das System ist eingerichtet, aus einem Eingangssignal vermittels eines Verschiebungsfaktors ein Ausgangssignal zu erzeugen.
  • US 2011/0305352 A1 offenbart ein System zum Enkodieren eines Audiosignals, bei welchem eine Auftrenneinrichtung zur Auftrennung eines bereitgestellten Audiosignals in niedrige und hohe Frequenzanteile und ein Kernenkodierer zur Enkodierung der niedrigen Frequenzanteile verwendet wird.
  • Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzugeben, das in der Lage ist, bei verlustbehafteten komprimierten Audiosignalen selektiv eine Rekonstruierung hoher Frequenzen herbeizuführen.
  • Diese Aufgabe wird durch die Merkmale des Anspruches 1 gelöst, vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen 2-7.
  • Das Verfahren weist dazu folgende Verfahrensschritte auf:
    • - Umwandlung eines Audiosignals mit Hilfe einer komplexen Wavelet-Transformation in Zeit-Frequenzsignale;
    • - Unterteilung der Signale in Detail-Signale und Annäherungssignale sowohl im realen als auch im imaginären Raum;
    • - jeweils Zusammenfassung des Real- und Imaginärteils der ermittelten Detail- und Annäherungssignale zu komplexen Vektoren und Umwandlung dieser kartesischen Koordinaten in Polar-Koordinaten bestehend aus Betrag und Phase zu Betrags- und Phasenvektoren; sowie
    • - Detektion starker Veränderungen benachbarter Koeffizienten innerhalb der Betragsvektoren (Amplitudenvektoren) der die hohen Frequenzen repräsentierenden ersten und zweiten Wavelet-Bänder; sowie
    • - gezielte Verstärkung der Veränderungen zur Erzeugung höherer Frequenzen zur wenigstens teilweisen Rückgewinnung von bei einer verlustbehafteten Encodierung des Audiosignals verworfenen hohen Frequenzen sowie Erzeugung des Audioausgangssignals mittels inverser komplexer Wavelet-Transformation der Koeffizienten.
  • Mit anderen Worten sieht das Verfahren dem Grunde nach vor, das Audiosignal mit Hilfe einer komplexen Wavelet-Transformation in ein Zeit-Frequenz-Signal umzuwandeln. Dieses Signal besteht aus komplexen Wavelet-Koeffizienten, die zu Betrags- und Phasenvektoren zusammengefasst werden. Die Phasenvektoren werden vorzugsweise unverändert beibehalten, innerhalb der Betragsvektoren werden durch Betrachtung benachbarter Koeffizienten starke Veränderungen, d.h. Transienten in der Zeit und in der Frequenz detektiert. Diese Veränderungen werden durch gezielte Verstärkungen erhöht, wodurch sich die gewünschten höheren Frequenzen rekonstruieren lassen.
  • Durch die Rücktransformation in den Zeitbereich entsteht ein deutlich verbessertes Audiosignal, das im Gegensatz zu dem Ausgangssignal höhere Frequenzen beinhaltet. Das erzeugte Audiosignal hört sich natürlicher, wärmer und im Stereobild auch deutlich weiter an.
  • Aus Vorstehendem wird deutlich, dass das Verfahren eine Mehrzahl von Schritten umfasst. Zunächst wird in einem ersten Schritt eine Wavelet-Analyse in einer Filterbank durchgeführt, in einem zweiten Schritt werden die Betrags- und Phasenvektoren erzeugt, in einem dritten Schritt erfolgt dann die Transientendetektion und eine entsprechende selektive Verstärkung und in einem letzten Schritt wird eine Wavelet-Synthese in einer Filterbank durchgeführt, um das Ausgangssignal zu erzeugen.
  • Die Erfindung ist anhand von Zeichnungsfiguren näher erläutert. Diese zeigen in:
    • 1 eine vereinfachte schematische Darstellung des angewendeten Algorithmus;
    • 2 eine schematische Darstellung einer Wavelet-Analysefilterbank;
    • 3 eine schematische Darstellung der Erstellung der Polarkoordinaten;
    • 4 eine schematische Darstellung der Transientendetektion und Verstärkung; sowie in
    • 5 eine schematische Darstellung einer Synthesefilterbank zur Erzeugung des Ausgangssignals.
  • In einem Schritt wird anhand von 2 die Wavelet-Analysefilterbank beschrieben.
  • Wie in 2 schematisch dargestellt, wird das Audiosignal 1 mit Hilfe einer komplexen Wavelet-Transformation 2 in Zeit-Frequenz-Signale gewandelt. Diese Wavelet-Signale werden in Detail-Signale 7 und Annäherungs-Signale 8 unterteilt, jeweils im realen 3 und imaginären Baum 4. Diese Signale beinhalten die so genannten Wavelet-Koeffizienten mit der Anzahl nCoefs. Da nach jeder Filterung eine Dezimation mit dem Faktor 2 stattfindet, verringert sich die Anzahl der Koeffizienten um den Faktor 2 mit jedem zusätzlichem Band. Um den Alising-Effekt zu minimieren, der bei der Rekonstruktion (Upsampling) der Signale entstehen kann, wird eine Wavelet-Transformation mit doppelter Dichte angewandt. Im Allgemeinen bekannt als „double density complex wavelet transform“. Diese Transformation wird im diskreten Bereich mit Hilfe von Hoch- 5 und Tiefpässen 6 mit FIR-Filtern realisiert. Die Hoch-/Tiefpassanordnung wiederholt sich für n-Wavelet Bänder, wobei die Anzahl n im Normalfall zwischen 1 und 6 liegt.
  • Anhand von 3 wird die Erzeugung der Betrags- und Phasenvektoren erläutert. Die so entstandenen Detail- und Annäherungssignale, bzw. die Wavelet-Koeffizienten, werden als komplexe Zahlen 9 zusammengefasst. Z.B. besteht der komplexe Vektor cD11 aus den Werten von D11_re und D11_im für jeden Koeffizienten. Die komplexen Vektoren werden zu Betrags- und Phasenvektoren zusammengefasst. Dies geschieht durch eine Umwandlung 10 der kartesischen Koordinaten (Real- und Imaginärteil) in Polarkoordinaten (Betrag und Phase).
  • Anhand von 4 wird die Transientendetektion und Verstärkung beschrieben. Innerhalb der Betragsvektoren des ersten und zweiten Bandes, welche die hohen Frequenzen repräsentieren, werden durch Betrachtung benachbarter Koeffizienten 12a, 12b starke Veränderungen (Transienten) in der Zeit detektiert. Je stärker die Veränderung der Koeffizienten ist, desto höher ist die Frequenz zu diesem Zeitpunkt. Werden nun diese Veränderungen 12a gezielt verstärkt, werden noch höhere Frequenzen erzeugt. Dies bewirkt, dass die bei einer verlustbehafteten Encodierung eines Audiosignals 1 verworfenen hohen Frequenzen wieder zurückgewonnen werden können.
  • Die Detektion der Veränderung der Koeffizienten 12a, 12b wird mit Hilfe zweier Hüllkurven gewonnen. Eine Hüllkurve mit schnellen Zeitkonstanten „folgt“ quasi den vorhandenen Koeffizienten 12, die zweite Hüllkurve mit großen Zeitkonstanten läuft der Veränderung nach, d.h. sie verändert sich langsam. Die Differenz der beiden Hüllkurven ergibt dann die Verstärkung zum jeweiligen Zeitpunkt. Dieses Verfahren ist aus der Literatur unter dem Begriff „Transient Shaper“ (allerdings für Zeitsignale) bekannt.
  • Zur Verstärkung des Effekts der dazu gewonnenen hohen Frequenzanteile können zudem alle Koeffizienten 12 jeden Bandes noch gleichmäßig mit dem Faktor ai angehoben werden. Dies führt zu einer weiteren Verbesserung der Qualität des bearbeiteten Audiosignals. c ij = a i * c ij
    Figure DE102014003057B4_0001
    für i = 0..n Bands; j = 0.. nCoeffsi
  • Anschließend werden die Betrags- und Phasenvektoren aller Bänder wieder in kartesische Koordinaten umgewandelt.
    Dij1 = cartesian(Dpij1)
    Dij2 = cartesian(Dpij2) für i = 0..nBands; j = 0nCoeffsi
    Aij = cartesian(Apij)
  • Die Detektion der Veränderungen mit Hilfe zweier Hüllkurven (Transientshaper) ist nur für Zeitsignale bekannt und auf dem in Frage stehenden Gebiet der Erfindung bislang noch nicht eingesetzt worden.
  • Bezugszeichenliste
  • 1
    Audiosignal
    2
    Wavelet-Transformation
    3
    realer Raum
    4
    imaginärer Raum
    5
    Hochpass
    6
    Tiefpass
    7
    Detail-Signal
    8
    Annäherungssignal
    9
    komplexe Zahlen
    10
    Umwandlung
    12
    Koeffizienten
    12a
    Verstärkung
    12b
    Verstärkung
    14
    Wavelet-Transformation
    15
    Audioausgangssignal
    16
    Synthesefilterbank

Claims (7)

  1. Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung, mit folgenden Verfahrensschritten: - Umwandlung eines Audiosignals (1) mit Hilfe einer komplexen Wavelet-Transformation (2) in Zeit-Frequenzsignale; - Unterteilung der Signale in Detail-Signale (7) und Annäherungssignale (8) sowohl im realen (3) als auch im imaginären Raum (4); - jeweils Zusammenfassung des Real- und Imaginärteils der ermittelten Detail- (7) und Annäherungssignale (8) zu komplexen Vektoren und Umwandlung dieser kartesischen Koordinaten in Polar-Koordinaten bestehend aus Betrag und Phase zu Betrags- und Phasenvektoren; sowie - Detektion starker Veränderungen benachbarter Koeffizienten (12) in Form von Transienten in der Zeit und in der Frequenz innerhalb der Betragsvektoren der die hohen Frequenzen repräsentierenden ersten und zweiten Wavelet-Bänder; sowie - gezielte Verstärkung (12a) der Veränderungen zur Erzeugung höherer Frequenzen zur wenigstens teilweisen Rückgewinnung von bei einer verlustbehafteten Encodierung des Audiosignals verworfenen hohen Frequenzen sowie - Erzeugung des Audioausgangssignals (15) mittels inverser komplexer Wavelet-Transformation (14) der Koeffizienten (12).
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Detektion der Veränderungen mit Hilfe zweier Hüllkurven gewonnen wird.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die erste Hüllkurve den Koeffizienten (12) mit schnellen Zeitkonstanten und die zweite Hüllkurve den Koeffizienten (12) mit langsamen Zeitkonstanten folgt.
  4. Verfahren nach einem der Ansprüche 1-3, dadurch gekennzeichnet, dass die Verstärkung (12a) der Veränderungen zum jeweiligen Zeitpunkt aus der Differenz der beiden Hüllkurven ermittelt wird.
  5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Phasenvektoren unverändert zur Rücktransformation beibehalten werden.
  6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zur Verstärkung des Effektes der dazu gewonnenen hohen Frequenzanteile alle Koeffizienten (12) eines Wavelet-Bandes gleichmäßig um einen Verstärkungsfaktor angehoben werden.
  7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Audiosignal (15) aus den Detail- und Annäherungssignalen mit Hilfe einer Synthesefilterbank (16) erzeugt wird.
DE102014003057.1A 2014-03-10 2014-03-10 Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung Active DE102014003057B4 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102014003057.1A DE102014003057B4 (de) 2014-03-10 2014-03-10 Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102014003057.1A DE102014003057B4 (de) 2014-03-10 2014-03-10 Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung

Publications (2)

Publication Number Publication Date
DE102014003057A1 DE102014003057A1 (de) 2015-09-10
DE102014003057B4 true DE102014003057B4 (de) 2018-06-14

Family

ID=53883709

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102014003057.1A Active DE102014003057B4 (de) 2014-03-10 2014-03-10 Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung

Country Status (1)

Country Link
DE (1) DE102014003057B4 (de)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110004479A1 (en) 2009-01-28 2011-01-06 Dolby International Ab Harmonic transposition
US20110305352A1 (en) 2009-01-16 2011-12-15 Dolby International Ab Cross Product Enhanced Harmonic Transposition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110305352A1 (en) 2009-01-16 2011-12-15 Dolby International Ab Cross Product Enhanced Harmonic Transposition
US20110004479A1 (en) 2009-01-28 2011-01-06 Dolby International Ab Harmonic transposition

Also Published As

Publication number Publication date
DE102014003057A1 (de) 2015-09-10

Similar Documents

Publication Publication Date Title
EP1741039B1 (de) Informationssignalverarbeitung durch modifikation in der spektral-/modulationsspektralbereichsdarstellung
DE102006047197B3 (de) Vorrichtung und Verfahren zum Verarbeiten eines reellen Subband-Signals zur Reduktion von Aliasing-Effekten
EP1145227B1 (de) Verfahren und vorrichtung zum verschleiern eines fehlers in einem codierten audiosignal und verfahren und vorrichtung zum decodieren eines codierten audiosignals
DE102008015702B4 (de) Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
DE4331376C1 (de) Verfahren zum Bestimmen der zu wählenden Codierungsart für die Codierung von wenigstens zwei Signalen
EP2244491B1 (de) Verfahren zum Betrieb einer Hörvorrichtung und Hörvorrichtung mit einer Frequenzweiche
EP0624866A2 (de) Frequenzanalyseverfahren
EP0978172B1 (de) Verfahren zum verschleiern von fehlern in einem audiodatenstrom
EP1016319B1 (de) Verfahren und vorrichtung zum codieren eines zeitdiskreten stereosignals
DE102010026884B4 (de) Verfahren zum Betreiben einer Hörvorrichtung mit zweistufiger Transformation
EP1464046A1 (de) Skalierbarer codierer und decodierer für einen skalierten datenstrom
EP3197181A1 (de) Verfahren zur reduktion der latenzzeit einer filterbank zur filterung eines audiosignals sowie verfahren zum latenzarmen betrieb eines hörsystems
EP3068141A1 (de) Verfahren zur frequenzabhängigen rauschunterdrückung eines eingangssignals
DE102014003057B4 (de) Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung
DE10255687B4 (de) Verfahren zur Verringerung des Crestfaktors eines Multiträgersignals
DE69823557T2 (de) Schnelle frequenztransformationstechnik für transform audio koder
EP0608281B1 (de) Verfahren zur reduzierung des frequenzübersprechens bei der übertragung und/ oder speicherung akustischer oder optischer signale
EP3403260B1 (de) Verfahren und vorrichtung zur aufbereitung eines verlustbehaftet komprimierten audiosignals
DE102016105740A1 (de) Spektralformung einer binären Pseudozufallsfolge
DE69127339T2 (de) Methode und Einrichtung zur Kodierung und Dekodierung eines abgetasteten Analogsignals mit Wiederholungseigenschaften
DE4123983A1 (de) Iteratives verfahren zur extrapolation und hochaufloesenden spektralanalyse von signalen
DE3490580T (de) Datenkompressionssystem und Verfahren zur Aufbereitung digitaler Sample-Signale
EP1538749A2 (de) Verfahren und Filterbank zur spektralen Modifikation eines digitalen Signals
DE19728482C1 (de) Schaltung zur Aufteilung eines Signals in mehrere Teilsignale sowie Verfahren zum Betrieb der Schaltung
WO2015173422A1 (de) Verfahren und vorrichtung zur residualfreien erzeugung eines upmix aus einem downmix

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final