DE102014003057B4 - Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung - Google Patents
Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung Download PDFInfo
- Publication number
- DE102014003057B4 DE102014003057B4 DE102014003057.1A DE102014003057A DE102014003057B4 DE 102014003057 B4 DE102014003057 B4 DE 102014003057B4 DE 102014003057 A DE102014003057 A DE 102014003057A DE 102014003057 B4 DE102014003057 B4 DE 102014003057B4
- Authority
- DE
- Germany
- Prior art keywords
- signals
- high frequencies
- vectors
- wavelet
- coefficients
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000006835 compression Effects 0.000 title claims abstract description 6
- 238000007906 compression Methods 0.000 title claims abstract description 6
- 239000013598 vector Substances 0.000 claims abstract description 21
- 230000005236 sound signal Effects 0.000 claims abstract description 20
- 230000009466 transformation Effects 0.000 claims abstract description 10
- 230000003321 amplification Effects 0.000 claims abstract description 7
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 7
- 238000006243 chemical reaction Methods 0.000 claims abstract description 6
- 238000011084 recovery Methods 0.000 claims abstract description 3
- 238000001514 detection method Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000003786 synthesis reaction Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 3
- 230000001052 transient effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 239000003623 enhancer Substances 0.000 description 2
- PSFDQSOCUJVVGF-UHFFFAOYSA-N harman Chemical compound C12=CC=CC=C2NC2=C1C=CN=C2C PSFDQSOCUJVVGF-UHFFFAOYSA-N 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung, mit folgenden Verfahrensschritten:- Umwandlung eines Audiosignals (1) mit Hilfe einer komplexen Wavelet-Transformation (2) in Zeit-Frequenzsignale;- Unterteilung der Signale in Detail-Signale (7) und Annäherungssignale (8) sowohl im realen (3) als auch im imaginären Raum (4);- jeweils Zusammenfassung des Real- und Imaginärteils der ermittelten Detail- (7) und Annäherungssignale (8) zu komplexen Vektoren und Umwandlung dieser kartesischen Koordinaten in Polar-Koordinaten bestehend aus Betrag und Phase zu Betrags- und Phasenvektoren; sowie- Detektion starker Veränderungen benachbarter Koeffizienten (12) in Form von Transienten in der Zeit und in der Frequenz innerhalb der Betragsvektoren der die hohen Frequenzen repräsentierenden ersten und zweiten Wavelet-Bänder; sowie- gezielte Verstärkung (12a) der Veränderungen zur Erzeugung höherer Frequenzen zur wenigstens teilweisen Rückgewinnung von bei einer verlustbehafteten Encodierung des Audiosignals verworfenen hohen Frequenzen sowie- Erzeugung des Audioausgangssignals (15) mittels inverser komplexer Wavelet-Transformation (14) der Koeffizienten (12).
Description
- Die Erfindung betrifft ein Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung.
- Audioenkodierer, wie beispielsweise der bekannte MP3-Encoder, sind in der Lage, Musiksignale drastisch im Vergleich zu ihrer originalen Größe zu verkleinern. Die Verkleinerung kann bis auf 5 % des originalen Signalvolumens geschehen, wobei die Kompression durch psycho-analytische Analyse sowie durch Reduktion der Bandbreite erreicht wird. Dabei fällt insbesondere die Reduktion der Bandbreite deutlich auf und mindert die Qualität des akustischen Hörsignals.
- Als Stand der Technik sind bereits so genannte Enhancer, beispielsweise ein MP3-Enhancer der Firma Harman, bekannt geworden, die in der Lage sind, die akustische Qualität enkodierter Audiosignale wenigstens ansatzweise zu verbessern.
-
US 2011/0004479 A1 -
US 2011/0305352 A1 - Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzugeben, das in der Lage ist, bei verlustbehafteten komprimierten Audiosignalen selektiv eine Rekonstruierung hoher Frequenzen herbeizuführen.
- Diese Aufgabe wird durch die Merkmale des Anspruches 1 gelöst, vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen 2-7.
- Das Verfahren weist dazu folgende Verfahrensschritte auf:
- - Umwandlung eines Audiosignals mit Hilfe einer komplexen Wavelet-Transformation in Zeit-Frequenzsignale;
- - Unterteilung der Signale in Detail-Signale und Annäherungssignale sowohl im realen als auch im imaginären Raum;
- - jeweils Zusammenfassung des Real- und Imaginärteils der ermittelten Detail- und Annäherungssignale zu komplexen Vektoren und Umwandlung dieser kartesischen Koordinaten in Polar-Koordinaten bestehend aus Betrag und Phase zu Betrags- und Phasenvektoren; sowie
- - Detektion starker Veränderungen benachbarter Koeffizienten innerhalb der Betragsvektoren (Amplitudenvektoren) der die hohen Frequenzen repräsentierenden ersten und zweiten Wavelet-Bänder; sowie
- - gezielte Verstärkung der Veränderungen zur Erzeugung höherer Frequenzen zur wenigstens teilweisen Rückgewinnung von bei einer verlustbehafteten Encodierung des Audiosignals verworfenen hohen Frequenzen sowie Erzeugung des Audioausgangssignals mittels inverser komplexer Wavelet-Transformation der Koeffizienten.
- Mit anderen Worten sieht das Verfahren dem Grunde nach vor, das Audiosignal mit Hilfe einer komplexen Wavelet-Transformation in ein Zeit-Frequenz-Signal umzuwandeln. Dieses Signal besteht aus komplexen Wavelet-Koeffizienten, die zu Betrags- und Phasenvektoren zusammengefasst werden. Die Phasenvektoren werden vorzugsweise unverändert beibehalten, innerhalb der Betragsvektoren werden durch Betrachtung benachbarter Koeffizienten starke Veränderungen, d.h. Transienten in der Zeit und in der Frequenz detektiert. Diese Veränderungen werden durch gezielte Verstärkungen erhöht, wodurch sich die gewünschten höheren Frequenzen rekonstruieren lassen.
- Durch die Rücktransformation in den Zeitbereich entsteht ein deutlich verbessertes Audiosignal, das im Gegensatz zu dem Ausgangssignal höhere Frequenzen beinhaltet. Das erzeugte Audiosignal hört sich natürlicher, wärmer und im Stereobild auch deutlich weiter an.
- Aus Vorstehendem wird deutlich, dass das Verfahren eine Mehrzahl von Schritten umfasst. Zunächst wird in einem ersten Schritt eine Wavelet-Analyse in einer Filterbank durchgeführt, in einem zweiten Schritt werden die Betrags- und Phasenvektoren erzeugt, in einem dritten Schritt erfolgt dann die Transientendetektion und eine entsprechende selektive Verstärkung und in einem letzten Schritt wird eine Wavelet-Synthese in einer Filterbank durchgeführt, um das Ausgangssignal zu erzeugen.
- Die Erfindung ist anhand von Zeichnungsfiguren näher erläutert. Diese zeigen in:
-
1 eine vereinfachte schematische Darstellung des angewendeten Algorithmus; -
2 eine schematische Darstellung einer Wavelet-Analysefilterbank; -
3 eine schematische Darstellung der Erstellung der Polarkoordinaten; -
4 eine schematische Darstellung der Transientendetektion und Verstärkung; sowie in -
5 eine schematische Darstellung einer Synthesefilterbank zur Erzeugung des Ausgangssignals. - In einem Schritt wird anhand von
2 die Wavelet-Analysefilterbank beschrieben. - Wie in
2 schematisch dargestellt, wird das Audiosignal1 mit Hilfe einer komplexen Wavelet-Transformation2 in Zeit-Frequenz-Signale gewandelt. Diese Wavelet-Signale werden in Detail-Signale7 und Annäherungs-Signale8 unterteilt, jeweils im realen 3 und imaginären Baum4 . Diese Signale beinhalten die so genannten Wavelet-Koeffizienten mit der Anzahl nCoefs. Da nach jeder Filterung eine Dezimation mit dem Faktor2 stattfindet, verringert sich die Anzahl der Koeffizienten um den Faktor2 mit jedem zusätzlichem Band. Um den Alising-Effekt zu minimieren, der bei der Rekonstruktion (Upsampling) der Signale entstehen kann, wird eine Wavelet-Transformation mit doppelter Dichte angewandt. Im Allgemeinen bekannt als „double density complex wavelet transform“. Diese Transformation wird im diskreten Bereich mit Hilfe von Hoch-5 und Tiefpässen6 mit FIR-Filtern realisiert. Die Hoch-/Tiefpassanordnung wiederholt sich für n-Wavelet Bänder, wobei die Anzahl n im Normalfall zwischen 1 und 6 liegt. - Anhand von
3 wird die Erzeugung der Betrags- und Phasenvektoren erläutert. Die so entstandenen Detail- und Annäherungssignale, bzw. die Wavelet-Koeffizienten, werden als komplexe Zahlen9 zusammengefasst. Z.B. besteht der komplexe Vektor cD11 aus den Werten von D11_re und D11_im für jeden Koeffizienten. Die komplexen Vektoren werden zu Betrags- und Phasenvektoren zusammengefasst. Dies geschieht durch eine Umwandlung10 der kartesischen Koordinaten (Real- und Imaginärteil) in Polarkoordinaten (Betrag und Phase). - Anhand von
4 wird die Transientendetektion und Verstärkung beschrieben. Innerhalb der Betragsvektoren des ersten und zweiten Bandes, welche die hohen Frequenzen repräsentieren, werden durch Betrachtung benachbarter Koeffizienten12a ,12b starke Veränderungen (Transienten) in der Zeit detektiert. Je stärker die Veränderung der Koeffizienten ist, desto höher ist die Frequenz zu diesem Zeitpunkt. Werden nun diese Veränderungen12a gezielt verstärkt, werden noch höhere Frequenzen erzeugt. Dies bewirkt, dass die bei einer verlustbehafteten Encodierung eines Audiosignals1 verworfenen hohen Frequenzen wieder zurückgewonnen werden können. - Die Detektion der Veränderung der Koeffizienten
12a ,12b wird mit Hilfe zweier Hüllkurven gewonnen. Eine Hüllkurve mit schnellen Zeitkonstanten „folgt“ quasi den vorhandenen Koeffizienten12 , die zweite Hüllkurve mit großen Zeitkonstanten läuft der Veränderung nach, d.h. sie verändert sich langsam. Die Differenz der beiden Hüllkurven ergibt dann die Verstärkung zum jeweiligen Zeitpunkt. Dieses Verfahren ist aus der Literatur unter dem Begriff „Transient Shaper“ (allerdings für Zeitsignale) bekannt. -
- Anschließend werden die Betrags- und Phasenvektoren aller Bänder wieder in kartesische Koordinaten umgewandelt.
Dij1 = cartesian(Dpij1) Dij2 = cartesian(Dpij2) für i = 0..nBands; j = 0nCoeffsi Aij = cartesian(Apij) - Die Detektion der Veränderungen mit Hilfe zweier Hüllkurven (Transientshaper) ist nur für Zeitsignale bekannt und auf dem in Frage stehenden Gebiet der Erfindung bislang noch nicht eingesetzt worden.
- Bezugszeichenliste
-
- 1
- Audiosignal
- 2
- Wavelet-Transformation
- 3
- realer Raum
- 4
- imaginärer Raum
- 5
- Hochpass
- 6
- Tiefpass
- 7
- Detail-Signal
- 8
- Annäherungssignal
- 9
- komplexe Zahlen
- 10
- Umwandlung
- 12
- Koeffizienten
- 12a
- Verstärkung
- 12b
- Verstärkung
- 14
- Wavelet-Transformation
- 15
- Audioausgangssignal
- 16
- Synthesefilterbank
Claims (7)
- Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung, mit folgenden Verfahrensschritten: - Umwandlung eines Audiosignals (1) mit Hilfe einer komplexen Wavelet-Transformation (2) in Zeit-Frequenzsignale; - Unterteilung der Signale in Detail-Signale (7) und Annäherungssignale (8) sowohl im realen (3) als auch im imaginären Raum (4); - jeweils Zusammenfassung des Real- und Imaginärteils der ermittelten Detail- (7) und Annäherungssignale (8) zu komplexen Vektoren und Umwandlung dieser kartesischen Koordinaten in Polar-Koordinaten bestehend aus Betrag und Phase zu Betrags- und Phasenvektoren; sowie - Detektion starker Veränderungen benachbarter Koeffizienten (12) in Form von Transienten in der Zeit und in der Frequenz innerhalb der Betragsvektoren der die hohen Frequenzen repräsentierenden ersten und zweiten Wavelet-Bänder; sowie - gezielte Verstärkung (12a) der Veränderungen zur Erzeugung höherer Frequenzen zur wenigstens teilweisen Rückgewinnung von bei einer verlustbehafteten Encodierung des Audiosignals verworfenen hohen Frequenzen sowie - Erzeugung des Audioausgangssignals (15) mittels inverser komplexer Wavelet-Transformation (14) der Koeffizienten (12).
- Verfahren nach
Anspruch 1 , dadurch gekennzeichnet, dass die Detektion der Veränderungen mit Hilfe zweier Hüllkurven gewonnen wird. - Verfahren nach
Anspruch 2 , dadurch gekennzeichnet, dass die erste Hüllkurve den Koeffizienten (12) mit schnellen Zeitkonstanten und die zweite Hüllkurve den Koeffizienten (12) mit langsamen Zeitkonstanten folgt. - Verfahren nach einem der
Ansprüche 1 -3 , dadurch gekennzeichnet, dass die Verstärkung (12a) der Veränderungen zum jeweiligen Zeitpunkt aus der Differenz der beiden Hüllkurven ermittelt wird. - Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Phasenvektoren unverändert zur Rücktransformation beibehalten werden.
- Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zur Verstärkung des Effektes der dazu gewonnenen hohen Frequenzanteile alle Koeffizienten (12) eines Wavelet-Bandes gleichmäßig um einen Verstärkungsfaktor angehoben werden.
- Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Audiosignal (15) aus den Detail- und Annäherungssignalen mit Hilfe einer Synthesefilterbank (16) erzeugt wird.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102014003057.1A DE102014003057B4 (de) | 2014-03-10 | 2014-03-10 | Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102014003057.1A DE102014003057B4 (de) | 2014-03-10 | 2014-03-10 | Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung |
Publications (2)
Publication Number | Publication Date |
---|---|
DE102014003057A1 DE102014003057A1 (de) | 2015-09-10 |
DE102014003057B4 true DE102014003057B4 (de) | 2018-06-14 |
Family
ID=53883709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102014003057.1A Active DE102014003057B4 (de) | 2014-03-10 | 2014-03-10 | Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102014003057B4 (de) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110004479A1 (en) | 2009-01-28 | 2011-01-06 | Dolby International Ab | Harmonic transposition |
US20110305352A1 (en) | 2009-01-16 | 2011-12-15 | Dolby International Ab | Cross Product Enhanced Harmonic Transposition |
-
2014
- 2014-03-10 DE DE102014003057.1A patent/DE102014003057B4/de active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110305352A1 (en) | 2009-01-16 | 2011-12-15 | Dolby International Ab | Cross Product Enhanced Harmonic Transposition |
US20110004479A1 (en) | 2009-01-28 | 2011-01-06 | Dolby International Ab | Harmonic transposition |
Also Published As
Publication number | Publication date |
---|---|
DE102014003057A1 (de) | 2015-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1741039B1 (de) | Informationssignalverarbeitung durch modifikation in der spektral-/modulationsspektralbereichsdarstellung | |
DE102006047197B3 (de) | Vorrichtung und Verfahren zum Verarbeiten eines reellen Subband-Signals zur Reduktion von Aliasing-Effekten | |
EP1145227B1 (de) | Verfahren und vorrichtung zum verschleiern eines fehlers in einem codierten audiosignal und verfahren und vorrichtung zum decodieren eines codierten audiosignals | |
DE102008015702B4 (de) | Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals | |
DE4331376C1 (de) | Verfahren zum Bestimmen der zu wählenden Codierungsart für die Codierung von wenigstens zwei Signalen | |
EP2244491B1 (de) | Verfahren zum Betrieb einer Hörvorrichtung und Hörvorrichtung mit einer Frequenzweiche | |
EP0624866A2 (de) | Frequenzanalyseverfahren | |
EP0978172B1 (de) | Verfahren zum verschleiern von fehlern in einem audiodatenstrom | |
EP1016319B1 (de) | Verfahren und vorrichtung zum codieren eines zeitdiskreten stereosignals | |
DE102010026884B4 (de) | Verfahren zum Betreiben einer Hörvorrichtung mit zweistufiger Transformation | |
EP1464046A1 (de) | Skalierbarer codierer und decodierer für einen skalierten datenstrom | |
EP3197181A1 (de) | Verfahren zur reduktion der latenzzeit einer filterbank zur filterung eines audiosignals sowie verfahren zum latenzarmen betrieb eines hörsystems | |
EP3068141A1 (de) | Verfahren zur frequenzabhängigen rauschunterdrückung eines eingangssignals | |
DE102014003057B4 (de) | Verfahren zur Rekonstruierung hoher Frequenzen bei verlustbehafteter Audiokomprimierung | |
DE10255687B4 (de) | Verfahren zur Verringerung des Crestfaktors eines Multiträgersignals | |
DE69823557T2 (de) | Schnelle frequenztransformationstechnik für transform audio koder | |
EP0608281B1 (de) | Verfahren zur reduzierung des frequenzübersprechens bei der übertragung und/ oder speicherung akustischer oder optischer signale | |
EP3403260B1 (de) | Verfahren und vorrichtung zur aufbereitung eines verlustbehaftet komprimierten audiosignals | |
DE102016105740A1 (de) | Spektralformung einer binären Pseudozufallsfolge | |
DE69127339T2 (de) | Methode und Einrichtung zur Kodierung und Dekodierung eines abgetasteten Analogsignals mit Wiederholungseigenschaften | |
DE4123983A1 (de) | Iteratives verfahren zur extrapolation und hochaufloesenden spektralanalyse von signalen | |
DE3490580T (de) | Datenkompressionssystem und Verfahren zur Aufbereitung digitaler Sample-Signale | |
EP1538749A2 (de) | Verfahren und Filterbank zur spektralen Modifikation eines digitalen Signals | |
DE19728482C1 (de) | Schaltung zur Aufteilung eines Signals in mehrere Teilsignale sowie Verfahren zum Betrieb der Schaltung | |
WO2015173422A1 (de) | Verfahren und vorrichtung zur residualfreien erzeugung eines upmix aus einem downmix |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R016 | Response to examination communication | ||
R018 | Grant decision by examination section/examining division | ||
R020 | Patent grant now final |