DE102008015702A1

DE102008015702A1 - Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals

Info

Publication number: DE102008015702A1
Application number: DE102008015702A
Authority: DE
Inventors: Frederik Dr. rer. nat. Nagel; Sascha Disch; Max Neuendorf
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2008-01-31
Filing date: 2008-03-26
Publication date: 2009-08-06
Anticipated expiration: 2028-03-27
Also published as: CN101933087B; CA2713744A1; ES2649012T3; BRPI0905795A2; BRPI0905795B1; EP2238591A1; EP3264414A1; TWI515721B; JP2011511311A; US8996362B2; PL3264414T3; HK1248912A1; US20110054885A1; EP2238591B1; TW200939211A; KR20110007083A; AU2009210303B2; MX2010008378A; RU2010131420A; DK3264414T3

Abstract

Zur Bandbreitenerweiterung eines Audiosignals wird in einem Signalspreizer das Audiosignal um einen Spreizfaktor größer als 1 zeitlich gespreizt. Das zeitlich gespreizte Audiosignal wird dann einem Dezimierer zugeführt, um die zeitlich gespreizte Version um einen Dezimierungsfaktor, der auf den Spreizfaktor abgestimmt ist, zu dezimieren. Das durch diese Dezimierungsoperation erzeugte Band wird extrahiert und verzerrt und schließlich mit dem Audiosignal kombiniert, um ein Bandbreiten erweitertes Audiosignal zu erhalten. Zum Signalspreizen kann ein Phasen-Vokoder in Filterbankimplementierung oder Transformationsimplementierung verwendet werden.

Description

Die vorliegende Erfindung bezieht sich auf die Audiosignalverarbeitung und insbesondere die Audiosignalverarbeitung in Situationen, bei denen die verfügbare Datenrate eher klein ist.
Die gehörangepasste Codierung von Audiosignalen zwecks Datenreduktion zur effizienten Speicherung und Übertragung dieser Signale hat sich in vielen Bereichen durchgesetzt. Kodieralgorithmen sind insbesondere unter dem Namen „MP3" oder „MP4" bekannt. Die hierzu verwendete Kodierung führt insbesondere bei Erzielung geringster Bitraten zu einer Reduktion der Audioqualität, die oft maßgeblich durch eine enkoderseitige Beschränkung der zu übertragenden Audiosignalbandbreite verursacht wird.
Aus der WO 98 57436 ist es bekannt, in einer solchen Situation auf Enkodierer-Seite das Audiosignal einer Bandbegrenzung zu unterziehen und nur ein unteres Band des Audiosignals mittels eines hochqualitativen Audio-Kodierers zu kodieren. Das obere Band wird dagegen nur sehr grob charakterisiert, nämlich durch einen Parametersatz, der die spektrale Hüllkurve des oberen Bands wiedergibt. Auf Dekodiererseite wird dann das obere Band synthetisiert. Hierzu wird eine harmonische Transposition vorgeschlagen, bei der das untere Band des dekodierten Audiosignals einer Filterbank zugeführt wird. Filterbankkanäle des unteren Bandes werden mit Filterbankkanälen des oberen Bandes verbunden oder „gepatched", und jedes gepatchte Bandpass-Signal wird einer Hüllkurvenanpassung, die auch als „Envelope adjustment" bekannt ist, unterzogen. Die zu einer speziellen Analyse-Filterbank gehörige Synthese-Filterbank erhält hierbei im unteren Band Bandpass-Signale des Audiosignals und im oberen Band Hüllkurven-angepasste Bandpass-Signale des unteren Bands, die harmonisch gepatched worden sind. Das Ausgangssignal der Synthese-Filterbank ist ein bezüglich seiner Bandbreite erweitertes Audiosignal, das mit einer sehr geringen Datenrate von der Enkodierer-Seite zu der Dekodierer-Seite übertragen worden ist. Insbesondere die Filterbank-Berechnungen und das Patchen in der Filterbank-Domäne kann rechenaufwändig werden.
Komplexitäts-reduzierte Verfahren zur Bandbreitenerweiterung von bandbeschränkten Audiosignalen benutzen stattdessen eine Kopierfunktion von tieffrequenten Signalanteilen (LF) in den hohen Frequenzbereich (HF), um die aufgrund der Bandbeschränkung fehlenden Informationen zu approximieren. Solche Verfahren sind in M. Dietz, L. Liljeryd, K. Kjörling and O. Kunz, "Spectral Band Replication, a novel approach in audio coding," in 112th AES Convention, München, Mai 2002; S. Meltzer, R. Böhm and F. Henn, "SBR enhanced audio codecs for digital broadcasting such as "Digital Radio Mondiale" (DRM)," 112th AES Convention, München, Mai 2002; T. Ziegler, A. Ehret, P. Ekstrand and M. Lutzky, "Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm," in 112th RES Convention, München, Mai 2002; International Standard ISO/IEC 14496-3: 2001/FPDAM 1, "Bandwidth Extension," ISO/IEC, 2002, oder "Speech bandwidth extension method and apparatus", Vasu Iyengar et al. US-Patent-Nr. 5,455,888 beschrieben.
Bei diesen Verfahren wird keine harmonische Transposition vorgenommen, sondern es werden aufeinander folgende Bandpass-Signale des unteren Bandes in aufeinander folgende Filterbankkanäle des oberen Bandes eingefügt. Dadurch wird eine Grobapproximation des oberen Bands des Audiosignals erreicht. Diese Grobapproximation des Signals wird dann in einem weiteren Schritt durch eine Nachbearbeitung unter Verwendung von Steuerinformationen, die aus dem Originalsignal gewonnen wurden, an das Original angenähert. Dazu dienen z. B. Skalenfaktoren für die Anpassung der spektralen Einhüllenden, eine inverse Filterung und Addition eines Rauschteppichs zur Anpassung der Tonalität sowie eine Ergänzung um sinusförmige Signalanteile, wie es z. B. auch im MPEG-4-Standard beschrieben ist.
Daneben existieren weitere Verfahren wie die so genannte „blinde Bandbreitenerweiterung", die in E. Larsen, R. M. Aarts, and M. Danessis, „Efficient high-frequency bandwidth extension of music and speech", In AES 112th Convention, Munich, Germany, May 2002 beschrieben ist, bei der keinerlei Informationen über den ursprünglichen HF-Bereich verwendet werden. Ferner existiert auch das Verfahren der so genannten "Artificial bandwidth extension", die in K. Käyhkö, A. Robust Wideband Enhancement for Narrowband Speech Signal; Research Report, Helsinki University of Technology, Laboratory of Acoustics and Audio Signal Processing, 2001 beschrieben ist.
In J. Makinen et al.: AMR-WB+: a new audio coding standard for 3rd generation mobile audio services Broadcastes, IEEE, ICASSP '05 ist ein Verfahren zur Bandbreitenerweiterung beschrieben, bei der die Kopieroperation der Bandbreitenerweiterung mit einem Hochkopieren von aufeinander folgenden Bandpass-Signalen gemäß der SBR-Technik durch eine Spiegelung, beispielsweise durch ein Upsampling ersetzt wird.
Weitere Techniken zur Bandbreitenerweiterung sind in folgenden Dokumenten beschrieben. R. M. Aarts, E. Larsen, and O. Ouweltjes, "A unified approach to low- and high frequency bandwidth extension", AES 115th Convention, New York, USA, Oktober 2003; E. Larsen and R. M. Aarts "Audio Bandwidth Extension – Application to psychoacoustics, Signal Processing and Loudspeaker Design", John Wiley & Sons, Ltd., 2004; E. Larsen, R. M. Aarts, and M. Danessis "Efficient high-frequency bandwidth extension of music and speech", AES 112th Convention, München, Mai 2002; J. Makhoul, "Spectral Analysis of Speech by Linear Prediction", IEEE Transactions an Audio and Electroacoustics, AU-21(3), June 1973; United States Patent Application 08/951,029; United States Patent No. 6,895,375 .
Bekannte Verfahren der harmonischen Bandbreitenerweiterung zeigen eine hohe Komplexität. Andererseits zeigen Verfahren der Komplexitäts-reduzierten Bandbreitenerweiterung Qualitätseinbußen. Insbesondere bei niedriger Bitrate und damit verbundener niedriger Bandbreite des LF-Bereichs können Artefakte wie Rauhigkeit und ein als unangenehm wahrgenommenes Timbre auftreten. Ein Grund dafür ist die Tatsache, dass dem approximierten HF-Anteil eine Kopieroperation zugrunde liegt, die die harmonischen Relationen tonaler Signalanteile zueinander unbeachtet lässt. Dies gilt sowohl für das harmonische Verhältnis zwischen LF und HF als auch für die harmonischen Verhältnisse innerhalb des HF-Anteils selbst. Bei der SBR kommt es beispielsweise an der Grenze zwischen dem LF-Bereich und dem erzeugten HF-Bereich gelegentlich zu rauen Klangeindrücken, da tonale Anteile, die aus dem LF-Bereich in den HF-Bereich kopiert werden, wie es z. B. in 4a dargestellt ist, im Gesamtsignal nun spektral dicht benachbart mit tonalen Anteilen des LF-Bereichs zusammen treffen können. So ist in 4a ein Originalsignal mit Spitzen bei 401, 402, 403, 404 gezeigt, während ein Testsignal mit Spitzen bei 405, 406, 407, 408 gezeigt ist. Durch das Kopieren von tonalen Anteilen aus dem LF-Bereich in den HF-Bereich, wobei in 4a die Grenze bei 4250 Hz war, ist der Abstand der beiden linken Peaks im Testsignal geringer als die dem harmonischen Raster zugrunde liegende Basisfrequenz, was zu einer Wahrnehmung von Rauhigkeit führt.
Da die Breite gehörrichtiger Frequenzgruppen mit steigender Mittenfrequenz zunimmt, wie es in Zwicker, E. and H. Fastl (1999), Psychoacoustics: Facts and models. Berlin – Springerverlag beschrieben ist, können sinusförmige Anteile, die im LF-Bereich in verschiedenen Frequenzgruppen liegen, durch das Kopieren in den HF-Bereich dort in der gleichen Frequenzgruppe zu Liegen kommen, was ebenfalls zu einem rauen Höreindruck führt, wie es in 4b ersichtlich ist. Hier ist insbesondere gezeigt, dass das Kopieren des LF-Bereichs in den HF-Bereich zu einer dichteren tonalen Struktur im Testsignal im Vergleich zum Original führt. Das Originalsignal ist im höheren Frequenzbereich relativ gleichmäßig über das Spektrum verteilt, wie es insbesondere z. B. bei 410 gezeigt ist. Dagegen ist insbesondere in diesem höheren Bereich das Testsignal 411 relativ ungleichmäßig über das Spektrum verteilt und damit deutlich tonaler als das Originalsignal 410.
Die Aufgabe der vorliegenden Erfindung besteht darin, eine Bandbreitenerweiterung mit hoher Qualität zu erreichen, jedoch gleichzeitig eine Signalverarbeitung mit geringerer Komplexität zu erreichen, die verzögerungsarm und aufwandsarm und damit auch mit Prozessoren implementiert werden kann, die reduzierte Hardwareanforderungen im Hinblick auf Prozessorgeschwindigkeit und benötigten Speicher haben
Diese Aufgabe wird durch eine Vorrichtung zur Bandbreitenerweiterung nach Patentanspruch 1 oder ein Verfahren zur Bandbreitenerweiterung nach Patentanspruch 13 oder ein Computer-Programm nach Patentanspruch 14 gelöst.
Das erfindungsgemäße Konzept zur Bandbreitenerweiterung basiert auf einer zeitlichen Signalspreizung zum Erzeugen einer um einen Spreizfaktor > 1 gespreizten Version des Audiosignals als Zeitsignal und einer anschließenden Dezimierung des Zeitsignals, um ein transponiertes Signal zu erhalten, das dann zum Beispiel durch ein einfaches Bandpassfilter gefiltert werden kann, um einen Hochfrequenzsignalanteil zu extrahieren, der lediglich noch verzerrt bzw. in seiner Amplitude verändert werden kann, um eine gute Approximation zum ursprünglichen hochfrequenten Anteil zu erhalten. Die Bandpassfilterung kann alternative auch erfolgen, bevor die Signalspreizung durchgeführt wird, so dass nur der gewünschte Frequenzbereich nach der Spreizung im ge spreizten Signal vorhanden ist, so dass also eine Bandpassfilterung nach der Spreizung entfallen kann.
Bei der harmonischen Bandbreitenerweiterung werden einerseits die Probleme, die durch eine Kopier- oder Spiegeloperation oder beides entstehen, aufgrund einer harmonischen Fortsetzung und Spreizung des Spektrums unter Verwendung des Signalspreizers zum Spreizen des zeitlichen Signals vermieden. Andererseits ist eine zeitliche Spreizung und anschließende Dezimierung durch einfache Prozessoren einfacher ausführbar als eine komplette Analyse-/Synthese-Filterbank, wie sie z. B. bei der harmonischen Transposition eingesetzt wird, bei der zusätzlich noch Entscheidungen getroffen werden müssen, wie das Patchen innerhalb der Filterbank-Domäne stattzufinden hat.
Vorzugsweise wird zum Signalspreizen ein Phasen-Vokoder eingesetzt, für den es aufwandsgünstige Implementierungen gibt. Um Bandbreitenerweiterungen mit Faktoren > 2 zu erhalten, können auch mehrere Phasen-Vokoder parallel eingesetzt werden, was insbesondere im Hinblick auf die Verzögerung der Bandbreitenerweiterung, die bei Echtzeitanwendungen gering sein muss, günstig ist. Alternativ stehen andere Verfahren zur Signalspreizung, wie z. B. das PSOLA-Verfahren (PSOLA = Pitch Synchonous Overlap Add) zur Verfügung.
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird das LF-Audiosignal mit der maximalen Frequenz LF_max mit Hilfe des Phasen-Vokoders zunächst in Richtung der Zeit gedehnt und zwar auf ein ganzzahliges Vielfaches der üblichen Dauer des Signals. Hierauf findet in einem nachgeschalteten Dezimierer eine Dezimierung des Signals um den Faktor der zeitlichen Streckung statt, was insgesamt zu einer Spreizung des Spektrums führt. Dies entspricht einer Transponierung des Audiosignals. Schließlich wird das resultierende Signal Bandpass-gefiltert auf den Bereich (Streckungsfaktor –1)·LF_max bis Streckungsfaktor· LF_max. Alternativ können die einzelnen durch Spreizung und Dezimierung erzeugten Hochfrequenz-Signale derart einer Bandpassfilterung unterzogen werden, dass sie sich am Ende über den gesamten Hochfrequenz-Frequenz-Bereich (also von LFmax bis k·LFmax) additiv überlagern. Dies ist sinnvoll für den Fall, dass doch eine höhere spektrale Dichte von Harmonischen erwünscht ist.
Das Verfahren der harmonischen Bandbreitenerweiterung wird bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung parallel für mehrere verschiedene Streckungsfaktoren durchgeführt. Alternativ zur parallelen Verarbeitung kann auch ein einziger Phasen-Vokoder verwendet werden, der seriell betrieben wird, und bei dem Zwischenergebnisse zwischengespeichert werden. Damit können beliebige Bandbreitenerweiterungs-Grenzfrequenzen erreicht werden. Die Streckung des Signals kann alternativ auch direkt in Frequenzrichtung erfolgen, und zwar insbesondere durch eine dem Funktionsprinzip des Phasen-Vokoders entsprechende duale Operation.
Vorteilhafterweise wird bei Ausführungsbeispielen der Erfindung keine Analyse des Signals im Hinblick auf Harmonizität oder Fundamentalfrequenz benötigt.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die beiliegenden Zeichnungen erläutert. Es zeigen:
1 ein Blockschaltbild des erfindungsgemäßen Konzepts zur Bandbreitenerweiterung eines Audiosignals;
2a ein Blockschaltbild einer Vorrichtung zur Bandbreitenerweiterung eines Audiosignals gemäß einem Aspekt der vorliegenden Erfindung;
2b eine Verbesserung des Konzepts von 2a mit Transientendetektoren;
3 eine schematische Darstellung der Signalverarbeitung anhand von Spektren zu bestimmten Zeitpunkten einer erfindungsgemäßen Bandbreitenerweiterung;
4a einen Vergleich zwischen einem Originalsignal und einem Testsignal, das einen rauen Klangeindruck liefert;
4b einen Vergleich eines Originalsignals mit einem Testsignal, das ebenfalls zu einem rauen Höreindruck führt;
5a eine schematische Darstellung der Filterbankimplementierung eines Phasen-Vokoders;
5b eine detailliertere Darstellung eines Filters von 5a;
5c eine schematische Darstellung zur Manipulation des Betragssignals und des Frequenzsignals in einem Filterkanal von 5a;
6 eine schematische Darstellung der Transformationsimplementierung eines Phasen-Vokoders;
7a eine schematische Darstellung der Enkodierer-Seite im Kontext der Bandbreitenerweiterung; und
7b eine schematische Darstellung der Dekodierer-Seite im Kontext einer Bandbreitenerweiterung eines Audiosignals.
1 zeigt eine schematische Darstellung einer Vorrichtung beziehungsweise eines Verfahrens zur Bandbreitenerwei terung eines Audiosignals. Lediglich beispielhaft wird 1 als Vorrichtung beschrieben, obgleich 1 gleichzeitig auch das Flussdiagramm eines Verfahrens zur Bandbreitenerweiterung aufgefasst werden kann. Hierbei wird das Audiosignal an einem Eingang 100 in die Vorrichtung eingespeist. Das Audiosignal wird einem Signalspreizer 102 zugeführt, der ausgebildet ist, um eine um einen Spreizfaktor größer als Eins zeitlich gespreizte Version des Audiosignals als Zeitsignal zu erzeugen. Der Spreizfaktor wird bei dem in 1 gezeigten Ausführungsbeispiel über einen Spreizfaktoreingang 104 zugeführt. Das gespreizte Audio-Zeitsignal, das an einem Ausgang 103 des Signalspreizers 102 vorliegt, wird einem Dezimierer 105 zugeführt, der ausgebildet ist, um das zeitlich gespreizte Audio-Zeitsignal 103 um einen Dezimierungsfaktor zu dezimieren, der auf den Spreizfaktor 104 abgestimmt ist. Dies wird durch den Spreizfaktoreingang 104 in 1 schematisch dargestellt, der gestrichelt eingezeichnet ist und in den Dezimierer 105 führt. Bei einem Ausführungsbeispiel ist der Spreizfaktor im Signalspreizer gleich dem Inversen des Dezimierungsfaktors. Wird beispielsweise ein Spreizfaktor von 2,0 im Signalspreizer 102 angewendet, so wird eine Dezimierung mit einem Dezimierungsfaktor 0,5 durchgeführt. Wenn jedoch die Dezimierung dahingehend beschrieben wird, dass eine Dezimierung um den Faktor 2 durchgeführt wird, dass also jeder zweite Abtastwert eliminiert wird, so ist in dieser Darstellung der Dezimierungsfaktor identisch zum Spreizfaktor. Alternative Verhältnisse zwischen Spreizfaktor und Dezimierungsfaktor, wie beispielsweise ganzzahlige Verhältnisse oder rationale Verhältnisse, können ebenfalls eingesetzt werden, je nach Implementierung. Die maximal harmonische Bandbreitenerweiterung wird jedoch dann erreicht, wenn der Spreizfaktor gleich dem Dezimierungsfaktor beziehungsweise dem Inversen des Dezimierungsfaktors ist.
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ist der Dezimierer 105 ausgebildet, um jeden z. B. zweiten Abtastwert (bei einem Spreizfaktor gleich Zwei) zu eliminieren, so dass ein dezimiertes Audiosignal entsteht, das die selbe zeitliche Länge hat wie das ursprüngliche Audiosignal 100. Andere Dezimierungsalgorithmen, die beispielsweise gewichtete Mittelwerte bilden oder die Tendenzen aus der Vergangenheit beziehungsweise der Zukunft berücksichtigen, können ebenfalls eingesetzt werden, obgleich jedoch eine einfache Dezimierung durch Eliminierung von Abtastwerten sehr aufwandsarm implementiert werden kann. Das durch den Dezimierer 105 erzeugte dezimierte Zeitsignal 106 wird einem Filter 107 zugeführt, wobei das Filter 107 ausgebildet ist, um ein Bandpass-Signal aus dem dezimierten Audiosignal 106 zu extrahieren, das Frequenzbereiche enthält, die nicht in dem Audiosignal 100 am Eingang der Vorrichtung enthalten sind. In der Implementierung kann das Filter 107 als digitales Bandpass-Filter, z. B. als FIR- oder IIR-Filter, oder aber auch als analoges Bandpass-Filter implementiert sein, obgleich eine digitale Implementierung bevorzugt wird. Ferner ist das Filter 107 derart ausgebildet, dass es den oberen durch die Operationen 102 und 105 erzeugten Spektralbereich extrahiert, wobei jedoch der untere Spektralbereich, den das Audiosignal 100 ohnehin schon abdeckt, so stark als möglich unterdrückt wird. In der Implementierung kann das Filter 107 jedoch auch derart ausgebildet sein, dass es auch Signalanteile mit Frequenzen als Bandpass-Signal extrahiert, die im ursprünglichen Audiosignal 100 enthalten sind, wobei das extrahierte Bandpass-Signal jedoch wenigstens ein Frequenzband enthalten wird, das nicht im ursprünglichen Audiosignal 100 enthalten war.
Das Bandpass-Signal 108, das von dem Filter 107 ausgegeben wird, wird einem Verzerrer 109 zugeführt, der ausgebildet ist, um das Bandpass-Signal so zu verzerren, dass das Bandpass-Signal eine vorbestimmte Hüllkurve aufweist. Diese Hüllkurveninformationen, die zum Verzerren eingesetzt werden, können extern eingegeben werden und sogar von einem Enkodierer stammen, oder können intern z. B. durch blinde Extrapolation aus dem Audiosignal 100 oder aufgrund von De kodierer-seitig abgespeicherten Tabellen, die mit einer Hüllkurve des Audiosignals 100 indiziert werden, intern generiert werden. Das von dem Verzerrer 109 ausgegebene verzerrte Bandpass-Signal 110 wird schließlich einem Kombinierer 111 zugeführt, der ausgebildet ist, um das verzerrte Bandpass-Signal 110 mit dem ursprünglichen Audiosignal 100, das je nach Implementierung noch verzögert worden ist (die Verzögerungsstufe ist in 1 nicht eingezeichnet) kombiniert, um ein in seiner Bandbreite erweitertes Audiosignal an einem Ausgang 112 zu erzeugen.
Bei einer alternativen Implementierung ist die Reihenfolge des Verzerrers 109 und des Kombinierers 111 entgegen gesetzt zu der in 1 gezeigten Darstellung. Hierbei wird das Filter-Ausgangssignal, also das Bandpass-Signal 108 direkt mit dem Audiosignal 100 kombiniert, und die Verzerrung des oberen Bandes des kombinierten Signals, das von dem Kombinierer 111 ausgegeben wird, wird erst nach dem Kombinieren durch den Verzerrer 109 vorgenommen. Bei dieser Implementierung arbeitet der Verzerrer als Verzerrer zum Verzerren des Kombinationssignals so, dass das Kombinationssignal eine vorbestimmte Hüllkurve aufweist. Der Kombinierer ist bei diesem Ausführungsbeispiel also derart ausgebildet, dass er das Bandpass-Signal 108 mit dem Audiosignal 100 kombiniert, um ein in seiner Bandbreite erweitertes Audiosignal zu erhalten. Bei diesem Ausführungsbeispiel, bei dem die Verzerrung erst nach der Kombination stattfindet, wird es bevorzugt, den Verzerrer 109 derart zu implementieren, dass er das Audiosignal 100 beziehungsweise die Bandbreite des Kombinationssignals, die durch das Audiosignal 100 geliefert wird, nicht antastet, da das untere Band des Audiosignals durch einen hochqualitativen Kodierer kodiert worden ist und auf Dekodiererseite bei der Synthese des oberen Bandes gewissermaßen das Maß aller Dinge ist und durch die Bandbreitenerweiterung nicht beeinträchtigt werden sollte.
Bevor detailliertere Ausführungsbeispiele der vorliegenden Erfindung dargestellt werden, wird anhand der 7a und 7b ein Bandbreitenerweiterungs-Szenario dargestellt, in dem die vorliegende Erfindung vorteilhaft ausgeführt werden kann. Ein Audiosignal wird an einem Eingang 700 in eine Tiefpass-/Hochpass-Kombination 702 eingespeist. Die Tiefpass-/Hochpass-Kombination umfasst einerseits einen Tiefpass (TP), um eine Tiefpass-gefilterte Version des Audiosignals 700 zu erzeugen, die bei 703 in 7a gezeigt ist. Dieses Tiefpass-gefilterte Audiosignal wird mit einem Audiokodierer 704 kodiert. Der Audiokodierer ist beispielsweise ein MP3-Kodierer (MPEG1 Layer3) oder ein AAC-Kodierer, der auch als MP4-Kodierer bekannt ist und im MPEG4-Standard beschrieben ist. Alternative Audiokodierer, die eine transparente oder vorteilhafterweise psychoakustisch transparente Darstellung des bandbegrenzten Audiosignals 703 liefern, können im Kodierer 704 eingesetzt werden, um ein voll kodiertes beziehungsweise psychoakustisch kodiertes und vorzugsweise psychoakustisch transparent kodiertes Audiosignal 705 zu erzeugen. Das obere Band des Audiosignals wird durch den Hochpass-Teil des Filters 702, der mit "HP" bezeichnet ist, an einem Ausgang 706 ausgegeben. Der Hochpass-Anteil des Audiosignals, also das obere Band oder HF-Band, das auch als HF-Anteil bezeichnet wird, wird einem Parameter-Berechner 707 zugeführt, der ausgebildet ist, um verschiedene Parameter zu berechnen. Diese Parameter sind beispielsweise die spektrale Hüllkurve des oberen Bandes 706 in einer relativ groben Auflösung, beispielsweise durch Darstellung eines Skalenfaktors für jede psychoakustische Frequenzgruppe beziehungsweise für jedes Bark-Band auf der Bark-Skala. Ein weiterer Parameter, der durch den Parameter-Berechner 707 ausgerechnet werden kann, ist der Rauschteppich im oberen Band, dessen Energie pro Band vorzugsweise auf die Energie der Hüllkurve in diesem Band bezogen werden kann. Weitere Parameter, die der Parameter-Berechner 707 berechnen kann, umfassen ein Tonalitätsmaß für jedes Teilband des oberen Bandes, das angibt, wie die spektrale Energie in einem Band verteilt ist, also ob die spektrale Energie in dem Band relativ gleichmäßig verteilt ist, wobei dann ein nicht-tonales Signal in diesem Band vorliegt, oder ob die Energie in diesem Band relativ stark an einer bestimmten Stelle in dem Band konzentriert ist, wobei dann eher ein tonales Signal für dieses Band vorliegt. Weitere Parameter bestehen darin, in dem oberen Band relativ stark hervortretende Spitzen im Hinblick auf ihre Höhe und ihre Frequenz explizit zu kodieren, da das Bandbreitenerweiterungskonzept bei der Rekonstruktion ohne eine solche explizite Kodierung von ausgeprägten Sinus-Anteilen im oberen Band diese nicht oder nur sehr rudimentär wieder herstellen würde.
Auf jeden Fall ist der Parameter-Berechner 707 ausgebildet, um für das obere Band lediglich Parameter 708 zu erzeugen, die ähnlichen Entropie-Reduktionsschritten unterzogen werden können, wie sie auch im Audiokodierer 704 für quantisierte Spektralwerte vorgenommen werden können, wie beispielsweise Differenzkodierung, Prädiktion oder Huffman-Kodierung, etc. Die Parameterdarstellung 708 und das Audiosignal 705 werden dann einem Datenstromformatierer 709 zugeführt, der ausgebildet ist, einen ausgangsseitigen Datenstrom 710 zu liefern, der typischerweise ein Bitstrom nach einem bestimmten Format sein wird, wie er beispielsweise im MPEG-4-Standard normiert ist.
Die Dekodierer-Seite, wie sie für die vorliegende Erfindung besonders geeignet ist, wird nachfolgend Bezug nehmend auf 7b dargestellt. Der Datenstrom 710 tritt in einen Datenstrominterpretierer 711 ein, der ausgebildet ist, um den Parameteranteil 708 vom Audiosignalanteil 705 zu trennen. Der Parameteranteil 708 wird von einem Parameterdekodierer 712 dekodiert, um dekodierte Parameter 713 zu erhalten. Parallel hierzu wird der Audiosignalanteil 705 von einem Audiodekodierer 714 dekodiert, um das Audiosignal zu erhalten, das bei 100 in 1 dargestellt worden ist.
Je nach Implementierung kann das Audiosignal 100 über einen ersten Ausgang 715 ausgegeben werden. Am Ausgang 715 könnte dann ein Audiosignal mit kleiner Bandbreite und damit aber auch kleiner Qualität erhalten werden. Zur Qualitätsverbesserung wird jedoch die erfindungsgemäße Bandbreitenerweiterung 720 vorgenommen, die beispielsweise so ausgebildet ist, wie es in 1 dargestellt ist, um ausgangsseitig das Audiosignal 112 mit erweiterter beziehungsweise großer Bandbreite und großer Qualität zu erhalten.
Nachfolgend wird anhand von 2a eine bevorzugte Implementierung der Bandbreitenerweiterungsimplementierung von 1, die vorzugsweise im Block 720 von 7b eingesetzt werden kann, dargestellt. 2a umfasst zunächst einen Block, der mit "Audiosignal und Parameter" bezeichnet ist, der den Blöcken 711, 712, 714 von 7b entsprechen kann und mit 200 bezeichnet ist. Der Block 200 liefert ausgangsseitig das Audiosignal 100 sowie dekodierte Parameter 713, die für diverse Verzerrungen eingesetzt werden können, wie beispielsweise für eine Tonalitäts-Korrektur 109a und eine Hüllkurveneinstellung (Envelope Adjustment) 109b. Das durch die Tonalitätskorrektur 109a und die Hüllkurveneinstellung 109b erzeugte beziehungsweise korrigierte Signal wird dem Kombinierer 111 zugeführt, um ausgangsseitig das Audiosignal mit erweiterter Bandbreite 112 zu erhalten.
Vorzugsweise wird der Signalspreizer 102 von 1 durch einen Phasen-Vokoder 202a implementiert. Der Dezimierer 105 von 1 wird vorzugsweise durch einen einfachen Abtastratenwandler 205a implementiert. Das Filter 107 zur Extraktion eines Bandpass-Signals wird vorzugsweise durch ein einfaches Bandpass-Filter 107a implementiert. Insbesondere werden der Phasen-Vokoder 202a und der Abtastraten-Dezimierer 205a mit einem Spreizfaktor = Zwei betrieben.
Vorzugsweise ist ein weiterer "Zug" aus Phasen-Vokoder 202b, Dezimierer 205b und Bandpass-Filter 207b vorgesehen, um ein weiteres Bandpass-Signal am Ausgang des Filters 207b zu extrahieren, das einen Frequenzbereich zwischen der oberen Grenzfrequenz des Bandpass-Filters 207a und dem Dreifachen der maximalen Frequenz des Audiosignals 100 aufweist.
Darüber hinaus ist ein k-ter-Phasen-Vokoder 202c vorgesehen, der eine Spreizung des Audiosignals um den Faktor k erreicht, wobei k vorzugsweise eine ganze Zahl größer Eins ist. Dem Phasen-Vokoder 202c ist ein Dezimierer 205c nachgeschaltet, der um den Faktor k dezimiert. Schließlich wird das dezimierte Signal einem Bandpass-Filter 207c zugeführt, das ausgebildet ist, um eine untere Grenzfrequenz zu haben, die gleich der oberen Grenzfrequenz des daneben liegenden Zweigs ist, und das eine obere Grenzfrequenz hat, die dem k-fachen der maximalen Frequenz des Audiosignals 100 entspricht. Alle Bandpass-Signale werden durch einen Kombinierer 209 kombiniert, wobei der Kombinierer 209 zum Beispiel als Addierer ausgebildet sein kann. Alternativ kann der Kombinierer 209 auch als gewichteter Addierer ausgebildet sein, der je nach Implementierung höhere Bänder bereits unabhängig von der nachgeordneten Verzerrung durch die Elemente 109a, 109b stärker dämpft als niedrigere Bänder. Darüber hinaus umfasst das in 2a gezeigte System eine Verzögerungsstufe 211, die sicherstellt, dass im Kombinierer 111 eine synchronisierte Kombination stattfindet, die beispielsweise eine Sample-weise Addition sein kann.
3 zeigt eine schematische Darstellung verschiedener Spektren, die bei der in 1 oder in 2a gezeigten Verarbeitung auftreten können. Teilbild (1) von 3 zeigt ein bandbegrenztes Audiosignal, wie es beispielsweise bei 100 in 1 oder 703 in 7a vorliegt. Dieses Signal wird durch den Signalspreizer 102 vorzugsweise auf ein ganzzahliges Vielfaches der ursprünglichen Dauer des Signals gedehnt und anschließend um den ganzzahligen Faktor dezimiert, was insgesamt zu einer Spreizung des Spektrums führt, wie es in Teilbild (2) in 3 dargestellt ist. Der HF-Anteil ist in 3 dargestellt, wie er durch ein Bandpass-Filter extrahiert wird, das ein Durchlassband 300 aufweist. 3 zeigt im dritten Teilbild (3) die Variante, bei der das Bandpass-Signal bereits mit dem ursprünglichen Audiosignal 100 vor der Verzerrung des Bandpass-Signals kombiniert wird. Damit ergibt sich ein Kombinationsspektrum mit unverzerrtem Bandpass-Signal, wobei dann, wie es im Teilbild (4) gezeigt ist, eine Verzerrung des oberen Bandes, jedoch wenn möglich keine Modifikation des unteren Bandes stattfindet, um das Audiosignal 112 mit erweiterter Bandbreite zu erhalten.
Das LF-Signal im Teilbild (1) hat eine maximale Frequenz LF_max. Der Phasen-Vokoder 202a führt eine Transponierung des Audiosignals derart durch, dass die maximale Frequenz des transponierten Audiosignals 2LF_max ist. Nun wird das resultierende Signal im Teilbild (2) auf dem Bereich LF_max bis 2LF_max bandpassgefiltert. Allgemein betrachtet, wenn der Spreizungsfaktor mit k (k > 1) bezeichnet wird, hat das Bandpass-Filter ein Durchlassband von (k – 1)·LF_max bis k·LF_max. Das in 3 dargestellte Procedere wird für verschiedene Spreizungsfaktoren wiederholt, bis die erwünschte höchste Frequenz K·LF_max erreicht wird, wobei K = dem maximalen Erstreckungsfaktor k_max ist.
Nachfolgend werden anhand der 5 und 6 bevorzugte Implementierungen für einen Phasen-Vokoder 202a, 202b, 202c gemäß der vorliegenden Erfindung dargestellt. 5a zeigt eine Filterbankimplementierung eines Phasen-Vokoders, bei dem ein Audiosignal an einem Eingang 500 eingespeist wird und an einem Ausgang 510 erhalten wird. Insbesondere umfasst jeder Kanal der in 5a gezeigten schematischen Filterbank ein Bandpass-Filter 501 und einen nachgeschalteten Oszillator 502. Ausgangssignale sämtlicher Oszillatoren aus jedem Kanal werden durch einen Kombinierer, der beispielsweise als Addierer ausgebildet ist und bei 503 gezeigt ist, kombiniert, um das Ausgangssignal zu erhalten. Jedes Filter 501 ist so ausgebildet, dass es ein Amplitudensignal einerseits und ein Frequenzsignal andererseits liefert. Das Amplitudensignal und das Frequenzsignal sind Zeitsignale, die eine Entwicklung der Amplitude in einem Filter 501 über der Zeit darstellt, während das Frequenzsignal eine Entwicklung der Frequenz des von einem Filter 501 gefilterten Signals darstellt.
Ein schematischer Aufbau eines Filters 501 ist in 5b dargestellt. Jedes Filter 501 von 5a kann so wie in 5b aufgebaut sein, wobei jedoch lediglich die Frequenzen f_i, die den beiden Eingangsmischern 551 und dem Addierer 552 zugeführt werden, von Kanal zu Kanal unterschiedlich sind. Die Mischerausgangssignale werden beide Tiefpass-gefiltert und zwar durch Tiefpässe 553, wobei sich die Tiefpass-Signale dahingehend unterscheiden, dass sie durch Lokaloszillator-(LO-)Frequenzen erzeugt worden sind, die um 90 Grad außer Phase sind. Das obere Tiefpass-Filter 553 liefert ein Quadratur-Signal 554, während das untere Filter 553 ein In-Phase-Signal 555 liefert. Diese beiden Signale, also I und Q, werden einem Koordinatentransformierer 556 zugeführt, der aus der rechtwinkeligen Darstellung eine Betrags-Phasen-Darstellung erzeugt. Das Betragssignal beziehungsweise Amplituden-Signal von 5a über der Zeit wird an einem Ausgang 557 ausgegeben. Das Phasensignal wird einem Phasen-Aufwickler 558 zugeführt, der auch als Phasen-"Unwrapper" bezeichnet wird. Am Ausgang des Elements 558 liegt dann nicht mehr ein Phasenwert vor, der immer zwischen 0 und 360 Grad ist, sondern ein Phasenwert, der linear ansteigt. Dieser "abgewickelte" („unwrapped") Phasenwert wird einem Phasen-/Frequenzwandler 559 zugeführt, der z. B. als einfacher Phasen-Differenz-Bilder ausgebildet sein kann, der eine Phase zu einem vorherigen Zeitpunkt von einer Phase zu einem aktuellen Zeitpunkt subtrahiert, um einen Frequenzwert für den aktuellen Zeitpunkt zu erhalten. Dieser Frequenzwert wird zu dem konstanten Frequenzwert f_i des Filterkanals i hinzu addiert, um einen zeitlich variierenden Frequenzwert am Ausgang 560 zu erhalten. Der Frequenzwert am Ausgang 560 hat einen Gleichanteil = f_i und einen Wechselanteil = dem Frequenzhub, um den eine aktuelle Frequenz des Signals in dem Filterkanal von dem der mittleren Frequenz f_i abweicht.
Damit erreicht der Phasen-Vokoder, wie in 5b und 5a dargestellt ist, eine Trennung von Spektralinformationen und Zeitinformationen. Die Spektralinformationen stecken in dem speziellen Kanal beziehungsweise in der Frequenz f_i, die für jeden Kanal den Gleichanteil der Frequenz liefert, während die Zeitinformation in dem Frequenzhub beziehungsweise dem Betrag über der Zeit enthalten ist.
5c zeigt eine Manipulation, wie sie erfindungsgemäß zur Bandbreitenerhöhung vorgenommen wird, und zwar insbesondere im Phasen-Vokoder 202a und insbesondere an der in 5a jeweils gestrichelt eingezeichneten Stelle der dargestellten Schaltung.
Zur zeitlichen Skalierung können z. B. die Amplituden-Signale A(t) in jedem Kanal beziehungsweise die Frequenz der Signale f(t) in jedem Signal dezimiert oder interpoliert werden. Zu Zwecken der Transposition, wie sie für die vorliegende Erfindung nützlich ist, wird jedoch eine Interpolation, also eine zeitliche Dehnung beziehungsweise Spreizung der Signale A(t) und f(t) vorgenommen, um gespreizte Signale A'(t) und f'(t) zu erhalten, wobei die Interpolation durch den Spreizfaktor 104, wie er in 1 dargestellt worden ist, gesteuert wird. Durch Interpolation der Phasenvariation, also des Werts vor der Addition der konstanten Frequenz durch den Addierer 552 wird die Frequenz jedes einzelnen Oszillators 502 in 5a nicht geändert. Sehr wohl wird jedoch die zeitliche Änderung des gesamten Audiosignals verlangsamt, und zwar um den Faktor 2. Das Resultat ist ein zeitlich gespreizter Ton mit dem ursprünglichen Pitch, also der ursprünglichen Grundwelle mit ihren Harmonischen.
Indem die in 5c gezeigte Signalverarbeitung durchgeführt wird, wobei eine solche Verarbeitung in jedem Filter bandkanal in 5 vorgenommen wird, und indem dann das resultierende zeitliche Signal im Dezimierer 105 von 1 beziehungsweise im Dezimierer 205a in 2 dezimiert wird, wird das Audiosignal wieder auf seine ursprüngliche Dauer zurückgeschrumpft, während gleichzeitig alle Frequenzen verdoppelt werden. Dies führt zu einer Pitch-Transposition um den Faktor 2, wobei jedoch ein Audiosignal erhalten wird, das die selbe Länge hat wie das ursprüngliche Audiosignal, also die selbe Anzahl von Abtastwerten.
Alternativ zu der in 5a gezeigten Filterbandimplementierung kann auch eine Transformationsimplementierung eines Phasen-Vokoders eingesetzt werden. Hier wird das Audiosignal 100 als Folge von zeitlichen Abtastwerten in einen FFT-Prozessor beziehungsweise allgemein in einen Kurzzeit-Fourier-Transformations-Prozessor 600 eingespeist. Der FFT-Prozessor 600 ist in 6 schematisch ausgebildet, um eine zeitliche Fensterung eines Audiosignals durchzuführen, um dann mittels einer FFT sowohl ein Betragspektrum als auch ein Phasenspektrum zu errechnen, wobei diese Berechnung für aufeinander folgende Spektren durchgeführt wird, die auf Blöcke des Audiosignals bezogen sind, die stark überlappend sind.
Im Extremfall kann für jeden neuen Audiosignal-Abtastwert ein neues Spektrum berechnet werden, wobei auch z. B. nur für jeden zwanzigsten neuen Abtastwert ein neues Spektrum berechnet werden kann. Dieser Abstand a in Abtastwerten zwischen zwei Spektren wird vorzugsweise durch eine Steuerung 602 vorgegeben. Die Steuerung 602 ist ferner ausgebildet, um einen IFFT-Prozessor 604 zu speisen, der ausgebildet ist, um im überlappenden Betrieb zu arbeiten. Insbesondere ist der IFFT-Prozessor 604 derart implementiert, dass er eine inverse Kurzzeit-Fourier-Transformation durchführt, indem ausgehend von einem Betrags-Spektrum und einem Phasen-Spektrum eine IFFT pro Spektrum durchgeführt wird, um dann eine Overlap-Add-Operation durchzuführen, aus der sich dann das Zeitbereichssignal ergibt. Diese Overlap-Add-Operation eliminiert die Auswirkung des Analyse-Fensters.
Eine Spreizung des Zeitsignals wird dadurch erreicht, dass der Abstand b zwischen zwei Spektren, wie sie vom IFFT-Prozessor 604 verarbeitet werden, größer als der Abstand a zwischen den Spektren bei der Erzeugung der FFT-Spektren war. Die Grundidee besteht also darin, das Audiosignal zu spreizen, indem die inversen FFTs einfach weiter als die Analyse-FFTs voneinander beabstandet sind. Als Ergebnis treten spektrale Änderungen im synthetisierten Audiosignal langsamer auf als im ursprünglichen Audiosignal.
Ohne eine Phasenumskalierung im Block 606 würde dies jedoch zu Frequenz-Artefakten führen. Wenn beispielsweise ein einzelner Frequenz-Bin betrachtet wird, für den aufeinander folgende Phasenwerte um 45 Grad implementiert wird, impliziert dies, dass das Signal innerhalb dieses Filterbandes in der Phase mit einer Rate von 1/8 eines Zyklus, also um 45 Grad pro Zeitintervall zunimmt, wobei das Zeitintervall hier das Zeitintervall zwischen aufeinander folgenden FFTs ist. Wenn nun die inversen FFTs weiter voneinander weg beabstandet werden, bedeutet dies, dass der 45-Grad-Phasenanstieg über einem längeren Zeitintervall auftritt. Dies bedeutet, dass die Frequenz dieses Signalanteils unbeabsichtigterweise reduziert worden ist. Um diese Artefakt-Frequenzreduktion zu eliminieren, wird die Phase um genau den selben Faktor umskaliert, um den das Audiosignal zeitlich gespreizt worden ist. Die Phase jedes FTT-Spektralwerts wird also um den Faktor b/a vergrößert, damit diese unbeabsichtigte Frequenzreduktion eliminiert wird.
Während also bei dem in 5c gezeigten Ausführungsbeispiel die Spreizung durch Interpolation der Amplituden-/Frequenz-Steuersignale für einen einzelnen Oszillator in der Filterbankimplementierung von 5a erreicht worden ist, wird die Spreizung in 6 dadurch erreicht, dass der Abstand zwischen zwei IFFT-Spektren größer als der Ab stand zwischen zwei FFT-Spektren war, dass als b größer als a ist, wobei jedoch zur Artefaktvermeidung eine Phasenumskalierung gemäß b/a vorgenommen wird.
Bezüglich einer detaillierten Beschreibung von Phasen-Vokodern wird auf nachfolgende Literaturstellen verwiesen:
„The Phase vocoder: A tutorial", Mark Dolson, Computer Music Journal, vol. 10, no. 4, pp. 14–27, 1986 beziehungsweise "New Phase vocoder techniques for pitchshifting, harmonizing and other exotic effects", L. Laroche und M. Dolson, Proceedings 1999 IEEE Workshop an applications of signalprocessing to audio and acoustics, New Paltz, New York, Oktober 17–20, 1999, Seiten 91 bis 94; "New approached to transient processing interphase vocoder", A. Röbel, Proceeding of the 6th international conference an digital audio effects (DAFx-03), London, UK, September 8–11, 2003, Seiten DAFx-1 bis DAFx-6; "Phaselocked vocoder", Meller Puckette, Proceedings 1995, IEEE ASSP, Conference an applications of signal processing to audio and acoustics, oder US-Patent Nr. 6,549,884 .
2b zeigt eine Verbesserung des in 2a gezeigten Systems, bei dem ein Transientendetektor 250 eingesetzt wird, der ausgebildet ist, um festzustellen, ob ein aktueller zeitlicher Bereich des Audiosignals einen transienten Anteil enthält. Ein transienter Anteil besteht darin, dass das Audiosignal sich insgesamt stark ändert, dass also z. B. die Energie des Audiosignals von einem zeitlichen Abschnitt zum nächsten zeitlichen Abschnitt um zum Beispiel mehr als fünfzig Prozent sich verändert, also zunimmt oder abnimmt. Die 50-Prozent-Schwelle ist jedoch lediglich beispielhaft und kann auch bei größeren oder kleineren Werten liegen. Alternativ kann zur Transientendetektion auch die Veränderung der Energie-Verteilung betrachtet werden, z. B. bei einem Übergang von einem Vokal zu einem Zischlaut.
Wird ein transienter Abschnitt des Audiosignals festgestellt, so wird von der harmonischen Transposition weg gegangen und für den transienten Zeitbereich auf eine nicht-harmonische Kopieroperation oder auf eine nicht-harmonische Spiegelung oder auf irgendeinen anderen Bandbreitenerweiterungsalgorithmus umgeschaltet, wie es bei 260 dargestellt ist. Wird dann wieder detektiert, dass das Audiosignal nicht mehr transient ist, so wird wieder eine harmonische Transposition vorgenommen, wie sie durch die Elemente 102, 105 in 1 dargestellt worden ist. Dies ist bei 270 in 2b dargestellt.
Die Ausgangssignale der Blöcke 270 und 260, die aufgrund der Tatsache, dass ein zeitlicher Abschnitt des Audiosignals entweder transient oder nicht transient sein kann, zeitlich versetzt ankommen, werden einem Zusammensetzer 280 zugeführt, der ausgebildet ist, um ein Bandpass-Signal über der Zeit zu liefern, das z. B. zur Tonalitätskorrektur im Block 109a von 2a geleitet werden kann. Alternativ kann die Zusammensetzung durch den Block 280 auch zum Beispiel erst nach dem Addierer 111 erfolgen. Dies würde jedoch bedeuten, dass für einen gesamten Transformationsblock des Audiosignals eine transiente Eigenschaft angenommen wird, beziehungsweise wenn die Filterbankimplementierung ebenfalls blockbasiert arbeitet, für einen solchen gesamten Block auf transient beziehungsweise nicht-transient entschieden wird.
Da ein Phasen-Vokoder 202a, 202b, 202c, wie er in 2a dargestellt ist und in den 5 und 6 detailliert erläutert wird, bei der Verarbeitung von transienten Signalanteile mehr Artefakte erzeugt als bei der Verarbeitung nicht-transienter Signalanteile, wird auf eine nicht-harmonische Kopieroperation oder Spiegelung umgeschaltet, wie es in 2b bei 260 dargestellt worden ist. Alternativ kann auch ein Phasenreset auf den Transienten durchgeführt werden, wie es z. B. in der Fachveröffentlichung von Laroche, die vorstehend zitiert worden ist, oder in dem US-Patent Nr. 6,549,884 beschrieben ist.
Wie es bereits dargestellt worden ist, wird in den Blöcken 109a, 109b nach der Erzeugung des HF-Anteils des Spektrums eine spektrale Formung und eine Anpassung an das ursprüngliche Maß der Rauschhaftigkeit vorgenommen. Die spektrale Formung kann z. B. mit Hilfe von Skalenfaktoren, dB(A)-gewichteten Skalenfaktoren oder einer linearen Prädiktion erfolgen, wobei bei der linearen Prädiktion der Vorteil existiert, dass keine Zeit-Frequenz-Umsetzung und keine anschließende Frequenz-Zeit-Umsetzung benötigt werden.
Die vorliegende Erfindung ist dahin gehend vorteilhaft, dass durch Verwendung der Phasen-Vokoder ein Spektrum mit aufsteigender Frequenz weiter gespreizt und durch die ganzzahlige Spreizung immer korrekt harmonisch fortgesetzt wird. Damit ist das Entstehen von Rauhigkeiten an der Grenzfrequenz des LF-Bereichs ausgeschlossen, und Beeinträchtigungen durch zu dicht besetzte HF-Anteile des Spektrums werden vermieden. Ferner können effiziente Phasen-Vokoder-Implementierungen eingesetzt werden, die ohne Filterbank-Patching-Operationen auskommen können.
Alternativ stehen andere Verfahren zur Signalspreizung, wie z. B. das PSOLA-Verfahren (PSOLA = Pitch Synchonous Overlap Add) zur Verfügung. Pitch Synchronous Overlap Add, abgekürzt PSOLA, ist ein Syntheseverfahren, bei dem sich in der Datenbank Aufzeichnungen des Sprachsignals befinden. Sofern es sich um periodische Signale handelt, sind diese mit einer Information über die Grundfrequenz (Pitch) versehen, und der Anfang jeder Periode ist markiert. Bei der Synthese werden diese Perioden mit einem bestimmten Umfeld mittels einer Fensterfunktion ausgeschnitten und dem zu synthetisierenden Signal an passender Stelle hinzuaddiert: Je nachdem ob die gewünschte Grundfrequenz höher oder tiefer liegt als die des Datenbankeintrags, werden sie entsprechend dichter oder weniger dicht als in dem Original zusammengefügt. Zur Anpassung der Lautdauer können Perioden entfallen oder doppelt ausgegeben werden. Dieses Verfahren wird auch als TD-PSOLA bezeichnet, wobei TD für Time Domain steht und hervorhebt, dass die Verfahren im Zeitbereich arbeiten. Eine Weiterentwicklung ist das Multi Band Resynthesis OverLap Add-Verfahren, kurz MBROLA. Hier werden die Segmente in der Datenbank durch eine Vorverarbeitung auf eine einheitliche Grundfrequenz gebracht und Phasenlage der Harmonischen wird normalisiert. Dadurch entstehen bei der Synthese eines Übergangs von einem Segment auf das nächste weniger perzeptiv wahrnehmbare Störungen, und die erzielte Sprachqualität ist höher.
Bei einer weiteren Alternative wird das Audiosignal bereits vor der Spreizung Bandpass-gefiltert, so dass das Signal nach seiner Spreizung und Dezimierung bereits die gewünschten Anteile enthält und die nachträgliche Bandpassfilterung entfallen kann. In diesem Fall ist das Bandpass-Filter so eingestellt, dass der Anteil des Audiosignals, der nach der Bandbreitenerweiterung herausgefiltert worden wäre, in dem Ausgangssignal des Bandpassfilters noch enthalten ist. Das Bandpass-Signal enthält also einen Frequenzbereich, der nach einer Spreizung und Dezimierung nicht in dem Audiosignal 106 enthalten ist. Das Signal mit diesem Frequenzbereich ist das gewünschte Signal, das das synthetisierte Hochfrequenz-Signal bildet. Bei diesem Ausführungsbeispiel wird der Verzerrer 109 kein Bandpass-Signal verzerren, sondern ein gespreiztes und dezimiertes Signal, das von einem Bandpass-gefilterten Audiosignal abgeleitet worden ist.
Ferner sei darauf hingewiesen, dass das das gespreizte Signal durchaus auch im Frequenzbereich des Originalsignals hilfreich sein kann, z. B. durch Mischen von Originalsignal und gespreiztem Signal, es ist also kein „strenger" Bandpass erforderlich. Das gespreizte Signal kann dann in dem Frequenzband, in dem es mit dem Originalsignal frequenzmä ßig überlappt, durchaus mit dem Originalsignal gemischt werden, um in dem Überlappungsbereich die Charakteristik des Originalsignals zu modifizieren.
Ferner sei darauf hingewiesen, dass die Funktionalitäten des Verzerrens 109 und Filterns 107 in einem einzigen Filterblock oder in zwei kaskadierten separaten Filtern implementiert werden können. Nachdem das Verzerren signalabhängig stattfindet, wird die Amplitudencharakteristik dieses Filterblocks variabel sein. Seine Frequenzcharakteristik ist jedoch signalunabhängig.
Je nach Ausführungsform kann also, wie es in 1 gezeigt ist, zunächst das gesamte Audiosignal gespreizt, dezimiert und dann gefiltert werden, wobei die Filterung den Operationen der Elemente 107, 109 entspricht. Es wird also nach oder gleichzeitig mit der Filterung verzerrt, wobei hierfür ein kombinierter Filter/Verzerrer-Block in Form eines digitalen Filters geeignet ist. Alternativ kann hier auch bereits vor der (Bandpass-)Filterung (107) die Verzerrung stattfinden, wenn zwei verschiedene Filterelemente verwendet werden.
Wieder alternativ kann auch vor der Spreizung eine Bandpassfilterung stattfinden, so dass nach der Dezimierung nur noch die Verzerrung (109) erfolgt. Hier werden für diese Funktionen zwei verschieden Elemente bevorzugt.
Wieder alternativ kann auch in allen obigen Varianten die Verzerrung nach der Kombination des Synthesesignals mit dem ursprünglichen Audiosignal stattfinden, wie z. B. mit einem Filter, das im Frequenzbereich des ursprünglichen Signals keine oder nur geringe Auswirkungen auf das zu filternde Signal hat, das jedoch im erweiterten Frequenzbereich die gewünschte Hüllkurve erzeugt. In diesem Fall werden wieder zwei verschieden Elemente für Extraktion und Verzerrung vorzugsweise eingesetzt.
Das erfindungsgemäße Konzept ist für alle Audio-Anwendungen geeignet, bei denen die volle Bandbreite nicht zur Verfügung steht. Bei der Verbreitung von Audio-Inhalten wie z. B. mit digitalem Radio, Internet-Streaming und bei Audio-Kommunikationsanwendungen kann das erfindungsgemäße Konzept eingesetzt werden.
Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren zum Analysieren eines Informationssignals in Hardware oder in Software implementiert werden. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des Verfahrens, wenn das Computer-Programm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt kann die Erfindung somit als ein Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens realisiert werden, wenn das Computer-Programm auf einem Computer abläuft.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

- WO 9857436 [0003]
- US 5455888 [0004]
- US 6895375 [0008]
- US 6549884 [0057, 0061]

Zitierte Nicht-Patentliteratur

- M. Dietz, L. Liljeryd, K. Kjörling and O. Kunz, "Spectral Band Replication, a novel approach in audio coding," in 112th AES Convention, München, Mai 2002 [0004]
- S. Meltzer, R. Böhm and F. Henn, "SBR enhanced audio codecs for digital broadcasting such as "Digital Radio Mondiale" (DRM)," 112th AES Convention, München, Mai 2002 [0004]
- T. Ziegler, A. Ehret, P. Ekstrand and M. Lutzky, "Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm," in 112th RES Convention, München, Mai 2002 [0004]
- International Standard ISO/IEC 14496-3: 2001/FPDAM 1, "Bandwidth Extension," ISO/IEC, 2002 [0004]
- E. Larsen, R. M. Aarts, and M. Danessis, „Efficient high-frequency bandwidth extension of music and speech", In AES 112th Convention, Munich, Germany, May 2002 [0006]
- K. Käyhkö, A. Robust Wideband Enhancement for Narrowband Speech Signal; Research Report, Helsinki University of Technology, Laboratory of Acoustics and Audio Signal Processing, 2001 [0006]
- J. Makinen et al.: AMR-WB+: a new audio coding standard for 3rd generation mobile audio services Broadcastes, IEEE, ICASSP '05 [0007]
- R. M. Aarts, E. Larsen, and O. Ouweltjes, "A unified approach to low- and high frequency bandwidth extension", AES 115th Convention, New York, USA, Oktober 2003 [0008]
- E. Larsen and R. M. Aarts "Audio Bandwidth Extension – Application to psychoacoustics, Signal Processing and Loudspeaker Design", John Wiley & Sons, Ltd., 2004 [0008]
- E. Larsen, R. M. Aarts, and M. Danessis "Efficient high-frequency bandwidth extension of music and speech", AES 112th Convention, München, Mai 2002 [0008]
- J. Makhoul, "Spectral Analysis of Speech by Linear Prediction", IEEE Transactions an Audio and Electroacoustics, AU-21(3), June 1973 [0008]
- Zwicker, E. and H. Fastl (1999), Psychoacoustics: Facts and models. Berlin – Springerverlag [0010]
- „The Phase vocoder: A tutorial", Mark Dolson, Computer Music Journal, vol. 10, no. 4, pp. 14–27, 1986 [0057]
- "New Phase vocoder techniques for pitchshifting, harmonizing and other exotic effects", L. Laroche und M. Dolson, Proceedings 1999 IEEE Workshop an applications of signalprocessing to audio and acoustics, New Paltz, New York, Oktober 17–20, 1999, Seiten 91 bis 94 [0057]
- "New approached to transient processing interphase vocoder", A. Röbel, Proceeding of the 6th international conference an digital audio effects (DAFx-03), London, UK, September 8–11, 2003, Seiten DAFx-1 bis DAFx-6 [0057]

Claims

Vorrichtung zur Bandbreitenerweiterung eines Audiosignals mit folgenden Merkmalen: einem Signalspreizer (102) zum Erzeugen einer um einen Spreizfaktor > 1 zeitlich gespreizten Version des Audiosignals als Zeitsignal; einem Dezimierer (105) zum Dezimieren der zeitlich gespreizten Version (103) des Audiosignals um einen Dezimierungsfaktor, der auf den Spreizfaktor abgestimmt ist; einem Filter (107, 109) zum Extrahieren eines verzerrten Signals aus dem dezimierten Audiosignal (106), das einen Frequenzbereich enthält, der nicht in dem Audiosignal (100) enthalten ist, oder zum Extrahieren eines Signals aus dem Audiosignal vor einer Spreizung durch den Signalspreizer (102), wobei das Signal einen Frequenzbereich enthält, der nach einer Spreizung und Dezimierung nicht in dem Audiosignal (106) enthalten ist, wobei das verzerrte Signal (108) so verzerrt ist, dass das verzerrte Signal (108), das dezimierte Audiosignal oder das Kombinationssignal eine vorbestimmte Hüllkurve aufweist; und einem Kombinierer (111) zum Kombinieren des verzerrten oder unverzerrten Signals mit dem Audiosignal (100), um ein in seiner Bandbreite erweitertes Audiosignal (112) zu erhalten.
Vorrichtung nach Anspruch 1, bei der der Signalspreizer ausgebildet ist, um einen ganzzahligen Spreizfaktor größer als 1 zu verwenden, bei der der Dezimierer (105) ausgebildet ist, um einen Dezimierungsfaktor zu nehmen, der gleich oder invers zu dem Spreizfaktor ist; und bei der das Filter (107) ausgebildet ist, um ein Bandpass-Signal so zu extrahieren, dass das Bandpass-Signal einen Frequenzbereich umfasst, der durch Spreizung und Dezimierung durch den Signalspreizer und den Dezimierer neu erzeugt worden ist.
Vorrichtung nach Anspruch 1 oder 2, bei der der Signalspreizer (102) ausgebildet ist, um das Audiosignal (100) so zu spreizen, dass eine Tonhöhe bzw. Pitch des Audiosignals nicht verändert wird.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Signalspreizer (102) ausgebildet ist, um das Audiosignal so zu spreizen, dass eine zeitliche Dauer des Audiosignals vergrößert wird, und dass eine Bandbreite des gespreizten Audiosignals gleich einer Bandbreite des Audiosignals ist.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Signalspreizer (102) einen Phasen-Vokoder (202a, 202b, 202c) aufweist.
Vorrichtung nach Anspruch 5, bei der der Phasen-Vokoder in einer Filterbank- oder in einer Fourier-Transformierer-Implementierung ausgebildet ist.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Signalspreizer (102) ausgebildet ist, um das Signal um einen Faktor 2 zu spreizen, um ein erstes gespreiztes Signal zu erhalten, bei der ferner ein weiterer Signalspreizer (202b) vorhanden ist, der ausgebildet ist, um das Signal um einen Faktor (3) zu spreizen, um ein zweites gespreiztes Signal zu erhalten, bei der der Dezimierer (105) ausgebildet ist, um das erste gespreizte Signal um den Faktor 2 zu dezimieren, bei der ferner ein weiterer Dezimierer (205b) vorhanden ist, der ausgebildet ist, um das zweite gespreizte Signal um den Faktor 3 zu dezimieren, bei der das Filter (107) ausgebildet ist, um ein in dem von dem ersten Dezimierer ausgegebenen Signal neu erzeugtes Band herauszufiltern, oder um vor der Spreizung eine Filterung vorzunehmen, wobei ferner ein zweites Bandpass-Filter (207b) vorhanden ist, um ein Band aus dem zweiten dezimierten Signal zu extrahieren, das neu bezüglich des ersten dezimierten Signals ist, oder um vor der Spreizung eine Filterung vorzunehmen, und wobei ferner ein Kombinierer (209) vorhanden ist, um extrahierte Signale zu addieren, oder um verzerrte extrahierte Signale zu addieren.
Vorrichtung nach Anspruch 7, bei der eine weitere Gruppe aus einem weiteren Phasen-Vokoder (202c), einem nachgeschalteten Dezimierer (205c) und einem nachgeschalteten Bandpass-Filter (207c) vorhanden sind, die auf einen Spreizungsfaktor (k) eingestellt sind, um ein weiteres Bandpass-Signal zu erzeugen, das dem Addierer (209) zuführbar ist.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Signalspreizer (102) ausgebildet ist, um ein Zeitsignal als Folge von Abtastwerten auszugeben, das die volle Bandbreite des Audiosignals (100) hat, und bei der der Dezimierer (105) ausgebildet ist, um als Eingangssignal die Folge von Abtastwerten zu erhalten und zu dezimieren.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Verzerrer (109) ausgebildet ist, um basierend auf übertragenen Parametern (713) die Verzerrung durchzuführen.
Vorrichtung nach einem der vorhergehenden Ansprüche, die ferner folgendes Merkmal aufweist: einen Transientendetektor (250), der ausgebildet ist, um dann, wenn ein transienter Abschnitt in dem Audiosignal detektiert wird, den Signalspreizer (102) oder den Dezimierer (105) anzusteuern, um eine alternative Art und Weise zur Erzeugung von höheren Spektralanteilen durchzuführen (260).
Vorrichtung nach einem der vorhergehenden Ansprüche, die ferner folgende Merkmale aufweist: ein Tonalitäts-/Rauschheits-Korrekturmodul (109a), das ausgebildet ist, um eine Tonalität oder Rauschheit des Bandpass-Signals oder des verzerrten Bandpass-Signals zu manipulieren.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Signalspreizer (102) eine Mehrzahl von Filterkanälen aufweist, wobei jeder Filterkanal ein Filter zum Erzeugen eines zeitlich variierenden Betragssignals (557) und eines zeitlich variierenden Frequenzsignals (560) sowie einen Oszillator (502), der durch die zeitlich variierenden Signale steuerbar ist, aufweist, wobei jeder Filterkanal einen Interpolierer zum Interpolieren des zeitlich variierenden Betragssignals (A(t)), um ein interpoliertes zeitlich variierendes Betragssignal (A'(t)) zu erhalten, oder einen Interpolierer zum Interpolieren des Frequenzsignals um den Spreizfaktor (104) aufweist, um ein interpoliertes Frequenzsignal zu erhalten, und wobei der Oszillator (502) jedes Filterkanals ausgebildet ist, um durch das interpolierte Betragssignal oder durch das interpolierte Frequenzsignal gesteuert zu werden.
Vorrichtung nach einem der Ansprüche 1 bis 12, bei dem der Signalspreizer (102) folgende Merkmale aufweist: einen FFT-Prozessor (600) zum Erzeugen von aufeinander folgenden Spektren für überlappende Blöcke von zeitlichen Abtastwerten des Audiosignals, wobei die überlappenden Blöcke um einen ersten zeitlichen Abstand (a) voneinander beabstandet sind; einem IFFT-Prozessor zum Transformieren von aufeinander folgenden Spektren von einem Frequenzbereich in den Zeitbereich, um überlappende Blöcke von zeitlichen Abtastwerten zu erzeugen, die um einen zweiten zeitlichen Abstand (b) voneinander beabstandet sind, der größer als der erste Abstand (a) ist; und einem Phasenumskalierer (606) zum Umskalieren der Phasen der Spektralwerte der Folgen von erzeugten FFT-Spektren gemäß einem Verhältnis des ersten Abstands (a) und des zweiten Abstands (b)
Verfahren zur Bandbreitenerweiterung eines Audiosignals, mit folgenden Schritten: Erzeugen (102) einer um einen Spreizfaktor > 1 zeitlich gespreizten Version des Audiosignals als Zeitsignal; Dezimieren (105) der zeitlich gespreizten Version (103) des Audiosignals um einen Dezimierungsfaktor, der auf den Spreizfaktor abgestimmt ist; Extrahieren (107, 109) eines verzerrten Signals aus dem dezimierten Audiosignal (106), das einen Frequenzbereich enthält, der nicht in dem Audiosignal (100) enthalten ist, o der Extrahieren eines Signals aus dem Audiosignal vor einer Spreizung (102), wobei das Signal einen Frequenzbereich enthält, der nach einer Spreizung und Dezimierung nicht in dem Audiosignal (106) enthalten ist, wobei das verzerrte Signal so verzerrt ist, dass das extrahierte Signal (108), das dezimierte Audiosignal oder das Kombinationssignal eine vorbestimmte Hüllkurve aufweist; und Kombinieren (111) des verzerrten oder unverzerrten Signals mit dem Audiosignal (100), um ein in seiner Bandbreite erweitertes Audiosignal (112) zu erhalten.
Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens gemäß Patentanspruch 15, wenn das Computer-Programm auf einem Computer abläuft.