-
Die
vorliegende Erfindung bezieht sich auf die Audiosignalverarbeitung
und insbesondere die Audiosignalverarbeitung in Situationen, bei
denen die verfügbare Datenrate eher klein ist.
-
Die
gehörangepasste Codierung von Audiosignalen zwecks Datenreduktion
zur effizienten Speicherung und Übertragung dieser Signale
hat sich in vielen Bereichen durchgesetzt. Kodieralgorithmen sind
insbesondere unter dem Namen „MP3" oder „MP4"
bekannt. Die hierzu verwendete Kodierung führt insbesondere
bei Erzielung geringster Bitraten zu einer Reduktion der Audioqualität,
die oft maßgeblich durch eine enkoderseitige Beschränkung
der zu übertragenden Audiosignalbandbreite verursacht wird.
-
Aus
der
WO 98 57436 ist
es bekannt, in einer solchen Situation auf Enkodierer-Seite das
Audiosignal einer Bandbegrenzung zu unterziehen und nur ein unteres
Band des Audiosignals mittels eines hochqualitativen Audio-Kodierers
zu kodieren. Das obere Band wird dagegen nur sehr grob charakterisiert,
nämlich durch einen Parametersatz, der die spektrale Hüllkurve
des oberen Bands wiedergibt. Auf Dekodiererseite wird dann das obere
Band synthetisiert. Hierzu wird eine harmonische Transposition vorgeschlagen,
bei der das untere Band des dekodierten Audiosignals einer Filterbank
zugeführt wird. Filterbankkanäle des unteren Bandes
werden mit Filterbankkanälen des oberen Bandes verbunden oder „gepatched",
und jedes gepatchte Bandpass-Signal wird einer Hüllkurvenanpassung,
die auch als „Envelope adjustment" bekannt ist, unterzogen.
Die zu einer speziellen Analyse-Filterbank gehörige Synthese-Filterbank
erhält hierbei im unteren Band Bandpass-Signale des Audiosignals
und im oberen Band Hüllkurven-angepasste Bandpass-Signale
des unteren Bands, die harmonisch gepatched worden sind. Das Ausgangssignal
der Synthese-Filterbank ist ein bezüglich seiner Bandbreite
erweitertes Audiosignal, das mit einer sehr geringen Datenrate von der
Enkodierer-Seite zu der Dekodierer-Seite übertragen worden
ist. Insbesondere die Filterbank-Berechnungen und das Patchen in
der Filterbank-Domäne kann rechenaufwändig werden.
-
Komplexitäts-reduzierte
Verfahren zur Bandbreitenerweiterung von bandbeschränkten
Audiosignalen benutzen stattdessen eine Kopierfunktion von tieffrequenten
Signalanteilen (LF) in den hohen Frequenzbereich (HF), um die aufgrund
der Bandbeschränkung fehlenden Informationen zu approximieren.
Solche Verfahren sind in
M. Dietz, L. Liljeryd, K. Kjörling
and O. Kunz, "Spectral Band Replication, a novel approach in audio
coding," in 112th AES Convention, München, Mai 2002;
S.
Meltzer, R. Böhm and F. Henn, "SBR enhanced audio codecs
for digital broadcasting such as "Digital Radio Mondiale" (DRM),"
112th AES Convention, München, Mai 2002;
T.
Ziegler, A. Ehret, P. Ekstrand and M. Lutzky, "Enhancing mp3 with
SBR: Features and Capabilities of the new mp3PRO Algorithm," in
112th RES Convention, München, Mai 2002;
International
Standard ISO/IEC 14496-3: 2001/FPDAM 1, "Bandwidth Extension," ISO/IEC,
2002, oder "Speech bandwidth extension method and apparatus",
Vasu Iyengar et al.
US-Patent-Nr.
5,455,888 beschrieben.
-
Bei
diesen Verfahren wird keine harmonische Transposition vorgenommen,
sondern es werden aufeinander folgende Bandpass-Signale des unteren
Bandes in aufeinander folgende Filterbankkanäle des oberen
Bandes eingefügt. Dadurch wird eine Grobapproximation des
oberen Bands des Audiosignals erreicht. Diese Grobapproximation
des Signals wird dann in einem weiteren Schritt durch eine Nachbearbeitung
unter Verwendung von Steuerinformationen, die aus dem Originalsignal
gewonnen wurden, an das Original angenähert. Dazu dienen
z. B. Skalenfaktoren für die Anpassung der spektralen Einhüllenden,
eine inverse Filterung und Addition eines Rauschteppichs zur Anpassung
der Tonalität sowie eine Ergänzung um sinusförmige
Signalanteile, wie es z. B. auch im MPEG-4-Standard beschrieben ist.
-
Daneben
existieren weitere Verfahren wie die so genannte „blinde
Bandbreitenerweiterung", die in E. Larsen, R. M. Aarts,
and M. Danessis, „Efficient high-frequency bandwidth extension
of music and speech", In AES 112th Convention, Munich, Germany,
May 2002 beschrieben ist, bei der keinerlei Informationen über
den ursprünglichen HF-Bereich verwendet werden. Ferner
existiert auch das Verfahren der so genannten "Artificial bandwidth
extension", die in K. Käyhkö, A. Robust
Wideband Enhancement for Narrowband Speech Signal; Research Report,
Helsinki University of Technology, Laboratory of Acoustics and Audio
Signal Processing, 2001 beschrieben ist.
-
In J.
Makinen et al.: AMR-WB+: a new audio coding standard for 3rd generation
mobile audio services Broadcastes, IEEE, ICASSP '05 ist
ein Verfahren zur Bandbreitenerweiterung beschrieben, bei der die
Kopieroperation der Bandbreitenerweiterung mit einem Hochkopieren
von aufeinander folgenden Bandpass-Signalen gemäß der
SBR-Technik durch eine Spiegelung, beispielsweise durch ein Upsampling
ersetzt wird.
-
Weitere
Techniken zur Bandbreitenerweiterung sind in folgenden Dokumenten
beschrieben.
R. M. Aarts, E. Larsen, and O. Ouweltjes, "A
unified approach to low- and high frequency bandwidth extension",
AES 115th Convention, New York, USA, Oktober 2003;
E.
Larsen and R. M. Aarts "Audio Bandwidth Extension – Application
to psychoacoustics, Signal Processing and Loudspeaker Design", John
Wiley & Sons,
Ltd., 2004;
E. Larsen, R. M. Aarts, and M. Danessis
"Efficient high-frequency bandwidth extension of music and speech",
AES 112th Convention, München, Mai 2002;
J.
Makhoul, "Spectral Analysis of Speech by Linear Prediction", IEEE
Transactions an Audio and Electroacoustics, AU-21(3), June 1973; United
States Patent Application 08/951,029;
United States
Patent No. 6,895,375 .
-
Bekannte
Verfahren der harmonischen Bandbreitenerweiterung zeigen eine hohe
Komplexität. Andererseits zeigen Verfahren der Komplexitäts-reduzierten
Bandbreitenerweiterung Qualitätseinbußen. Insbesondere
bei niedriger Bitrate und damit verbundener niedriger Bandbreite
des LF-Bereichs können Artefakte wie Rauhigkeit und ein
als unangenehm wahrgenommenes Timbre auftreten. Ein Grund dafür
ist die Tatsache, dass dem approximierten HF-Anteil eine Kopieroperation
zugrunde liegt, die die harmonischen Relationen tonaler Signalanteile
zueinander unbeachtet lässt. Dies gilt sowohl für
das harmonische Verhältnis zwischen LF und HF als auch
für die harmonischen Verhältnisse innerhalb des
HF-Anteils selbst. Bei der SBR kommt es beispielsweise an der Grenze
zwischen dem LF-Bereich und dem erzeugten HF-Bereich gelegentlich
zu rauen Klangeindrücken, da tonale Anteile, die aus dem
LF-Bereich in den HF-Bereich kopiert werden, wie es z. B. in 4a dargestellt
ist, im Gesamtsignal nun spektral dicht benachbart mit tonalen Anteilen
des LF-Bereichs zusammen treffen können. So ist in 4a ein
Originalsignal mit Spitzen bei 401, 402, 403, 404 gezeigt,
während ein Testsignal mit Spitzen bei 405, 406, 407, 408 gezeigt
ist. Durch das Kopieren von tonalen Anteilen aus dem LF-Bereich
in den HF-Bereich, wobei in 4a die
Grenze bei 4250 Hz war, ist der Abstand der beiden linken Peaks im
Testsignal geringer als die dem harmonischen Raster zugrunde liegende
Basisfrequenz, was zu einer Wahrnehmung von Rauhigkeit führt.
-
Da
die Breite gehörrichtiger Frequenzgruppen mit steigender
Mittenfrequenz zunimmt, wie es in Zwicker, E. and H. Fastl
(1999), Psychoacoustics: Facts and models. Berlin – Springerverlag beschrieben
ist, können sinusförmige Anteile, die im LF-Bereich
in verschiedenen Frequenzgruppen liegen, durch das Kopieren in den
HF-Bereich dort in der gleichen Frequenzgruppe zu Liegen kommen,
was ebenfalls zu einem rauen Höreindruck führt,
wie es in 4b ersichtlich ist. Hier ist
insbesondere gezeigt, dass das Kopieren des LF-Bereichs in den HF-Bereich
zu einer dichteren tonalen Struktur im Testsignal im Vergleich zum
Original führt. Das Originalsignal ist im höheren
Frequenzbereich relativ gleichmäßig über
das Spektrum verteilt, wie es insbesondere z. B. bei 410 gezeigt
ist. Dagegen ist insbesondere in diesem höheren Bereich
das Testsignal 411 relativ ungleichmäßig über
das Spektrum verteilt und damit deutlich tonaler als das Originalsignal 410.
-
Die
Aufgabe der vorliegenden Erfindung besteht darin, eine Bandbreitenerweiterung
mit hoher Qualität zu erreichen, jedoch gleichzeitig eine
Signalverarbeitung mit geringerer Komplexität zu erreichen, die
verzögerungsarm und aufwandsarm und damit auch mit Prozessoren
implementiert werden kann, die reduzierte Hardwareanforderungen
im Hinblick auf Prozessorgeschwindigkeit und benötigten
Speicher haben
-
Diese
Aufgabe wird durch eine Vorrichtung zur Bandbreitenerweiterung nach
Patentanspruch 1 oder ein Verfahren zur Bandbreitenerweiterung nach Patentanspruch
13 oder ein Computer-Programm nach Patentanspruch 14 gelöst.
-
Das
erfindungsgemäße Konzept zur Bandbreitenerweiterung
basiert auf einer zeitlichen Signalspreizung zum Erzeugen einer
um einen Spreizfaktor > 1
gespreizten Version des Audiosignals als Zeitsignal und einer anschließenden
Dezimierung des Zeitsignals, um ein transponiertes Signal zu erhalten,
das dann zum Beispiel durch ein einfaches Bandpassfilter gefiltert
werden kann, um einen Hochfrequenzsignalanteil zu extrahieren, der
lediglich noch verzerrt bzw. in seiner Amplitude verändert
werden kann, um eine gute Approximation zum ursprünglichen
hochfrequenten Anteil zu erhalten. Die Bandpassfilterung kann alternative
auch erfolgen, bevor die Signalspreizung durchgeführt wird,
so dass nur der gewünschte Frequenzbereich nach der Spreizung
im ge spreizten Signal vorhanden ist, so dass also eine Bandpassfilterung
nach der Spreizung entfallen kann.
-
Bei
der harmonischen Bandbreitenerweiterung werden einerseits die Probleme,
die durch eine Kopier- oder Spiegeloperation oder beides entstehen,
aufgrund einer harmonischen Fortsetzung und Spreizung des Spektrums
unter Verwendung des Signalspreizers zum Spreizen des zeitlichen
Signals vermieden. Andererseits ist eine zeitliche Spreizung und
anschließende Dezimierung durch einfache Prozessoren einfacher
ausführbar als eine komplette Analyse-/Synthese-Filterbank,
wie sie z. B. bei der harmonischen Transposition eingesetzt wird,
bei der zusätzlich noch Entscheidungen getroffen werden müssen,
wie das Patchen innerhalb der Filterbank-Domäne stattzufinden
hat.
-
Vorzugsweise
wird zum Signalspreizen ein Phasen-Vokoder eingesetzt, für
den es aufwandsgünstige Implementierungen gibt. Um Bandbreitenerweiterungen
mit Faktoren > 2 zu
erhalten, können auch mehrere Phasen-Vokoder parallel eingesetzt werden,
was insbesondere im Hinblick auf die Verzögerung der Bandbreitenerweiterung,
die bei Echtzeitanwendungen gering sein muss, günstig ist.
Alternativ stehen andere Verfahren zur Signalspreizung, wie z. B.
das PSOLA-Verfahren (PSOLA = Pitch Synchonous Overlap Add) zur Verfügung.
-
Bei
einem bevorzugten Ausführungsbeispiel der vorliegenden
Erfindung wird das LF-Audiosignal mit der maximalen Frequenz LFmax mit Hilfe des Phasen-Vokoders zunächst
in Richtung der Zeit gedehnt und zwar auf ein ganzzahliges Vielfaches
der üblichen Dauer des Signals. Hierauf findet in einem nachgeschalteten
Dezimierer eine Dezimierung des Signals um den Faktor der zeitlichen
Streckung statt, was insgesamt zu einer Spreizung des Spektrums führt.
Dies entspricht einer Transponierung des Audiosignals. Schließlich
wird das resultierende Signal Bandpass-gefiltert auf den Bereich
(Streckungsfaktor –1)·LFmax bis
Streckungsfaktor· LFmax. Alternativ
können die einzelnen durch Spreizung und Dezimierung erzeugten
Hochfrequenz-Signale derart einer Bandpassfilterung unterzogen werden,
dass sie sich am Ende über den gesamten Hochfrequenz-Frequenz-Bereich
(also von LFmax bis k·LFmax) additiv überlagern.
Dies ist sinnvoll für den Fall, dass doch eine höhere
spektrale Dichte von Harmonischen erwünscht ist.
-
Das
Verfahren der harmonischen Bandbreitenerweiterung wird bei einem
bevorzugten Ausführungsbeispiel der vorliegenden Erfindung
parallel für mehrere verschiedene Streckungsfaktoren durchgeführt.
Alternativ zur parallelen Verarbeitung kann auch ein einziger Phasen-Vokoder
verwendet werden, der seriell betrieben wird, und bei dem Zwischenergebnisse
zwischengespeichert werden. Damit können beliebige Bandbreitenerweiterungs-Grenzfrequenzen
erreicht werden. Die Streckung des Signals kann alternativ auch
direkt in Frequenzrichtung erfolgen, und zwar insbesondere durch
eine dem Funktionsprinzip des Phasen-Vokoders entsprechende duale
Operation.
-
Vorteilhafterweise
wird bei Ausführungsbeispielen der Erfindung keine Analyse
des Signals im Hinblick auf Harmonizität oder Fundamentalfrequenz benötigt.
-
Bevorzugte
Ausführungsbeispiele der vorliegenden Erfindung werden
nachfolgend bezugnehmend auf die beiliegenden Zeichnungen erläutert.
Es zeigen:
-
1 ein
Blockschaltbild des erfindungsgemäßen Konzepts
zur Bandbreitenerweiterung eines Audiosignals;
-
2a ein
Blockschaltbild einer Vorrichtung zur Bandbreitenerweiterung eines
Audiosignals gemäß einem Aspekt der vorliegenden
Erfindung;
-
2b eine
Verbesserung des Konzepts von 2a mit
Transientendetektoren;
-
3 eine
schematische Darstellung der Signalverarbeitung anhand von Spektren
zu bestimmten Zeitpunkten einer erfindungsgemäßen
Bandbreitenerweiterung;
-
4a einen
Vergleich zwischen einem Originalsignal und einem Testsignal, das
einen rauen Klangeindruck liefert;
-
4b einen
Vergleich eines Originalsignals mit einem Testsignal, das ebenfalls
zu einem rauen Höreindruck führt;
-
5a eine
schematische Darstellung der Filterbankimplementierung eines Phasen-Vokoders;
-
5b eine
detailliertere Darstellung eines Filters von 5a;
-
5c eine
schematische Darstellung zur Manipulation des Betragssignals und
des Frequenzsignals in einem Filterkanal von 5a;
-
6 eine
schematische Darstellung der Transformationsimplementierung eines
Phasen-Vokoders;
-
7a eine
schematische Darstellung der Enkodierer-Seite im Kontext der Bandbreitenerweiterung;
und
-
7b eine
schematische Darstellung der Dekodierer-Seite im Kontext einer Bandbreitenerweiterung
eines Audiosignals.
-
1 zeigt
eine schematische Darstellung einer Vorrichtung beziehungsweise
eines Verfahrens zur Bandbreitenerwei terung eines Audiosignals.
Lediglich beispielhaft wird 1 als Vorrichtung
beschrieben, obgleich 1 gleichzeitig auch das Flussdiagramm
eines Verfahrens zur Bandbreitenerweiterung aufgefasst werden kann.
Hierbei wird das Audiosignal an einem Eingang 100 in die
Vorrichtung eingespeist. Das Audiosignal wird einem Signalspreizer 102 zugeführt,
der ausgebildet ist, um eine um einen Spreizfaktor größer
als Eins zeitlich gespreizte Version des Audiosignals als Zeitsignal
zu erzeugen. Der Spreizfaktor wird bei dem in 1 gezeigten Ausführungsbeispiel über
einen Spreizfaktoreingang 104 zugeführt. Das gespreizte
Audio-Zeitsignal, das an einem Ausgang 103 des Signalspreizers 102 vorliegt,
wird einem Dezimierer 105 zugeführt, der ausgebildet
ist, um das zeitlich gespreizte Audio-Zeitsignal 103 um
einen Dezimierungsfaktor zu dezimieren, der auf den Spreizfaktor 104 abgestimmt
ist. Dies wird durch den Spreizfaktoreingang 104 in 1 schematisch
dargestellt, der gestrichelt eingezeichnet ist und in den Dezimierer 105 führt.
Bei einem Ausführungsbeispiel ist der Spreizfaktor im Signalspreizer
gleich dem Inversen des Dezimierungsfaktors. Wird beispielsweise
ein Spreizfaktor von 2,0 im Signalspreizer 102 angewendet,
so wird eine Dezimierung mit einem Dezimierungsfaktor 0,5 durchgeführt.
Wenn jedoch die Dezimierung dahingehend beschrieben wird, dass eine
Dezimierung um den Faktor 2 durchgeführt wird, dass also
jeder zweite Abtastwert eliminiert wird, so ist in dieser Darstellung der
Dezimierungsfaktor identisch zum Spreizfaktor. Alternative Verhältnisse
zwischen Spreizfaktor und Dezimierungsfaktor, wie beispielsweise
ganzzahlige Verhältnisse oder rationale Verhältnisse,
können ebenfalls eingesetzt werden, je nach Implementierung.
Die maximal harmonische Bandbreitenerweiterung wird jedoch dann
erreicht, wenn der Spreizfaktor gleich dem Dezimierungsfaktor beziehungsweise dem
Inversen des Dezimierungsfaktors ist.
-
Bei
einem bevorzugten Ausführungsbeispiel der vorliegenden
Erfindung ist der Dezimierer 105 ausgebildet, um jeden
z. B. zweiten Abtastwert (bei einem Spreizfaktor gleich Zwei) zu
eliminieren, so dass ein dezimiertes Audiosignal entsteht, das die selbe
zeitliche Länge hat wie das ursprüngliche Audiosignal 100.
Andere Dezimierungsalgorithmen, die beispielsweise gewichtete Mittelwerte
bilden oder die Tendenzen aus der Vergangenheit beziehungsweise der
Zukunft berücksichtigen, können ebenfalls eingesetzt
werden, obgleich jedoch eine einfache Dezimierung durch Eliminierung
von Abtastwerten sehr aufwandsarm implementiert werden kann. Das
durch den Dezimierer 105 erzeugte dezimierte Zeitsignal 106 wird
einem Filter 107 zugeführt, wobei das Filter 107 ausgebildet
ist, um ein Bandpass-Signal aus dem dezimierten Audiosignal 106 zu
extrahieren, das Frequenzbereiche enthält, die nicht in
dem Audiosignal 100 am Eingang der Vorrichtung enthalten
sind. In der Implementierung kann das Filter 107 als digitales
Bandpass-Filter, z. B. als FIR- oder IIR-Filter, oder aber auch
als analoges Bandpass-Filter implementiert sein, obgleich eine digitale
Implementierung bevorzugt wird. Ferner ist das Filter 107 derart
ausgebildet, dass es den oberen durch die Operationen 102 und 105 erzeugten
Spektralbereich extrahiert, wobei jedoch der untere Spektralbereich,
den das Audiosignal 100 ohnehin schon abdeckt, so stark
als möglich unterdrückt wird. In der Implementierung
kann das Filter 107 jedoch auch derart ausgebildet sein,
dass es auch Signalanteile mit Frequenzen als Bandpass-Signal extrahiert,
die im ursprünglichen Audiosignal 100 enthalten
sind, wobei das extrahierte Bandpass-Signal jedoch wenigstens ein
Frequenzband enthalten wird, das nicht im ursprünglichen
Audiosignal 100 enthalten war.
-
Das
Bandpass-Signal 108, das von dem Filter 107 ausgegeben
wird, wird einem Verzerrer 109 zugeführt, der
ausgebildet ist, um das Bandpass-Signal so zu verzerren, dass das
Bandpass-Signal eine vorbestimmte Hüllkurve aufweist. Diese
Hüllkurveninformationen, die zum Verzerren eingesetzt werden, können
extern eingegeben werden und sogar von einem Enkodierer stammen,
oder können intern z. B. durch blinde Extrapolation aus
dem Audiosignal 100 oder aufgrund von De kodierer-seitig
abgespeicherten Tabellen, die mit einer Hüllkurve des Audiosignals 100 indiziert
werden, intern generiert werden. Das von dem Verzerrer 109 ausgegebene
verzerrte Bandpass-Signal 110 wird schließlich
einem Kombinierer 111 zugeführt, der ausgebildet
ist, um das verzerrte Bandpass-Signal 110 mit dem ursprünglichen Audiosignal 100,
das je nach Implementierung noch verzögert worden ist (die
Verzögerungsstufe ist in 1 nicht
eingezeichnet) kombiniert, um ein in seiner Bandbreite erweitertes
Audiosignal an einem Ausgang 112 zu erzeugen.
-
Bei
einer alternativen Implementierung ist die Reihenfolge des Verzerrers 109 und
des Kombinierers 111 entgegen gesetzt zu der in 1 gezeigten
Darstellung. Hierbei wird das Filter-Ausgangssignal, also das Bandpass-Signal 108 direkt
mit dem Audiosignal 100 kombiniert, und die Verzerrung
des oberen Bandes des kombinierten Signals, das von dem Kombinierer 111 ausgegeben
wird, wird erst nach dem Kombinieren durch den Verzerrer 109 vorgenommen.
Bei dieser Implementierung arbeitet der Verzerrer als Verzerrer
zum Verzerren des Kombinationssignals so, dass das Kombinationssignal
eine vorbestimmte Hüllkurve aufweist. Der Kombinierer ist bei
diesem Ausführungsbeispiel also derart ausgebildet, dass
er das Bandpass-Signal 108 mit dem Audiosignal 100 kombiniert,
um ein in seiner Bandbreite erweitertes Audiosignal zu erhalten.
Bei diesem Ausführungsbeispiel, bei dem die Verzerrung
erst nach der Kombination stattfindet, wird es bevorzugt, den Verzerrer 109 derart
zu implementieren, dass er das Audiosignal 100 beziehungsweise
die Bandbreite des Kombinationssignals, die durch das Audiosignal 100 geliefert
wird, nicht antastet, da das untere Band des Audiosignals durch
einen hochqualitativen Kodierer kodiert worden ist und auf Dekodiererseite
bei der Synthese des oberen Bandes gewissermaßen das Maß aller
Dinge ist und durch die Bandbreitenerweiterung nicht beeinträchtigt
werden sollte.
-
Bevor
detailliertere Ausführungsbeispiele der vorliegenden Erfindung
dargestellt werden, wird anhand der 7a und 7b ein
Bandbreitenerweiterungs-Szenario dargestellt, in dem die vorliegende
Erfindung vorteilhaft ausgeführt werden kann. Ein Audiosignal
wird an einem Eingang 700 in eine Tiefpass-/Hochpass-Kombination 702 eingespeist. Die
Tiefpass-/Hochpass-Kombination umfasst einerseits einen Tiefpass
(TP), um eine Tiefpass-gefilterte Version des Audiosignals 700 zu
erzeugen, die bei 703 in 7a gezeigt
ist. Dieses Tiefpass-gefilterte Audiosignal wird mit einem Audiokodierer 704 kodiert.
Der Audiokodierer ist beispielsweise ein MP3-Kodierer (MPEG1 Layer3)
oder ein AAC-Kodierer, der auch als MP4-Kodierer bekannt ist und
im MPEG4-Standard beschrieben ist. Alternative Audiokodierer, die
eine transparente oder vorteilhafterweise psychoakustisch transparente
Darstellung des bandbegrenzten Audiosignals 703 liefern,
können im Kodierer 704 eingesetzt werden, um ein
voll kodiertes beziehungsweise psychoakustisch kodiertes und vorzugsweise
psychoakustisch transparent kodiertes Audiosignal 705 zu
erzeugen. Das obere Band des Audiosignals wird durch den Hochpass-Teil
des Filters 702, der mit "HP" bezeichnet ist, an einem
Ausgang 706 ausgegeben. Der Hochpass-Anteil des Audiosignals,
also das obere Band oder HF-Band, das auch als HF-Anteil bezeichnet
wird, wird einem Parameter-Berechner 707 zugeführt,
der ausgebildet ist, um verschiedene Parameter zu berechnen. Diese Parameter
sind beispielsweise die spektrale Hüllkurve des oberen
Bandes 706 in einer relativ groben Auflösung,
beispielsweise durch Darstellung eines Skalenfaktors für
jede psychoakustische Frequenzgruppe beziehungsweise für
jedes Bark-Band auf der Bark-Skala. Ein weiterer Parameter, der
durch den Parameter-Berechner 707 ausgerechnet werden kann,
ist der Rauschteppich im oberen Band, dessen Energie pro Band vorzugsweise
auf die Energie der Hüllkurve in diesem Band bezogen werden
kann. Weitere Parameter, die der Parameter-Berechner 707 berechnen
kann, umfassen ein Tonalitätsmaß für jedes
Teilband des oberen Bandes, das angibt, wie die spektrale Energie
in einem Band verteilt ist, also ob die spektrale Energie in dem
Band relativ gleichmäßig verteilt ist, wobei dann
ein nicht-tonales Signal in diesem Band vorliegt, oder ob die Energie
in diesem Band relativ stark an einer bestimmten Stelle in dem Band
konzentriert ist, wobei dann eher ein tonales Signal für
dieses Band vorliegt. Weitere Parameter bestehen darin, in dem oberen
Band relativ stark hervortretende Spitzen im Hinblick auf ihre Höhe
und ihre Frequenz explizit zu kodieren, da das Bandbreitenerweiterungskonzept
bei der Rekonstruktion ohne eine solche explizite Kodierung von
ausgeprägten Sinus-Anteilen im oberen Band diese nicht
oder nur sehr rudimentär wieder herstellen würde.
-
Auf
jeden Fall ist der Parameter-Berechner 707 ausgebildet,
um für das obere Band lediglich Parameter 708 zu
erzeugen, die ähnlichen Entropie-Reduktionsschritten unterzogen
werden können, wie sie auch im Audiokodierer 704 für
quantisierte Spektralwerte vorgenommen werden können, wie
beispielsweise Differenzkodierung, Prädiktion oder Huffman-Kodierung,
etc. Die Parameterdarstellung 708 und das Audiosignal 705 werden
dann einem Datenstromformatierer 709 zugeführt,
der ausgebildet ist, einen ausgangsseitigen Datenstrom 710 zu
liefern, der typischerweise ein Bitstrom nach einem bestimmten Format
sein wird, wie er beispielsweise im MPEG-4-Standard normiert ist.
-
Die
Dekodierer-Seite, wie sie für die vorliegende Erfindung
besonders geeignet ist, wird nachfolgend Bezug nehmend auf 7b dargestellt.
Der Datenstrom 710 tritt in einen Datenstrominterpretierer 711 ein,
der ausgebildet ist, um den Parameteranteil 708 vom Audiosignalanteil 705 zu
trennen. Der Parameteranteil 708 wird von einem Parameterdekodierer 712 dekodiert,
um dekodierte Parameter 713 zu erhalten. Parallel hierzu
wird der Audiosignalanteil 705 von einem Audiodekodierer 714 dekodiert,
um das Audiosignal zu erhalten, das bei 100 in 1 dargestellt
worden ist.
-
Je
nach Implementierung kann das Audiosignal 100 über
einen ersten Ausgang 715 ausgegeben werden. Am Ausgang 715 könnte
dann ein Audiosignal mit kleiner Bandbreite und damit aber auch kleiner
Qualität erhalten werden. Zur Qualitätsverbesserung
wird jedoch die erfindungsgemäße Bandbreitenerweiterung 720 vorgenommen,
die beispielsweise so ausgebildet ist, wie es in 1 dargestellt ist,
um ausgangsseitig das Audiosignal 112 mit erweiterter beziehungsweise
großer Bandbreite und großer Qualität
zu erhalten.
-
Nachfolgend
wird anhand von 2a eine bevorzugte Implementierung
der Bandbreitenerweiterungsimplementierung von 1,
die vorzugsweise im Block 720 von 7b eingesetzt
werden kann, dargestellt. 2a umfasst
zunächst einen Block, der mit "Audiosignal und Parameter"
bezeichnet ist, der den Blöcken 711, 712, 714 von 7b entsprechen
kann und mit 200 bezeichnet ist. Der Block 200 liefert
ausgangsseitig das Audiosignal 100 sowie dekodierte Parameter 713,
die für diverse Verzerrungen eingesetzt werden können,
wie beispielsweise für eine Tonalitäts-Korrektur 109a und
eine Hüllkurveneinstellung (Envelope Adjustment) 109b.
Das durch die Tonalitätskorrektur 109a und die
Hüllkurveneinstellung 109b erzeugte beziehungsweise
korrigierte Signal wird dem Kombinierer 111 zugeführt,
um ausgangsseitig das Audiosignal mit erweiterter Bandbreite 112 zu
erhalten.
-
Vorzugsweise
wird der Signalspreizer 102 von 1 durch
einen Phasen-Vokoder 202a implementiert. Der Dezimierer 105 von 1 wird
vorzugsweise durch einen einfachen Abtastratenwandler 205a implementiert.
Das Filter 107 zur Extraktion eines Bandpass-Signals wird
vorzugsweise durch ein einfaches Bandpass-Filter 107a implementiert.
Insbesondere werden der Phasen-Vokoder 202a und der Abtastraten-Dezimierer 205a mit
einem Spreizfaktor = Zwei betrieben.
-
Vorzugsweise
ist ein weiterer "Zug" aus Phasen-Vokoder 202b, Dezimierer 205b und
Bandpass-Filter 207b vorgesehen, um ein weiteres Bandpass-Signal
am Ausgang des Filters 207b zu extrahieren, das einen Frequenzbereich
zwischen der oberen Grenzfrequenz des Bandpass-Filters 207a und
dem Dreifachen der maximalen Frequenz des Audiosignals 100 aufweist.
-
Darüber
hinaus ist ein k-ter-Phasen-Vokoder 202c vorgesehen, der
eine Spreizung des Audiosignals um den Faktor k erreicht, wobei
k vorzugsweise eine ganze Zahl größer Eins ist.
Dem Phasen-Vokoder 202c ist ein Dezimierer 205c nachgeschaltet,
der um den Faktor k dezimiert. Schließlich wird das dezimierte
Signal einem Bandpass-Filter 207c zugeführt, das
ausgebildet ist, um eine untere Grenzfrequenz zu haben, die gleich
der oberen Grenzfrequenz des daneben liegenden Zweigs ist, und das
eine obere Grenzfrequenz hat, die dem k-fachen der maximalen Frequenz
des Audiosignals 100 entspricht. Alle Bandpass-Signale
werden durch einen Kombinierer 209 kombiniert, wobei der
Kombinierer 209 zum Beispiel als Addierer ausgebildet sein
kann. Alternativ kann der Kombinierer 209 auch als gewichteter
Addierer ausgebildet sein, der je nach Implementierung höhere
Bänder bereits unabhängig von der nachgeordneten
Verzerrung durch die Elemente 109a, 109b stärker
dämpft als niedrigere Bänder. Darüber
hinaus umfasst das in 2a gezeigte System eine Verzögerungsstufe 211,
die sicherstellt, dass im Kombinierer 111 eine synchronisierte
Kombination stattfindet, die beispielsweise eine Sample-weise Addition
sein kann.
-
3 zeigt
eine schematische Darstellung verschiedener Spektren, die bei der
in 1 oder in 2a gezeigten
Verarbeitung auftreten können. Teilbild (1) von 3 zeigt
ein bandbegrenztes Audiosignal, wie es beispielsweise bei 100 in 1 oder 703 in 7a vorliegt.
Dieses Signal wird durch den Signalspreizer 102 vorzugsweise
auf ein ganzzahliges Vielfaches der ursprünglichen Dauer
des Signals gedehnt und anschließend um den ganzzahligen Faktor
dezimiert, was insgesamt zu einer Spreizung des Spektrums führt,
wie es in Teilbild (2) in 3 dargestellt
ist. Der HF-Anteil ist in 3 dargestellt, wie
er durch ein Bandpass-Filter extrahiert wird, das ein Durchlassband 300 aufweist. 3 zeigt
im dritten Teilbild (3) die Variante, bei der das Bandpass-Signal
bereits mit dem ursprünglichen Audiosignal 100 vor
der Verzerrung des Bandpass-Signals kombiniert wird. Damit ergibt
sich ein Kombinationsspektrum mit unverzerrtem Bandpass-Signal,
wobei dann, wie es im Teilbild (4) gezeigt ist, eine Verzerrung
des oberen Bandes, jedoch wenn möglich keine Modifikation
des unteren Bandes stattfindet, um das Audiosignal 112 mit
erweiterter Bandbreite zu erhalten.
-
Das
LF-Signal im Teilbild (1) hat eine maximale Frequenz LFmax.
Der Phasen-Vokoder 202a führt eine Transponierung
des Audiosignals derart durch, dass die maximale Frequenz des transponierten
Audiosignals 2LFmax ist. Nun wird das resultierende
Signal im Teilbild (2) auf dem Bereich LFmax bis 2LFmax bandpassgefiltert. Allgemein betrachtet,
wenn der Spreizungsfaktor mit k (k > 1) bezeichnet wird, hat das Bandpass-Filter
ein Durchlassband von (k – 1)·LFmax bis
k·LFmax. Das in 3 dargestellte
Procedere wird für verschiedene Spreizungsfaktoren wiederholt,
bis die erwünschte höchste Frequenz K·LFmax erreicht wird, wobei K = dem maximalen
Erstreckungsfaktor kmax ist.
-
Nachfolgend
werden anhand der 5 und 6 bevorzugte
Implementierungen für einen Phasen-Vokoder 202a, 202b, 202c gemäß der
vorliegenden Erfindung dargestellt. 5a zeigt
eine Filterbankimplementierung eines Phasen-Vokoders, bei dem ein
Audiosignal an einem Eingang 500 eingespeist wird und an
einem Ausgang 510 erhalten wird. Insbesondere umfasst jeder
Kanal der in 5a gezeigten schematischen Filterbank
ein Bandpass-Filter 501 und einen nachgeschalteten Oszillator 502. Ausgangssignale
sämtlicher Oszillatoren aus jedem Kanal werden durch einen
Kombinierer, der beispielsweise als Addierer ausgebildet ist und
bei 503 gezeigt ist, kombiniert, um das Ausgangssignal
zu erhalten. Jedes Filter 501 ist so ausgebildet, dass
es ein Amplitudensignal einerseits und ein Frequenzsignal andererseits
liefert. Das Amplitudensignal und das Frequenzsignal sind Zeitsignale,
die eine Entwicklung der Amplitude in einem Filter 501 über
der Zeit darstellt, während das Frequenzsignal eine Entwicklung
der Frequenz des von einem Filter 501 gefilterten Signals
darstellt.
-
Ein
schematischer Aufbau eines Filters 501 ist in 5b dargestellt.
Jedes Filter 501 von 5a kann
so wie in 5b aufgebaut sein, wobei jedoch lediglich
die Frequenzen fi, die den beiden Eingangsmischern 551 und
dem Addierer 552 zugeführt werden, von Kanal zu
Kanal unterschiedlich sind. Die Mischerausgangssignale werden beide
Tiefpass-gefiltert und zwar durch Tiefpässe 553,
wobei sich die Tiefpass-Signale dahingehend unterscheiden, dass sie
durch Lokaloszillator-(LO-)Frequenzen erzeugt worden sind, die um
90 Grad außer Phase sind. Das obere Tiefpass-Filter 553 liefert
ein Quadratur-Signal 554, während das untere Filter 553 ein
In-Phase-Signal 555 liefert. Diese beiden Signale, also
I und Q, werden einem Koordinatentransformierer 556 zugeführt,
der aus der rechtwinkeligen Darstellung eine Betrags-Phasen-Darstellung
erzeugt. Das Betragssignal beziehungsweise Amplituden-Signal von 5a über
der Zeit wird an einem Ausgang 557 ausgegeben. Das Phasensignal
wird einem Phasen-Aufwickler 558 zugeführt, der
auch als Phasen-"Unwrapper" bezeichnet wird. Am Ausgang des Elements 558 liegt
dann nicht mehr ein Phasenwert vor, der immer zwischen 0 und 360
Grad ist, sondern ein Phasenwert, der linear ansteigt. Dieser "abgewickelte"
(„unwrapped") Phasenwert wird einem Phasen-/Frequenzwandler 559 zugeführt,
der z. B. als einfacher Phasen-Differenz-Bilder ausgebildet sein kann,
der eine Phase zu einem vorherigen Zeitpunkt von einer Phase zu
einem aktuellen Zeitpunkt subtrahiert, um einen Frequenzwert für
den aktuellen Zeitpunkt zu erhalten. Dieser Frequenzwert wird zu
dem konstanten Frequenzwert fi des Filterkanals
i hinzu addiert, um einen zeitlich variierenden Frequenzwert am
Ausgang 560 zu erhalten. Der Frequenzwert am Ausgang 560 hat
einen Gleichanteil = fi und einen Wechselanteil
= dem Frequenzhub, um den eine aktuelle Frequenz des Signals in
dem Filterkanal von dem der mittleren Frequenz fi abweicht.
-
Damit
erreicht der Phasen-Vokoder, wie in 5b und 5a dargestellt
ist, eine Trennung von Spektralinformationen und Zeitinformationen.
Die Spektralinformationen stecken in dem speziellen Kanal beziehungsweise
in der Frequenz fi, die für jeden Kanal
den Gleichanteil der Frequenz liefert, während die Zeitinformation
in dem Frequenzhub beziehungsweise dem Betrag über der
Zeit enthalten ist.
-
5c zeigt
eine Manipulation, wie sie erfindungsgemäß zur
Bandbreitenerhöhung vorgenommen wird, und zwar insbesondere
im Phasen-Vokoder 202a und insbesondere an der in 5a jeweils gestrichelt
eingezeichneten Stelle der dargestellten Schaltung.
-
Zur
zeitlichen Skalierung können z. B. die Amplituden-Signale
A(t) in jedem Kanal beziehungsweise die Frequenz der Signale f(t)
in jedem Signal dezimiert oder interpoliert werden. Zu Zwecken der Transposition,
wie sie für die vorliegende Erfindung nützlich
ist, wird jedoch eine Interpolation, also eine zeitliche Dehnung
beziehungsweise Spreizung der Signale A(t) und f(t) vorgenommen,
um gespreizte Signale A'(t) und f'(t) zu erhalten, wobei die Interpolation
durch den Spreizfaktor 104, wie er in 1 dargestellt
worden ist, gesteuert wird. Durch Interpolation der Phasenvariation,
also des Werts vor der Addition der konstanten Frequenz durch den
Addierer 552 wird die Frequenz jedes einzelnen Oszillators 502 in 5a nicht
geändert. Sehr wohl wird jedoch die zeitliche Änderung
des gesamten Audiosignals verlangsamt, und zwar um den Faktor 2.
Das Resultat ist ein zeitlich gespreizter Ton mit dem ursprünglichen Pitch,
also der ursprünglichen Grundwelle mit ihren Harmonischen.
-
Indem
die in 5c gezeigte Signalverarbeitung
durchgeführt wird, wobei eine solche Verarbeitung in jedem
Filter bandkanal in 5 vorgenommen wird,
und indem dann das resultierende zeitliche Signal im Dezimierer 105 von 1 beziehungsweise
im Dezimierer 205a in 2 dezimiert
wird, wird das Audiosignal wieder auf seine ursprüngliche
Dauer zurückgeschrumpft, während gleichzeitig
alle Frequenzen verdoppelt werden. Dies führt zu einer Pitch-Transposition
um den Faktor 2, wobei jedoch ein Audiosignal erhalten wird, das
die selbe Länge hat wie das ursprüngliche Audiosignal,
also die selbe Anzahl von Abtastwerten.
-
Alternativ
zu der in 5a gezeigten Filterbandimplementierung
kann auch eine Transformationsimplementierung eines Phasen-Vokoders
eingesetzt werden. Hier wird das Audiosignal 100 als Folge von
zeitlichen Abtastwerten in einen FFT-Prozessor beziehungsweise allgemein
in einen Kurzzeit-Fourier-Transformations-Prozessor 600 eingespeist.
Der FFT-Prozessor 600 ist in 6 schematisch
ausgebildet, um eine zeitliche Fensterung eines Audiosignals durchzuführen,
um dann mittels einer FFT sowohl ein Betragspektrum als auch ein
Phasenspektrum zu errechnen, wobei diese Berechnung für
aufeinander folgende Spektren durchgeführt wird, die auf
Blöcke des Audiosignals bezogen sind, die stark überlappend
sind.
-
Im
Extremfall kann für jeden neuen Audiosignal-Abtastwert
ein neues Spektrum berechnet werden, wobei auch z. B. nur für
jeden zwanzigsten neuen Abtastwert ein neues Spektrum berechnet
werden kann. Dieser Abstand a in Abtastwerten zwischen zwei Spektren
wird vorzugsweise durch eine Steuerung 602 vorgegeben.
Die Steuerung 602 ist ferner ausgebildet, um einen IFFT-Prozessor 604 zu
speisen, der ausgebildet ist, um im überlappenden Betrieb
zu arbeiten. Insbesondere ist der IFFT-Prozessor 604 derart
implementiert, dass er eine inverse Kurzzeit-Fourier-Transformation
durchführt, indem ausgehend von einem Betrags-Spektrum
und einem Phasen-Spektrum eine IFFT pro Spektrum durchgeführt
wird, um dann eine Overlap-Add-Operation durchzuführen,
aus der sich dann das Zeitbereichssignal ergibt. Diese Overlap-Add-Operation
eliminiert die Auswirkung des Analyse-Fensters.
-
Eine
Spreizung des Zeitsignals wird dadurch erreicht, dass der Abstand
b zwischen zwei Spektren, wie sie vom IFFT-Prozessor 604 verarbeitet
werden, größer als der Abstand a zwischen den
Spektren bei der Erzeugung der FFT-Spektren war. Die Grundidee besteht
also darin, das Audiosignal zu spreizen, indem die inversen FFTs
einfach weiter als die Analyse-FFTs voneinander beabstandet sind.
Als Ergebnis treten spektrale Änderungen im synthetisierten
Audiosignal langsamer auf als im ursprünglichen Audiosignal.
-
Ohne
eine Phasenumskalierung im Block 606 würde dies
jedoch zu Frequenz-Artefakten führen. Wenn beispielsweise
ein einzelner Frequenz-Bin betrachtet wird, für den aufeinander
folgende Phasenwerte um 45 Grad implementiert wird, impliziert dies,
dass das Signal innerhalb dieses Filterbandes in der Phase mit einer
Rate von 1/8 eines Zyklus, also um 45 Grad pro Zeitintervall zunimmt,
wobei das Zeitintervall hier das Zeitintervall zwischen aufeinander folgenden
FFTs ist. Wenn nun die inversen FFTs weiter voneinander weg beabstandet
werden, bedeutet dies, dass der 45-Grad-Phasenanstieg über
einem längeren Zeitintervall auftritt. Dies bedeutet, dass
die Frequenz dieses Signalanteils unbeabsichtigterweise reduziert
worden ist. Um diese Artefakt-Frequenzreduktion zu eliminieren,
wird die Phase um genau den selben Faktor umskaliert, um den das
Audiosignal zeitlich gespreizt worden ist. Die Phase jedes FTT-Spektralwerts
wird also um den Faktor b/a vergrößert, damit
diese unbeabsichtigte Frequenzreduktion eliminiert wird.
-
Während
also bei dem in 5c gezeigten Ausführungsbeispiel
die Spreizung durch Interpolation der Amplituden-/Frequenz-Steuersignale
für einen einzelnen Oszillator in der Filterbankimplementierung
von 5a erreicht worden ist, wird die Spreizung in 6 dadurch
erreicht, dass der Abstand zwischen zwei IFFT-Spektren größer
als der Ab stand zwischen zwei FFT-Spektren war, dass als b größer als
a ist, wobei jedoch zur Artefaktvermeidung eine Phasenumskalierung
gemäß b/a vorgenommen wird.
-
Bezüglich
einer detaillierten Beschreibung von Phasen-Vokodern wird auf nachfolgende
Literaturstellen verwiesen:
„The Phase vocoder:
A tutorial", Mark Dolson, Computer Music Journal, vol. 10, no. 4,
pp. 14–27, 1986 beziehungsweise
"New Phase
vocoder techniques for pitchshifting, harmonizing and other exotic
effects", L. Laroche und M. Dolson, Proceedings 1999 IEEE Workshop
an applications of signalprocessing to audio and acoustics, New
Paltz, New York, Oktober 17–20, 1999, Seiten 91 bis 94;
"New
approached to transient processing interphase vocoder", A. Röbel,
Proceeding of the 6th international conference an digital audio
effects (DAFx-03), London, UK, September 8–11, 2003, Seiten
DAFx-1 bis DAFx-6; "Phaselocked vocoder", Meller Puckette,
Proceedings 1995, IEEE ASSP, Conference an applications of signal processing
to audio and acoustics, oder
US-Patent Nr.
6,549,884 .
-
2b zeigt
eine Verbesserung des in 2a gezeigten
Systems, bei dem ein Transientendetektor 250 eingesetzt
wird, der ausgebildet ist, um festzustellen, ob ein aktueller zeitlicher
Bereich des Audiosignals einen transienten Anteil enthält.
Ein transienter Anteil besteht darin, dass das Audiosignal sich
insgesamt stark ändert, dass also z. B. die Energie des
Audiosignals von einem zeitlichen Abschnitt zum nächsten
zeitlichen Abschnitt um zum Beispiel mehr als fünfzig Prozent
sich verändert, also zunimmt oder abnimmt. Die 50-Prozent-Schwelle
ist jedoch lediglich beispielhaft und kann auch bei größeren
oder kleineren Werten liegen. Alternativ kann zur Transientendetektion
auch die Veränderung der Energie-Verteilung betrachtet
werden, z. B. bei einem Übergang von einem Vokal zu einem
Zischlaut.
-
Wird
ein transienter Abschnitt des Audiosignals festgestellt, so wird
von der harmonischen Transposition weg gegangen und für
den transienten Zeitbereich auf eine nicht-harmonische Kopieroperation
oder auf eine nicht-harmonische Spiegelung oder auf irgendeinen
anderen Bandbreitenerweiterungsalgorithmus umgeschaltet, wie es
bei 260 dargestellt ist. Wird dann wieder detektiert, dass
das Audiosignal nicht mehr transient ist, so wird wieder eine harmonische
Transposition vorgenommen, wie sie durch die Elemente 102, 105 in 1 dargestellt worden
ist. Dies ist bei 270 in 2b dargestellt.
-
Die
Ausgangssignale der Blöcke 270 und 260,
die aufgrund der Tatsache, dass ein zeitlicher Abschnitt des Audiosignals
entweder transient oder nicht transient sein kann, zeitlich versetzt
ankommen, werden einem Zusammensetzer 280 zugeführt, der
ausgebildet ist, um ein Bandpass-Signal über der Zeit zu
liefern, das z. B. zur Tonalitätskorrektur im Block 109a von 2a geleitet
werden kann. Alternativ kann die Zusammensetzung durch den Block 280 auch
zum Beispiel erst nach dem Addierer 111 erfolgen. Dies
würde jedoch bedeuten, dass für einen gesamten
Transformationsblock des Audiosignals eine transiente Eigenschaft
angenommen wird, beziehungsweise wenn die Filterbankimplementierung ebenfalls
blockbasiert arbeitet, für einen solchen gesamten Block
auf transient beziehungsweise nicht-transient entschieden wird.
-
Da
ein Phasen-Vokoder
202a,
202b,
202c, wie
er in
2a dargestellt ist und in den
5 und
6 detailliert
erläutert wird, bei der Verarbeitung von transienten Signalanteile
mehr Artefakte erzeugt als bei der Verarbeitung nicht-transienter
Signalanteile, wird auf eine nicht-harmonische Kopieroperation oder
Spiegelung umgeschaltet, wie es in
2b bei
260 dargestellt
worden ist. Alternativ kann auch ein Phasenreset auf den Transienten
durchgeführt werden, wie es z. B. in der Fachveröffentlichung
von Laroche, die vorstehend zitiert worden ist, oder in dem
US-Patent Nr. 6,549,884 beschrieben
ist.
-
Wie
es bereits dargestellt worden ist, wird in den Blöcken 109a, 109b nach
der Erzeugung des HF-Anteils des Spektrums eine spektrale Formung und
eine Anpassung an das ursprüngliche Maß der Rauschhaftigkeit
vorgenommen. Die spektrale Formung kann z. B. mit Hilfe von Skalenfaktoren, dB(A)-gewichteten
Skalenfaktoren oder einer linearen Prädiktion erfolgen,
wobei bei der linearen Prädiktion der Vorteil existiert,
dass keine Zeit-Frequenz-Umsetzung und keine anschließende
Frequenz-Zeit-Umsetzung benötigt werden.
-
Die
vorliegende Erfindung ist dahin gehend vorteilhaft, dass durch Verwendung
der Phasen-Vokoder ein Spektrum mit aufsteigender Frequenz weiter
gespreizt und durch die ganzzahlige Spreizung immer korrekt harmonisch
fortgesetzt wird. Damit ist das Entstehen von Rauhigkeiten an der
Grenzfrequenz des LF-Bereichs ausgeschlossen, und Beeinträchtigungen
durch zu dicht besetzte HF-Anteile des Spektrums werden vermieden.
Ferner können effiziente Phasen-Vokoder-Implementierungen
eingesetzt werden, die ohne Filterbank-Patching-Operationen auskommen
können.
-
Alternativ
stehen andere Verfahren zur Signalspreizung, wie z. B. das PSOLA-Verfahren
(PSOLA = Pitch Synchonous Overlap Add) zur Verfügung. Pitch
Synchronous Overlap Add, abgekürzt PSOLA, ist ein Syntheseverfahren,
bei dem sich in der Datenbank Aufzeichnungen des Sprachsignals befinden. Sofern
es sich um periodische Signale handelt, sind diese mit einer Information über
die Grundfrequenz (Pitch) versehen, und der Anfang jeder Periode
ist markiert. Bei der Synthese werden diese Perioden mit einem bestimmten
Umfeld mittels einer Fensterfunktion ausgeschnitten und dem zu synthetisierenden
Signal an passender Stelle hinzuaddiert: Je nachdem ob die gewünschte
Grundfrequenz höher oder tiefer liegt als die des Datenbankeintrags,
werden sie entsprechend dichter oder weniger dicht als in dem Original
zusammengefügt. Zur Anpassung der Lautdauer können
Perioden entfallen oder doppelt ausgegeben werden. Dieses Verfahren
wird auch als TD-PSOLA bezeichnet, wobei TD für Time Domain
steht und hervorhebt, dass die Verfahren im Zeitbereich arbeiten.
Eine Weiterentwicklung ist das Multi Band Resynthesis OverLap Add-Verfahren, kurz
MBROLA. Hier werden die Segmente in der Datenbank durch eine Vorverarbeitung
auf eine einheitliche Grundfrequenz gebracht und Phasenlage der Harmonischen
wird normalisiert. Dadurch entstehen bei der Synthese eines Übergangs
von einem Segment auf das nächste weniger perzeptiv wahrnehmbare
Störungen, und die erzielte Sprachqualität ist höher.
-
Bei
einer weiteren Alternative wird das Audiosignal bereits vor der
Spreizung Bandpass-gefiltert, so dass das Signal nach seiner Spreizung
und Dezimierung bereits die gewünschten Anteile enthält
und die nachträgliche Bandpassfilterung entfallen kann. In
diesem Fall ist das Bandpass-Filter so eingestellt, dass der Anteil
des Audiosignals, der nach der Bandbreitenerweiterung herausgefiltert
worden wäre, in dem Ausgangssignal des Bandpassfilters
noch enthalten ist. Das Bandpass-Signal enthält also einen Frequenzbereich,
der nach einer Spreizung und Dezimierung nicht in dem Audiosignal 106 enthalten
ist. Das Signal mit diesem Frequenzbereich ist das gewünschte
Signal, das das synthetisierte Hochfrequenz-Signal bildet. Bei diesem
Ausführungsbeispiel wird der Verzerrer 109 kein
Bandpass-Signal verzerren, sondern ein gespreiztes und dezimiertes
Signal, das von einem Bandpass-gefilterten Audiosignal abgeleitet
worden ist.
-
Ferner
sei darauf hingewiesen, dass das das gespreizte Signal durchaus
auch im Frequenzbereich des Originalsignals hilfreich sein kann,
z. B. durch Mischen von Originalsignal und gespreiztem Signal, es
ist also kein „strenger" Bandpass erforderlich. Das gespreizte
Signal kann dann in dem Frequenzband, in dem es mit dem Originalsignal
frequenzmä ßig überlappt, durchaus mit
dem Originalsignal gemischt werden, um in dem Überlappungsbereich
die Charakteristik des Originalsignals zu modifizieren.
-
Ferner
sei darauf hingewiesen, dass die Funktionalitäten des Verzerrens 109 und
Filterns 107 in einem einzigen Filterblock oder in zwei
kaskadierten separaten Filtern implementiert werden können. Nachdem
das Verzerren signalabhängig stattfindet, wird die Amplitudencharakteristik
dieses Filterblocks variabel sein. Seine Frequenzcharakteristik
ist jedoch signalunabhängig.
-
Je
nach Ausführungsform kann also, wie es in 1 gezeigt
ist, zunächst das gesamte Audiosignal gespreizt, dezimiert
und dann gefiltert werden, wobei die Filterung den Operationen der
Elemente 107, 109 entspricht. Es wird also nach
oder gleichzeitig mit der Filterung verzerrt, wobei hierfür
ein kombinierter Filter/Verzerrer-Block in Form eines digitalen Filters
geeignet ist. Alternativ kann hier auch bereits vor der (Bandpass-)Filterung
(107) die Verzerrung stattfinden, wenn zwei verschiedene
Filterelemente verwendet werden.
-
Wieder
alternativ kann auch vor der Spreizung eine Bandpassfilterung stattfinden,
so dass nach der Dezimierung nur noch die Verzerrung (109) erfolgt.
Hier werden für diese Funktionen zwei verschieden Elemente
bevorzugt.
-
Wieder
alternativ kann auch in allen obigen Varianten die Verzerrung nach
der Kombination des Synthesesignals mit dem ursprünglichen
Audiosignal stattfinden, wie z. B. mit einem Filter, das im Frequenzbereich
des ursprünglichen Signals keine oder nur geringe Auswirkungen
auf das zu filternde Signal hat, das jedoch im erweiterten Frequenzbereich
die gewünschte Hüllkurve erzeugt. In diesem Fall
werden wieder zwei verschieden Elemente für Extraktion und
Verzerrung vorzugsweise eingesetzt.
-
Das
erfindungsgemäße Konzept ist für alle Audio-Anwendungen
geeignet, bei denen die volle Bandbreite nicht zur Verfügung
steht. Bei der Verbreitung von Audio-Inhalten wie z. B. mit digitalem
Radio, Internet-Streaming und bei Audio-Kommunikationsanwendungen
kann das erfindungsgemäße Konzept eingesetzt werden.
-
Abhängig
von den Gegebenheiten kann das erfindungsgemäße
Verfahren zum Analysieren eines Informationssignals in Hardware
oder in Software implementiert werden. Die Implementierung kann
auf einem digitalen Speichermedium, insbesondere einer Diskette
oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die
so mit einem programmierbaren Computersystem zusammenwirken können,
dass das Verfahren ausgeführt wird. Allgemein besteht die
Erfindung somit auch in einem Computer-Programm-Produkt mit einem
auf einem maschinenlesbaren Träger gespeicherten Programmcode zur
Durchführung des Verfahrens, wenn das Computer-Programm-Produkt
auf einem Rechner abläuft. In anderen Worten ausgedrückt
kann die Erfindung somit als ein Computer-Programm mit einem Programmcode
zur Durchführung des Verfahrens realisiert werden, wenn
das Computer-Programm auf einem Computer abläuft.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste
der vom Anmelder aufgeführten Dokumente wurde automatisiert
erzeugt und ist ausschließlich zur besseren Information
des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen
Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt
keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- - WO 9857436 [0003]
- - US 5455888 [0004]
- - US 6895375 [0008]
- - US 6549884 [0057, 0061]
-
Zitierte Nicht-Patentliteratur
-
- - M. Dietz,
L. Liljeryd, K. Kjörling and O. Kunz, "Spectral Band Replication,
a novel approach in audio coding," in 112th AES Convention, München,
Mai 2002 [0004]
- - S. Meltzer, R. Böhm and F. Henn, "SBR enhanced audio
codecs for digital broadcasting such as "Digital Radio Mondiale"
(DRM)," 112th AES Convention, München, Mai 2002 [0004]
- - T. Ziegler, A. Ehret, P. Ekstrand and M. Lutzky, "Enhancing
mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm,"
in 112th RES Convention, München, Mai 2002 [0004]
- - International Standard ISO/IEC 14496-3: 2001/FPDAM 1, "Bandwidth
Extension," ISO/IEC, 2002 [0004]
- - E. Larsen, R. M. Aarts, and M. Danessis, „Efficient
high-frequency bandwidth extension of music and speech", In AES
112th Convention, Munich, Germany, May 2002 [0006]
- - K. Käyhkö, A. Robust Wideband Enhancement for
Narrowband Speech Signal; Research Report, Helsinki University of
Technology, Laboratory of Acoustics and Audio Signal Processing,
2001 [0006]
- - J. Makinen et al.: AMR-WB+: a new audio coding standard for
3rd generation mobile audio services Broadcastes, IEEE, ICASSP '05 [0007]
- - R. M. Aarts, E. Larsen, and O. Ouweltjes, "A unified approach
to low- and high frequency bandwidth extension", AES 115th Convention,
New York, USA, Oktober 2003 [0008]
- - E. Larsen and R. M. Aarts "Audio Bandwidth Extension – Application
to psychoacoustics, Signal Processing and Loudspeaker Design", John
Wiley & Sons,
Ltd., 2004 [0008]
- - E. Larsen, R. M. Aarts, and M. Danessis "Efficient high-frequency
bandwidth extension of music and speech", AES 112th Convention,
München, Mai 2002 [0008]
- - J. Makhoul, "Spectral Analysis of Speech by Linear Prediction",
IEEE Transactions an Audio and Electroacoustics, AU-21(3), June
1973 [0008]
- - Zwicker, E. and H. Fastl (1999), Psychoacoustics: Facts and
models. Berlin – Springerverlag [0010]
- - „The Phase vocoder: A tutorial", Mark Dolson, Computer
Music Journal, vol. 10, no. 4, pp. 14–27, 1986 [0057]
- - "New Phase vocoder techniques for pitchshifting, harmonizing
and other exotic effects", L. Laroche und M. Dolson, Proceedings
1999 IEEE Workshop an applications of signalprocessing to audio
and acoustics, New Paltz, New York, Oktober 17–20, 1999,
Seiten 91 bis 94 [0057]
- - "New approached to transient processing interphase vocoder",
A. Röbel, Proceeding of the 6th international conference
an digital audio effects (DAFx-03), London, UK, September 8–11,
2003, Seiten DAFx-1 bis DAFx-6 [0057]