-
Die Erfindung betrifft ein Verfahren
und eine Vorrichtung zur Veränderung
der zeitlichen Dauer und/oder der Tonhöhe eines diskreten Audiosignals bei
gleichbleibender Abtastrate mit besonderer Natürlichkeit an Transienten. Außerdem betrifft
die Erfindung ein Computerprogramm zur Umsetzung des Verfahrens
und einen Datenträger
mit einem solchen Computerprogramm.
-
Bei der Verarbeitung von Audiosignalen kann
es beispielsweise im Musikproduktionsprozess notwendig sein, bereits
aufgenommene Stimmen und/oder Instrumente zu verändern oder zu verfremden, ohne
eine erneute Aufnahme durchführen
zu müssen.
Beispiele hierfür
können
eine Veränderung des
Tempos eines Musikstückes
oder eine nachträgliche Veränderung
der Tonlage sein. Zusätzlich
werden neue kreative Möglichkeiten
geschaffen, Musik zu gestalten.
-
Bekannte Verfahren zur zeitlichen
Veränderung,
insbesondere zur Verlängerung
von Audiosignalen, und zur Veränderung
der Tonhöhe
von Audiosignalen sind beispielsweise in "Time and Pitch scale modification of
audio signals",
Jean Laroche in M. Kahns und Karlheinz Brandenburg (Hrsg.), Applications
of Digital Signal Processing to Audio and Acoustics, Kluwer Academic
Press, 1998, Kapitel 7, S. 279-310, beschrieben.
-
Die bekannten Verfahren zur zeitlichen
Veränderung
lassen sich in zwei Grundtechniken einteilen.
-
Zum einen gibt es Lösungen im
Zeitbereich. Eine Vorraussetzung für diese Algorithmen ist die
Annahme, dass das zu verändernde
Signal monophon ist, also nicht ein Gemisch aus mehreren Instrumenten
darstellt. Beispiele für
derartige Lösungen
sind das Pitch Synchrone Splicing (PSS) und das Pitch Synchrone
Overlap Add (PSOLA) Verfahren. Beim PSS Verfahren basiert die Veränderung
der Signallänge
auf einer zeitlichen Wiederholung von kurzen Abschnitten, wobei
eine Wiederholung im Raster der Grundfrequenz als besonders vorteilhaft
gilt. Beim PSOLA Verfahren wird zusätzlich eine Fensterung vorgesehen,
bevor die neuen Signalabschnitte in das Ausgangssignal eingefügt werden.
Die einzufügenden
Signalabschnitte sind wiederum gefensterte Wiederholungen des Eingangssignals
im Abstand der Grundfrequenz. Zusätzlich ist eine Bestimmung der
Grundfrequenz notwendig, wozu eine Vielzahl bekannter Algorithmen
zur Verfügung
steht.
-
Als besonderer Nachteil des PSOLA
Verfahrens hat sich das Einbringen von Langzeitkorrelation durch
die Wiederholung fester Signalabschnitte erwiesen. Das Ausgangssignal
enthält
durch die Wiederholung einen unnatürlichen Klang, der insbesondere
bei Singstimmen zu einer nicht annehmbaren Qualität führt.
-
Zum anderen sind Lösungen im
Frequenzbereich bekannt. Sie nutzen das bekannte Fourier-Theorem,
dass sich jedes komplexe Signal als eine Zerlegung von Sinusschwingungen
darstellen lässt.
Mit diesem Verfahren lassen sich auch Gemische aus mehreren Signalen,
z.B. Instrumenten, zeitlich verändern.
-
Bei den Frequenzbereichsverfahren
hat sich der sog. Phase-Vocoder als besonders vorteilhaft erwiesen.
Bei diesem Verfahren werden die im Frequenzbereich vorliegenden
Kurzzeitspektren in ein neues starres Raster abgebildet, das dem
Faktor der zeitlichen Veränderung
entspricht. Beispielsweise werden bei einer Verdoppelung der Tonlänge zwischen
den Kurzzeitbetragsspektren neue geschätzte Spektren eingefügt. Die
Berechnung der neuen Spektren erfolgt mittels geeigneter Interpolationsverfahren.
-
Als nachteilig bei den Frequenzbereichsverfahren
hat sich erwiesen, dass durch die Interpolation im Frequenzbereich
Impulse im Zeitbereich deutlich gestreckt werden und deshalb impulshafte
Signale eine zu große
Weichheit bekommen.
-
Für
die Veränderung
der Tonhöhe
sind bisher zwei grundsätzliche
Verfahren bekannt. Beim ersten Verfahren wird das zu verändernde
Signal um einen bestimmten Faktor verlängert oder verkürzt, um
dann mit einer veränderten
Auslesegeschwindigkeit, bzw. einem sog. Resampling, ein in der Tonhöhe verändertes
Signal zu erhalten. Beispielsweise ist bei einer Veränderung
der Tonhöhe
um eine Oktave (doppelte Frequenz) eine Verlängerung des Signals um den Faktor
zwei notwendig. Wird nun nur jeder zweite Abtastwert ausgelesen
und wurde das Signal vorher zur Vermeidung von Aliasing tiefpassgefiltert,
wird ein Signal mit der doppelten Frequenz gewonnen. Bei Anwendung
des Verfahrens stellt sich jedoch heraus, dass das natürliche Resonanzverhalten
eines Instrumentes (die Formanten) ebenfalls verschoben werden.
Das neue Ausgangssignal hat einen besonders unnatürlichen
Klang. Bei Sprache wird dies durch den sogenannten Mickey-Mouse-Effekt
deutlich.
-
Das zweite Verfahren zur Veränderung
der Tonhöhe
vermeidet dieses Problem, indem ein Verfahren gewählt wird,
dass dem PSOLA Verfahren entlehnt ist, nach dem Erfinder als Lent-Algorithmus bezeichnet
wird und in „An
efficent method for pitch shifting digitally sampled sounds", K. Lent, Computer Music
Journal, 13(4):65-71, 1989 beschrieben ist. Dabei wird zur Bildung
des neuen Ausgangssignals eine Überlappung
der Teilabschnitte im Raster der gewünschten neuen Grundfrequenz
durchgeführt. Das
Formantverhalten bleibt konstant, aber die Grundfrequenz kann so
verändert
werden. Bei natürlichen
Signalen, insbesondere bei einer Singstimme, verändern sich aber die Formanten
leicht. Aus diesem Grund hat sich die Kombination aus dem Lent-Algorithmus
mit einem anschließenden Resampling,
das nur mit einer sehr geringen Verschiebung arbeitet, als besonders
günstig
herausgestellt.
-
Allen bekannten Verfahren ist gemeinsam, dass
nur eine Rechenvorschrift für
die Tonhöhentransformation
nach oben und unten verwendet wird und dass das Eingangssignal breitbandig
und als ganzes verändert
wird. Außerdem
treten bei allen bekannten Verfahren mehr oder weniger unerwünschte Seiteneffekte
auf, die es zu minimieren gilt. Entscheidend für die Güte eines Verfahrens ist immer
die subjektiv wahrgenommene Qualität des Ausgangssignals nach
der Veränderung.
-
US
5,952,596 beschreibt ein Verfahren zur Veränderung
der Geschwindigkeit und der Tonhöhe von
Audiosignalen mittels digitaler Signalverarbeitung. Aus der
US 2001/0023399 A1 sind
eine Audiosignalverarbeitungsvorrichtung und ein entsprechendes
Verfahren bekannt, mit denen ein im Zeitbereich komprimiertes oder
expandiertes Audiosignal wiedergegeben werden kann, ohne dass die
Tonhöhe verändert wird.
-
In der deutschen Patentanmeldung
102 10 978.8 ist ein Verfahren beschrieben, gemäß dem ein Audiosignal in wenigstens
zwei Teilsignale aufgespalten und jeweils einem Bearbeitungskanal
zugeführt
wird. In dem Bearbeitungskanal wird die zeitliche Dauer und/oder
die Tonhöhe
der Teilsignale auf unterschiedliche Weise gesondert verändert und
die gesondert bearbeiteten Teilsignale werden danach zu einem Ausgangssignal
zusammengefasst. Durch diese Bearbeitung ließ sich die Qualität des Ausgangssignals
bereits steigern.
-
Ein weiteres in der deutschen Patentanmeldung
102 10 978.8 beschriebenes Verfahren sieht vor, dass das Audiosignal
wenigstens zwei parallelen Bearbeitungskanälen zugeführt wird, dass die zeitliche
Dauer und/oder die Tonhöhe
der Audiosignale auf unterschiedliche Weise gesondert verändert wird, dass
die gesondert bearbeiteten Audiosignale jeweils in wenigstens zwei
Teilsignale aufgespalten werden und dass danach ein Ausgangssignal
durch Kombination jeweils wenigstens eines Teilsignals jedes Bearbeitungskanals
gebildet wird.
-
Diesen Verfahren ist gemeinsam, dass
die Bearbeitungskanäle
unabhängig
voneinander arbeiten und somit keinerlei Informationen über die
Art der Bearbeitung (z.B. Blocklänge
des Verfahrens) bekannt sind. Dies kann zu einem Qualitätsverlust
an Übergangslauten
(Transienten) führen.
-
Der Erfindung liegt daher die Aufgabe
zugrunde, ein Verfahren und eine Vorrichtung zur Veränderung
der zeitlichen Dauer und/oder der Tonhöhe eines diskreten Audiosignals
anzugeben, mit denen sich eine weiter verbesserte Klangqualität, insbesondere
an Transienten, erreichen lässt.
-
Diese Aufgabe wird erfindungsgemäß durch ein
Verfahren nach Anspruch 1 dadurch gelöst, dass das Audiosignal in
wenigstens zwei Teilsignale aufgespalten und jeweils einem Bearbeitungskanal
zugeführt
wird, dass die zeitliche Dauer und/oder die Tonhöhe der Teilsignale auf unterschiedliche
Weise verändert
wird, dass die gesonderte Bearbeitung der wenigstens zwei Teilsignale
wenigstens zeitweise synchronisiert wird und dass die gesondert
bearbeiteten Teilsignale danach zu einem Ausgangssignal zusammengefasst
werden.
-
Diese Aufgabe wird erfindungsgemäß auch durch
ein Verfahren nach Anspruch 2 dadurch gelöst, dass die zeitliche Dauer
und/oder die Tonhöhe
der Audiosignale auf unterschiedliche Weise gesondert verändert wird,
dass die gesonderte Bearbeitung des Audiosignals in den wenigstens
zwei parallelen Bearbeitungskanälen
wenigstens zeitweise synchronisiert wird, dass die gesondert bearbeiteten
Audiosignale jeweils in wenigstens zwei Teilsignale aufgespalten werden
und dass danach ein Ausgangssignal durch Kombination jeweils wenigstens
eines Teilsignals jedes Bearbeitungskanals gebildet wird.
-
Entsprechende erfindungsgemäße Vorrichtungen
sind in den Ansprüchen
19 und 20 angegeben. Ein Computerprogramm zur Umsetzung der erfindungsgemäßen Verfahren
ist in Anspruch 21 angegeben. Ein Datenträger mit einem solchen Computerprogramm
ist in Anspruch 22 angegeben. Vorteilhafte Ausgestaltungen der Erfindung
sind in den Unteransprüchen
angegeben.
-
Erfindungsgemäß erfolgt also die Bearbeitung
des Audiosignals in mehreren Bearbeitungskanälen. Jedoch wird die Bearbeitung
der Teilsignale in den wenigstens zwei Bearbeitungskanälen durch eine
Synchronisation gekoppelt. Die Synchronisation stellt sicher, dass
die Bearbeitungskanäle
zu bestimmten Zeitpunkten möglichst
exakt denselben Signalabschnitt bearbeiten.
-
Durch die Erfindung kann die subjektiv
wahrgenommene Qualität
des Ausgangssignals signifikant verbessert werden. Der entscheidende
Vorteil gegenüber
den bekannten Verfahren ist, dass die einzelnen Bearbeitungskanäle nicht
mehr völlig
unabhängig
voneinander arbeiten, sondern wenigstens zeitweise synchronisiert
werden. Es kann also während
der Verarbeitung Einfluss auf die Parameter des Verfahrens genommen
werden, so dass z.B. eine Verschmierung der Transienten verhindert
werden kann.
-
Gemäß einer bevorzugten Ausgestaltung der
Erfindung erfolgt die ' Synchronisation
der Bearbeitungskanäle
durch eine Synchronisationseinheit, welche Steuersignale für die Synchronisation
verarbeitet. Diese beinhalten Signale des Bearbeitungskanal, beispielsweise
den tatsächlichen
Faktor der zeitlichen Verlängerung
des Audiosignal (Timestretchfaktor), die momentane Blocklänge, den
momentanen Verarbeitungsstatus (z.B. Zeitpunkt im Originalsignal),
und Signale zur Verwaltung, beispielsweise den angestrebten Faktor
der zeitlichen Verlängerung des
Audiosignal (Timestretchfaktor) oder den Synchronisationszeitpunkt,
der vom Bearbeitungskanal eingehalten werden muss.
-
Weitere bevorzugte Ausgestaltungen
der Synchronisation sind in den Ansprüchen 4 und 5 angegeben. Bevorzugt
erfolgt demnach die Synchronisation der gesonderten Bearbeitung
an Transienten im Audiosignal, wobei vorzugsweise die Transienten nicht
verändert
werden. Grundsätzlich
ist die Synchronisation aber zu jedem beliebigen Zeitpunkt denkbar,
z.B. zur Abstimmung mit einem zum Audiosignal gehörenden Videobild.
Des weiteren kann beispielsweise durch Beeinflussung der Bearbeitungsparameter
des jeweiligen Algorithmus (z.B. der Blocklänge oder des Timestretchfaktors)
erreicht werden, dass (nur) zu bestimmten Zeitpunkten synchronisiert
wird.
-
Gemäß einer bevorzugten Ausgestaltung der
Erfindung erfolgt die gesonderte Bearbeitung in den wenigstens zwei
parallelen Bearbeitungskanälen mittels
desselben Verfahrens mit unterschiedlichen Parametern. Alternativ
können
auch völlig
unterschiedliche Verfahren zum Einsatz kommen.
-
Bevorzugte Ausgestaltungen des erfindungsgemäßen Verfahrens
zur Veränderung
der Tonlänge
sind in den Ansprüchen
7 bis 12 angegeben. Eine bevorzugte Ausgestaltung des erfindungsgemäßen Verfahrens
zur Veränderung
der Tonhöhe eines
Audiosignals ist in Anspruch 13 angegeben.
-
Insbesondere hat sich eine Aufspaltung
des Audiosignals durch Frequenzaufteilung in einzelne Frequenzbänder als
vorteilhaft erwiesen. Zur Aufteilung kommen dabei bevorzugt linearphasige und/oder
rein transversale Filter zum Einsatz. Grundsätzlich ist jedoch auch eine
völlig
andere Aufspaltung des Audiosignals, z.B. eine zeitliche Aufspaltung,
in einzelne Teilsignale denkbar.
-
Für
die bevorzugte Frequenzaufteilung gibt es grundsätzlich verschiedene Möglichkeiten.
So ist es denkbar, die Frequenzaufteilung auf mehrere Teilsignale
durch beliebige Zuordnung der Frequenzen zu den einzelnen Teilsignalen
vorzunehmen, wobei auch die Möglichkeit
umfasst sein soll, dass eines der Teilsignale dem Originalsignal
entspricht.. Darüber hinaus
kann die Frequenzaufteilung auch komplementär erfolgen, so dass der Frequenzbereich
in mehrere, nicht überlappende
Teilbereich aufgespalten wird. Bevorzugt ist die komplementäre Bandaufteilung,
bei der der Frequenzbereich in einzelne jeweils zusammenhängende Frequenzbereiche
unterteilt wird, die jeweils einem Teilsignal zugeordnet werden.
-
Die Erfindung soll nachfolgend anhand
der in den Zeichnungen gezeigten Ausführungsbeispiele näher erläutert werden.
Es zeigen:
-
1 ein
Beispiel zum Verändern
der Länge eines
Audiosignals durch das sog. Pitch Synchrone Splicing Verfahren,
-
2 ein
Beispiel zum Verändern
der Länge eines
Audiosignals durch das sog. Pitch Synchrone Overlap-Add (PSOLA)
Verfahren,
-
3 die
schematische Wirkungsweise des Phase-Vocoders zur Veränderung
der Länge
eines Audiosignals,
-
4 die
Veränderung
eines Impulses durch den Phase-Vocoder,
-
5 schematisch
die Wirkungsweise des Resamplings zur Veränderung der Tonhöhe,
-
6 schematisch
die Probleme bei Veränderung
der Tonhöhe
durch f ein Resampling-Verfahren,
-
7 schematisch
die Wirkungsweise des Lent-Algorithmus zum Verändern der Tonhöhe,
-
8 schematisch
das Formantverhalten des Lent-Algorithmus bei einer Tonhöhenveränderung,
-
9 ein
Blockschaltbild einer ersten Ausführungsform eines in der deutschen
Patentanmeldung 102 10 978.8 beschriebenen Verfahrens,
-
10 ein
Blockschaltbild einer zweiten Ausführungsform eines in der deutschen
Patentanmeldung 102 10 978.8 beschriebenen Verfahrens,
-
11 schematisch
die Auswirkung der Bearbeitung eines Signals ohne Synchronisation
der Bearbeitungskanäle.
-
12 ein
Blockschaltbild einer ersten allgemeinen Ausführungsform des erfindungsgemäßen Verfahrens,
-
13 ein
Blockschaltbild einer zweiten Ausführungsform des erfindungsgemäßen Verfahrens,
-
14 schematisch
die Auswirkung der Synchronisation durch Anpassung der Blocklänge,
-
15 schematisch
die Wirkungsweise der Erhaltung der Transienten bei der Synchronisation.
-
16 eine
spezielle Form einer komplementären
Filterbank zur effizienten Aufteilung eines Signals in zwei Bänder durch
Nutzung linearphasiger FIR-Filter,
-
17 ein
Blockschaltbild einer ersten Ausführungsform des erfindungsgemäßen Verfahrens zur
Veränderung
der Tonlänge,
-
18 ein
Blockschaltbild einer ersten Ausführungsform des erfindungsgemäßen Verfahrens zur
Veränderung
der Tonhöhe,
-
19 ein
Blockschaltbild einer zweiten Ausführungsform des erfindungsgemäßen Verfahrens
zur Veränderung
der Tonlänge,
-
20 einen
Tiefpass-Perioden-Synthesizer,
-
21 ein
Blockschaltbild einer dritten Ausführungsform des erfindungsgemäßen Verfahrens zur
Veränderung
der Tonlänge,
-
22 ein
Blockschaltbild einer zweiten Ausführungsform des erfindungsgemäßen Verfahrens
zur Veränderung
der Tonhöhe,
-
23 ein
Blockschaltbild einer dritten Ausführungsform des erfindungsgemäßen Verfahrens zur
Veränderung
der Tonhöhe,
-
24 ein
Blockschaltbild einer vierten Ausführungsform des erfindungsgemäßen Verfahrens zur
Veränderung
der Tonhöhe
und
-
25 verschiedene
Möglichkeiten
der Frequenzaufteilung von Audiosignalen.
-
Zur Erläuterung der eingangs genannten Zeitbereichsverfahren
zur Veränderung
der Tonlänge von
Audiosignale sind das Pitch Synchrone Splicing (PSS) und das Pitch
Synchrone Overlap Add (PSOLA) Verfahren in den 1 und 2 gezeigt.
Beim PSS Zeitbereichsverfahren (1)
basiert die Veränderung
der Signallänge
auf einer zeitlichen Wiederholung von kurzen Abschnitten, wobei
eine Wiederholung im Raster der Grundfrequenz (Pitch-Abstand) als
besonders vorteilhaft gilt. 1a zeigt
ein originales Audiosignal aus dem zur zeitlichen Verlängerung kurze
Signalabschnitte als Wiederholungen hinter den originalen Signalabschnitten
eingefügt
werden, um eine Verlängerung
der zeitlichen Dauer des Audiosignals um den Faktor 2 zu erreichen. 1b zeigt ein solches zeitlich
verlängertes
Audiosignal.
-
Für
das in 2 gezeigte PSOLA-Verfahren wird
zusätzlich
eine Fensterung mittels Fensterfunktionen (2a) vorgesehen, bevor die neuen Signalabschnitte
in das Ausgangssignal eingefügt
werden. Die einzufügenden
Signalabschnitte sind wiederum gefensterte Wiederholungen des Eingangssignals
im Abstand der Grundfrequenz. Zusätzlich ist eine Bestimmung
der Grundfrequenz notwendig, wobei hierzu eine Vielzahl bekannter
Algorithmen zur Verfügung
steht. 2b zeigt das
durch Einfügen
der gefensterten Wiederholung zeitlich verlängerte Audiosignal.
-
Die Funktionsweise eines Phase-Vocoders zur
Veränderung
der Tonlänge
mittels eines Frequenzbereichsverfahren ist in 3 erläutert.
Bei diesem Verfahren werden die im Frequenzbereich vorliegenden
Kurzzeitspektren – gezeigt
sind in 3a und 3b Frequenzspektren zu unterschiedlichen
Abtastzeitpunkten k – in
ein neues starres Raster abgebildet,. das dem Faktor der zeitlichen
Veränderung
entspricht. Beispielsweise werden bei einer Verdoppelung der Tonlänge zwischen
den Kurzzeitbetragsspektren neue geschätzte Spektren eingefügt. Die
Berechnung der neuen Spektren erfolgt mittels geeigneter Interpolationsverfahren.
In den 3c und 3e sind die in den 3a und 3b gezeigten Spektren nochmals gezeigt,
zwischen denen ein neues, aus diesen Spektren interpoliertes Spektrum (3d) für einen zwischen den Abtastzeitpunkten (k=1
und k=2) der originalen Spektren liegenden Abtastzeitpunkt (k=1.5)
eingefügt
wird, woraus sich ein neues Abtastzeitraster m=1, 2, 3 ergibt.
-
Als nachteilig bei dem Phase-Vocoder
hat sich erwiesen, dass durch die Interpolation im Frequenzbereich
Impulse im Zeitbereich deutlich gestreckt werden und deshalb impulshafte
Signale eine zu große
Weichheit bekommen. Beispielsweise wird dadurch ein in 4a gezeigtes impulshaftes
Signal in ein gestrecktes in 4b gezeigtes
Signal umgewandelt.
-
Das Resampling-Verfahren zur Veränderung der
Tonhöhe
ist in 5 näher erläutert. Dabei
wird das zu verändernde
Originalsignal (5a)
um einen bestimmten Faktor verlängert
(5b) oder verkürzt, um
dann mit einer veränderten
Auslesegeschwindigkeit, bzw. dem sog. Resampling, ein in der Tonhöhe verändertes
Signal (5c) zu erhalten. Beispielsweise
ist bei einer Veränderung
der Tonhöhe
um eine Oktave (doppelte Frequenz) eine Verlängerung des Signals um den
Faktor zwei notwendig. Wird nun nur jeder zweite Abtastwert ausgelesen
und wurde das Signal vorher zur Vermeidung von Aliasing tiefpassgefiltert,
wird ein Signal mit der doppelten Frequenz gewonnen. Zur Veranschaulichung
der Nachteile dieses Verfahrens ist in 6 das Formantverhalten beim Resampling
verdeutlicht. Bei Anwendung des Verfahrens auf ein Originalsignal,
dessen Spektrum beispielhaft in 6a gezeigt
wird, stellt sich heraus, dass das natürliche Resonanzverhalten eines
Instrumentes – die
Formanten – ebenfalls
verschoben werden. Das neue Ausgangssignal (6b) hat einen besonders unnatürlichen
Klang. Bei Sprache wird dies durch den sog. Mickey-Mouse Effekt
deutlich.
-
Der in 7 erläuterte Lent-Algorithmus
zur Veränderung
der Tonhöhe
vermeidet dieses Problem. Dabei wird zur Bildung des neuen Ausgangssignals
die Überlappung
der Teilabschnitte im Raster der gewünschten neuen Grundfrequenz
(Pitch-Abstand) durchgeführt. 7a zeigt ein Originalsignal. 7b zeigt ein neues Signal
mit verringerter Tonhöhe,
das durch Einfügen
von Nullen zwischen Teilabschnitte des Originalsignals gebildet
wird, bei dem also die Grundfrequenz verringert wird. 7d zeigt ein neues Signal
mit gesteigerter Tonhöhe,
das durch Überlappung
der Perioden des Originalsignals wie in 7c gezeigt gebildet wird, bei dem also
die Grundfrequenz erhöht
wird.
-
Das Formantverhalten bleibt bei diesem
Verfahren konstant, aber die Grundfrequenz kann so verändert werden,
wie in 8 gezeigt ist.
In 8a ist ein Spektrum
eines Originalsignals (7a)
vor Anwendung des Lent-Algorithmus
gezeigt; in 8b ist ein
Spektrum eines neuen Signals mit verringerter Tonhöhe (7b) nach Anwendung des Lent-Algorithmus
gezeigt. Bei natürlichen
Signalen, insbesondere bei einer Singstimme, verändern sich aber die Formanten
leicht. Aus diesem Grund hat sich die Kombination aus dem Lent-Algorithmus
mit einem anschließenden
Resampling, das nur mit einer sehr geringen Verschiebung arbeitet,
als besonders günstig
herausgestellt.
-
Das in der deutschen Patentanmeldung
102 10 978.8 beschriebene Verfahren soll anhand des in 9 gezeigten Blockschaltbildes
näher erläutert werden.
Das Verfahren basiert auf einer Aufspaltung des Eingangssignals
xAll(k) mittels einer Trenneinheit 11.
Am Ausgang der Trenneinheit 11 entstehen so zwei oder mehr
Teilsignale, die im folgenden mit x0(k) für ein erstes,
x1(k) für
ein zweites und xN_1(k)
für ein N-tes
Teilsignal bezeichnet werden. Jedes dieser Teilsignale wird nun
einem gesonderten Bearbeitungskanal mit jeweils einer gesonderten
Bearbeitungseinheit 12a, 12b, 12c zugeführt, in
denen die einzelnen Teilsignale auf unterschiedliche Weise bearbeitet
werden. Zur Beschreibung der unterschiedlichen Bearbeitung wird
als allgemeines Symbol f(x0(k)) eingeführt; somit
sind die unterschiedlichen Bearbeitungsarten durch f0(x0(k)), f1(x1(k)) und fN_1(xN_1(k))
bezeichnet. Die Unterschiede in der Bearbeitung können dabei
durch die Wahl unterschiedlicher Parameter eines bestimmten Verfahrens,
das in allen Bearbeitungseinheiten 12a, 12b, 12c angewendet
wird, oder durch unterschiedliche Verfahren erreicht werden. In
einer abschließenden
Kombinationseinheit 13 werden die unterschiedlich bearbeiteten
Teilsignale y0(k), y1(k),...,
yN_1(k) wieder zu
einem Ausgangssignal yAll(k) zusammengesetzt.
-
Eine weitere Möglichkeit, das in der deutschen
Patentanmeldung 102 10 978.8 beschriebene Verfahren zu realisieren,
ist bei der in 10 als Blockschaltbild
gezeigten Vorrichtung verwirklicht. Hierbei wird das Eingangssignal
xAll(k) ohne Modifikation vervielfältigt und
den einzelnen Bearbeitungskanälen
mit den unterschiedlichen Bearbeitungseinheiten 21a, 21b, 21c,
die durch f0(xAll(k)),
f1(xAll(k)) und fN_1(xAll(k))
gekennzeichnet sind, zugeführt.
Eine anschließende
Aufspaltung mit einer Trenneinheit 22a, 22b, 22c in
jedem Bearbeitungskanal führt
zur Aufspaltung der Ausgangssignale yi
All(k) (i=0, 1,..., N-1) in jeweils N unterschiedliche
Teilsignale yi_i(k). In
der abschließenden
Kombinationseinheit 23 wird aus jedem Bearbeitungskanal
jeweils ein Teilsignal ausgewählt
und zum Ausgangssignal yAll(k) zusammengesetzt.
In dem gezeigten Beispiel werden die Teilsignale y 0_0 (k),
y 1_1 (k),..., y N-1
_
N_1 (k)
zu dem Ausgangssignal yAll(k) zusammengesetzt.
-
In 11 ist
die Wirkungsweise des in der deutschen Patentanmeldung 102 10
978.8 beschriebenen Verfahrens im Frequenzbereich dargestellt. Dabei
wird das Originalsignal (11a),
zunächst
in 2 Frequenzbänder
(Teilsignale) aufgeteilt. Das Originalsignal besteht hierbei aus
einer Folge von 2 Tönen,
wobei der Tonwechsel zum Zeitpunkt t, erfolgt. Die beiden Frequenzbänder werden
um einen Faktor 1,5 getrennt voneinander mit unterschiedlichen Verfahren
verlängert
(11b). Wie der 11b zu entnehmen ist, kommt
es durch die unterschiedlichen Blocklängen, die zur Verlängerung
der Teilsignale mit unterschiedlichen Verfahren verwendet wurden,
zu einer Überlagerung
der beiden im Originalsignal vorhandenen Töne zum Zeitpunkt 1,5 t 1. Daher hat es sich als günstig herausgestellt,
eine solche Überlagerung
durch die Synchronisation der Bearbeitungsverfahren an markanten
Stellen im Signal zu vermeiden.
-
Das erfindungsgemäße Verfahren soll anhand des
in 12 gezeigten Blockschaltbildes
der erfindungsgemäßen Vorrichtung
näher erläutert werden.
Das Verfahren basiert, wie auch das erste in der deutschen Patentanmeldung
02 10 978.8 beschriebene Verfahren, auf einer Aufspaltung des Eingangssignals
xAll(k) mittels einer Trenneinheit 31.
Am Ausgang der Trenneinheit 31 entstehen so zwei oder mehr
Teilsignale, die im folgenden mit x0(k)
für ein erstes,
x1(k) für
ein zweites und xN_1(k)
für ein
N-tes Teilsignal bezeichnet werden. Jedes dieser Teilsignale wird
nun einem gesonderten Bearbeitungskanal mit jeweils einer gesonderten
Bearbeitungseinheit 33a, 33b, 33c zugeführt, in
denen die einzelnen Teilsignale auf unterschiedliche Weise bearbeitet
werden. Zur Beschreibung der unterschiedlichen Bearbeitung wird
wiederum das Symbol f(x0(k)) genutzt; somit
sind die unterschiedlichen Bearbeitungsarten durch f0(x0(k)), f1(x1(k)) und fN_1(xN_1(k)) bezeichnet. Die
Unterschiede in der Bearbeitung können dabei durch die Wahl unterschiedlicher
Parameter eines bestimmten Verfahrens, das in allen Bearbeitungseinheiten 33a, 33b, 33c angewendet
wird, oder durch unterschiedliche Verfahren erreicht werden. Außerdem werden
die Teilsignale x0(k), x1(k)
bis xN_1(k) einer
Synchronisationseinheit 32 zugeführt. Durch diese Synchronisationseinheit 32 wird
die Bearbeitung der einzelnen Teilsignale überwacht und durch geeignete
Steuersignale eine Synchronisation der Bearbeitungskanäle zu bestimmten
Zeitpunkten im Signal erreicht. In einer abschließenden Kombinationseinheit 34 werden
die unterschiedlich bearbeiteten Teilsignale y0(k),
y1(k),..., yN_1(k) wieder zu einem Ausgangssignal yAll(k) zusammengesetzt.
-
Eine weitere Möglichkeit, das erfindungsgemäße Verfahren
zu realisieren, ist bei der in 13 als
Blockschaltbild gezeigten Vorrichtung verwirklicht. Hierbei wird
das Eingangssignal xAll(k) ohne Modifikation
vervielfältigt
und den einzelnen Bearbeitungskanälen mit den unterschiedlichen
Bearbeitungseinheiten 42a, 42b, 42c,
die durch f0(xAll'(k)), f1(xA
ll(k)) und fN_ 1(xAll(k))
gekennzeichnet sind, und der Synchronisationseinheit 41 zugeführt. Durch
die Synchronisationseinheit 41 wird wiederum eine Synchronisation
der Bearbeitungskanäle
zu bestimmten Zeitpunkten im Signal mittels Steuersignalen erreicht.
Eine anschließende
Aufspaltung mit einer Trenneinheit 43a, 43b, 43c in
jedem Bearbeitungskanal führt
zur Aufspaltung der Ausgangssignale yi
All(k) (i=0, 1,..., N-1) in jeweils N unterschiedliche
Teilsignale y i_i (k). In der abschließenden Kombinationseinheit 44 wird
aus jedem Bearbeitungskanal jeweils ein Teilsignal ausgewählt und
zum Ausgangssignal yAll(k) zusammengesetzt.
In dem gezeigten Beispiel werden die Teilsignale y 0_0 (k),
y 1_1 (k),..., y N_1_
N_1 (k)
zu dem Ausgangssignal yAll(k) zusammengesetzt.
-
In 14 ist
schematisch die Auswirkung einer Verlängerung um den Faktor 1,5 mit
Synchronisation gezeigt. In diesem Fall wird zur Erhaltung des dargestellten
Tonwechsels zum Zeitpunkt 1,5 t1 die Blocklänge des
ersten Bandes kurzfristig so angepasst, dass der Tonwechsel ohne
Probleme erfolgen kann.
-
Besonders vorteilhaft ist hierbei
eine Synchronisation des Signals an Transienten. Hierbei bezeichnen
Transienten Übergangslaute,
also Stellen, an denen sich das Signal schnell ändert.
-
Eine spezielle Realisierungsform
des erfindungsgemäßen Verfahrens
wird anhand von 15 erläutert. In 15a ist ein Originalsignal
im Zeitbereich dargestellt, wobei zum Zeitpunkt t1 ein
Transient im Signal vorhanden ist, der bis zum Zeitpunkt t2 anhält.
In 15b ist ein um den
Faktor 2 verlängertes Signal
dargestellt. Hierbei wurden die Bearbeitungskanäle derart synchronisiert, dass
der Originalsignalabschnitt t0 bis t1 auf den verlängerten Signalabschnitt 2 t0 bis 2 t1 abgebildet
wird. Über
die Dauer des Transienten wird nun keinerlei Verlängerung durchgeführt, um
den Orignalübergangslaut
zu erhalten. Anschließend
wird der nächste
Signalabschnitt derart verlängert,
dass das gesamte Ausgangssignal genau die doppelte Länge des
Originalsignals besitzt.
-
Bei dem erfindungsgemäßen Verfahren
erfolgt vorzugsweise in der Trenneinheit 31a bzw. den Trenneinheiten 43a, 43b, 43c eine
frequenzmäßige Aufspaltung
des Eingangssignals durch geeignete Filter in unterschiedliche Frequenzbereiche.
Beispielhaft erfolgt eine Aufteilung in zwei Frequenzbänder durch
ein Hochpass- und ein Tiefpassfilter.
-
Besonders vorteilhaft ist dabei die
Verwendung von linearphasigen FIR-Filtern, da mit diesen eine besonders
effiziente Zerlegung erfolgen kann, die anhand von 16 genauer erläutert wird. Das Eingangssignal
x(k) wird durch ein linearphasiges Tiefpassfilter 51 gefiltert,
woraus sich das Ausgangssignal xTP(k) ergibt.
Das linearphasige Tiefpassfilter 51 mit einer ungeraden
Anzahl an Koeffizienten besitzt eine konstante Gruppenlaufzeit,
die durch eine einfache Verzögerungseinheit
(Delay) kompensiert werden kann und muss. Aus diesem Grund wird
das Eingangssignal x(k) zusätzlich
um diese Zeit mittels einer Verzögerungseinheit 52 verzögert. In
einem abschließenden
Verfahrensschritt wird von diesem verzögerten Signal xD(k)
das Tiefpassausgangssignal xTP(k) mittels
eines Addierers 53 abgezogen, woraus sich der komplementäre Hochpassanteil
xHP(k) des Signals ergibt.
-
Eine weitere Ausgestaltung einer
erfindungsgemäßen Vorrichtung
zur Veränderung
der Tonlänge (time
scaling) ist in den 17a, 17b gezeigt. 17a zeigt vereinfacht das Blockschaltbild
der Vorrichtung, 17b zeigt
Beispiele für
die entstehenden Signale. Das Eingangssignal x(k) wird in der Trenneinheit 61 mittels
eines Tiefpassfilters 61a und eines Hochpassfilters 61b in
einen Tiefpass- und einen Hochpassanteil xTP(k)
und xHP(k) zerlegt. Mit Hilfe eines an sich
bekannten Verfahrens oder eines neuen Verfahrens wird der Tiefpasssignal
xTP(k) in der Bearbeitungseinheit 62a zeitlich
verändert,
so dass sich das Ausgangssignal yTP(k) ergibt.
Der Hochpassanteil xHP(k) wird, mittels
der Synchronisationseinheit 64 synchron zum Tiefpassanteil
xTP(k) durch ein anderes neues oder bekanntes
Verfahren oder mit demselben Verfahren, aber unter Verwendung anderer
Parameter, in der Bearbeitungseinheit 62b verändert, wobei
die Art der Veränderung,
z.B. eine zeitlichen Verlängerung
um 100%, für
beide Anteile gleich bleibt. Es ergibt sich das Ausgangssignal yHP(k). Eine Addition als Kombinationseinheit 63 führt zum
gewünschten
Ausgangssignal y(k), das sich durch einen verbesserten Klang gegenüber einer
Verwendung der Einzelalgorithmen auszeichnet.
-
Die Realisierung eines erfindungsgemäßen Verfahrens
zur Veränderung
der Tonhöhe
(pitch shift) ist in 18 gezeigt.
In der Trenneinheit 71 wird das Eingangssignal x(k) zerlegt,
um dann, mittels der Synchronisationseinheit 74 synchron,
aber in unterschiedlicher Weise mittels der Bearbeitungseinheiten 72a, 72b verändert zu
werden. Anschließend
wird das vollständige
Ausgangssignal y(k) mit Hilfe einer Addition als Kombinationseinheit 73 erzeugt:
Eine
spezielle Realisierung des erfindungsgemäßen Verfahrens zeigt 19 zur Veränderung
der Tonlänge
(time scaling). In der Trenneinheit 81 wird das Eingangssignal
x(k) in einen Tiefpass- und einen Hochpassanteil xTP(k)
und xHP(k) zerlegt. Aus dem Tiefpassanteil
xTP(k) wird durch eine geeignete Kombination mehrerer
Teilstücke
mittels eines TP-Perioden Synthesizers 82a ein neues Tiefpasssignalteil
erzeugt. In einer ersten Implementation besteht die geeignete Kombination
aus einer Überlagerung
von 3 gewichteten Perioden, wobei die Gewichtung durch zwei Zufallsgrößen a, b
bestimmt wird, wie in 20 gezeigt ist,
das die Funktionsweise des TP-Perioden Synthesizers 82a erläutert.
-
Ebenso wird aus dem Hochpassanteil
xHP(k) durch ein geeignetes Verfahren mittels
eines HP-Perioden Synthesizers 82b ein neues Hochpasssignalteil
erzeugt, z.B. durch die zufällige
Auswahl einer benachbarten Periode, d.h. durch ein anderes als das
in dem TP-Perioden Synthesizer 82a angewendete Verfahren.
Durch die zufällige
Wahl kann keine eindeutige Korrelation entstehen, die es zu vermeiden
gilt.
-
Die neuen synthetisierten Signalteile
werden abhängig
vom gewählten
Faktor der Veränderung
erzeugt und in das Tiefpass- bzw. Hochpasssignal xTP(k)
bzw. xHP(k) eingefügt, wobei synchronisierte zeitgesteuerte
Schalter 83a, 83b zum Umschalten zwischen dem
Tiefpass- bzw. Hochpasssignal und dem neuen Tiefpass- bzw. Hochpasssignalteil
vorgesehen sind. Die Einfügung
selbst geschieht durch das oben beschriebene PSOLA Verfahren in
PSOLA Einheiten 84a, 84b. Die anschließende Addition
in der Kombinationseinheit 85 führt zum Ausgangssignal y(k),
das eine deutlich höhere
Natürlichkeit
aufweist.
-
Eine äquivalente Implementierung
mit dem besonderen Vorteil einer geringeren Rechenleistung ist möglich, wenn
die gemeinsamen Anteile der Berechnung im breitbandigen Eingangssignal
durchgeführt
werden. Es ist möglich,
das Einfügen
der synthetisch erzeugten Perioden im Originalsignal vorzunehmen
und nur die Erzeugung der synthetischen Perioden im aufgeteilten
Signal durchzuführen.
Ein Blockschaltbild einer entsprechenden Vorrichtung ist in 21 gezeigt. Diese weist
eine Trenneinheit 91, eine Synthetisiereinheit 92 mit
einem TP-Perioden Synthesizer 92a und einem HP-Perioden Synthesizer 92b,
einen Addieren 93 und eine gesteuerte Schalt- und Einfügeeinheit 94 auf.
Das entstehende Ausgangssignal y(k) ist zu dem Signal y(k) aus 19 äquivalent, wenn für die Einzelelemente
der Vorrichtung die gleichen Parameter verwendet werden und zur
Aufspaltung komplementäre
Filterbänke, wie
sie in 16 gezeigt sind,
verwendet werden.
-
Eine spezielle Implementierung des
erfindungsgemäßen Verfahrens
zur Veränderung
der Tonhöhe
ist in 22 gezeigt. 22a zeigt ein Blockschaltbild
einer entsprechenden Vorrichtung; 22b zeigt
dabei die Spektren der auftretenden Signale. Das Eingangssignal
wird in der Trenneinheit 101 zerlegt. Das Tiefpasssignal
xTP(k) wird durch einen bekannten Ansatz,
z.B. PSOLA oder Phase-Vocoder, in der Bearbeitungseinheit 102a verlängert und
durch Resampling zur gewünschten
Tonhöhe verschoben.
Die vorher erwähnten
Artefakte der Formantverschiebung treten somit nur für diesen
Frequenzbereich auf. Der Hochpassanteil xHP(k)
wird dagegen in der Bearbeitungseinheit 102b mit dem Lent-Algorithmus
oder einem anderen formanterhaltenden Algorithmus zur gewünschten
Tonhöhe
verschoben, wobei die Bearbeitung an sich mittels der Synchronisationseinheit 104 synchronisiert
wird. Die Addition der Signale in der Kombinationseinheit 103 führt zum
Ausgangssignal y(k), das sich insbesondere bei der Verschiebung
der Tonhöhe
nach unten durch eine verbesserte Natürlichkeit auszeichnet.
-
Ein ähnliches Resultat lässt sich
auch erzielen, wenn die Reihenfolge der Verarbeitung wie bei dem
anhand von 23 erläuterten
Verfahren umgedreht wird. 23a zeigt
ein Blockschaltbild einer entsprechenden Vorrichtung; 23b zeigt dabei die Spektren
der auftretenden Signale. So ist es möglich, das Eingangssignal x(k)
zum einen mittels einer ersten Bearbeitungseinheit 111a durch
eine Verlängerung
und Resampling in die gewünschte
neue Tonhöhe
zu überführen und
zum anderen mit einer zweiten Bearbeitungseinheit 111b synchron
dazu (Synchronisationseinheit 114) eine Bearbeitung mit
einem formanterhaltenden Algorithmus (z.B. Lent-Algorithmus) durchzuführen. Das
erste Signal yPit0(k) wird anschließend mit
Hilfe einer ersten Trenneinheit 112a zerlegt. Ebenso wird
das zweite Signal YPit1(k) mit Hilfe einer
zweiten Trenneinheit 112b zerlegt. Abschließend werden
unterschiedliche Teilsignale, in diesem Beispiel das Tiefpasssignal
yTP(k) der ersten Trenneinheit 112a und
das Hochpasssignal yHP(k) der zweiten Trenneinheit 112b,
in der Kombinationseinheit 113 neu kombiniert.
-
Eine rechenzeitreduzierte, aber im
Ausgangssignal äquivalente
Form ist in 24 gezeigt. Hierbei
werden die Ausgangssignale der Bearbeitungseinheiten 121a, 121b mit
den Algorithmen zur Veränderung
der Tonhöhe
yPit0(k) und yPit1(k)
einem Tiefpassfilter 122a bzw. einem Hochpassfilter 122b zugeführt. Eine
abschließende
Addition der gefilterten Signale in der Kombinationseinheit 123 ergibt
das Ausgangssignal y(k), das eine deutlich verbesserte Natürlichkeit
besitzt.
-
Insbesondere bei der Nutzung unterschiedlicher
Algorithmen kann es vorkommen, dass eine einfache Addition der unterschiedlich
bearbeiteten Teilsignale nicht funktioniert, da die unterschiedlichen
Algorithmen zum Teil unterschiedliche Blockgrößen erfordern und somit ein
zeitlicher Versatz entsteht. Ein weiteres Problem ergibt sich dadurch,
dass einige Verfahren Pitch Synchron (PSOLA, Lent) sind, andere
aber nicht (Resampling, Phase-Vocoder).
Somit können
sowohl Phasendifferenzen als auch unterschiedliche Teilsignallängen entstehen,
die es auszugleichen gilt. Um trotzdem ein geeignetes Ausgangssignal
zu erhalten, ist vorzugsweise in der Kombinationseinheit eine Synchronisationseinheit
vorgesehen, die die unterschiedlich bearbeiteten Signale entsprechend
ihrer Laufzeit, Länge
und Phase verzögert und
richtig zusammensetzt.
-
25 zeigt
die verschiedenen Möglichkeiten
der bei der Erfindung bevorzugt eingesetzten Frequenzaufteilung
mittels der beschriebenen Trenneinheiten. Die einfachste Form der
Frequenzaufteilung ist, wie in 25a gezeigt,
eine beliebige Zuordnung der Frequenzen zu einem Teilsignal, wobei
eine Frequenz auch mehrfach zugeordnet werden darf. Die einzelnen
Teilsignale, von denen in 25a für zwei Teilsignale
jeweils das Spektrum gezeigt ist, können also über Filter mit einer entsprechenden Übertragungsfunktion
gewonnen werden.
-
Eine zweite Möglichkeit der Frequenzaufteilung,
wie sie in 25b gezeigt
ist, ist die komplementäre
Aufteilung. Bei dieser Art der Aufteilung wird der Frequenzbereich
in mehrere nicht überlappende Teilbereiche
aufgespalten. Wichtig ist dabei, dass jede Frequenz nur jeweils
einem Teilsignal zugeordnet wird, dass also die einzelnen Frequenzbereiche nicht
mehrfach zugeordnet werden. Die Erzeugung der Teilsignale, von denen
in 25b wiederum für zwei Teilsignale
die Spektren gezeigt sind, kann über komplementäre Filter
erfolgen.
-
Eine dritte und bei der vorliegenden
Erfindung bevorzugte Form der Frequenzaufteilung ist die komplementäre Bandaufteilung,
wie sie in 25c gezeigt
ist. Dabei wird der Frequenzbereich durch Tief-, Hoch- und Bandpässe so aufgeteilt,
dass jeder Frequenzbereich zusammenhängend ist und nur einem Teilsignal
zugeordnet wird. Die Spektren dreier solcher Teilsignale sind in 25c gezeigt.