DE10210978C1

DE10210978C1 - Verfahren und eine Vorrichtung zur Veränderung der zeitlichen Dauer und/oder der Tonhöhe eines diskreten Audiosignals, Computerprogramm und Datenträger

Info

Publication number: DE10210978C1
Application number: DE2002110978
Authority: DE
Inventors: Joerg Bitzer; Mira Meemken
Original assignee: Spectral Design Gesellschaft fuer Signalverarbeitung mbH
Current assignee: Houpert Joerg 28203 Bremen De
Priority date: 2002-03-13
Filing date: 2002-03-13
Publication date: 2003-08-21
Anticipated expiration: 2022-03-14

Abstract

Die Erfindung betrifft ein Verfahren sowie eine Vorrichtung zur Veränderung der zeitlichen Dauer und/oder der Tonhöhe eines diskreten Audiosignals bei gleichbleibender Abtastrate. Zur Verbesserung der Klangqualität bei einem solchen Verfahren wird erfindungsgemäß vorgeschlagen, dass das Audiosignal in wenigstens zwei Teilsignale aufgespalten und jeweils einem Bearbeitungskanal zugeführt wird, dass die zeitliche Dauer und/oder die Tonhöhe der Teilsignale auf unterschiedliche Weise gesondert verändert wird und dass die gesondert bearbeiteten Teilsignale danach zu einem Ausgangssignal zusammengefasst werden. Alternativ wird erfindungsgemäß vorgeschlagen, dass das Audiosignal wenigstens zwei parallelen Bearbeitungskanäle zugeführt wird, dass die zeitliche Dauer und/oder die Tonhöhe der Audiosignale auf unterschiedliche Weise gesondert verändert wird, dass die gesondert bearbeiteten Audiosignale jeweils in wenigstens zwei Teilsignale aufgespalten werden und dass danach ein Ausgangssignal durch Kombination jeweils wenigstens eines Teilsignals jedes Bearbeitungskanals gebildet wird.

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Veränderung der zeitlichen Dauer und/oder der Tonhöhe eines diskreten Audiosignals bei gleich bleibender Abtastrate. Außerdem betrifft die Erfindung ein Computerprogramm zur Umsetzung des Verfahrens und einen Datenträger mit einem solchen Com puterprogramm.

Bei der Verarbeitung von Audiosignalen kann es beispielsweise im Musikproduk tionsprozess notwendig sein, bereits aufgenommene Stimmen und/oder Instru mente zu verändern oder zu verfremden, ohne eine erneute Aufnahme durchfüh ren zu müssen. Beispiele hierfür können eine Veränderung des Tempos eines Musikstückes oder eine nachträgliche Veränderung der Tonlage sein. Zusätzlich werden neue kreative Möglichkeiten geschaffen, Musik zu gestalten.

Bekannte Verfahren zur zeitlichen Veränderung, insbesondere zur Verlängerung von Audiosignalen, und zur Veränderung der Tonhöhe von Audiosignalen sind beispielsweise in "Time and Pitch scale modification of audio signals", Jean La roche in M. Kahrs und Karlheinz Brandenburg (Hrsg.), Applications of Digital Sig nal Processing to Audio and Acoustics, Kluwer Academic Press, 1998, Kapitel 7, S. 279-310, beschrieben.

Die bekannten Verfahren zur zeitlichen Veränderung lassen sich in zwei Grund techniken einteilen.

Zum einen gibt es Lösungen im Zeitbereich. Eine Vorraussetzung für diese Algo rithmen ist die Annahme, dass das zu verändernde Signal monophon ist, also nicht ein Gemisch aus mehreren Instrumenten darstellt. Beispiele für derartige Lösungen sind das Pitch Synchrone Splicing (PSS) und das Pitch Synchrone Overlap Add (PSOLA) Verfahren. Beim PSS Verfahren basiert die Veränderung der Signallänge auf einer zeitlichen Wiederholung von kurzen Abschnitten, wobei eine Wiederholung im Raster der Grundfrequenz als besonders vorteilhaft gilt. Beim PSOLA Verfahren wird zusätzlich eine Fensterung vorgesehen, bevor die neuen Signalabschnitte in das Ausgangssignal eingefügt werden. Die einzufü genden Signalabschnitte sind wiederum gefensterte Wiederholungen des Ein gangssignals im Abstand der Grundfrequenz. Zusätzlich ist eine Bestimmung der Grundfrequenz notwendig, wozu eine Vielzahl bekannter Algorithmen zur Verfü gung steht.

Als besonderer Nachteil des PSOLA Verfahrens hat sich das Einbringen von Langzeitkorrelation durch die Wiederholung fester Signalabschnitte erwiesen. Das Ausgangssignal enthält durch die Wiederholung einen unnatürlichen Klang, der insbesondere bei Singstimmen zu einer nicht annehmbaren Qualität führt. Zum anderen sind Lösungen im Frequenzbereich bekannt. Sie nutzen das be kannte Fourier-Theorem, dass sich jedes komplexe Signal als eine Zerlegung von Sinusschwingungen darstellen lässt. Mit diesem Verfahren lassen sich auch Gemische aus mehreren Signalen, z. B. Instrumenten, zeitlich verändern.

Bei den Frequenzbereichsverfahren hat sich der sog. Phase-Vocoder als beson ders vorteilhaft erwiesen. Bei diesem Verfahren werden die im Frequenzbereich vorliegenden Kurzzeitspektren in ein neues starres Raster abgebildet, das dem Faktor der zeitlichen Veränderung entspricht. Beispielsweise werden bei einer Verdoppelung der Tonlänge zwischen den Kurzzeitbetragsspektren neue ge schätzte Spektren eingefügt. Die Berechnung der neuen Spektren erfolgt mittels geeigneter Interpolationsverfahren.

Als nachteilig bei den Frequenzbereichsverfahren hat sich erwiesen, dass durch die Interpolation im Frequenzbereich Impulse im Zeitbereich deutlich gestreckt werden und deshalb impulshafte Signale eine zu große Weichheit bekommen.

Für die Veränderung der Tonhöhe sind bisher zwei grundsätzliche Verfahren bekannt. Beim ersten Verfahren wird das zu verändernde Signal um einen be stimmten Faktor verlängert oder verkürzt, um dann mit einer veränderten Ausle segeschwindigkeit, bzw. einem sog. Resampling, ein in der Tonhöhe verändertes Signal zu erhalten. Beispielsweise ist bei einer Veränderung der Tonhöhe um eine Oktave (doppelte Frequenz) eine Verlängerung des Signals um den Faktor zwei notwendig. Wird nun nur jeder zweite Abtastwert ausgelesen und wurde das Signal vorher zur Vermeidung von Aliasing tiefpassgefiltert, wird ein Signal mit der doppelten Frequenz gewonnen. Bei Anwendung des Verfahrens stellt sich jedoch heraus, dass das natürliche Resonanzverhalten eines Instrumentes (die Formanten) ebenfalls verschoben werden. Das neue Ausgangssignal hat einen besonders unnatürlichen Klang. Bei Sprache wird dies durch den sogenannten Mickey-Mouse-Effekt deutlich.

Das zweite Verfahren zur Veränderung der Tonhöhe vermeidet dieses Problem, indem ein Verfahren gewählt wird, dass dem PSOLA Verfahren entlehnt ist, nach dem Erfinder als Lent-Algorithmus bezeichnet wird und in "An efficent method for pitch shifting digitally sampled sounds", K. Lent, Computer Music Journal, 13(4): 65-71, 1989 beschrieben ist. Dabei wird zur Bildung des neuen Ausgangs signals eine Überlappung der Teilabschnitte im Raster der gewünschten neuen Grundfrequenz durchgeführt. Das Formantverhalten bleibt konstant, aber die Grundfrequenz kann so verändert werden. Bei natürlichen Signalen, insbesonde re bei einer Singstimme, verändern sich aber die Formanten leicht. Aus diesem Grund hat sich die Kombination aus dem Lent-Algorithmus mit einem anschlie ßenden Resampling, das nur mit einer sehr geringen Verschiebung arbeitet, als besonders günstig herausgestellt.

Allen bekannten Verfahren ist gemeinsam, dass nur eine Rechenvorschrift für die Tonhöhentransformation nach oben und unten verwendet wird und dass das Eingangssignal breitbandig und als ganzes verändert wird. Außerdem treten bei allen bekannten Verfahren mehr oder weniger unerwünschte Seiteneffekte auf, die es zu minimieren gilt. Entscheidend für die Güte eines Verfahrens ist immer die subjektiv wahrgenommene Qualität des Ausgangssignals nach der Verände rung.

US 5,952,596 beschreibt ein Verfahren zur Veränderung der Geschwindigkeit und der Tonhöhe von Audiosignalen mittels digitaler Signalverarbeitung. Aus der US 2001/0023399 A1 sind eine Audiosignalverarbeitungsvorrichtung und ein ent sprechendes Verfahren bekannt, mit denen ein im Zeitbereich komprimiertes oder expandiertes Audiosignal wiedergegeben werden kann, ohne dass die Ton höhe verändert wird.

Der Erfindung liegt daher die Aufgabe zugrunde ein Verfahren und eine Vorrich tung zur Veränderung der zeitlichen Dauer und/oder der Tonhöhe eines diskreten Audiosignals anzugeben, mit denen sich verbesserte Klangqualität erreichen lässt.

Diese Aufgabe wird erfindungsgemäß durch ein Verfahren nach Anspruch 1 da durch gelöst, dass das Audiosignal in wenigstens zwei Teilsignale aufgespalten und jeweils einem Bearbeitungskanal zugeführt wird, dass die zeitlichen Dauer und/oder die Tonhöhe der Teilsignale auf unterschiedliche Weise gesondert ver ändert wird und dass die gesondert bearbeiteten Teilsignale danach zu einem Ausgangssignal zusammengefasst werden.

Die Aufgabe wird erfindungsgemäß auch durch ein Verfahren nach Anspruch 2 dadurch gelöst, dass das Audiosignal wenigstens zwei parallelen Bearbeitungs kanälen zugeführt wird, dass die zeitlichen Dauer und/oder die Tonhöhe der Au diosignale auf unterschiedliche Weise gesondert verändert wird, dass die geson dert bearbeiteten Audiosignale jeweils in wenigstens zwei Teilsignale aufgespal ten werden und dass danach ein Ausgangssignal durch Kombination jeweils we nigstens eines Teilsignals jedes Bearbeitungskanals gebildet wird.

Entsprechende erfindungsgemäße Vorrichtungen sind in den Ansprüchen 16 und 17 angegeben. Ein Computerprogramm zur Umsetzung der erfindungsgemäßen Verfahren ist in Anspruch 18 angegeben. Ein Datenträger mit einem solchen Computerprogramm ist in Anspruch 19 angegeben. Vorteilhafte Ausgestaltungen der Erfindung sind in den Unteransprüchen angegeben.

Durch die Erfindung kann die subjektiv wahrgenommene Qualität des Ausgangs signals signifikant verbessert werden. Der entscheidende Vorteil gegenüber den bekannten Verfahren ist, dass eine Aufspaltung des Audiosignals in Teilsignale erfolgt und dass für die aufgespaltenen Teilsignale unterschiedlich optimierte Bearbeitungsverfahren zur Veränderung der Tonlänge und/oder der Tonhöhe zum Einsatz kommen. Die Aufspaltung des Audiosignals kann dabei entweder vor oder nach der unterschiedlichen Bearbeitung in den getrennten Bearbei tungskanälen erfolgen. Entscheidend ist aber, dass nach der Aufspaltung be stimmte Teilsignale wieder zu einem einzigen Ausgangssignal zusammengesetzt werden. Für die Veränderung der Länge wie auch der Tonhöhe wird durch die Aufspaltung und das unterschiedliche Bearbeiten ein signifikant verbesserter Klang erreicht. Die Erfindung ermöglicht also sowohl bei einer zeitlichen Verän derung des Audiosignals (Time-Scale) als auch bei einer Veränderung der Ton höhe (Pitch-Scale/Pitch-Shift) eine Erhöhung der Qualität des Ausgangssignals im Vergleich zu den bisher bekannten Verfahren.

Gemäß einer bevorzugten Ausgestaltung der Erfindung erfolgt die gesonderte Bearbeitung in den wenigstens zwei parallelen Bearbeitungskanälen mittels des selben Verfahrens mit unterschiedlichen Parametern. Alternativ können auch völlig unterschiedliche Verfahren zum Einsatz kommen.

Bevorzugte Ausgestaltungen des erfindungsgemäßen Verfahrens zur Verände rung der Tonlänge sind in den Ansprüchen 4 bis 9 angegeben. Eine bevorzugte Ausgestaltung des erfindungsgemäßen Verfahrens zur Veränderung der Tonhö he eines Audiosignals ist in Anspruch 10 angegeben.

Insbesondere hat sich eine Aufspaltung des Audiosignals durch Frequenzauftei lung in einzelne Frequenzbänder als vorteilhaft erwiesen. Zur Aufteilung kommen dabei bevorzugt linearphasige und/oder rein transversale Filter zum Einsatz. Grundsätzlich ist jedoch auch eine völlig andere Aufspaltung des Audiosignals, z. B. eine zeitliche Aufspaltung, in einzelne Teilsignale denkbar.

Für die bevorzugte Frequenzaufteilung gibt es grundsätzlich verschiedene Mög lichkeiten. So ist es denkbar, die Frequenzaufteilung auf mehrere Teilsignale durch beliebige Zuordnung der Frequenzen zu den einzelnen Teilsignalen vorzu nehmen. Darüber hinaus kann die Frequenzaufteilung auch komplementär erfol gen, so dass der Frequenzbereich in mehrere, nicht überlappende Teilbereich aufgespalten wird. Bevorzugt ist die komplementäre Bandaufteilung, bei der der Frequenzbereich in einzelne jeweils zusammenhängende Frequenzbereiche unterteilt wird, die jeweils einem Teilsignal zugeordnet werden.

Die Erfindung soll nachfolgend anhand der in den Zeichnungen gezeigten Aus führungsbeispiele näher erläutert werden. Es zeigen:

Fig. 1 ein Beispiel zum Verändern der Länge eines Audiosignals durch das sog. Pitch Synchrone Splicing Verfahren,

Fig. 2 ein Beispiel zum Verändern der Länge eines Audiosignals durch das sog. Pitch Synchrone Overlap-Add (PSOLA) Verfahren,

Fig. 3 die schematische Wirkungsweise des Phase-Vocoders zur Verän derung der Länge eines Audiosignals,

Fig. 4 die Veränderung eines Impulses durch den Phase-Vocoder,

Fig. 5 schematisch die Wirkungsweise des Resamplings zur Veränderung der Tonhöhe,

Fig. 6 schematisch die Probleme bei Veränderung der Tonhöhe durch ein Resampling-Verfahren,

Fig. 7 schematisch die Wirkungsweise des Lent-Algorithmus zum Verän dern der Tonhöhe,

Fig. 8 schematisch das Formantverhalten des Lent-Algorithmus bei einer Tonhöhenveränderung,

Fig. 9 ein Blockschaltbild einer ersten allgemeinen Ausführungsform des erfindungsgemäßen Verfahrens,

Fig. 10 ein Blockschaltbild einer zweiten Ausführungsform des erfindungs gemäßen Verfahrens,

Fig. 11 eine spezielle Form einer komplementären Filterbank zur effizienten Aufteilung eines Signals in zwei Bänder durch Nutzung linearphasi ger FIR-Filter,

Fig. 12 ein Blockschaltbild einer ersten Ausführungsform des erfindungs gemäßen Verfahrens zur Veränderung der Tonlänge,

Fig. 13 ein Blockschaltbild einer ersten Ausführungsform des erfindungs gemäßen Verfahrens zur Veränderung der Tonhöhe,

Fig. 14 ein Blockschaltbild einer zweiten Ausführungsform des erfindungs gemäßen Verfahrens zur Veränderung der Tonlänge,

Fig. 15 einen Tiefpass-Perioden-Synthesizer,

Fig. 16 ein Blockschaltbild einer dritten Ausführungsform des erfindungs gemäßen Verfahrens zur Veränderung der Tonlänge,

Fig. 17 ein Blockschaltbild einer zweiten Ausführungsform des erfindungs gemäßen Verfahrens zur Veränderung der Tonhöhe,

Fig. 18 ein Blockschaltbild einer dritten Ausführungsform des erfindungs gemäßen Verfahrens zur Veränderung der Tonhöhe,

Fig. 19 ein Blockschaltbild einer vierten Ausführungsform des erfindungs gemäßen Verfahrens zur Veränderung der Tonhöhe und

Fig. 20 verschiedene Möglichkeiten der Frequenzaufteilung von Audiosignalen.

Zur Erläuterung der eingangs genannten Zeitbereichsverfahren zur Veränderung der Tonlänge von Audiosignale sind das Pitch Synchrone Splicing (PSS) und das Pitch Synchrone Overlap Add (PSOLA) Verfahren in den Fig. 1 und 2 ge zeigt. Beim PSS Zeitbereichsverfahren (Fig. 1) basiert die Veränderung der Signallänge auf einer zeitlichen Wiederholung von kurzen Abschnitten, wobei eine Wiederholung im Raster der Grundfrequenz (Pitch-Abstand) als besonders vorteilhaft gilt. Fig. 1a zeigt ein originales Audiosignal aus dem zur zeitlichen Verlängerung kurze Signalabschnitte als Wiederholungen hinter den originalen Signalabschnitten eingefügt werden, um eine Verlängerung der zeitlichen Dauer des Audiosignals um den Faktor 2 zu erreichen. Fig. 1b zeigt ein solches zeit lich verlängertes Audiosignal.

Für das in Fig. 2 gezeigte PSOLA-Verfahren wird zusätzlich eine Fensterung mittels Fensterfunktionen (Fig. 2a) vorgesehen, bevor die neuen Signalab schnitte in das Ausgangssignal eingefügt werden. Die einzufügenden Signalab schnitte sind wiederum gefensterte Wiederholungen des Eingangssignals im Ab stand der Grundfrequenz. Zusätzlich ist eine Bestimmung der Grundfrequenz notwendig, wobei hierzu eine Vielzahl bekannter Algorithmen zur Verfügung steht. Fig. 2b zeigt das durch Einfügen der gefensterten Wiederholung zeitlich verlängerte Audiosignal.

Die Funktionsweise eines Phase-Vocoders zur Veränderung der Tonlänge mit tels eines Frequenzbereichsverfahren ist in Fig. 3 erläutert. Bei diesem Verfah ren werden die im Frequenzbereich vorliegenden Kurzzeitspektren - gezeigt sind in Fig. 3a und 3b Frequenzspektren zu unterschiedlichen Abtastzeitpunkten k - in ein neues starres Raster abgebildet, das dem Faktor der zeitlichen Verände rung entspricht. Beispielsweise werden bei einer Verdoppelung der Tonlänge zwischen den Kurzzeitbetragsspektren neue geschätzte Spektren eingefügt. Die Berechnung der neuen Spektren erfolgt mittels geeigneter Interpolationsverfah ren. In den Fig. 3c und 3e sind die in den Fig. 3a und 3b gezeigten Spekt ren nochmals gezeigt, zwischen denen ein neues, aus diesen Spektren interpo liertes Spektrum (Fig. 3d) für einen zwischen den Abtastzeitpunkten (k = 1 und k = 2) der originalen Spektren liegenden Abtastzeitpunkt (k = 1.5) eingefügt wird, woraus sich ein neues Abtastzeitraster m = 1, 2, 3 ergibt.

Als nachteilig bei dem Phase-Vocoder hat sich erwiesen, dass durch die Interpo lation im Frequenzbereich Impulse im Zeitbereich deutlich gestreckt werden und deshalb impulshafte Signale eine zu große Weichheit bekommen. Beispielsweise wird dadurch ein in Fig. 4a gezeigtes impulshaftes Signal in ein gestrecktes in Fig. 4b gezeigtes Signal umgewandelt.

Das Resampling-Verfahren zur Veränderung der Tonhöhe ist in Fig. 5 näher erläutert. Dabei wird das zu verändernde Originalsignal (Fig. 5a) um einen be stimmten Faktor verlängert (Fig. 5b) oder verkürzt, um dann mit einer veränder ten Auslesegeschwindigkeit, bzw. dem sog. Resampling, ein in der Tonhöhe ver ändertes Signal (Fig. 5c) zu erhalten. Beispielsweise ist bei einer Veränderung der Tonhöhe um eine Oktave (doppelte Frequenz) eine Verlängerung des Sig nals um den Faktor zwei notwendig. Wird nun nur jeder zweite Abtastwert ausge lesen und wurde das Signal vorher zur Vermeidung von Aliasing tiefpassgefiltert, wird ein Signal mit der doppelten Frequenz gewonnen. Zur Veranschaulichung der Nachteile dieses Verfahrens ist in Fig. 6 das Formantverhalten beim Re sampling verdeutlicht. Bei Anwendung des Verfahrens auf ein Originalsignal, dessen Spektrum beispielhaft in Fig. 6a gezeigt wird, stellt sich heraus, dass das natürliche Resonanzverhalten eines Instrumentes - die Formanten - eben falls verschoben werden. Das neue Ausgangssignal (Fig. 6b) hat einen beson ders unnatürlichen Klang. Bei Sprache wird dies durch den sog. Mickey-Mouse Effekt deutlich.

Der in Fig. 7 erläuterte Lent-Algorithmus zur Veränderung der Tonhöhe vermei det dieses Problem. Dabei wird zur Bildung des neuen Ausgangssignals die Ü berlappung der Teilabschnitte im Raster der gewünschten neuen Grundfrequenz (Pitch-Abstand) durchgeführt. Fig. 7a zeigt ein Originalsignal. Fig. 7b zeigt ein neues Signal mit verringerter Tonhöhe, das durch Einfügen von Nullen zwischen Teilabschnitte des Originalsignals gebildet wird, bei dem also die Grundfrequenz verringert wird. Fig. 7d zeigt ein neues Signal mit gesteigerter Tonhöhe, das durch Überlappung der Perioden des Originalsignals wie in Fig. 7c gezeigt ge bildet wird, bei dem also die Grundfrequenz erhöht wird.

Das Formantverhalten bleibt bei diesem Verfahren konstant, aber die Grundfre quenz kann so verändert werden, wie in Fig. 8 gezeigt ist. In Fig. 8a ist ein Spektrum eines Originalsignal (Fig. 7a) vor Anwendung des Lent-Algorithmus gezeigt; in Fig. 8b ist ein Spektrum eines neuen Signals mit verringerter Tonhö he (Fig. 7b) nach Anwendung des Lent-Algorithmus gezeigt. Bei natürlichen Signalen, insbesondere bei einer Singstimme, verändern sich aber die Forman ten leicht. Aus diesem Grund hat sich die Kombination aus dem Lent-Algorithmus mit einem anschließenden Resampling, das nur mit einer sehr geringen Ver schiebung arbeitet, als besonders günstig herausgestellt.

Das erfindungsgemäße Verfahren soll anhand des in Fig. 9 gezeigten Block schaltbildes der erfindungsgemäßen Vorrichtung näher erläutert werden. Das Verfahren basiert auf einer Aufspaltung des Eingangssignals x^All(k) mittels einer Trenneinheit 11. Am Ausgang der Trenneinheit 11 entstehen so zwei oder mehr Teilsignale, die im folgenden mit x₀(k) für ein erstes, x₁(k) für ein zweites und x_N- ₁(k) für ein N-tes Teilsignal bezeichnet werden. Jedes dieser Teilsignale wird nun einem gesonderten Bearbeitungskanal mit jeweils einer gesonderten Bearbei tungseinheit 12a, 12b, 12c zugeführt, in denen die einzelnen Teilsignale auf un terschiedliche Weise bearbeitet werden. Zur Beschreibung der unterschiedlichen Bearbeitung wird als allgemeines Symbol f(x₀(k)) eingeführt; somit sind die unter schiedlichen Bearbeitungsarten durch f₀(x₀(k)), f₁(x₁(k)) und f_N-1(x_N-1(k)) bezeich net. Die Unterschiede in der Bearbeitung können dabei durch die Wahl unter schiedlicher Parameter eines bestimmten Verfahrens, das in allen Bearbeitungs einheiten 12a, 12b, 12c angewendet wird, oder durch unterschiedliche Verfahren erreicht werden. In einer abschließenden Kombinationseinheit 13 werden die unterschiedlich bearbeiteten Teilsignale y₀(k), y₁(k), . . ., y_N-1(k) wieder zu einem Ausgangssignal y^All(k) zusammengesetzt.

Eine weitere Möglichkeit, das erfindungsgemäße Verfahren zu realisieren, ist bei der in Fig. 10 als Blockschaltbild gezeigten Vorrichtung verwirklicht. Hierbei wird das Eingangssignal x^All(k) ohne Modifikation vervielfältigt und den einzelnen Be arbeitungskanälen mit den unterschiedlichen Bearbeitungseinheiten 21a, 21b, 21c, die durch f₀(x^All(k)), f₁(x^All(k)) und f_N-1(x^All(k)) gekennzeichnet sind, zugeführt. Eine anschließende Aufspaltung mit einer Trenneinheit 22a, 22b, 22c in jedem Bearbeitungskanal führt zur Aufspaltung der Ausgangssignale y_i ^All(k) (i = 0, 1, . . ., N - 1) in jeweils N unterschiedliche Teilsignale y_{i_i}(k). In der abschließenden Kombinationseinheit 23 wird aus jedem Bearbeitungskanal jeweils ein Teilsignal ausgewählt und zum Ausgangssignal y^All(k) zusammengesetzt. In dem gezeigten Beispiel werden die Teilsignale y_{0_0}(k), y_{1_1}(k), . . ., y_{N-1_N-1}(k) zu dem Aus gangssignal y^All(k) zusammengesetzt.

Bei dem erfindungsgemäßen Verfahren erfolgt vorzugsweise in der Trenneinheit 11a bzw. den Trenneinheiten 22a, 22b, 22c eine frequenzmäßige Aufspaltung des Eingangssignals durch geeignete Filter in unterschiedliche Frequenzberei che. Beispielhaft erfolgt eine Aufteilung in zwei Frequenzbänder durch ein Hoch pass- und ein Tiefpassfilter.

Besonders vorteilhaft ist dabei die Verwendung von linearphasigen FIR-Filtern, da mit diesen eine besonders effiziente Zerlegung erfolgen kann, die anhand von Fig. 11 genauer erläutert wird. Das Eingangssignal x(k) wird durch ein li nearphasiges Tiefpassfilter 31 gefiltert, woraus sich das Ausgangssignal x_TP(k) ergibt. Das linearphasige Tiefpassfilter 31 mit einer ungeraden Anzahl an Koeffi zienten besitzt eine konstante Gruppenlaufzeit, die durch eine einfache Verzöge rungseinheit (Delay) kompensiert werden kann und muss. Aus diesem Grund wird das Eingangssignal x(k) zusätzlich um diese Zeit mittels einer Verzöge rungseinheit 32 verzögert. In einem abschließenden Verfahrensschritt wird von diesem verzögerten Signal x_D(k) das Tiefpassausgangssignal x_TP(k) mittels eines Addierers 33 abgezogen, woraus sich der komplementäre Hochpassanteil x_HP(k) des Signals ergibt.

Eine weitere Ausgestaltung einer erfindungsgemäßen Vorrichtung zur Verände rung der Tonlänge (time scaling) ist in den Fig. 12a, b gezeigt. Fig. 12a zeigt vereinfacht das Blockschaltbild der Vorrichtung, Fig. 12b zeigt Beispiele für die entstehenden Signale. Das Eingangssignal x(k) wird in der Trenneinheit 41 mittels eines Tiefpassfilters 41a und eines Hochpassfilters 41b in einen Tief pass- und einen Hochpassanteil x_TP(k) und x_HP(k) zerlegt. Mit Hilfe eines an sich bekannten Verfahrens oder eines neuen Verfahrens wird der Tiefpasssignal x_TP(k) in der Bearbeitungseinheit 42a zeitlich verändert, so dass sich das Aus gangssignal y_TP(k) ergibt. Der Hochpassanteil x_HP(k) wird durch ein anderes neu es oder bekanntes Verfahren oder mit demselben Verfahren, aber unter Verwen dung anderer Parameter, in der Bearbeitungseinheit 42b verändert, wobei die Art der Veränderung, z. B. eine zeitlichen Verlängerung um 100%, für beide Anteile gleich bleibt. Es ergibt sich das Ausgangssignal y_HP(k). Eine Addition als Kombi nationseinheit 43 führt zum gewünschten Ausgangssignal y(k), das sich durch einen verbesserten Klang gegenüber einer Verwendung der Einzelalgorithmen auszeichnet.

Die Realisierung eines erfindungsgemäßen Verfahrens zur Veränderung der Tonhöhe (pitch shift) ist in Fig. 13 gezeigt. In der Trenneinheit 51 wird das Ein gangssignal x(k) zerlegt, um dann in unterschiedlicher Weise mittels der Bearbei tungseinheiten 52a, 52b verändert zu werden. Anschließend wird das vollständi ge Ausgangssignal y(k) mit Hilfe einer Addition als Kombinationseinheit 53 er zeugt.

Eine spezielle Realisierung des erfindungsgemäßen Verfahrens zeigt Fig. 14 zur Veränderung der Tonlänge (time scaling). In der Trenneinheit 61 wird das Eingangssignal x(k) in einen Tiefpass- und einen Hochpassanteil x_TP(k) und x_HP(k) zerlegt. Aus dem Tiefpassanteil x_TP(k) wird durch eine geeignete Kombina tion mehrerer Teilstücke mittels eines TP-Perioden Synthesizers 62a ein neues Tiefpasssignalteil erzeugt. In einer ersten Implementation besteht die geeignete Kombination aus einer Überlagerung von 3 gewichteten Perioden, wobei die Ge wichtung durch zwei Zufallsgrößen a, b bestimmt wird, wie in Fig. 15 gezeigt ist, das die Funktionsweise des TP-Perioden Synthesizers 62a erläutert.

Ebenso wird aus dem Hochpassanteil x_HP(k) durch ein geeignetes Verfahren mit tels eines HP-Perioden Synthesizers 62b ein neues Hochpasssignalteil erzeugt, z. B. durch die zufällige Auswahl einer benachbarten Periode, d. h. durch ein an deres als da in dem TP-Perioden Synthesizer 62a angewendete Verfahren. Durch die zufällige Wahl kann keine eindeutige Korrelation entstehen, die es zu vermeiden gilt.

Die neuen synthetisierten Signalteile werden abhängig vom gewählten Faktor der Veränderung erzeugt und in das Tiefpass- bzw. Hochpasssignal x_TP(k) bzw. x_HP(k) eingefügt, wobei zeitgesteuerte Schalter 63a, 63b zum Umschalten zwi schen dem Tiefpass- bzw. Hochpasssignal und dem neuen Tiefpass- bzw. Hoch passsignalteil vorgesehen sind. Die Einfügung selbst geschieht durch das oben beschriebene PSOLA Verfahren in PSOLA Einheiten 64a, 64b. Die anschließen de Addition in der Kombinationseinheit 65 führt zum Ausgangssignal y(k), das eine deutlich höhere Natürlichkeit aufweist.

Eine äquivalente Implementierung mit dem besonderen Vorteil einer geringeren Rechenleistung ist möglich, wenn die gemeinsamen Anteile der Berechnung im breitbandigen Eingangssignal durchgeführt werden. Es ist möglich, das Einfügen der synthetisch erzeugten Perioden im Originalsignal vorzunehmen und nur die Erzeugung der synthetischen Perioden im aufgeteilten Signal durchzuführen. Ein Blockschaltbild einer entsprechenden Vorrichtung ist in Fig. 16 gezeigt. Diese weist eine Trenneinheit 71, ein Synthetisiereinheit 72 mit einem TP-Perioden Synthesizer 72a und einem HP-Perioden Synthesizer 72b, einen Addierer 73 und eine gesteuerte Schalt- und Einfügeeinheit 74 auf. Das entstehende Ausgangs signal y(k) ist zu dem Signal y(k) aus Fig. 14 äquivalent, wenn für die Einzel elemente der Vorrichtung die gleichen Parameter verwendet werden und zur Aufspaltung komplementäre Filterbänke, wie sie in Fig. 11 gezeigt sind, ver wendet werden.

Eine spezielle Implementierung des erfindungsgemäßen Verfahrens zur Verän derung der Tonhöhe ist in Fig. 17 gezeigt. Fig. 17a zeigt ein Blockschaltbild einer entsprechenden Vorrichtung; Fig. 17b zeigt dabei die Spektren der auftre tenden Signale. Das Eingangssignal wird in der Trenneinheit 81 zerlegt. Das Tiefpasssignal x_TP(k) wird durch einen bekannten Ansatz, z. B. PSOLA oder Pha se-Vocoder, in der Bearbeitungseinheit 82a verlängert und durch Resampling zur gewünschten Tonhöhe verschoben. Die vorher erwähnten Artefakte der For mantverschiebung treten somit nur für diesen Frequenzbereich auf. Der Hoch passanteil x_HP(k) wird dagegen in der Bearbeitungseinheit 82b mit dem Lent- Algorithmus oder einem anderen formanterhaltenden Algorithmus zur gewünsch ten Tonhöhe verschoben. Die Addition der Signale in der Kombinationseinheit 83 führt zum Ausgangssignal y(k), das sich insbesondere bei der Verschiebung der Tonhöhe nach unten durch eine verbesserte Natürlichkeit auszeichnet.

Ein ähnliches Resultat lässt sich auch erzielen, wenn die Reihenfolge der Verar beitung wie bei dem anhand von Fig. 18 erläuterten Verfahren umgedreht wird. Fig. 18a zeigt ein Blockschaltbild einer entsprechenden Vorrichtung; Fig. 18b zeigt dabei die Spektren der auftretenden Signale. So ist es möglich, das Ein gangssignal x(k) zum einen mittels einer ersten Bearbeitungseinheit 91a durch eine Verlängerung und Resampling in die gewünschte neue Tonhöhe zu überfüh ren und zum anderen mit einer zweiten Bearbeitungseinheit 91b eine Bearbei tung mit einem formanterhaltenden Algorithmus (z. B. Lent-Algorithmus) durchzu führen. Das erste Signal y_Pit0(k) wird anschließend mit Hilfe einer ersten Trenn einheit 92a zerlegt. Ebenso wird das zweite Signal y_Pit1(k) mit Hilfe einer zweiten Trenneinheit 92b zerlegt. Abschließend werden unterschiedliche Teilsignale, in diesem Beispiel das Tiefpasssignal y_TP(k) der ersten Trenneinheit 92a und das Hochpasssignal y_HP(k) der zweiten Trenneinheit 92b, in der Kombinationseinheit 93 neu kombiniert.

Eine rechenzeitreduzierte, aber im Ausgangssignal äquivalente Form ist in Fig. 19 gezeigt. Hierbei werden die Ausgangssignale der Bearbeitungseinheiten 101a, 101b mit den Algorithmen zur Veränderung der Tonhöhe y_Pit0(k) und y_pit1(k) einem Tiefpassfilter 102a bzw. einem Hochpassfilter 102b zugeführt. Eine ab schließende Addition der gefilterten Signale in der Kombinationseinheit 103 er gibt das Ausgangssignal y(k), das eine deutlich verbesserte Natürlichkeit besitzt.

Insbesondere bei der Nutzung unterschiedlicher Algorithmen kann es vorkom men, dass eine einfache Addition der unterschiedlich bearbeiteten Teilsignale nicht funktioniert, da die unterschiedlichen Algorithmen zum Teil unterschiedliche Blockgrößen erfordern und somit ein zeitlicher Versatz entsteht. Ein weiteres Problem ergibt sich dadurch, dass einige Verfahren Pitch Synchron (PSOLA, Lent) sind, andere aber nicht (Resampling, Phase-Vocoder). Somit können so wohl Phasendifferenzen als auch unterschiedliche Teilsignallängen entstehen, die es auszugleichen gilt. Um trotzdem ein geeignetes Ausgangssignal zu erhal ten, ist vorzugsweise in der Kombinationseinheit eine Synchronisationseinheit vorgesehen, die die unterschiedlich bearbeiteten Signale entsprechend ihrer Laufzeit, Länge und Phase verzögert und richtig zusammensetzt.

Fig. 20 zeigt die verschiedenen Möglichkeiten der bei der Erfindung bevorzugt eingesetzten Frequenzaufteilung mittels der beschriebenen Trenneinheiten. Die einfachste Form der Frequenzaufteilung ist, wie in Fig. 20a gezeigt, eine belie bige Zuordnung der Frequenzen zu einem Teilsignal, wobei eine Frequenz auch mehrfach zugeordnet werden darf. Die einzelnen Teilsignale, von denen in Fig. 20a für zwei Teilsignale jeweils das Spektrum gezeigt ist, können also über Filter mit einer entsprechenden Übertragungsfunktion gewonnen werden.

Eine zweite Möglichkeit der Frequenzaufteilung, wie sie in Fig. 20b gezeigt ist, ist die komplementäre Aufteilung. Bei dieser Art der Aufteilung wird der Fre quenzbereich in mehrere nicht überlappende Teilbereiche aufgespalten. Wichtig ist dabei, dass jede Frequenz nur jeweils einem Teilsignal zugeordnet wird, dass also die einzelnen Frequenzbereiche nicht mehrfach zugeordnet werden. Die Erzeugung der Teilsignale, von denen in Fig. 20b wiederum für zwei Teilsignale die Spektren gezeigt sind, kann über komplementäre Filter erfolgen.

Eine dritte und bei der vorliegenden Erfindung bevorzugte Form der Frequenz aufteilung ist die komplementäre Bandaufteilung, wie sie in Fig. 20c gezeigt ist. Dabei wird der Frequenzbereich durch Tief-, Hoch- und Bandpässe so aufgeteilt, dass jeder Frequenzbereich zusammenhängend ist und nur einem Teilsignal zugeordnet wird. Die Spektren dreier solcher Teilsignale sind in Fig. 20c gezeigt.

Claims

1. Verfahren zur Veränderung der zeitlichen Dauer und/oder der Tonhöhe eines diskreten Audiosignals bei gleichbleibender Abtastrate, dadurch gekennzeichnet, dass das Audiosignal in wenigstens zwei Teilsignale aufgespalten und jeweils einem Bearbeitungskanal zugeführt wird, dass die zeit liche Dauer und/oder die Tonhöhe der Teilsignale auf unterschiedliche Weise gesondert verändert wird und dass die gesondert bearbeiteten Teilsignale da nach zu einem Ausgangssignal zusammengefasst werden.

2. Verfahren zur Veränderung der zeitlichen Dauer und/oder der Tonhöhe eines diskreten Audiosignals bei gleichbleibender Abtastrate, dadurch gekennzeichnet, dass das Audiosignal wenigstens zwei parallelen Bear beitungskanälen zugeführt wird, dass die zeitliche Dauer und/oder die Tonhöhe der Audiosignale auf unterschiedliche Weise gesondert verändert wird, dass die gesondert bearbeiteten Audiosignale jeweils in wenigstens zwei Teilsignale auf gespalten werden und dass danach ein Ausgangssignal durch Kombination je weils wenigstens eines Teilsignals jedes Bearbeitungskanals gebildet wird.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die gesonderte Bearbeitung in den wenigstens zwei parallelen Bearbeitungskanälen mittels desselben Verfahrens mit unter schiedlichen Parametern oder mittels unterschiedlicher Verfahren erfolgt.

4. Verfahrer nach Anspruch 1, dadurch gekennzeichnet, dass die Veränderung der Tonlänge wenigstens eines der Teilsignale in einem Bearbeitungskanal durch Einfügen von neu berechneten Signalanteilen erfolgt, wobei die neu berechneten Signalanteile mittels einer ge wichteten Addition wenigstens zweier benachbarter Signalanteile des Teilsignals ermittelt werden.

5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass zur Veränderung der Tonlänge des Audiosignals für wenigstens eines der Teilsignale in einem Bearbeitungskanal neu berechnete Signalanteile mittels einer gewichteten Addition wenigstens zweier benachbarter Signalanteile des Teilsignals ermittelt werden, dass die Teilsignale danach zu einem neue Signalanteile aufweisenden Ausgangssignal zusammengefasst wer den und dass die Veränderung der Tonlänge des Audiosignals durch Einfügen von Signalteilen dieses Ausgangssignals in das Audiosignal erfolgt.

6. Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass die zur Berechnung der neuen Signalanteile he rangezogenen Signalanteile eines Teilsignals im Abstand der Grundfrequenz verwendet werden.

7. Verfahren nach einem der Ansprüche 4 bis 6, dadurch gekennzeichnet, dass das Einfügen der neu berechneten Signalanteile nach dem PSOLA-Verfahren erfolgt.

8. Verfahren nach einem der Ansprüche 4 bis 7, dadurch gekennzeichnet, dass die neuen Signalanteile wenigstens eines Teilsig nals durch eine zufällige Wahl aus benachbarten Anteilen des Teilsignals be stimmt werden.

9. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass zur Veränderung der Tonlänge des Audiosignals in wenigstens einem Bearbeitungskanal neu berechnete Signalanteile des Au diosignals mittels einer gewichteten Addition wenigstens zweier benachbarter Signalanteile des Audiosignals ermittelt werden, dass die derart bearbeiteten Audiosignale jeweils in wenigstens zwei Teilsignale aufgespalten werden, dass danach ein neue Signalanteile aufweisendes Ausgangssignal durch Kombination jeweils wenigstens eines Teilsignals jedes Bearbeitungskanals gebildet wird, und dass die Veränderung der Tonlänge des Audiosignal durch Einfügen von Signal teilen dieses Ausgangssignals in das Audiosignal erfolgt.

10. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass zur Veränderung der Tonhöhe des Audiosignals in wenigstens einem Bearbeitungskanal ein formanterhaltender Algorithmus zur Veränderung der Tonhöhe des Signals in diesem wenigstens einen Bearbei tungskanal verwendet wird und dass in wenigstens einem anderen Bearbei tungskanal ein formantverändernder Algorithmus zur Veränderung der Tonhöhe des Signals in wenigstens diesem einen Bearbeitungskanal verwendet wird.

11. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Aufspaltung in Teilsignale durch Frequenzauf teilung erfolgt.

12. Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass die Frequenzaufteilung durch Filterung mittels wenigstens eines linearphasigen und/oder rein transversalen Filters erfolgt.

13. Verfahren nach Anspruch 11 oder 12, dadurch gekennzeichnet, dass die Frequenzaufteilung in nur zwei Frequenzbän der mittels eines einzigen Filters erfolgt, wobei der komplementäre Anteil des gefilterten Signals durch Subtraktion des gefilterten Signals von einer verzöger ten Version des ungefilterten Signals gebildet wird.

14. Verfahren nach Anspruch 11 oder 12, dadurch gekennzeichnet, dass bei der Frequenzaufteilung eine komplementäre Aufteilung der Frequenzanteile derart erfolgt, dass der Frequenzbereich in meh rere nicht überlappendende Frequenzbereiche aufgeteilt wird, insbesondere der art, dass der Frequenzbereich durch Filterung im Frequenzbereich in mehrere jeweils zusammenhängende Frequenzbereiche, die jeweils nur einem Teilsignal zugeordnet werden, aufgeteilt wird.

15. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Teilsignale vor der Bildung des Ausgangssig nals durch Kombination insbesondere mittels Verzögerungselementen verzögert werden.

16. Vorrichtung zur Veränderung der zeitlichen Dauer und/oder der Tonhöhe eines diskreten Audiosignals bei gleichbleibender Abtastrate, gekennzeichnet durch eine Trenneinheit zur Aufspaltung des Audiosignals in wenigstens zwei Teilsignale, durch wenigstens zwei parallele Bearbeitungskanä le, denen jeweils ein Teilsignal zugeführt wird, durch jeweils eine Bearbeitungs einheit in jedem Bearbeitungskanal zur gesonderten Veränderung der zeitlichen Dauer und/oder der Tonhöhe der Teilsignale auf unterschiedliche Weise und durch eine Kombinationseinheit zur anschließenden Zusammenfassung der ge sondert bearbeiteten Teilsignale zu einem Ausgangssignal.

17. Vorrichtung zur Veränderung der zeitlichen Dauer und/oder der Tonhöhe eines diskreten Audiosignals bei gleichbleibender Abtastrate, gekennzeichnet durch wenigstens zwei parallele Bearbeitungskanäle, denen je weils das Audiosignal zugeführt wird, durch jeweils eine Bearbeitungseinheit in jedem Bearbeitungskanal zur gesonderten Veränderung der zeitlichen Dauer und/oder der Tonhöhe des Audiosignals auf unterschiedliche Weise, durch eine Trenneinheit zur Aufspaltung der gesondert bearbeiteten Audiosignale jeweils in wenigstens zwei Teilsignale und durch eine Kombinationseinheit zur anschlie ßenden Zusammenfassung jeweils wenigstens eines Teilsignals jedes Bearbei tungskanals zu einem Ausgangssignal.

18. Computerprogramm mit Computerprogrammmitteln zur Veranlassung eines Computers zur Ausführung der Verfahrensschritte des Verfahrens nach An spruch 1 oder 2, wenn das Computerprogramm auf einem Computer ausgeführt wird.

19. Computerlesbarer Datenträger, auf dem ein Computerprogramm nach An spruch 18 gespeichert ist.