DE69824613T2

DE69824613T2 - Ein system und verfahren zur prosodyanpassung

Info

Publication number: DE69824613T2
Application number: DE69824613T
Authority: DE
Inventors: M. Francisco GIMENEZ DE LOS GALANES; David Talkin
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 1997-01-27
Filing date: 1998-01-27
Publication date: 2005-07-14
Anticipated expiration: 2018-01-28
Also published as: AU6044398A; WO1998035339A3; EP1019906B1; EP1019906A2; WO1998035339A2; DE69824613D1; US6377917B1; ATE269575T1; EP1019906A4

Description

Diese Anmeldung beansprucht den Schutz der hierin durch Bezugnahme aufgenommenen vorläufigen U.S.-Patentanmeldung Nr. 60/036,228 mit dem Titel „Verfahren und System zum Modifizieren der Tonhöhenkontur von Sprache", beantragt am 27. Januar 1997 durch Francisco M. Gimenez de los Galanes.
Die vorliegende Erfindung bezieht sich auf die Signalweiterverarbeitung und insbesondere auf die Prosodieanpassung eines quasiperiodischen Signals.
Prosodieanpassung ist die Signalanpassung eines quasiperiodischen Signals, ohne die Klangfarbe zu beeinflussen. Quasiperiodische Signale umfassen menschliche Sprache, zum Beispiel Sprechen und Singen, synthetische Sprache und Töne von Musikinstrumenten, wie beispielsweise Töne von Holzblasinstrumenten, Blechblasinstrumenten oder Saiteninstrumenten. Bestimmte Beispiele der Prosodieanpassung umfassen das Anpassen der Tonhöhe eines quasiperiodischen Signals ohne die Beeinflussung der Klangfarbe, beispielsweise das Ändern eines abgetasteten Klarinetten-Tons von C auf A, während er noch immer wie eine Klarinette klingt. Ein anderer Zweck der Prosodieanpassung ist der, die Dauer eines quasiperiodischen Signals zu ändern, ohne weder die Tonhöhe noch die Klangfarbe zu beeinflussen.
Praktische Anwendungen der Prosodieanpassung umfassen das Hinzufügen von Betonungen auf voraufgezeichnete Nachrichten und die Veränderung eines menschlichen Dialogs, um in einen bestimmten Zeitabschnitt zu passen, beispielsweise einer Werbeanzeige, oder der Lippensynchronität bei der Nachbearbeitung eines Videos oder eines Spielfilms. Die Prosodieanpassung wird ebenso benutzt, die Tonhöhe eines Sängers oder Musikinstrumentes anzupassen, beispielsweise, um die Tonart zu ändern, Vibrato hinzuzufügen oder schlechte Stimmkontrolle zu korrigieren. Die Sprachsynthese erfordert die Prosodieanpassung von kurzen Sprachsegmenten vor der Konkatenation, um Wörter und längere Nachrichten zu erzeugen.
Ein konventioneller Ansatz der Prosodieanpassung ist eine Technik des tonhöhensynchronen Overlap-and-Add. Das U.S.-Patent Nr. 5,524,172 beschreibt ein konventionelles Overlap-and-Add-Verfahren zur Prosodieanpassung von Sprachsynthesesegmenten, die von menschlichen Tönen abgeleitet werden, die, wegen der engen Beschränkungen durch Berechnungs- und Speicherkosten, mit einer relativ langsamen Abtastgeschwindigkeit von 16 kHz abgetastet werden. Eine Reihe von originalen Synchronisationszeichen innerhalb des Sprachsegments wird durch die Sample-Nummer indiziert und in einem Speicher gespeichert. Die Dauer des Sprachsegmentes wird durch Time-Warping der Synchronisationszeichen modifiziert, um eine Reihe von synthetischen Synchronisationszeichen herzustellen, die ebenso durch eine Sample-Nummer indiziert werden. Die unter Verwendung eines symmetrischen Hanning-Fensters an den originalen Synchronisationszeichen aus dem Sprachsegment extrahierten Wellenformen werden durch Verschieben auf die entsprechenden synthetischen Synchronisationszeichen überlappt und dem Ausgabesignal hinzugefügt.
Konventionelle Techniken des Overlap-and-Add führen etwas Rauschen in Form eines künstlichen Jitters oder eines harmonischen Mix-Ups in das Signal ein, die als eine „Unschärfe" oder vibrationsartige Eigenschaft gehört werden. Insbesondere höhertonige Signale, wie zum Beispiel die Stimmen von Frauen, Kinderstimmen, Singstimmen und die Töne der meisten Musikinstrumente, werden besonders beeinflusst. Weiterhin haben die konventionellen Overlap-and-Add-Verfahren Schwierigkeiten mit Signalen, die das schnelle Wechseln der Tonhöhe involvieren, zum Beispiel bei Musik, beim Singen oder bei dem Spielen von Musikinstrumenten.
WO-A-9526024 legt eine Sprachsynthesevorrichtung offen, die Einrichtungen enthält, die gesteuert werden können, die Tonhöhe eines durch die Vorrichtung synthetisierten Sprachsignals zu variieren.
Es besteht ein Bedarf für ein Prosodieanpassungssystem und ein Prosodieanpassungsverfahren, die das Einführen von Rauschen oder Unschärfe in die Ausgabe reduzieren. Es besteht ebenso ein Bedarf, die Prosodie von Signalen effektiv anzupassen ohne die Musikalität schwerwiegend zu beeinflussen oder die erwünschte Tonhöhe zu gefährden, beispielsweise bei höhertonigen Signalen, wie den Stimmen von Frauen, Kinderstim men, Singstimmen und den meisten Tönen von Musikinstrumenten und bei Signalen, die den schnellen Wechsel von Tonhöhen involvieren.
Ein Aspekt der vorliegenden Erfindung entstammt der Erkenntnis, dass eine weitere Fehlerquelle bei konventionellen Verfahren des Overlap-and-Adds die Verwendung von symmetrischen Fenstern beim Extrahieren der Wellenformen um die Synchronisationszeichen herum ist, wenn sich die Tonhöhe schnell verändert. Die symmetrischen Fenster neigen dazu, entweder zu viel oder zu wenig von der zu überlappenden und hinzuzufügenden Wellenform zu extrahieren.
Gemäß der vorliegenden Erfindung wird ein Verfahren zur Durchführung der Prosodieanpassung eines quasiperiodischen Signals bereitgestellt, wobei das Verfahren die folgenden Schritte umfasst:
Bestimmen einer Reihe von Original-Synchronisationszeichen bei dem Originalsignal,
Bestimmen einer Reihe von synthetischen Synchronisationszeichen auf der Basis der Original-Synchronisationszeichen und auf Prosodieinformation,
Extrahieren der Wellenformen um eines der Original-Synchronisationszeichen herum durch Anwenden eines Filterfensters und Zeitverschiebung entsprechend einem der Original-Synchronisationszeichen und einem der synthetischen Synchronisationszeichen, das dem einen der Original-Synchronisationszeichen entspricht und
Summieren der extrahierten Wellenformen, um das quasiperiodische Signal zu synthetisieren, wobei
das asymmetrische Filterfenster einen ersten Halbwertsbreiteabschnitt auf einer Seite des Original-Synchronisationszeichens und einen zweiten Halbwertsbreiteabschnitt auf einer anderen Seite des Original-Synchronisationszeichens aufweist, wobei der erste Halbwertsbreiteabschnitt in der Größe unterschiedlich zu dem zweiten Halbwertsbreiteabschnitt ist,
der erste und der zweite Abschnitt in einer Nebeneinanderstellung zueinander sind,
der erste Abschnitt eine progressiv von null auf einen Nicht-Null-Wert entlang der ersten Halbwertbreite ansteigende Amplitude aufweist und
der zweite Abschnitt eine von dem Nicht-Null-Wert progressiv auf null entlang der zweiten Halbwertbreite abfallende Amplitude aufweist, dadurch gekennzeichnet, dass:
die erste Halbwertbreite das kleinere von den Intervallen zwischen dem einen der Original-Synchronisationszeichen und einem vorhergehenden Original-Synchronisationszeichen und dem Intervall zwischen dem einen der Synchronisationszeichen und einem vorhergehenden synthetischen Synchronisationszeichen ist.
Es kann ein rechnerlesbares Medium verwendet werden, um ein derartiges Synthetisierungsverfahren durchzuführen.
Zusätzliche Anforderungen, Ziele, Vorteile und neue Leistungsmerkmale der vorliegenden Erfindung werden teilweise in dem folgenden Beschreibungsteil und teilweise während der Prüfung offensichtlich werden oder werden während der praktischen Umsetzung der Erfindung erkannt. Die Ziele und Vorteile der Erfindung können durch die Verfahren und Kombinationen, die in den angehängten Patentansprüchen besonders dargelegt werden, realisiert werden.
Die vorliegende Erfindung wird in den Figuren der begleitenden Zeichnungen, bei denen gleiche Referenzzahlen gleichartige Elemente bezeichnen, durch Beispiele dargestellt und nicht durch Beschränkungen.
Kurzbeschreibung der Figuren
1 bildet schematisch ein Computersystem ab, das bei der vorliegenden Erfindung implementiert werden kann.
2 ist ein Fließdiagramm, das den Betrieb einer Ausführung der vorliegenden Erfindung darstellt und
3(a) und 3(b) bilden ein exemplarisches Sample mit einem Original-Synchronisationszeichen und einem synthetischen Synchronisationszeichen ab.
Bei der folgenden Beschreibung werden für den Zweck der Erklärung zahlreiche Details dargelegt, um für ein vollständiges Verständnis der vorliegenden Erfindung zu sorgen.
Es wird jedoch für einen Fachmann in dieser Technik offensichtlich sein, dass die vorliegende Erfindung ohne diese besonderen Einzelheiten ausgeführt werden kann. Bei anderen Gelegenheiten werden wohlbekannte Aufbauten und Vorrichtungen in Form von Blockdiagrammen gezeigt, um ein unnötiges Komplizieren der vorliegenden Erfindung zu vermeiden.
Übersicht über die Hardware
Die 1 ist ein Blockdiagramm, das ein Computersystem 100 darstellt, auf dem eine Ausführung der vorliegenden Erfindung implementiert werden kann. Das Computersystem 100 enthält einen Bus 102 oder andere Kommunikationseinrichtungen zum Kommunizieren von Information und einen Rechner (oder eine Vielzahl von gemeinsam arbeitenden CPUs) 104, gekoppelt an den Bus 102 zum Weiterverarbeiten von Information. Das Computersystem 100 enthält ebenso einen Hauptspeicher 106, wie einen Direktzugriffsspeicher (RAM) oder andere dynamische Speichereinrichtungen, gekoppelt an den Bus 102, zum Speichern von Information und von Anweisungen, die durch den Rechner 104 auszuführen sind. Der Hauptspeicher 106 kann ebenso benutzt werden, um, während der Ausführung der durch den Rechner 104 auszuführenden Anweisungen, temporäre Variable oder andere Zwischeninformation zu speichern. Das Computersystem 100 enthält ebenso einen Festwertspeicher (ROM) 108 oder andere statische Speichereinrichtungen, gekoppelt an den Bus 102, zum Speichern von statischen Informationen und Anweisungen für den Rechner 104. Eine Speichereinrichtung 110, wie zum Beispiel eine Magnetplatte oder eine optische Platte, wird bereitgestellt und zum Speichern von Informationen und Anweisungen an den Bus 102 gekoppelt.
Das Computersystem 100 kann über den Bus 102, zum Anzeigen der Informationen an einen Benutzer des Rechners, an eine Anzeige 111, wie zum Beispiel eine Kathodenstrahlröhre (CRT), gekoppelt sein. Eine Eingabevorrichtung, einschließlich alphanumerischer und anderer Tasten, ist zum Kommunizieren von Information und zur Befehlsauswahl an den Rechner 104 gekoppelt. Eine weitere Art von Benutzereingabevorrichtung ist eine Cursor-Steuerung 115, wie zum Beispiel eine Maus, eine Kugelführung oder Cursor-Richtungstasten, zum Kommunizieren von Richtungsinformation und zur Be fehlsauswahl an den Rechner 104 und zum Steuern der Cursor-Bewegung auf der Anzeige 111. Diese Eingabevorrichtung hat üblicherweise zwei Bewegungsfreiheiten auf zwei Achsen, einer ersten Achse (z. B. x), die es der Vorrichtung ermöglicht, Positionen in einer Ebene zu bestimmen. Für die Audioeingabe und die Audioausgabe kann das Computersystem 100 jeweils an einen Lautsprecher 117 und an ein Mikrofon 119 gekoppelt werden.
Die Prosodieanpassung wird durch das Computersystem 100 als Reaktion auf das Ausführen von einer oder mehreren Abfolge(n) von in dem Hauptspeicher 106 enthaltenen Anweisungen durch den Rechner 104 bereitgestellt. Solche Anweisungen können in den Hauptspeicher 106 von einem anderen rechnerlesbaren Medium, wie zum Beispiel der Speichereinrichtung 110, eingelesen werden. Die Ausführung der in dem Hauptspeicher 106 enthaltenen Anweisungen veranlasst den Rechner 104, die hierin beschriebenen Prozessschritte auszuführen. Ein oder mehrere Rechner in einer Mehrfachprozessanordnung kann bzw. können ebenso verwendet werden, um die Abfolge von in dem Hauptspeicher 106 enthaltenen Anweisungen auszuführen. Alternativ können festverdrahtete Schaltkreise anstelle von – oder in Kombination mit – Softwareanweisungen verwendet werden.
Der hierin verwendete Begriff „rechnerlesbares Medium" bezieht sich auf jedes Medium, das daran beteiligt ist, für den Rechner 104 Anweisungen zur Ausführung bereitzustellen. Solch ein Medium kann viele Formen aufweisen, einschließlich, jedoch nicht darauf beschränkt, nichtflüchtiger Medien, flüchtiger Medien und Übertragungsmedien. Nichtflüchtige Medien schließen zum Beispiel optische oder magnetische Platten, wie die Speichereinrichtung 110, ein. Flüchtige Medien können dynamische Speicher einschließen, wie den Hauptspeicher 106. Übertragungsmedien schließen Koaxialkabel, Kupferdrähte und Glasfasern ein, die den Bus 102 umfassen. Übertragungsmedien können ebenso die Form von optischen Lichtwellen annehmen, wie jene, die während Hochfrequenz-(RF-)Kommunikation und Infrarot-Datenkommunikation erzeugt werden. Gewöhnliche Formen der rechnerlesbaren Medien schließen beispielsweise eine Diskette, eine Floppy-Disk, eine Magnetplatte, ein Magnetband oder jedes andere magnetische Medium, eine CD-ROM, eine DVD, jedes andere optische Medium, Lochkarten, Lochstreifen, jedes andere physikalische Medium mit Lochmustern, einen RAM, einen PROM und EPROM, einen FLASH-EPROM, jeden anderen Speicherchip oder jede andere Kasset te, eine Trägerwelle, wie sie hier später beschrieben wird, oder jedes andere Medium, von dem ein Computer lesen kann, ein.
Verschiedene Formen von rechnerlesbaren Medien können beim Übertragen einer oder mehrerer Abfolge(n) von einer oder mehreren Anweisungen) zum Ausführen für den Rechner 104 involviert sein. Zum Beispiel können die Anweisungen anfänglich auf einer Magnetplatte eines entfernten Rechners getragen werden. Der entfernte Rechner kann die Anweisungen in seinen dynamischen Speicher laden und die Anweisungen unter Verwendung eines Modems über eine Telefonleitung senden. Ein lokales Modem an dem Computersystem 100 kann die Daten auf der Telefonleitung empfangen und einen Infrarotsender verwenden, um die Daten in ein Infrarotsignal umzuwandeln. Ein an den Bus 102 gekoppelter Infrarotdetektor kann die in dem Infrarotsignal übertragenen Daten empfangen und die Daten auf dem Bus 102 platzieren. Der Bus 102 überträgt die Daten an den Hauptspeicher 106, aus dem der Rechner 104 die Anweisungen abruft und dann ausführt. Die durch den Hauptspeicher 106 empfangenen Daten können wahlweise vor oder nach der Ausführung durch den Rechner 104 in einer Speichereinrichtung 110 gespeichert werden.
Das Computersystem 100 enthält ebenso eine an den Bus 102 gekoppelte Kommunikationsschnittstelle 120. Die Kommunikationsschnittstelle 120 stellt eine Zweiweg-Datenkommunikation, die an eine Netzwerkverbindung 121 koppelt, die mit einem lokalen Netzwerk 122 verbunden ist, bereit. Beispiele für die Kommunikationsschnittstelle 120 schließen eine dienstintegrierende digitale Netzwerk-(ISDN-)Karte, ein Modem, um eine Datenkommunikationsverbindung für eine entsprechende Telefonleitung bereitzustellen, und eine lokale Netzwerk-(LAN-)Karte, um eine Datenkommunikationsverbindung für ein kompatibles LAN bereitzustellen, ein. Bei jeder dieser Implementierungen empfängt und sendet die Kommunikationsschnittstelle 120 elektromagnetische oder optische Signale, die verschiedene Arten von Informationen darstellende digitale Datenströme übertragen.
Die Netzwerkverbindung 121 stellt üblicherweise durch ein Netzwerk oder durch mehrere Netzwerke Datenkommunikation für andere Dateneinrichtungen bereit. Beispielsweise kann die Netzwerkverbindung 121 eine Verbindung durch das lokale Netzwerk 122 zu einem Hostrechner 124 oder zu durch einen Internetdienstanbieter (ISP) 126 bereit gestellten Datengeräten bereitstellen. Der ISP 126 wiederum stellt Datenkommunikationsdienste über das weltweite Paketdatenkommunikationsnetzwerk, das heute gewöhnlich als das „Internet" 128 bezeichnet wird, bereit. Sowohl das lokale Netzwerk 122 als auch das Internet 128 nutzen elektromagnetische oder optische Signale, die digitale Datenströme übertragen. Die Signale durch die verschiedenen Netzwerke und die Signale an der Netzwerkverbindung 121 und durch die Kommunikationsschnittstelle 120, die die digitalen Daten von und zu dem Computersystem 100 übertragen, sind exemplarische Formen von Trägerwellen, die Information transportieren.
Das Computersystem 100 kann durch die Netzwerke, die Netzwerkverbindung 121 und die Kommunikationsschnittstelle 120 Nachrichten senden und Daten, einschließlich Programmcodes empfangen. Bei dem Internetbeispiel könnte ein Server 130 einen Anforderungscode für ein Anwendungsprogramm über das Internet 128, den ISP 126, das lokale Netzwerk 122 und die Kommunikationsschnittstelle 120 übertragen.
Eine dieser heruntergeladenen Anwendungen stellt die hierin beschriebene Prosodieanpassung bereit. Der empfangene Datencode könnte durch den Rechner 104 bei Empfang ausgeführt werden oder in einer Speichereinrichtung 110 oder einem anderen nichtflüchtigen Speicher für die spätere Ausführung gespeichert werden. Auf diese Art und Weise kann das Computersystem 100 den Anwendungscode in Form einer Trägerwelle erhalten.
Prosodieanpassung
Die 2 ist ein Fließdiagramm, das den Vorgang der Prosodiemodifikation eines original quasiperiodischen Signals in ein synthetisches Signal darstellt.
In dem Schritt 200 wird eine Reihe von Original-Synchronisationszeichen für das originale Signal eingerichtet. Im Gegensatz zu konventionellen Verfahren werden die Original-Synchronisationszeichen mit einer größeren Genauigkeit berechnet als die Abtastgeschwindigkeit mit der das Originalsignal weiterverarbeitet wird. Wenn die Weiterverarbeitungsabtastgeschwindigkeit beispielsweise 16 kHz ist, können die Synchronisationszeichen bei dem Originalsignal mit einer Auflösung von 21 μs eingerichtet werden, ob wohl das Signal für die Weiterverarbeitung bei Intervallen von ungefähr 63 μs abgetastet wird. Ein Ansatz ist, die Synchronisationszeichen einer mit höherer Abtastgeschwindigkeit abgetasteten Version des Originalsignals zu bestimmen, beispielsweise mit einer Geschwindigkeit, wie mindestens drei Mal schneller ist als die Weiterverarbeitungsabtastgeschwindigkeit. Ein anderer Ansatz, der keine Erhöhung der Abtastgeschwindigkeit sondern mathematische Kurvenanpassung verwendet, wird im Folgenden ausführlicher beschrieben.
Bezug nehmend auf die 3(a) wird ein quasiperiodisches Signal abgebildet, bei dem ein Original-Synchronisationszeichen 310 zwischen dem Sample 300 und dem Sample 302 angeordnet ist. Das Sample 300 ist eine Amplitude des originalen quasiperiodischen Signals in einem Zeitmoment und das Sample 302 ist eine Amplitude des gleichen quasiperiodischen Signals bei einem späteren Zeitmoment. Das Original-Synchronisationszeichen 310 wird mit einer feineren Auflösung als die Abtastgeschwindigkeit berechnet und ist deshalb nicht notwendigerweise übereinstimmend mit jedweden Samples in dem abgetasteten Originalsignal. In der 3(a) ist das Original-Synchronisationszeichen 310 grob 80% von der Strecke von Sample 300 zu Sample 302.
Die Original-Synchronisationszeichen können durch eine Vielzahl von Einrichtungen eingerichtet werden und bei der menschlichen Sprache werden die Synchronisationszeichen vorzugsweise bei Momenten von Kehlkopfverschlüssen, Epochen genannt, angeordnet. Eine Epoche tritt auf wenn sich die Stimmritze (Glottis), die der Abstand zwischen den Stimmbändern des oberen Teils des Kehlkopfs ist, schließt und einen „tief klingenden" Schwingungsdämpfungseffekt in dem Sprachsignal verursacht. Eine geeignete Definition des Zeitpunkts des Kehlkopfverschlusses ist der Moment, in dem die maximale Luftflussveränderungsrate durch die Stimmritze vorhanden ist. Ein Ansatz für das Feststellen der Epochen ist die Anwendung von Standard-Epochen-Erfassungsverfahren bei einer mit höherer Geschwindigkeit abgetasteten Version des Originalsignals, bei beispielsweise ungefähr 48 kHz. Ein weiterer Ansatz für das Ermitteln der Epochen, gleichfalls bei der mit höherer Geschwindigkeit abgetasteten Originalversion des Signals, verwendet Grundfrequenzzuordnung, wie in D. Talkins „A robust Algorithm for Pitch Tracking (RAPT)", Speech Coding & Synthesis, Kleijn & Paliwal (Amsterdam, Elsevier, 1995) beschrieben, worin eine Grundfrequenz f₀ unter Verwendung der Querkorrelation und von dynamischen Programmierungstechniken erfasst wird. Die erfasste Grundfrequenz wird mit Höchstwerten (Peaks) kombiniert, die aus dem Residuum einer Codierung mit linearer Vorhersage in einem Programmierungsrahmen, der das Set von Epochen feststellt, das am besten mit den lokalen Schätzungen der Grundfrequenz f₀ übereinstimmt, ausgewählt werden. Ein weiterer Ansatz, der kein explizites Abtasten mit höherer Geschwindigkeit involviert, ist, eine Funktion, wie zum Beispiel eine ganzrationale Funktion, in das Sprachsignal in der Nähe des Höchstwertes einzusetzen und dann die Analysetechniken zu verwenden, um den Höchstwert in der Funktion, der der Grobschätzung der Epoche bei der Originalabtastgeschwindigkeit am nächsten kommt, festzustellen. Die Time-Warping-Funktion richtet eine Projektion der originalen und der synthetischen Zeitachsen ein, die ein Frame-Stufen-Mapping von Segmenten der Originalwellenform zu einem Zeitpunkt auf den synthetischen Achsen bestimmt. Wenn die Kombination der Grundfrequenz und der Zeitskalamodifikationen ein verdichteteres oder ausgedünnteres Set von Synchronisationszeichen verwendet, werden die Frames, um zu Kompensieren, jeweils wiederholt oder ausgelassen.
Im Gegensatz zu konventionellen Techniken werden die synthetischen Synchronisationszeichen nicht auf die Signal-Sampling-Frequenzintervalle quantisiert, sondern auf eine feinere Auflösung als das Sampling-Intervall, die vorzugsweise nur durch die Genauigkeit der zu Grunde liegenden Hardware beschränkt wird. Beispielsweise stellt die Mantisse einer 32-Bit-Gleitzahl 24-Bit-Auflösung bereit.
Bezug nehmend auf die 3(b) wird ein synthetisches Synchronisationszeichen 320, das zwischen dem Sample 300 und dem Sample 302 liegt, abgebildet. Das synthetische Synchronisationszeichen 320 wird nicht generell an der gleichen Stelle des entsprechenden Original-Synchronisationszeichens 310 erscheinen und wird, durch die geringe Verzögerung δ, von dem Original-Synchronisationszeichen 310 versetzt sein. Die Verzögerung δ ist nicht notwendigerweise ein integrales Mehrfaches des Sampling-Intervalls (die Zeitdauer zwischen Sample 300 und Sample 302) und kann tatsächlich ein Bruchteil des Sampling-Intervalls sein.
Das Erzeugen synthetischer Frames
Nachdem die originalen und die synthetischen Synchronisationszeichen generiert wurden, werden in dem Schritt 204 Wellenformen des Originalsignals durch die Anwendung eines Filterfensters um ein Original-Synchronisationszeichen herum extrahiert. Dieses Filterfenster kann ein rechteckiges Fenster sein, das einen Frame von dem vorhergehenden Synchronisationszeichen bis zu dem nächsten Synchronisationszeichen definiert. Folglich umfasst ein Frame zwei Perioden: die erste Periode von dem vorhergehenden Synchronisationszeichen bis zu dem aktuellen Synchronisationszeichen und die zweite Periode von dem aktuellen Synchronisationszeichen bis zu dem nächsten Synchronisationszeichen. Jedoch können andere Implementierungen ein vergrößertes Kosinusfenster, wie zum Beispiel ein Hamming-Fenster, ein symmetrisches Hamming-Fenster oder ein asymmetrisches Hamming-Fenster, das hierin in Verbindung mit dem Schritt 210 im Folgenden genauer beschrieben wird, oder ein mittig gewichtetes Fenster verwenden.
Nachdem die Wellenformen in dem ausgewählten Frame aus dem Originalsignal um ein Original-Synchronisationszeichen herum extrahiert wurden, werden die Wellenformen auf das entsprechende synthetische Synchronisationszeichen verschoben. Einem Beispiel entsprechend, werden die Wellenformen in einem Zwei-Schritte-Prozess verschoben. Als Erstes wird, wie bei den konventionellen Techniken, der ausgewählte Frame auf das naheste Sampling-Intervall, das vor dem synthetischen Synchronisationszeichen ist, verschoben (Schritt 206).
Der zweite Schritt ist ein Feinverschieben, das den Frame auf die genaue Zeitposition für das synthetische Synchronisationszeichen verschiebt (Schritt 208). Ein Ansatz zu dem Feinverschieben ist, das Originalsignal aus seinen Samples zu rekonstruieren und das Originalsignal, nach der Einführung der erwünschten Verzögerung in die Log-Domain, erneut abzutasten. Das Neuabtasten des Originalsignals kann digital durch Abtasten des Digitalsignals (d. h. des abgetasteten Originalsignals) mit erhöhter Geschwindigkeit, wobei ein digitaler Rekonstruktionsfilter bei erhöhter Abtastgeschwindigkeit eine ganzzahlige Verzögerung bei dieser erhöhten Abtastgeschwindigkeit einführt, und durch das Abtasten des verzögerten Signals mit bis auf die originale Abtastgeschwindigkeit verringerter Geschwindigkeit durchgeführt werden. Die erhöhte Ge schwindigkeit zum Abtasten wird durch die vernachlässigbare Quantisierung der Verzögerung bei dem Abtasten mit der höheren Sampling-Geschwindigkeit bestimmt. Unter Verwendung eines Sinc(x)-Rekonstruktionsfilters kann das neu abgetastete Signal mit der folgenden Gleichung dargestellt werden:
wobei x[n] das lang verschobene Signal ist, y(m) das fein verschobene Signal ist und α der Quotient der Feinverzögerung δ und der Sampling-Periode T_s ist. In der Praxis sind die Grenzen der Summation auf einen sensiblen ganzzahligen Wert wie 40 beschränkt, der geringe Verzerrung in das sich ergebende Signal einführt. Diese Verzerrung kann jedoch durch das Anwenden eines Tapering-Fensters, wie in F. M. Gimenez de los Galanes u. a., „Speech Synthesis System Based on a Variable Decimation/Interpolation Factor", IEEE Proc. ICASSP '95 (Detroit 1995), erläutert wird. Zu diesem Zeitpunkt können weitere Prosodieanpassungen angewendet werden, beispielsweise die Betonungssteuerung durch Multiplizieren der Wellenformen mit einem Verstärkungsfaktor.
Signalsynthese
Nachdem die extrahierten Wellenformen feinverschoben wurden, werden die Wellenformen kombiniert, um das synthetisierte Signal zu erzeugen, vorzugsweise durch die Anwendung des folgenden Overlap-and-Add-Verfahrens, um den schnellen Wechseln von Tonhöhen Rechnung zu tragen. Genauer gesagt, ist, gemäß einer Ausführung der vorliegenden Erfindung, der erste Abschnitt des asymmetrischen Fensters die Hälfte eines Hamming-Fensters, das sich in der Amplitude von 0 auf einen Nicht-Null-Wert, wie zum Beispiel 1, erhöht, mit einer Länge, die die kleinere der Längen der ersten Originalperiode und der ersten synthetischen Periode ist. Der zweite Abschnitt des asymmetrischen Fensters ist die Hälfte eines Hamming-Fensters, das sich in der Amplitude von dem Nicht-Null-Wert auf 0 vermindert, mit einer Länge, die die kleinere der Längen der zweiten Originalperiode und der zweiten synthetischen Periode ist. Es ist offensichtlich, dass ein weiteres Filterfenster angewendet werden kann, beispielsweise ein inhärent asymmetrisches Fenster, wie eine Gammafunktion oder die Hälften von symmetrischen Fenstern, wie zum Beispiel die eines Hamming-Fensters oder ein vergrößertes Kosinus-Fenster. Die Strategie des asymmetrischen Fensters verringert die Verzerrung in dem Fenster-Schritt eines Overlap-and-Add-Verfahrens dadurch, dass sie nicht zu viel und nicht zu wenig der Wellenform extrahiert.
Bei der in dem Fließdiagramm der 2 dargestellten Ausführung der vorliegenden Erfindung wird das asymmetrische Fenster auf eine zeitverschobene Wellenform angewendet. In einer weiteren Ausführung der vorliegenden Erfindung wird jedoch die Wellenform, selbst bei konventionellen Verfahren, zuerst durch ein asymmetrisches Fenster extrahiert und dann zeitverschoben. Nachdem die gefensterte zeitverschobene Wellenform extrahiert ist, wird sie mit weiteren überlappend gefensterten zeitverschobenen Wellenformen summiert, um in Übereinstimmung mit konventionellen Overlap-and-Add-Techniken das synthetische Signal zu erzeugen (Schritt 212).

Claims

Verfahren zum Durchführen der Prosodieanpassung eines quasiperiodischen Signals, das Verfahren umfasst die folgenden Schritte: Bestimmen einer Reihe (200) von Original-Synchronisationszeichen (310) in dem Originalsignal, Bestimmen (202) einer Reihe von synthetischen Synchronisationszeichen (320) auf der Basis der Original-Synchronisationszeichen und auf Prosodieinformationen, Extrahieren (204) der Wellenformen um eines der Original-Synchronisationszeichen herum durch Anwenden (210) eines Filterfensters und Zeitverschiebung entsprechend dem einem der Original-Synchronisationszeichen und dem einem der synthetischen Synchronisationszeichen, das dem einen der Original-Synchronisationszeichen entspricht und Addieren (212) der extrahierten Wellenformen, um das quasiperiodische Signal zu synthetisieren, wobei das asymmetrische Filterfenster einen ersten Halbwertsbreiteabschnitt auf einer Seite des Original-Synchronisationszeichens (310) und einen zweiten Halbwertsbreiteabschnitt auf einer anderen Seite des Original-Synchronisationszeichens aufweist, wobei der erste Halbwertsbreiteabschnitt in der Größe unterschiedlich von dem zweiten Halbwertsbreiteabschnitt ist, der erste und der zweite Abschnitt in einer Juxtaposition zueinander sind, der erste Abschnitt eine progressiv von null auf einen Nicht-Null-Wert entlang der ersten Halbwertsbreite ansteigende Amplitude aufweist und der zweite Abschnitt eine von dem Nicht-Null-Wert progressiv auf null entlang der zweiten Halbwertsbreite abfallende Amplitude aufweist, dadurch gekennzeichnet, dass die erste Halbwertsbreite das kleinere von den Intervallen zwischen dem einen der Original-Synchronisationszeichen und einem vorhergehenden Original-Synchronisationszeichen (310) und dem Intervall zwischen dem einen der Synchronisationszeichen (320) und einem vorhergehenden synthetischen Synchronisationszeichen ist und die zweite Halbwertsbreite das kleinere von den Intervallen zwischen dem einen der Original-Synchronisationszeichen und einem nachfolgenden Original-Synchronisationszeichen und dem Intervall zwischen dem einen der synthetischen Synchronisationszeichen und einem nachfolgenden Synchronisationszeichen ist.
Verfahren nach Anspruch 1, wobei der erste Abschnitt die erste Hälfte eines Hanning-Fensters ist und der zweite Abschnitt die zweite Hälfte eines Hanning-Fensters ist.
Verfahren nach Anspruch 1, wobei der Schritt der Fensterung (210) vor dem Schritt des Zeitverschiebens (206) durchgeführt wird.
Verfahren nach Anspruch 1, wobei der Schritt der Fensterung (210) nach dem Schritt des Zeitverschiebens (206) durchgeführt wird.
Verfahren nach Anspruch 1, wobei eine Differenz von dem einen der Original-Synchronisationszeichen (310) und dem einen der synthetischen Synchronisationszeichen (320) ein nicht ganzzahliges Vielfaches des Sampling-Intervalls ist.
Verfahren nach Anspruch 5, wobei der Schritt des Bestimmens einer Reihe von Original-Synchronisationszeichen (310) in dem quasiperiodischen Signal den Schritt des Bestimmens wenigstens eines der Original-Synchronisationszeichen in einer feineren Auflösung als das Sampling-Intervall enthält.
Verfahren nach Anspruch 6, abhängig von Anspruch 1, wobei der Schritt des Bestimmens wenigstens eines der Original-Synchronisationszeichen (310) in einer feineren Auflösung als das Sampling-Intervall den Schritt des Anpassens einer mathematischen Kurve, um einen Höchstwert in dem quasiperiodischen Signal festzustellen, enthält.
Verfahren nach Anspruch 6, wobei der Schritt des Bestimmens wenigstens eines der Original-Synchronisationszeichen (310) in einer feineren Auflösung als das Sampling-Intervall den Schritt des Abtastens des quasiperiodischen Signals in einem kürzeren Sampling-Intervall in Bezug auf das Sampling-Intervall enthält.
Verfahren nach Anspruch 8, wobei das kürzere Intervall höchstens ein Drittel des Sampling-Intervalls ist.
Verfahren nach Anspruch 5, wobei der Schritt des Bestimmens einer Reihe von Original-Synchronisationszeichen (310) in dem quasiperiodischen Signal den Schritt des Bestimmens der Epochen in dem quasiperiodischen Signal enthält.
Verfahren nach Anspruch 5, wobei der Schritt des Bestimmens einer Reihe von synthetischen Synchronisationszeichen (320) den Schritt des Bestimmens wenigstens eines der synthetischen Synchronisationszeichen in einer feineren Auflösung als das Sampling-Intervall enthält.
Verfahren nach Anspruch 11, wobei der Schritt des Bestimmens wenigstens eines der synthetischen Synchronisationszeichen (320) in einer feineren Auflösung als das Sampling-Intervall den Schritt des Bestimmens wenigstens eines der synthetischen Synchronisationszeichen durch eine Gleitpunktzahl mit einer Mantisse von wenigstens vierundzwanzig Bit enthält.
Verfahren nach Anspruch 5, wobei der Schritt des Verschiebens (206) der Wellenform auf eines der dem einen der Original-Synchronisationszeichen ent sprechenden synthetischen Synchronisationszeichen (320) den Schritt der Wiederabtastung (208) der Wellenformen zum Anpassen der Wellenformen an das eine der synthetischen Synchronisationszeichen enthält.
Verfahren nach Anspruch 13, wobei der Schritt des Verschiebens (206) der Wellenformen auf eines der dem einen der Original-Synchronisationszeichen entsprechenden synthetischen Synchronisationszeichen (320) weiterhin, bevor der Schritt der Wiederabtastung durchgeführt wird, den Schritt des Verschiebens der Wellenform auf das naheste vorhergehende Sampling-Intervall von dem einen der synthetischen Synchronisationszeichen enthält.
Ein rechnerlesbares Medium (100), das Anweisungen für ein quasiperiodisches Signal eine Prosodieanpassung durchzuführen, trägt, wobei die Anweisungen angeordnet sind, wenn sie ausgeführt werden, den bzw. die Rechner (104) zu veranlassen, die Schritte des Anspruchs 1 oder die der von Anspruch 1 abhängigen Ansprüche auszuführen.