-
Diese
Anmeldung beansprucht den Schutz der hierin durch Bezugnahme aufgenommenen
vorläufigen U.S.-Patentanmeldung
Nr. 60/036,228 mit dem Titel „Verfahren
und System zum Modifizieren der Tonhöhenkontur von Sprache", beantragt am 27.
Januar 1997 durch Francisco M. Gimenez de los Galanes.
-
Die
vorliegende Erfindung bezieht sich auf die Signalweiterverarbeitung
und insbesondere auf die Prosodieanpassung eines quasiperiodischen
Signals.
-
Prosodieanpassung
ist die Signalanpassung eines quasiperiodischen Signals, ohne die
Klangfarbe zu beeinflussen. Quasiperiodische Signale umfassen menschliche
Sprache, zum Beispiel Sprechen und Singen, synthetische Sprache
und Töne
von Musikinstrumenten, wie beispielsweise Töne von Holzblasinstrumenten, Blechblasinstrumenten
oder Saiteninstrumenten. Bestimmte Beispiele der Prosodieanpassung
umfassen das Anpassen der Tonhöhe
eines quasiperiodischen Signals ohne die Beeinflussung der Klangfarbe,
beispielsweise das Ändern
eines abgetasteten Klarinetten-Tons von C auf A, während er
noch immer wie eine Klarinette klingt. Ein anderer Zweck der Prosodieanpassung
ist der, die Dauer eines quasiperiodischen Signals zu ändern, ohne
weder die Tonhöhe
noch die Klangfarbe zu beeinflussen.
-
Praktische
Anwendungen der Prosodieanpassung umfassen das Hinzufügen von
Betonungen auf voraufgezeichnete Nachrichten und die Veränderung
eines menschlichen Dialogs, um in einen bestimmten Zeitabschnitt
zu passen, beispielsweise einer Werbeanzeige, oder der Lippensynchronität bei der
Nachbearbeitung eines Videos oder eines Spielfilms. Die Prosodieanpassung
wird ebenso benutzt, die Tonhöhe
eines Sängers
oder Musikinstrumentes anzupassen, beispielsweise, um die Tonart
zu ändern,
Vibrato hinzuzufügen oder
schlechte Stimmkontrolle zu korrigieren. Die Sprachsynthese erfordert
die Prosodieanpassung von kurzen Sprachsegmenten vor der Konkatenation,
um Wörter
und längere
Nachrichten zu erzeugen.
-
Ein
konventioneller Ansatz der Prosodieanpassung ist eine Technik des
tonhöhensynchronen
Overlap-and-Add. Das U.S.-Patent Nr. 5,524,172 beschreibt ein konventionelles
Overlap-and-Add-Verfahren zur Prosodieanpassung von Sprachsynthesesegmenten,
die von menschlichen Tönen
abgeleitet werden, die, wegen der engen Beschränkungen durch Berechnungs-
und Speicherkosten, mit einer relativ langsamen Abtastgeschwindigkeit
von 16 kHz abgetastet werden. Eine Reihe von originalen Synchronisationszeichen
innerhalb des Sprachsegments wird durch die Sample-Nummer indiziert
und in einem Speicher gespeichert. Die Dauer des Sprachsegmentes
wird durch Time-Warping
der Synchronisationszeichen modifiziert, um eine Reihe von synthetischen
Synchronisationszeichen herzustellen, die ebenso durch eine Sample-Nummer
indiziert werden. Die unter Verwendung eines symmetrischen Hanning-Fensters
an den originalen Synchronisationszeichen aus dem Sprachsegment
extrahierten Wellenformen werden durch Verschieben auf die entsprechenden synthetischen
Synchronisationszeichen überlappt
und dem Ausgabesignal hinzugefügt.
-
Konventionelle
Techniken des Overlap-and-Add führen
etwas Rauschen in Form eines künstlichen
Jitters oder eines harmonischen Mix-Ups in das Signal ein, die als
eine „Unschärfe" oder vibrationsartige
Eigenschaft gehört
werden. Insbesondere höhertonige
Signale, wie zum Beispiel die Stimmen von Frauen, Kinderstimmen,
Singstimmen und die Töne
der meisten Musikinstrumente, werden besonders beeinflusst. Weiterhin haben
die konventionellen Overlap-and-Add-Verfahren Schwierigkeiten mit
Signalen, die das schnelle Wechseln der Tonhöhe involvieren, zum Beispiel
bei Musik, beim Singen oder bei dem Spielen von Musikinstrumenten.
-
WO-A-9526024
legt eine Sprachsynthesevorrichtung offen, die Einrichtungen enthält, die
gesteuert werden können,
die Tonhöhe
eines durch die Vorrichtung synthetisierten Sprachsignals zu variieren.
-
Es
besteht ein Bedarf für
ein Prosodieanpassungssystem und ein Prosodieanpassungsverfahren,
die das Einführen
von Rauschen oder Unschärfe
in die Ausgabe reduzieren. Es besteht ebenso ein Bedarf, die Prosodie
von Signalen effektiv anzupassen ohne die Musikalität schwerwiegend
zu beeinflussen oder die erwünschte
Tonhöhe
zu gefährden,
beispielsweise bei höhertonigen
Signalen, wie den Stimmen von Frauen, Kinderstim men, Singstimmen
und den meisten Tönen
von Musikinstrumenten und bei Signalen, die den schnellen Wechsel
von Tonhöhen
involvieren.
-
Ein
Aspekt der vorliegenden Erfindung entstammt der Erkenntnis, dass
eine weitere Fehlerquelle bei konventionellen Verfahren des Overlap-and-Adds
die Verwendung von symmetrischen Fenstern beim Extrahieren der Wellenformen
um die Synchronisationszeichen herum ist, wenn sich die Tonhöhe schnell
verändert. Die
symmetrischen Fenster neigen dazu, entweder zu viel oder zu wenig
von der zu überlappenden
und hinzuzufügenden
Wellenform zu extrahieren.
-
Gemäß der vorliegenden
Erfindung wird ein Verfahren zur Durchführung der Prosodieanpassung
eines quasiperiodischen Signals bereitgestellt, wobei das Verfahren
die folgenden Schritte umfasst:
Bestimmen einer Reihe von Original-Synchronisationszeichen
bei dem Originalsignal,
Bestimmen einer Reihe von synthetischen
Synchronisationszeichen auf der Basis der Original-Synchronisationszeichen
und auf Prosodieinformation,
Extrahieren der Wellenformen um
eines der Original-Synchronisationszeichen herum durch Anwenden
eines Filterfensters und Zeitverschiebung entsprechend einem der
Original-Synchronisationszeichen und einem der synthetischen Synchronisationszeichen,
das dem einen der Original-Synchronisationszeichen entspricht und
Summieren
der extrahierten Wellenformen, um das quasiperiodische Signal zu
synthetisieren, wobei
das asymmetrische Filterfenster einen
ersten Halbwertsbreiteabschnitt auf einer Seite des Original-Synchronisationszeichens
und einen zweiten Halbwertsbreiteabschnitt auf einer anderen Seite
des Original-Synchronisationszeichens aufweist, wobei der erste
Halbwertsbreiteabschnitt in der Größe unterschiedlich zu dem zweiten
Halbwertsbreiteabschnitt ist,
der erste und der zweite Abschnitt
in einer Nebeneinanderstellung zueinander sind,
der erste Abschnitt
eine progressiv von null auf einen Nicht-Null-Wert entlang der ersten
Halbwertbreite ansteigende Amplitude aufweist und
der zweite
Abschnitt eine von dem Nicht-Null-Wert progressiv auf null entlang
der zweiten Halbwertbreite abfallende Amplitude aufweist, dadurch
gekennzeichnet, dass:
die erste Halbwertbreite das kleinere
von den Intervallen zwischen dem einen der Original-Synchronisationszeichen
und einem vorhergehenden Original-Synchronisationszeichen und dem Intervall
zwischen dem einen der Synchronisationszeichen und einem vorhergehenden
synthetischen Synchronisationszeichen ist.
-
Es
kann ein rechnerlesbares Medium verwendet werden, um ein derartiges
Synthetisierungsverfahren durchzuführen.
-
Zusätzliche
Anforderungen, Ziele, Vorteile und neue Leistungsmerkmale der vorliegenden
Erfindung werden teilweise in dem folgenden Beschreibungsteil und
teilweise während
der Prüfung
offensichtlich werden oder werden während der praktischen Umsetzung
der Erfindung erkannt. Die Ziele und Vorteile der Erfindung können durch
die Verfahren und Kombinationen, die in den angehängten Patentansprüchen besonders
dargelegt werden, realisiert werden.
-
Die
vorliegende Erfindung wird in den Figuren der begleitenden Zeichnungen,
bei denen gleiche Referenzzahlen gleichartige Elemente bezeichnen,
durch Beispiele dargestellt und nicht durch Beschränkungen.
-
Kurzbeschreibung
der Figuren
-
1 bildet
schematisch ein Computersystem ab, das bei der vorliegenden Erfindung
implementiert werden kann.
-
2 ist
ein Fließdiagramm,
das den Betrieb einer Ausführung
der vorliegenden Erfindung darstellt und
-
3(a) und 3(b) bilden
ein exemplarisches Sample mit einem Original-Synchronisationszeichen und einem synthetischen
Synchronisationszeichen ab.
-
Bei
der folgenden Beschreibung werden für den Zweck der Erklärung zahlreiche
Details dargelegt, um für
ein vollständiges
Verständnis
der vorliegenden Erfindung zu sorgen.
-
Es
wird jedoch für
einen Fachmann in dieser Technik offensichtlich sein, dass die vorliegende
Erfindung ohne diese besonderen Einzelheiten ausgeführt werden
kann. Bei anderen Gelegenheiten werden wohlbekannte Aufbauten und
Vorrichtungen in Form von Blockdiagrammen gezeigt, um ein unnötiges Komplizieren der
vorliegenden Erfindung zu vermeiden.
-
Übersicht über die
Hardware
-
Die 1 ist
ein Blockdiagramm, das ein Computersystem 100 darstellt,
auf dem eine Ausführung
der vorliegenden Erfindung implementiert werden kann. Das Computersystem 100 enthält einen
Bus 102 oder andere Kommunikationseinrichtungen zum Kommunizieren
von Information und einen Rechner (oder eine Vielzahl von gemeinsam
arbeitenden CPUs) 104, gekoppelt an den Bus 102 zum
Weiterverarbeiten von Information. Das Computersystem 100 enthält ebenso
einen Hauptspeicher 106, wie einen Direktzugriffsspeicher (RAM)
oder andere dynamische Speichereinrichtungen, gekoppelt an den Bus 102,
zum Speichern von Information und von Anweisungen, die durch den
Rechner 104 auszuführen
sind. Der Hauptspeicher 106 kann ebenso benutzt werden,
um, während
der Ausführung
der durch den Rechner 104 auszuführenden Anweisungen, temporäre Variable
oder andere Zwischeninformation zu speichern. Das Computersystem 100 enthält ebenso
einen Festwertspeicher (ROM) 108 oder andere statische
Speichereinrichtungen, gekoppelt an den Bus 102, zum Speichern
von statischen Informationen und Anweisungen für den Rechner 104.
Eine Speichereinrichtung 110, wie zum Beispiel eine Magnetplatte
oder eine optische Platte, wird bereitgestellt und zum Speichern
von Informationen und Anweisungen an den Bus 102 gekoppelt.
-
Das
Computersystem 100 kann über den Bus 102, zum
Anzeigen der Informationen an einen Benutzer des Rechners, an eine
Anzeige 111, wie zum Beispiel eine Kathodenstrahlröhre (CRT),
gekoppelt sein. Eine Eingabevorrichtung, einschließlich alphanumerischer
und anderer Tasten, ist zum Kommunizieren von Information und zur
Befehlsauswahl an den Rechner 104 gekoppelt. Eine weitere
Art von Benutzereingabevorrichtung ist eine Cursor-Steuerung 115,
wie zum Beispiel eine Maus, eine Kugelführung oder Cursor-Richtungstasten,
zum Kommunizieren von Richtungsinformation und zur Be fehlsauswahl
an den Rechner 104 und zum Steuern der Cursor-Bewegung
auf der Anzeige 111. Diese Eingabevorrichtung hat üblicherweise
zwei Bewegungsfreiheiten auf zwei Achsen, einer ersten Achse (z.
B. x), die es der Vorrichtung ermöglicht, Positionen in einer
Ebene zu bestimmen. Für
die Audioeingabe und die Audioausgabe kann das Computersystem 100 jeweils
an einen Lautsprecher 117 und an ein Mikrofon 119 gekoppelt
werden.
-
Die
Prosodieanpassung wird durch das Computersystem 100 als
Reaktion auf das Ausführen
von einer oder mehreren Abfolge(n) von in dem Hauptspeicher 106 enthaltenen
Anweisungen durch den Rechner 104 bereitgestellt. Solche
Anweisungen können
in den Hauptspeicher 106 von einem anderen rechnerlesbaren
Medium, wie zum Beispiel der Speichereinrichtung 110, eingelesen
werden. Die Ausführung
der in dem Hauptspeicher 106 enthaltenen Anweisungen veranlasst
den Rechner 104, die hierin beschriebenen Prozessschritte
auszuführen.
Ein oder mehrere Rechner in einer Mehrfachprozessanordnung kann
bzw. können
ebenso verwendet werden, um die Abfolge von in dem Hauptspeicher 106 enthaltenen
Anweisungen auszuführen. Alternativ
können
festverdrahtete Schaltkreise anstelle von – oder in Kombination mit – Softwareanweisungen verwendet
werden.
-
Der
hierin verwendete Begriff „rechnerlesbares
Medium" bezieht
sich auf jedes Medium, das daran beteiligt ist, für den Rechner 104 Anweisungen
zur Ausführung
bereitzustellen. Solch ein Medium kann viele Formen aufweisen, einschließlich, jedoch
nicht darauf beschränkt,
nichtflüchtiger
Medien, flüchtiger
Medien und Übertragungsmedien.
Nichtflüchtige
Medien schließen
zum Beispiel optische oder magnetische Platten, wie die Speichereinrichtung 110,
ein. Flüchtige
Medien können
dynamische Speicher einschließen,
wie den Hauptspeicher 106. Übertragungsmedien schließen Koaxialkabel,
Kupferdrähte
und Glasfasern ein, die den Bus 102 umfassen. Übertragungsmedien
können
ebenso die Form von optischen Lichtwellen annehmen, wie jene, die während Hochfrequenz-(RF-)Kommunikation
und Infrarot-Datenkommunikation erzeugt werden. Gewöhnliche Formen
der rechnerlesbaren Medien schließen beispielsweise eine Diskette,
eine Floppy-Disk, eine Magnetplatte, ein Magnetband oder jedes andere
magnetische Medium, eine CD-ROM, eine DVD, jedes andere optische
Medium, Lochkarten, Lochstreifen, jedes andere physikalische Medium
mit Lochmustern, einen RAM, einen PROM und EPROM, einen FLASH-EPROM,
jeden anderen Speicherchip oder jede andere Kasset te, eine Trägerwelle,
wie sie hier später
beschrieben wird, oder jedes andere Medium, von dem ein Computer
lesen kann, ein.
-
Verschiedene
Formen von rechnerlesbaren Medien können beim Übertragen einer oder mehrerer
Abfolge(n) von einer oder mehreren Anweisungen) zum Ausführen für den Rechner 104 involviert
sein. Zum Beispiel können
die Anweisungen anfänglich
auf einer Magnetplatte eines entfernten Rechners getragen werden. Der
entfernte Rechner kann die Anweisungen in seinen dynamischen Speicher
laden und die Anweisungen unter Verwendung eines Modems über eine
Telefonleitung senden. Ein lokales Modem an dem Computersystem 100 kann
die Daten auf der Telefonleitung empfangen und einen Infrarotsender
verwenden, um die Daten in ein Infrarotsignal umzuwandeln. Ein an
den Bus 102 gekoppelter Infrarotdetektor kann die in dem
Infrarotsignal übertragenen
Daten empfangen und die Daten auf dem Bus 102 platzieren.
Der Bus 102 überträgt die Daten
an den Hauptspeicher 106, aus dem der Rechner 104 die
Anweisungen abruft und dann ausführt.
Die durch den Hauptspeicher 106 empfangenen Daten können wahlweise
vor oder nach der Ausführung
durch den Rechner 104 in einer Speichereinrichtung 110 gespeichert
werden.
-
Das
Computersystem 100 enthält
ebenso eine an den Bus 102 gekoppelte Kommunikationsschnittstelle 120.
Die Kommunikationsschnittstelle 120 stellt eine Zweiweg-Datenkommunikation,
die an eine Netzwerkverbindung 121 koppelt, die mit einem
lokalen Netzwerk 122 verbunden ist, bereit. Beispiele für die Kommunikationsschnittstelle 120 schließen eine
dienstintegrierende digitale Netzwerk-(ISDN-)Karte, ein Modem, um
eine Datenkommunikationsverbindung für eine entsprechende Telefonleitung
bereitzustellen, und eine lokale Netzwerk-(LAN-)Karte, um eine Datenkommunikationsverbindung
für ein
kompatibles LAN bereitzustellen, ein. Bei jeder dieser Implementierungen
empfängt
und sendet die Kommunikationsschnittstelle 120 elektromagnetische
oder optische Signale, die verschiedene Arten von Informationen
darstellende digitale Datenströme übertragen.
-
Die
Netzwerkverbindung 121 stellt üblicherweise durch ein Netzwerk
oder durch mehrere Netzwerke Datenkommunikation für andere
Dateneinrichtungen bereit. Beispielsweise kann die Netzwerkverbindung 121 eine
Verbindung durch das lokale Netzwerk 122 zu einem Hostrechner 124 oder
zu durch einen Internetdienstanbieter (ISP) 126 bereit gestellten
Datengeräten
bereitstellen. Der ISP 126 wiederum stellt Datenkommunikationsdienste über das
weltweite Paketdatenkommunikationsnetzwerk, das heute gewöhnlich als
das „Internet" 128 bezeichnet
wird, bereit. Sowohl das lokale Netzwerk 122 als auch das
Internet 128 nutzen elektromagnetische oder optische Signale,
die digitale Datenströme übertragen.
Die Signale durch die verschiedenen Netzwerke und die Signale an
der Netzwerkverbindung 121 und durch die Kommunikationsschnittstelle 120,
die die digitalen Daten von und zu dem Computersystem 100 übertragen,
sind exemplarische Formen von Trägerwellen,
die Information transportieren.
-
Das
Computersystem 100 kann durch die Netzwerke, die Netzwerkverbindung 121 und
die Kommunikationsschnittstelle 120 Nachrichten senden
und Daten, einschließlich
Programmcodes empfangen. Bei dem Internetbeispiel könnte ein
Server 130 einen Anforderungscode für ein Anwendungsprogramm über das
Internet 128, den ISP 126, das lokale Netzwerk 122 und
die Kommunikationsschnittstelle 120 übertragen.
-
Eine
dieser heruntergeladenen Anwendungen stellt die hierin beschriebene
Prosodieanpassung bereit. Der empfangene Datencode könnte durch
den Rechner 104 bei Empfang ausgeführt werden oder in einer Speichereinrichtung 110 oder
einem anderen nichtflüchtigen
Speicher für
die spätere
Ausführung
gespeichert werden. Auf diese Art und Weise kann das Computersystem 100 den
Anwendungscode in Form einer Trägerwelle
erhalten.
-
Prosodieanpassung
-
Die 2 ist
ein Fließdiagramm,
das den Vorgang der Prosodiemodifikation eines original quasiperiodischen
Signals in ein synthetisches Signal darstellt.
-
In
dem Schritt 200 wird eine Reihe von Original-Synchronisationszeichen
für das
originale Signal eingerichtet. Im Gegensatz zu konventionellen Verfahren
werden die Original-Synchronisationszeichen mit einer größeren Genauigkeit
berechnet als die Abtastgeschwindigkeit mit der das Originalsignal
weiterverarbeitet wird. Wenn die Weiterverarbeitungsabtastgeschwindigkeit
beispielsweise 16 kHz ist, können
die Synchronisationszeichen bei dem Originalsignal mit einer Auflösung von
21 μs eingerichtet
werden, ob wohl das Signal für die
Weiterverarbeitung bei Intervallen von ungefähr 63 μs abgetastet wird. Ein Ansatz
ist, die Synchronisationszeichen einer mit höherer Abtastgeschwindigkeit
abgetasteten Version des Originalsignals zu bestimmen, beispielsweise
mit einer Geschwindigkeit, wie mindestens drei Mal schneller ist
als die Weiterverarbeitungsabtastgeschwindigkeit. Ein anderer Ansatz,
der keine Erhöhung
der Abtastgeschwindigkeit sondern mathematische Kurvenanpassung
verwendet, wird im Folgenden ausführlicher beschrieben.
-
Bezug
nehmend auf die 3(a) wird ein quasiperiodisches
Signal abgebildet, bei dem ein Original-Synchronisationszeichen 310 zwischen
dem Sample 300 und dem Sample 302 angeordnet ist.
Das Sample 300 ist eine Amplitude des originalen quasiperiodischen
Signals in einem Zeitmoment und das Sample 302 ist eine
Amplitude des gleichen quasiperiodischen Signals bei einem späteren Zeitmoment.
Das Original-Synchronisationszeichen 310 wird
mit einer feineren Auflösung
als die Abtastgeschwindigkeit berechnet und ist deshalb nicht notwendigerweise übereinstimmend
mit jedweden Samples in dem abgetasteten Originalsignal. In der 3(a) ist das Original-Synchronisationszeichen 310 grob
80% von der Strecke von Sample 300 zu Sample 302.
-
Die
Original-Synchronisationszeichen können durch eine Vielzahl von
Einrichtungen eingerichtet werden und bei der menschlichen Sprache
werden die Synchronisationszeichen vorzugsweise bei Momenten von Kehlkopfverschlüssen, Epochen
genannt, angeordnet. Eine Epoche tritt auf wenn sich die Stimmritze
(Glottis), die der Abstand zwischen den Stimmbändern des oberen Teils des
Kehlkopfs ist, schließt
und einen „tief
klingenden" Schwingungsdämpfungseffekt
in dem Sprachsignal verursacht. Eine geeignete Definition des Zeitpunkts
des Kehlkopfverschlusses ist der Moment, in dem die maximale Luftflussveränderungsrate
durch die Stimmritze vorhanden ist. Ein Ansatz für das Feststellen der Epochen
ist die Anwendung von Standard-Epochen-Erfassungsverfahren bei einer mit höherer Geschwindigkeit
abgetasteten Version des Originalsignals, bei beispielsweise ungefähr 48 kHz.
Ein weiterer Ansatz für
das Ermitteln der Epochen, gleichfalls bei der mit höherer Geschwindigkeit
abgetasteten Originalversion des Signals, verwendet Grundfrequenzzuordnung,
wie in D. Talkins „A
robust Algorithm for Pitch Tracking (RAPT)", Speech Coding & Synthesis, Kleijn & Paliwal (Amsterdam,
Elsevier, 1995) beschrieben, worin eine Grundfrequenz f0 unter
Verwendung der Querkorrelation und von dynamischen Programmierungstechniken
erfasst wird. Die erfasste Grundfrequenz wird mit Höchstwerten
(Peaks) kombiniert, die aus dem Residuum einer Codierung mit linearer
Vorhersage in einem Programmierungsrahmen, der das Set von Epochen
feststellt, das am besten mit den lokalen Schätzungen der Grundfrequenz f0 übereinstimmt,
ausgewählt
werden. Ein weiterer Ansatz, der kein explizites Abtasten mit höherer Geschwindigkeit
involviert, ist, eine Funktion, wie zum Beispiel eine ganzrationale
Funktion, in das Sprachsignal in der Nähe des Höchstwertes einzusetzen und
dann die Analysetechniken zu verwenden, um den Höchstwert in der Funktion, der
der Grobschätzung
der Epoche bei der Originalabtastgeschwindigkeit am nächsten kommt,
festzustellen. Die Time-Warping-Funktion richtet eine Projektion
der originalen und der synthetischen Zeitachsen ein, die ein Frame-Stufen-Mapping
von Segmenten der Originalwellenform zu einem Zeitpunkt auf den
synthetischen Achsen bestimmt. Wenn die Kombination der Grundfrequenz
und der Zeitskalamodifikationen ein verdichteteres oder ausgedünnteres
Set von Synchronisationszeichen verwendet, werden die Frames, um
zu Kompensieren, jeweils wiederholt oder ausgelassen.
-
Im
Gegensatz zu konventionellen Techniken werden die synthetischen
Synchronisationszeichen nicht auf die Signal-Sampling-Frequenzintervalle
quantisiert, sondern auf eine feinere Auflösung als das Sampling-Intervall,
die vorzugsweise nur durch die Genauigkeit der zu Grunde liegenden
Hardware beschränkt
wird. Beispielsweise stellt die Mantisse einer 32-Bit-Gleitzahl
24-Bit-Auflösung
bereit.
-
Bezug
nehmend auf die 3(b) wird ein synthetisches
Synchronisationszeichen 320, das zwischen dem Sample 300 und
dem Sample 302 liegt, abgebildet. Das synthetische Synchronisationszeichen 320 wird nicht
generell an der gleichen Stelle des entsprechenden Original-Synchronisationszeichens 310 erscheinen und
wird, durch die geringe Verzögerung δ, von dem
Original-Synchronisationszeichen 310 versetzt sein. Die Verzögerung δ ist nicht
notwendigerweise ein integrales Mehrfaches des Sampling-Intervalls (die Zeitdauer zwischen
Sample 300 und Sample 302) und kann tatsächlich ein
Bruchteil des Sampling-Intervalls sein.
-
Das Erzeugen
synthetischer Frames
-
Nachdem
die originalen und die synthetischen Synchronisationszeichen generiert
wurden, werden in dem Schritt 204 Wellenformen des Originalsignals
durch die Anwendung eines Filterfensters um ein Original-Synchronisationszeichen
herum extrahiert. Dieses Filterfenster kann ein rechteckiges Fenster
sein, das einen Frame von dem vorhergehenden Synchronisationszeichen
bis zu dem nächsten
Synchronisationszeichen definiert. Folglich umfasst ein Frame zwei
Perioden: die erste Periode von dem vorhergehenden Synchronisationszeichen
bis zu dem aktuellen Synchronisationszeichen und die zweite Periode
von dem aktuellen Synchronisationszeichen bis zu dem nächsten Synchronisationszeichen.
Jedoch können
andere Implementierungen ein vergrößertes Kosinusfenster, wie
zum Beispiel ein Hamming-Fenster, ein symmetrisches Hamming-Fenster oder ein
asymmetrisches Hamming-Fenster, das hierin in Verbindung mit dem
Schritt 210 im Folgenden genauer beschrieben wird, oder
ein mittig gewichtetes Fenster verwenden.
-
Nachdem
die Wellenformen in dem ausgewählten
Frame aus dem Originalsignal um ein Original-Synchronisationszeichen
herum extrahiert wurden, werden die Wellenformen auf das entsprechende
synthetische Synchronisationszeichen verschoben. Einem Beispiel
entsprechend, werden die Wellenformen in einem Zwei-Schritte-Prozess
verschoben. Als Erstes wird, wie bei den konventionellen Techniken,
der ausgewählte Frame
auf das naheste Sampling-Intervall, das vor dem synthetischen Synchronisationszeichen
ist, verschoben (Schritt 206).
-
Der
zweite Schritt ist ein Feinverschieben, das den Frame auf die genaue
Zeitposition für
das synthetische Synchronisationszeichen verschiebt (Schritt
208).
Ein Ansatz zu dem Feinverschieben ist, das Originalsignal aus seinen
Samples zu rekonstruieren und das Originalsignal, nach der Einführung der
erwünschten Verzögerung in
die Log-Domain,
erneut abzutasten. Das Neuabtasten des Originalsignals kann digital
durch Abtasten des Digitalsignals (d. h. des abgetasteten Originalsignals)
mit erhöhter
Geschwindigkeit, wobei ein digitaler Rekonstruktionsfilter bei erhöhter Abtastgeschwindigkeit
eine ganzzahlige Verzögerung
bei dieser erhöhten
Abtastgeschwindigkeit einführt,
und durch das Abtasten des verzögerten
Signals mit bis auf die originale Abtastgeschwindigkeit verringerter
Geschwindigkeit durchgeführt
werden. Die erhöhte
Ge schwindigkeit zum Abtasten wird durch die vernachlässigbare
Quantisierung der Verzögerung
bei dem Abtasten mit der höheren
Sampling-Geschwindigkeit bestimmt. Unter Verwendung eines Sinc(x)-Rekonstruktionsfilters
kann das neu abgetastete Signal mit der folgenden Gleichung dargestellt
werden:
![Figure 00120001](https://patentimages.storage.googleapis.com/aa/c4/1f/d56f68d8e2dab0/00120001.png)
wobei x[n] das lang verschobene
Signal ist, y(m) das fein verschobene Signal ist und α der Quotient
der Feinverzögerung δ und der
Sampling-Periode T
s ist. In der Praxis sind
die Grenzen der Summation auf einen sensiblen ganzzahligen Wert
wie 40 beschränkt,
der geringe Verzerrung in das sich ergebende Signal einführt. Diese
Verzerrung kann jedoch durch das Anwenden eines Tapering-Fensters,
wie in F. M. Gimenez de los Galanes u. a., „Speech Synthesis System Based
on a Variable Decimation/Interpolation Factor", IEEE Proc. ICASSP '95 (Detroit 1995), erläutert wird.
Zu diesem Zeitpunkt können
weitere Prosodieanpassungen angewendet werden, beispielsweise die
Betonungssteuerung durch Multiplizieren der Wellenformen mit einem
Verstärkungsfaktor.
-
Signalsynthese
-
Nachdem
die extrahierten Wellenformen feinverschoben wurden, werden die
Wellenformen kombiniert, um das synthetisierte Signal zu erzeugen,
vorzugsweise durch die Anwendung des folgenden Overlap-and-Add-Verfahrens,
um den schnellen Wechseln von Tonhöhen Rechnung zu tragen. Genauer
gesagt, ist, gemäß einer
Ausführung
der vorliegenden Erfindung, der erste Abschnitt des asymmetrischen
Fensters die Hälfte
eines Hamming-Fensters, das sich in der Amplitude von 0 auf einen
Nicht-Null-Wert, wie zum Beispiel 1, erhöht, mit einer Länge, die
die kleinere der Längen
der ersten Originalperiode und der ersten synthetischen Periode
ist. Der zweite Abschnitt des asymmetrischen Fensters ist die Hälfte eines
Hamming-Fensters, das sich in der Amplitude von dem Nicht-Null-Wert
auf 0 vermindert, mit einer Länge,
die die kleinere der Längen der
zweiten Originalperiode und der zweiten synthetischen Periode ist.
Es ist offensichtlich, dass ein weiteres Filterfenster angewendet
werden kann, beispielsweise ein inhärent asymmetrisches Fenster,
wie eine Gammafunktion oder die Hälften von symmetrischen Fenstern,
wie zum Beispiel die eines Hamming-Fensters oder ein vergrößertes Kosinus-Fenster. Die Strategie
des asymmetrischen Fensters verringert die Verzerrung in dem Fenster-Schritt
eines Overlap-and-Add-Verfahrens dadurch, dass sie nicht zu viel
und nicht zu wenig der Wellenform extrahiert.
-
Bei
der in dem Fließdiagramm
der 2 dargestellten Ausführung der vorliegenden Erfindung
wird das asymmetrische Fenster auf eine zeitverschobene Wellenform
angewendet. In einer weiteren Ausführung der vorliegenden Erfindung
wird jedoch die Wellenform, selbst bei konventionellen Verfahren,
zuerst durch ein asymmetrisches Fenster extrahiert und dann zeitverschoben.
Nachdem die gefensterte zeitverschobene Wellenform extrahiert ist,
wird sie mit weiteren überlappend
gefensterten zeitverschobenen Wellenformen summiert, um in Übereinstimmung
mit konventionellen Overlap-and-Add-Techniken das synthetische Signal zu
erzeugen (Schritt 212).