DE69519086T2

DE69519086T2 - Sprachsynthese

Info

Publication number: DE69519086T2
Application number: DE69519086T
Authority: DE
Inventors: Andrew Lowry
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1994-03-18
Filing date: 1995-03-17
Publication date: 2001-05-10
Anticipated expiration: 2015-03-18
Also published as: AU692238B2; SG43076A1; EP0750778B1; CA2185134C; NZ282012A; EP0750778A1; AU1899595A; DE69519086D1; JPH09510554A; CN1144008A; WO1995026024A1; CA2185134A1; ES2152390T3

Description

Die vorliegende Erfindung betrifft die automatische Erzeugung von Sprache (beispielsweise aus einer codierten Texteingabe). Sie betrifft insbesondere Analyse-Syntheseverfahren, bei denen die "synthetische" Sprache aus gespeicherten Sprach-Wellenformen erzeugt wird, die ursprünglich von einer menschlichen Stimme stammen (im Gegensatz zu "Synthesis by Rule"-Systemen). Um natürlich klingende Sprache zu erzeugen, ist es erforderlich, bei synthetischer Sprache die gleiche Art Kontext-abhängiger (prosodischer) Variationen der Intonation zu erzeugen, wie sie sich in der von einer menschlichen Stimme gesprochenen Sprache finden. Die vorliegende Erfindung setzt die Erzeugung prosodischer, eine Information vorgebender Variationen des Pitches voraus, die erzeugt werden müssen, und geht das Problem der Verarbeitung von Sprachsignalen an, um eine solche Pitchvariationen zu erhalten.
Ein Verfahren der Pitcheinstellung ist in F. J. Charpentier und M. G Stella, "Diphone Synthesis Using an Overlap-add Technique for Speech Waveforms Concatenation", Proc. Int. Conf. ASSP, IEEE, Tokyo, 1986, S. 2015 - 218, beschrieben. Sprachwellenformabschnitte, wobei jeder Abschnitt ein Diphon repräsentiert, werden zusammen mit Pitchmarkierungen gespeichert, die (für von einer menschlichen Stimme gesprochene Sprache) zeitlich mit dem höchsten Peak jeder Pitchperiode der Wellenform zusammenfallen und daher ungefähr dem Moment der Glottisschließung durch den Sprecher entsprechen, oder die für nicht von einer menschlichen Stimme gesprochene Sprache willkürlich sind.
Ein zu verwendender Wellenformabschnitt wird unter Verwendung eines Hamming-Fensters einer Länge, die dem Dreifachen der Pitchperiode entspricht, in Überlappungssegmente aufgeteilt. Unter Verwendung einer diskreten Fourier- Transformation wird für die Wellenform eine globale Spektrums-Hüllkurve und eine Kurzzeitspektrums-Hüllkurve erzeugt; es wird eine "Quellenkomponente" erzeugt, die das Kurzzeitspektrum dividiert durch die Spektrums-Hüllkurve darstellt. Der Pitch der Quellenkomponente wird dann durch eine lineare Interpolation modifiziert und wird dann mit der Hüllkurveninformation rekombiniert. Nach der auf diese Weise erfolgten Vorverarbeitung werden die Segmente mit Hilfe einer Überlappungs-Additions-Technik bzw. Verarbeitung miteinander verknüpft, um den erwünschten Grundpitch zu erhalten.
In einem weiteren Vorschlag wird die Frequenz-Domänen-Vorverarbeitung unterlassen und es wird ein Hanning-Fenster verwendet, das doppelt so lang ist wie die Pitchperiode dauert ("A Diphone Synthesis System based on Time-domain Prosodic Modification of Speech", C. Hamon, E. Moulines, and F. Charpentier, Int. Conf. ASSP, Glasgow, 1989, S. 238-241).
Alternativ zur Anwendung der Zeitdomänen-Überlappungs-Technik auf ein komplettes Sprachsignal kann diese Technik auch auf eine Erregungskomponente angewandt werden, beispielsweise mit Hilfe einer LPC-Analyse zur Erzeugung eines Restsignals (oder einer Parameterdarstellung desselben) und Anwendung der Überlappungs-Additions-Technik auf das Residdum, bevor dieses durch ein LPC- Synthesefilter geschickt wird (s. "Pitch-synchronous Waveform Processing Techniques for Text-to Speech Synthesis using Diphones", F. Charpentier und E. Moulines, European Conference on Speech Communictions and Technology, Paris, 1989, Bd. II, S. 13-19).
Das Grundprinzip der Überlappungs-Additions-Technik ist in Fig. 1 gezeigt, in der ein Sprachsignal S mit Pitchmarkierungen P gezeigt ist, die auf den Erregungspeaks zentriert sind, es wird durch Multiplikation durch Fenster- Wellenformen W (wobei nur zwei von ihnen gezeigt sind) in Überlappungsegmente aufgetrennt. Die synthetisierte Wellenform wird durch Zusammenaddieren der Segmente und der Zeitverschiebung erzeugt, um den Pitch mit einem Segment zu vergrößern oder zu verkleinern, das jeweils bedarfsweise ausgelassen oder wiederholt wird.
Gemäß der vorliegenden Erfindung ist eine Sprachsynthesevorrichrung angegeben, die eine Einrichtung enthält, die zur Änderung des Pitches von mit der Sprachsynthesevorrichrung synthetisierten Sprachsignalen steuerbar ist, und die umfaßt:
(i) eine Einrichtung zur Auftrennung der Sprachsignale in eine Spektrumskomponente und eine Erregungskomponente,
(ii) eine Einrichtung zur Multiplikation der Erregungskomponente mit einer Reihe sich überlappender Fensterfunktionen, die bei von einer menschlichen Stimme gesprochenen Sprache synchron mit einer Pitchzeitmarken-Information ist, die zumindest näherungsweise Zeitpunkten der Stimmerregung entspricht, zu ihrer Aufteilung in Fenstersegmente,
(iii) eine Einrichtung zum Aufbringen einer steuerbaren Zeitverschiebung auf die Segmente und zu ihrer Addition und
(iv) eine Einrichtung zur Rekombination der Spektrumskomponente und der Erregungskomponente,
wobei die Einrichtung zur Multiplikation mindestens zwei Fenster pro Pitchperiode vorsieht und jedes Fenster eine Dauer von weniger als einer Pitchperiode aufweist. Die Fenster bestehen bevorzugt aus ersten Fenstern, einem Fenster pro Pitchperiode, welche die Pitchzeitmarken-Positionen und mehrere Zwischenfenster einschließen und die Zwischenfenster weisen eine Breite auf, die kleiner ist als die Breite der ersten Fenster.
Bei einem weiteren Aspekt gibt die vorliegende Erfindung eine Sprachsynthese- Vorrichtung an, die eine Einrichtung enthält, die zur Änderung des Pitches synthetisierter Sprachsignale steuerbar ist, und die aufweist:
(i) eine Einrichtung zur Auftrennung der Sprachsignale in eine Spektrumskomponente und eine Erregungskomponente,
(ii) eine Einrichtung zur temporären Kompression/Expansion der Erregungskomponente durch Interpolation neuer Abtastsignale aus Eingangs-Abtastsignalen und
(iii) eine Einrichtung zur Rekombination der Spektrumskomponente und der Erregungskomponente. Die Einrichtung zur temporären Kompression/Expansion ist in Abhängigkeit von der Pitchzeitmarken-Information betreibbar, die zumindest näherungsweise Zeitpunkten der Stimmerregung entspricht, um den Grad der Kompression/Expansion synchron damit so zu ändern, daß das Erregungssignal in der Nähe der Pitchzeitmarken weniger komprimiert/expandiert wird als in der Mitte der Pitchperiode zwischen zwei derartigen aufeinanderfolgenden Pitchzeitmarken.
In einem weiteren Aspekt gibt die Erfindung eine Sprachsynthesevorrichtung gemäß Anspruch 8 an.
Im folgenden sind einige Ausführungsformen der Erfindung beispielhaft unter Bezug auf die beigefügten Zeichnungen beschrieben, in denen zeigen:
Fig. 2 ein Blockschaltbild einer Ausführungsform der Sprachsynthesevorrichtung,
Fig. 3 und 5 Signalverläufe für zwei Verfahren zur Grundfrequenzeinstellung durch überlappende Addition und
Fig. 4 den Signalverlauf zur Fensterung des Sprachsignals zum Zwecke der Spektralanalyse.
In der Vorrichtung von Fig. 2 werden, wie bereits zuvor erläutert, Teile des digitalen Sprachzeitsignals S. zusammen mit den korrespondierenden Grundfrequenz-Zeitmarkierungen P, in einer Speichereinheit 100 abgespeichert. Stücke des Zeitsignals werden unter Kontrolle des Text-zu-Sprache-Treibers 101, welcher die nötigen Speicheradressen erzeugt, ausgelesen; die Funktion des Treibers 101 ist herkömmlich und soll nicht weiter beschrieben werden, außer, daß er zusätzlich die Grundfrequenzinformation PP erzeugt. Die Erregungs- und Vokaltraktkomponenten eines aus der Speichereinheit 100 ausgelesenen Sprachwellenformabschnittes werden durch die LPC-Analyseeinheit 102 getrennt, welche periodisch die Koeffizienten eines Synthesefilters mit dem Frequenzgang erzeugt, der dem Frequenzspektrum des Sprachwellenformabschnittes entspricht. Dieser steuert ein Analysefilter 103 an, welches das Inverse des Synthesefilters darstellt und an seinem Ausgang das Restsignal R erzeugt.
Die LPG-Analyse und die inverse Filteroperation sind mit den Grundfrequenzmarkierungen P synchron, wie im folgenden noch beschrieben ist.
Der nächste Schritt des Verfahrens besteht in der Veränderung der Grundfrequenz des Restsignals. Dies wird (für stimmhafte Sprachsegmente) mittels einer Mehrfach-Fenstertechnik durchgeführt, in welcher das Residuum in einer Verarbeitungseinheit 104 durch die Multiplikation mit einer Folge von überlappenden Fensterfunktionen, mindestens zwei pro Grundfrequenzperiode, in Segmente aufgeteilt wird; fünf solche überlappende Fensterfunktionen werden in Fig. 3, welche ein trapezförmiges Fenster, zentriert an der Grundfrequenzmarkierung, und vier dreieckige Zwischenfenster zeigt, dargestellt. Die Fenster an den Grundfrequenzperioden sind etwas weiter als die Zwischenfenster, um eine Verdoppelung der Hauptanregung beim Verringern der Grundfrequenz zu vermeiden.
Um die Grundfrequenz zu erhöhen, werden die Fenstersegmente, wie im unteren Teil der Fig. 3 gezeigt, in einem verkürzten zeitlichen Abstand zusammengefügt; um die Grundfrequenz zu verringern, wird der zeitliche Abstand vergrößert. In beiden Fällen werden, um eine korrekte Signalamplitude zu gewährleisten, die relativen Fensterbreiten so gewählt, daß eine Überlappung der abgeschrägten Flanken während der Synthese gegeben ist (z. B. 50% der Überlappung der Zwischenfenster). Die zeitliche Einstellung wird durch die Signale PP gesteuert. Übliche Breiten für die Zwischenfenster sind 2 ms, während die Breite der an den Grundfrequenzmarkierungen plazierten Fenster von der Grundperiode des entsprechenden Signals abhängt, meistens in der Größenordnung von 2 bis 10 ms. Die Verwendung von mehreren Fenstern, im Vergleich zur Verwendung von nur einem Fenster pro Grundperiode, dient der Reduzierung der Phasenverzerrungen. Nach der zeitlichen Verarbeitung wird das Residuum an das LPC-Filter 105 weitergereicht, um das gewünschte Sprachsignal zurückzugewinnen.
Die Speichereinheit beinhaltet weiterhin eine Stimmhaft/Stimmlos-Anzeige für jeden Wellenformabschnitt. Stimmlose Abschnitte werden durch die mit der Einheit 104 identische Grundfrequenzeinheit 104' unter Umgehung der LPC-Analyse und Synthese bearbeitet. Die Umschaltung zwischen den zwei Pfaden erfolgt im Schalter 106. Als Alternative hierzu können stimmlose Abschnitte den gleichen Signalpfad wie stimmhafte verwenden, wobei in beiden Fällen beliebige Positionen für die Grundfrequenzmarkierungen verwendet werden.
Als Alternative zu der Überlappungs-Addition des Residuums wurde ein weiterer Algorithmus entwickelt, welcher darauf abzielt, die Form des Residuums zu erhalten und weiterhin Phasenverzerrungen, welche durch Verschieben und die Überlappungs-Addition entstehen, zu verringern. Das Grundprinzip besteht in der Veränderung der Grundperiode durch erneute Abtastung der freien Phase (d. h., eines Abschnitts der Wellenform zwischen den Pitchmarkierungen; dies läßt die signifikante Information in der Umgebung der Pitchmarkierung unverändert), der Erhaltung von durch den Verschluß erzeugten hohen Frequenzen und der Erzeugung einer realistischeren Gesamtform der Erregungsperiode. Üblicherweise werden 80% der Periode erneut abgetastet.
Die erneute Abtastung wird durch eine Abbildung erreicht, bei der jedem Abtastwert der Originalabtastrate eine neue Position auf der Zeitachse zugewiesen wird. Die Signalamplitude eines jeden Abtastwertes des Signals mit erneuter Abtastung wird dann mittels linearer Interpolation zwischen den zwei Abtastweiten bestimmt, die am nächsten abgebildet wurden. Lineare Interpolation ist nicht ideal für das erneute Abtasten, ist aber einfach zu implementieren und gibt zumindest einen Hinweis darauf, wie nützlich das Verfahren sein kann. Beim Verringern der Abtastwerte zur Reduzierung der Grundperiode muß das Signal tiefpaßgefiltert werden, um Aliasing zu vermeiden. Ursprünglich wurde ein eigenes Filter für jede Grundperiode mittels des Fensterentwurfverfahrens entworfen. Schließlich konnten diese durch ein Tabellennachschlageverfahren erzeugt werden, um den Rechenaufwand zu reduzieren.
Eine weitere Verbesserung besteht darin, starke Änderungen in den Signalcharakteristiken an den Segmentgrenzen zu vermeiden, indem der Faktor der erneuten Abtastung sich gleichmäßig über dem zu bearbeitenden Segment verändert. Ohne diese Verbesserung würde die effektive Abtastrate des Signals stufenförmigen Veränderungen unterliegen. Eine sinusförmige Funktion wird dazu verwendet, und der Grad der Glättung ist steuerbar. Die variable Umsetzung der Abtastung wird in dem Abbildungsprozeß gemäß der folgenden Gleichung implementiert:
T(0) = 0
T(M - 1) = N - 1
wobei bedeuten:
M = Anzahl der Abtastwerte des Originalsignals,
N = Anzahl der Abtastwerte des neuen Signals,
α = [0,1], steuert den Grad der Glättung,
Z(n) = Position des n-ten Abtastwertes in dem Signal mit erneuter Abtastung.
Ein Hauptunterschied zwischen der vorliegenden und der Überlappungs- Additions-Technik bei einem Einzelfenster besteht darin, daß die Änderung der Pitchperiode ohne die Überlappungs- und Additionstechnik der zeitverschobenen Segmente erzielt wird, vorausgesetzt, daß die Synthese-Pitchmarkierungen abgebildet werden, indem sie den nachfolgenden Analyse-Pitchmarkierungen zugewiesen werden. Wenn die Pitchmarkierungen nicht aufeinanderfolgen, ist eine überlappende Addition weiterhin erforderlich, damit sich bei der erneuten Abtastung ein geglättetes Signal ergibt. Das tritt auf, wenn Perioden dupliziert oder ausgelassen werden, so daß sich die erwünschte Dauer ergibt.
Bei einer alternativen Realisierung wird eher eine erneute Abtastung des gesamten Signals als die Abtastung eines ausgewählten Teils jeder Pitchperiode verwendet. Dadurch entstehen für den Pitchanstieg keine Probleme, vorausgesetzt, daß in geeigneter Weise gefiltert wird, um Aliasing zu verhindern, da die Struktur der Harmonischen immer noch den gesamten Frequenzbereich einnimmt. Wenn hingegen der Pitch verringert wird, läßt die Interpolation eine Lücke am hohen Ende des Spektrums. In einem praktikablen System, die auf Anwendungen im Telephonverkehr abzielt, könnte dieser Effekt durch Speichern und Verarbeiten der Sprache bei einer höheren Bandbreite als 4 kHz (beispielsweise bei 6 kHz) minimiert werden. Die "verlorenen" hohen Frequenzen würden dann meistens außerhalb des Telephonbandes liegen und somit nicht relevant sein.
Beide Variationen der Technik der erneuten Abtastung leiden unter den hohen Rechenanforderungen verbunden mit Interpolation/Dezimierung, insbesondere wenn der Faktor der erneuten Abtastung kein Verhältnis zwischen zwei ganzen Zahlen darstellt. Die Technik wird aber durch die fortwährende Weiterentwicklung der DSP-Technologie immer attraktiver.
Die LPC-Anlayse ist, wie oben angegeben, mit den Pitchmarkierungen synchron. Insbesondere ist ein Satz LPC-Parameter für jede Pitchmarkierung im Sprachsignal erforderlich. Als Teil des Prozesses der Sprachmodifizierung werden die ursprüngliche und die modifizierte Pitchmarkierung abgebildet. Dann können die geeigneten LPC-Parameter für jede modifizierte Pitchmarkierung ausgewählt werden, um aus dem Residuum die Sprache erneut zu synthetisieren.
Bei den LPC-Techniken kann es bei der synthetisierten Sprache infolge von abrupten Änderungen der Parameter bei den Rahmengrenzen zu Diskontinuitäten kommen. Dadurch können Knacken und Geräusche des Platzens auftreten und die Qualität kann generell ungleichmäßig sein, was sich als wahrnehmbar störend auswirkt. Um diese Effekte zu verringern, werden die LPC-Parameter an der Sprachabtastrate sowohl in der Analysephase als auch in der Synthesephase interpoliert.
Die LPC-Analyse kann durchgeführt werden, indem ein beliebiges herkömmliches Verfahren angewendet wird; wenn das Kovarianz- oder das stabilisierte Kovarianzverfahren angewendet wird, würde jeder Satz LPC-Parameter für ein Stück des Sprachabschnitts (Analyserahmen) mit einer Länge gleich der Länge der Pitchperiode (wobei sich das Zentrum eher auf dem Mittelpunkt der Pitchperiode als auf der Pitchmarkierung befindet) erzeugt oder, alternativ dazu, könnten längere überlappende Stücke verwendet werden, was den Vorteil hat, daß die Verwendung eines Analyserahmens mit einer festen Länge, bezogen auf den Pitch, möglich ist.
Wie in Fig. 4 gezeigt, ist alternativ dazu ein Fenster-Analyserahmen bevorzugt.
Obwohl die Rahmen in Fig. 4 der größeren Klarheit halber mit einem dreieckigen Fenster gezeigt sind, hängt die Auswahl der Fensterfunktion aktuell vom angewendeten Analyseverfahren ab. So könnte beispielsweise ein Hanning-Fenster verwendet werden. Das Rahmenzentrum ist eher nach dem Zentrum der Pitchperiode als nach der Pitchmarkierung ausgerichtet. Der Grund ist der, daß der Einfluß der Glottiserregung auf die LPC-Analyse verringert wird, ohne daß auf eine Schließphasen-Analyse mit kurzen Rahmen zurückgegriffen werden muß. Infolgedessen bezieht sich jeder eingestellte Parameter auf die Mitte der Periode und nicht auf die Pitchmarkierung. Die Rahmenlänge ist festgelegt, da festgestellt wurde, daß sich dadurch beständigere Ergebnisse ergeben als bei einem Pitchabhängigen Wert.
Bei kurzen Rahmenlängen wäre das stabilisierte Kovarianzverfahren im Hinblick auf die Genauigkeit eher zu bevorzugen. Bei den hier verwendeten längeren Rahmen ist zwischen den drei Verfahren kein wahrnehmbarer Unterschied zu beobachten, weshalb das Autokorrelationsverfahren bevorzugt ist, da es rechnerisch effizient ist und ein stabiles Synthesefilter gewährleistet.
Nachdem die LPC-Parameter bestimmt worden sind, besteht der nächste Schritt darin, die Sprache auf einer Pitch-synchronen Basis einer Inversionsfilterung zu unterwerfen. Wie oben angegeben, werden die Parameter interpoliert, um die Übergänge infolge großer Änderungen bei den Parameterwerten an den Rahmengrenzen zu minimieren. In der Mitte jeder Pitchperiode entspricht das Filter exakt dem aus der Analyse erhaltenen Filter. In jedem Abtastaugenblick zwischen den aufeinanderfolgenden Pitchzentren ist das Filter eine gewichtete Kombination aus beiden, aus der Analyse erhaltenen Filtern. Die Interpolation wird bevorzugt direkt an den Filterkoeffizienten vorgenommen. Es hat sich gezeigt, daß hierdurch weniger Spektralverzerrung als bei anderen Parametern (LAR, LSP (Linienspektralpaare) etc.) entsteht, daß aber nicht gewährleistet ist, daß sich ein stabil interpoliertes Filter ergibt. In der Praxis sind aber keine Instabilitätsprobleme aufgetreten.
Im allgemeinen sind bei der Abtastung n die Filterkoeffizienten durch
an(i) = αnal(i) + (1 - αn)ar(i), i = o, ..., P
gegeben,
wobei bedeuten:
p = die Reihenfolge der LPC-Anlayse,
an = den Wert einer Gewichtsfunktion an der Abtastung n,
al und ar = die Parametereinstellungen, bezogen auf das nächste rechte und linke Periodenzentrum.
Um eine gleichmäßige Evolution der Filterkoeffizienten zu gewährleisten, ist die Gewichtsfunktion ein erhöhter halber Cosinus zwischen aufeinanderfolgenden Periodenzentren und durch
α(i) = 0,5 + 0,5 cos (πi / N), i = 0, ..., N - 1
gegeben,
wobei bedeuten:
N = den Abstand zwischen den Periodenzentren und
i = 0 = das Zentrum jeder Periode.
Die Filterkoeffizienten für das Resynthesefilter 105 werden auf die gleiche Weise wie für die Inversionsfilterung berechnet. Modifizierungen des Pitches und der Dauer bedeuten, daß die Sequenz der Filter und der Periodenwerte von den Sequenzen verschieden ist, die in der Analyse angewendet werden, durch die Interpolation ist jedoch eine gleichmäßige Änderung der Filterkoeffizienten von Abtastung zu Abtastung gewährleistet.
Für die erste Pitchmarkierung in einem stimmhaften Sprachsegment beginnt die Filterung an der Pitchmarkierung und es wird keine Interpolation angewendet, bis das Zentrum der Periode erreicht ist. Für die letzte Pitchmarkierung in einem stimmhaften Sprachsegment wird angenommen, daß die Periode den für die Positionierung des Analyserahmens maximal zulässigen Wert aufweist, und die Filterung an der Pitchmarkierung gestoppt wird. Diese Filterbedingungen gelten sowohl für die Analyse als auch für die erneute Synthese. Wenn eine erneute Synthese von der ersten Pitchmarkierung erfolgt, wird der Filterspeicher von den vorhergehenden Signalabtastungen initialisiert.
Als weitere alternative Ausführungsform der Pitcheinstellung 104 kann eine Einzelfenster-Überlappungs- und Additionstechnik angewendet werden, jedoch mit einer Fensterbreite einer Dauer von weniger als zwei Pitchperioden (bevorzugt weniger als 1,7, z. B. im Bereich von 1,25 bis 1,6). Mit einer Überlappung von weniger als 100% (d. h. 50% auf jeder Seite) weist die Fensterfunktion notwendigerweise eine flache Spitze auf, darüber hinaus ist sie, bezogen auf die Pitchmarkierungen (bevorzugt eine ganze Periode zwischen zwei Pitchmarkierungen einschließend), asymmetrisch plaziert. In Fig. 5 ist eine typische Fensterfunktion mit einer flachen Spitze gezeigt, die eine Länge gleich der Pitchperiode während der Synthese und Flanken mit erhöhtem halbem Cosinus oder einer linearen Form aufweist.
Mit einem in der Dauer begrenztem Fenster, wie oben gezeigt, besteht bei einem verringerten Pitch ein Potentialproblem. Wenn die Synthese-Pitchmarkierungen hinreichend weit auseinanderliegen, überlappen sich die Fenster überhaupt nicht, und diese Situation ergibt sich eher bei einem kürzeren Fenster als bei der üblichen, Pitch-synchronen überlappenden Addition. Der Effekt ist, daß ein leichtes Summen in die synthetische Sprache eingeführt wird, aber dies geschieht nur, wenn das TTS-System eine ziemlich extreme Pitchverringerung erfordert. Eine Pitchverringerung ist wegen der Notwendigkeit, die fehlenden Daten zu erzeugen, schwieriger als eine Pitchvergrößerung durchzuführen, wo vorhandene Daten auszuschneiden sind. Wenn der Pitch vergrößert wird, erzeugt das modifizierte Fenster infolge der kleineren Überlappungsperiode bessere Ergebnisse und somit ein kürzeres Intervall mit einem verzerrten Signal.
Diese Fensterform ist vorteilhaft, da ein kleinerer Zeitabschnitt des Signals durch die Überlappungs- und Additionstechnik als bei einem längeren Fenster erzeugt wird, und die asymmetrische Form plaziert die Verzerrung durch die überlappende Addition an das Ende der Pitchperiode, wo die Sprachenergie niedriger ist als unmittelbar nach der Stimmerregung.
Die Anwendung der erneuten Abtastung und der Mehrfachfenster-Pitchsteuerung (wie in Fig. 2 gezeigt) ist als Operation am Restsignal vorgesehen (zur Verhinderung einer Verzerrung der Formants), jedoch läßt sich die Technik Kurzes Asymmetrisches Fenster auch ohne Abtrennung der Erregung am Ende des Spektrums auch direkt auf das Sprachsignal anwenden. In diesem Falle könnten die Analyseeinheit 102 und die Filter 103, 105 der Fig. 2 entfallen, die Sprachsignale vom Speicher 100 werden den Pitcheinheiten 104, 104' direkt eingegeben.

Claims

1. Sprachsynthesevorrichtung, die eine Einrichtung enthält, die zur Änderung des Pitches von mit der Sprachsynthesevorrichtung synthetisierten Sprachsignalen steuerbar ist, und die umfaßt:

(i) eine Einrichtung zur Auftrennung der Sprachsignale in eine Spektrumskomponente und eine Erregungskomponente,

(ii) eine Einrichtung zur Multiplikation der Erregungskomponente mit einer Reihe sich überlappender Fensterfunktionen, die bei von einer menschlichen Stimme gesprochenen Sprache synchron mit einer Pitchzeitmarken-Information ist, die zumindest näherungsweise Zeitpunkten der Stimmerregung entspricht, zu ihrer Aufteilung in Fenstersegmente,

(iii) eine Einrichtung zum Aufbringen einer steuerbaren Zeitverschiebung auf die Segmente und zu ihrer Addition und

(iv) eine Einrichtung zur Rekombination der Spektrumskomponente und der Erregungskomponente,

wobei die Einrichtung zur Multiplikation mindestens zwei Fenster pro Pitchperiode vorsieht und jedes Fenster eine Dauer von weniger als einer Pitchperiode aufweist.

2. Sprachsynthesevorrichtung nach Anspruch 1, bei der die Fenster aus ersten Fenstern, einem Fenster pro Pitchperiode, bestehen, welche die Pitchzeitmarken- Positionen und mehrere Zwischenfenster einschließen.

3. Sprachsynthesevorrichtung nach Anspruch 2, bei der jedes Zwischenfenster eine Breite aufweist, die kleiner ist als die Breite der ersten Fenster.

4. Sprachsynthesevorrichtung, die eine Einrichtung enthält, die zur Änderung des Pitches synthetisierter Sprachsignale steuerbar ist, und die aufweist:

(ii) eine Einrichtung zur temporären Kompression/Expansion der Erregungskomponente durch Interpolation neuer Abtastsignale aus Eingangs-Abtastsignalen und

(iii) eine Einrichtung zur Rekombination der Spektrumskomponente und der Erregungskomponente.

5. Sprachsynthesevorrichtung nach Anspruch 4, bei der die Einrichtung zur Kompression/Expansion in Abhängigkeit von der Pitchzeitmarken-Information betreibbar ist, die zumindest näherungsweise Zeitpunkten der Stimmerregung entspricht, um den Grad der Kompression/Expansion synchron damit so zu ändern, daß das Erregungssignal in der Nähe der Pitchzeitmarken weniger komprimiert/expandiert wird als in der Mitte der Pitchperiode zwischen zwei derartigen aufeinanderfolgenden Pitchzeitmarken.

6. Sprachsynthesevorrichtung nach einem der Ansprüche 1 bis 5, die umfaßt:

(a) einen Speicher, der Datenelemente enthält, die jeweils einen Abschnitt einer Sprachsignalwellenform definieren und Pitchzeitmarken-Information enthalten, die zumindest näherungsweise dem Peak der Stimmerregung entspricht, und

(b) eine Treibereinrichtung, die auf Eingangssignale anspricht und Adressen erzeugt, um Datenelemente aus dem Speicher auszulesen und Pitchsignale zu erzeugen, die vom Kontext abhängige Pitchänderungen darstellen, aus denen Sprache erzeugt wird.

7. Sprachsynthesevorrichtung nach einem der Ansprüche 1 bis 6, bei der die Einrichtung zur Auftrennung der Sprachsignale in eine Spektrumskomponente und eine Erregungskomponente umfaßt:

(a) eine Analyseeinrichtung zum Empfang der synthetisierten Sprache und zur Erzeugung von Parametern für ein Filter, dessen Frequenzantwort dem Spektralinhalt der Sprache gleicht, sowie für ein Filter, das eine inverse Antwort erzeugt, und

(b) ein Filter, das zum Empfang der Parameter vorgesehen ist, um die Sprache zu filtern und ein Restsignal zu erzeugen, wobei diese Filter in der Einrichtung zur Rekombination vorgesehen sind,

(c) ein Umkehrfilter, das zum Empfang der Parameter und zum Filtern des Restsignals in Übereinstimmung mit der inversen Antwort vorgesehen ist.

8. Sprachsynthesevorrichtung, die enthält: eine Einrichtung zur Steuerung des Pitches eines Eingangssignals durch Multiplikation des Signals mit einer Reihe sich überlappender Fenster, um dieses in Segmente aufzuteilen und die Segmente, nachdem sie einer Zeitverschiebung unterworfen wurden, zu rekombinieren, wobei die Fenster mit den Pitchzeitmarken synchron sind, die Zeitpunkte von Peaks der Stimmerregung repräsentieren, wobei jedes Fenster eine Dauer von weniger als dem Doppelten der Pitchperiode zwischen den Pitchzeitmarken aufweist und um die Pitchzeitmarke herum asymmetrisch ist.

9. Sprachsynthesevorrichtung nach Anspruch 8, die enthält: eine Einrichtung zur Auftrennung eines Sprachsignals in eine Spektrumskomponente und eine Erregungskomponente, wobei die Pitchsteuereinrichtung so ausgeführt ist, daß sie die Erregungskomponente als Eingangssignal empfängt, und eine Einrichtung zur Rekombination der Spektrumskomponente und der Erregungskomponente, bei welcher der Pitch eingestellt wurde.

10. Sprachsynthesevorrichtung nach Anspruch 8 oder 9, bei der jedes Fenster eine Dauer von weniger als dem 1,7-fachen der Pitchperiode zwischen den Pitchzeitmarken aufweist.

11. Sprachsynthesevorrichtung nach Anspruch 10, bei der jedes Fenster eine Dauer im Bereich des 1,25 bis 1,6-fachen der Pitchperiode zwischen den Pitchzeitmarken aufweist.

12. Sprachsynthesevorrichtung nach Anspruch 8 oder 9, bei der jedes Fenster eine komplette Periode zwischen zwei Pitchmarkierungen umfaßt.