DE19939947C2

DE19939947C2 - Digitales Sprachsyntheseverfahren mit Intonationsnachbildung

Info

Publication number: DE19939947C2
Application number: DE1999139947
Authority: DE
Inventors: Ralf Benzmueller; Andreas Luening
Original assignee: G DATA SOFTWARE AG
Current assignee: G DATA SOFTWARE AG, 44793 BOCHUM, DE
Priority date: 1999-08-23
Filing date: 1999-08-23
Publication date: 2002-01-24
Anticipated expiration: 2019-08-24
Also published as: EP1212748A1; WO2001015138A1; DE19939947A1

Abstract

Die Erfindung betrifft ein digitales Sprachsyntheseverfahren, bei dem ein als Sprache auszugebender Text in eine Phonemkette überführt wird, die Phonemkette mit bei einer Analyse des Textes ermittelten ergänzenden Informationen zu einer Symbolkette ergänzt wird, der Symbolkette generalisierte Mikrosegmente, die vorab aus aufgenommenen Äußerungen der Sprache erstellt wurden, zugeordnet werden und ein für die Sprachausgabe aus den aneinanderzureihenden Mikrosegmenten gebildetes Zeitreihensignal entsprechend der Symbolkette beeinflußt wird, wobei Informationen als ergänzende Informationen ermittelt und an diesen Intonationssymbolen Grundfrequenzveränderungen bestimmter Teile der Perioden von Mikrosegmenten im Zeitbereich durchgeführt werden, mit den Schritten: DOLLAR A - Definieren eines Frequenzbereichs in Bezug zur mittleren Aufnahmefrequenz der aufgenommenen Äußerungen, DOLLAR A - Zuordnen der Intonationssymbole als Zielpunkte im definierten Frequenzbereich in Bezug zu den Mikrosegmenten, DOLLAR A - Berechnen der zu realisierenden Grundfrequenzänderung für jedes Mikrosegment, in dem ein Zielpunkt liegt, DOLLAR A - Interpolieren der zu realisierenden Grundfrequenzänderung für Mikrosegmente zwischen aufeinanderfolgenden Zielpunkten und DOLLAR A - Umrechnen der Datenwerte im Zeitbereich jedes Mikrosegments entsprechend der zu realisierenden Grundfrequenzänderungen.

Description

Die Erfindung betrifft ein Digitales Sprachsynthese verfahren, bei dem ein als Sprache auszugebender Text in eine Phonemkette überführt wird, die Phonemkette mit bei einer Analyse des Textes ermittelten ergänzenden Informationen zu einer Symbolkette ergänzt wird, der Symbolkette generalisierte Mikrosegmente, die vorab aus aufgenommenen Äußerungen der Sprache erstellt wurden, zugeordnet werden und ein für die Sprachausgabe aus den aneinanderzureihenden Mikrosegmenten gebildetes Zeit reihensignal entsprechend der Symbolkette beeinflußt wird, wobei Intonationen als ergänzende Informationen ermittelt und an diesen Intonationssymbolen Grund frequenzveränderungen bestimmter Teile der Perioden von Mikrosegmenten im Zeitbereich durchgeführt werden.

Ein derartiges Sprachsyntheseverfahren ist aus der WO 97/34291 A1 bekannt. Bei diesem Verfahren wird eine große Natürlichkeit der in einem Rechner synthetisch erzeugten Sprache bei geringem Speicherplatzbedarf und ohne hohen Rechenaufwand erzeugt. Dabei wird eine Generalisierung bei der Verwendung der Sprachsignal bausteine in Form von Mikrosegmenten erreicht, so daß die in der Diphonsynthese nötige Verwendung eines eigenen akustischen Segments für jede der möglichen Verbindungen zweier Sprachlaute vermieden wird.

Die für die Sprachausgabe benötigten Mikrosegmente können in drei Kategorien aufgegliedert werden:

1. Segmente für Vokalhälften und Halbvokalhälften:
Sie geben in der Dynamik der spektralen Struktur die Bewegungen der Sprechorgane von bzw. zu der Artiku lationsstelle des benachbarten Konsonanten an. Aufgrund der Silbenstruktur der meisten Sprachen ist häufig eine Konsonant-Vokal-Konsonant-Folge anzu treffen. Da die Bewegungen der Sprechorgane für eine gegebene Artikulationsstelle entsprechend den relativ unbeweglichen Teilen des menschlichen Ansatzrohres unabhängig von der Artikulationsart, d. h., unabhängig von den vorangehenden oder nach folgenden Konsonanten, vergleichbar sind, ist daher für jeden Vokal nur ein Mikrosegment pro globaler Artikulationsstelle des vorherigen Konsonanten (= erste Hälfte des Vokals) und ein Mikrosegment pro Artikulationsstelle des folgenden Konsonanten (= zweite Hälfte des Vokals) nötig.
2. Segmente für quasi stationäre Vokalteile:
Diese Segmente sind aus der Mitte von langen Vokal realisierungen, die klanglich relativ konstant wahr genommen werden, herausgetrennt. Sie werden in verschiedenen Textpositionen bzw. Kontexten einge setzt, beispielsweise am Wortanfang, nach den Halb vokalsegmenten, die bestimmten Konsonanten bzw. Konsonantfolgen folgen, im Deutschen beispielsweise nach /h/, /j/ sowie /?/, zur Enddehnung, zwischen nicht diphthongischen Vokal-Vokalfolgen und in Diphthongen als Start- und Zielposition.
3. Konsonantische Segmente:
Die konsonantischen Segmente sind so gebildet, daß sie unabhängig von der Art der Nachbarlaute für mehrere Vorkommen des Lautes entweder generell oder wie vornehmlich bei Plosiven im Kontext von be stimmten Lautgruppen verwendet werden können.

Dabei werden die in drei Kategorien aufgegliederten Mikrosegmente mehrfach in unterschiedlichen lautlichen Kontexten verwendet. Die perzeptorisch wichtigen Über gänge von einem Laut zum anderen werden berücksichtigt, ohne daß dabei für jede der möglichen Verbindungen zweier Sprachlaute eigene akustische Segmente erforder lich sind. So können identische Segmente für verschie dene Lautübergänge für eine Gruppe von Konsonanten verwendet werden. Die generalisierten Mikrosegmente werden als Zeitreihensignal abgespeichert und benötigen somit nur geringen Speicherplatz.

Um die Natürlichkeit dieser Sprachwiedergabe zu ver bessern, wurde beschrieben, daß mit der Analyse Intonationen zugeordnet werden und die Phonemkette an diesen Stellen mit Intonationssymbolen zu einer Symbolkette ergänzt wird, wobei bei der Aneinander reihung der Mikrosegmente an den Intonationssymbolen eine Grundfrequenzänderung bestimmter Teile der Perioden von Mikrosegmenten im Zeitbereich durchgeführt wird. Damit wird die Melodie sprachlicher Äußerungen nachgebildet. Die Grundfrequenzänderung erfolgt dabei vorzugsweise durch Überspringen und Hinzufügen be stimmter Abtastwerte. Dafür werden die vorab aufge nommenen stimmhaften Mikrosegmente, d. h. Vokale und Sonoranten, markiert. Dabei wird automatisch jede Stimmperiode mit dem spektral informationswichtigen ersten Teil, in dem die Stimmlippen geschlossen sind, und dem unwichtigeren zweiten Teil, in dem die Stimm lippen offen sind, getrennt behandelt. Die Markierungen werden so gesetzt, daß bei der Signalausgabe lediglich die spektral unkritischen zweiten Teile jeder Periode zur Grundfrequenzänderung gekürzt oder verlängert wiedergegeben werden. Die Natürlichkeit dieser Intonationsnachbildung ist jedoch durch die uniforme Anwendung begrenzt.

In dem EP 0 689 706 B1 ist eine Vorrichtung zur Intonationssteuerung von mittels Synthese erzeugter künstlicher Sprache beschrieben. Ausgangspunkt sind dabei Diphon-Synthese-Systeme. Bei der Intonations steuerung bisheriger Systeme entstehen zur Verlängerung oder Kürzung bestimmter Signalabschnitte durch relativ grobe Kapp- und Extrapolationsvorgänge hörbare Diskontinuitäten, was mit der Vorrichtung gemäß EP 0 689 706 B1 verbessert werden soll.

Dafür werden zwei Gewichtungsfunktionen am Anfang und Ende des in Tonlage und Dauer anzupassenden Signalabschnittes zur Erzeugung harmonischer Übergänge am modifizierten Signal angewandt. Die Manipulation für Intonationsänderungen erfolgt am parametrisierten Signal. Nachteilig ist dabei, daß die Schaffung harmonischer Übergänge zwischen unbeeinflußten und mit der Intationsänderung beeinflußten Signalabschnitten mit einem erheblichen Rechenaufwand erreicht wird.

Als sprachwissenschaftlicher Hintergrund ist aus dem Artikel "Trainingsmaterialien zu Etikettierung deutscher Intonation mit GTOBI" von Ralf Benzmüller und Martine Grice in Phonus 3, Institut für Phonetik, Universität des Saarlandes, 1997, Seiten 9 bis 34, ein System für die Transcription deutscher Intonation bekannt. Darin werden die Tonhöhenverläufe mit zwei verschiedenen Ebenen beschrieben, die entsprechend zugeordnete hohe oder tiefe lokale Zielpunkte auf weisen. Für die Tonhöhenbewegungen sind grundsätzlich die Akzenttöne, die dazu dienen, Silben in Wörtern und Sätzen hervorzuheben, und die Grenztöne, die an Grenzen von Einheiten stattfinden, zu unterscheiden.

Aufgabe der Erfindung ist es, das eingangs dargestellte Sprachsyntheseverfahren mit vertretbarem Rechenaufwand mit einer natürlichen Intonationsnachbildung auszu statten.

Gelöst wird diese Aufgabe mit einem Sprachsynthese verfahren gemäß Patentanspruch 1.

Mit der erfindungsgemäßen Verfahrensabfolge wird entsprechend den in der Analyse gefundenen Intonations symbolen, die an den Mikrosegmenten Zielpunkten entsprechen, ein Variationsbereich für die Tonhöhen änderung festgelegt und die Zielpunkte in diesem Bereich in Bezug zu den Mikrosegmenten zugeordnet. Dann wird die zu realisierende Grundfrequenzänderung für jedes Mikrosegment mit Zielpunkt berechnet. Für dazwischenliegende Mikrosegmente wird die zu realisierende Grundfrequenzänderung zwischen aufeinanderfolgenden Zielpunkten interpoliert.

Damit können aus einem analysierten Text die für eine Intonationsnachbildung wichtigen Tonhöhenbewegungen festgelegt werden. Bei der anschließenden Umrechnung der Datenwerte im Zeitbereich wird für jedes Mikro segment die demnach zu realisierende Grundfrequenzände rung berücksichtigt. Damit können aus den generali sierten, gespeicherten Mikrosegmenten, die aus Sprache ohne Intonation herausgeschnitten sind, der für eine natürliche Sprachmelodie erforderliche Schwankungs bereich in der Tonhöhe nachgebildet werden. Diese Intonationsnachbildung benötigt somit keinen weiteren Speicherbedarf, da lediglich die bekannten generali sierten Mikrosegmente durch Umrechnung manipuliert werden. Der Umrechungsaufwand ist, da er im Zeitbereich durchgeführt wird, mit heutigen PC-Rechnern in Echtzeit mit vertretbarem Aufwand möglich. Das Ergebnis ist eine sehr natürliche Intonationsnachbildung.

Um eine besonders harmonische Tonhöhenschwankung zwischen aufeinanderfolgenden Zielpunkten zu verwirk lichen, erfolgt die Grundfrequenzveränderung zwischen zwei aufeinander folgenden Zielpunkten entlang der Zeitreihe linear interpoliert.

Wenn vorab die "geschlossene Phase" oder der erste Teil der Periode in der ersten Stimmperiode eines Mikro segments als informationswichtiger Teil markiert wird und bei der Signalausgabe die spektral unwichtigere "offene Phase" oder zweite Phase jeder Stimmperiode entsprechend der zu realisierenden Grundfrequenzände rung verändert wird, wird die akustische Wiedererkenn barkeit der Sprache auch bei stärkerer Tonhöhenverände rung erhalten.

Dadurch, daß der Frequenzbereich durch eine obere und eine untere im Zeitverlauf geneigte Registerlinie vorab definiert wird, wird die bei der natürlichen Sprache nachweisbare Frequenzbereichsvarianz in einfacher Weise nachgebildet. Wenn die obere Registerlinie negative Steigung hat, entspricht dies den natürlichen Tonhöhen bewegungen in einem üblichen Satz oder Satzteil. Bei bei der Textanalyse festgestellten besonderen Satzkon stellationen kann die obere Registerlinie auch positive Steigung aufweisen. Dabei definieren die Registerlinien in der Regel die Höhenlage der Zielpunkte von mehreren aufeinanderfolgenden Akzenten.

Dadurch, daß unter vorgegebenen Voraussetzungen bei Akzente symbolisierenden Intonationssymbolen eine Veränderung der Höhenlage der oberen Registerlinie erfolgt, wird der Frequenzbereich an Akzenten eingeengt oder vergrößert. Dabei soll die Verengung bzw. Erweite rung des Registers nur bei bestimmten Akzenten statt finden. Sie gilt dann für alle weiteren Akzente bis zum Phrasenende oder einer neuerlichen Modifikation des Registers durch bestimmte Akzenttypen. Bevorzugt er folgt dabei zur Veränderung der Höhenlage der Register linie eine Herabstufung auf 50-85%, bevorzugt ca. 70 %, oder eine Heraufstufung auf 125% bis 200%, bevor zugt ca. 143%, des Halbtonwertumfanges.

Dadurch, daß nach dem letzten Akzent eines Satzes der Frequenzverlauf nicht mehr der Registerlinie folgt, kann die in der natürlichen Sprache bekannte End absenkung am Ende einer Äußerung wiedergegeben werden.

Dadurch, daß die Frequenzwerte der oberen und unteren Zielpunkte für Grenztöne unabhängig von der Register linienbegrenzung gewählt werden, werden die in der natürlichen Sprachmelodie hervortretenden Grenztöne ebenso markant nachgebildet.

Dadurch, daß eine zufällige Streuung der Tonhöhe der Zielpunkte um die jeweilig verfügbaren Registerlinien erfolgt, werden die berechneten gemittelten Werte für die jeweilig zu realisierende Tonhöhe modifiziert, was die Natürlichkeit der synthetisch erzeugten Sprache weiter erhöht. Die zufällige "natürliche" Streuung der Tonhöhe der jeweiligen Zielpunkte um einen bestimmten Variationsbereich um die Registerlinien erzeugt eine besondere Lebendigkeit der synthetischen Sprache. Beispielsweise kann die Variation durch Addition von zufälligen absoluten Werten, gemessen in 10tel Halbton werten, oder relativ zum derzeitig verfügbaren Registerumfang aus den berechneten Werten für den jeweiliegen Zielpunkt hergeleitet werden. Die maximale Variationsbreite wird dabei vorbestimmt.

Nachfolgend wird die Intonationsnachbildung im Sprach syntheseverfahren anhand eines Satzbeispiels bezug nehmend auf die beiliegenden Zeichnungen detailliert beschrieben. Darin zeigt:

Fig. 1 die Intonationsveränderung in Abhängigkeit der Zielpunkte für einen ersten Teil eines Beispielsatzes und

Fig. 2 den zweiten Teil dieser Darstellung.

Die Fig. 1 und 2 zeigen die Bearbeitung eines Beispiel textes, hier "Der neugierige Peter ißt gerne saure Bonbons.". Für die Bestimmung der Intonationskontur aus einem Text, hier dem Beispieltext, ist die Lokalisie rung an akzentuierten Wörtern und von intonatorischen Grenzen wichtig. Dazu wird der Text zunächst in Folgen von Einzelwörtern zerlegt. Den Wörtern wird beim Lexikonvergleich eine Aussprache und eine Wortart zugewiesen. Anhand von im Text enthaltenen Satzzeichen, der ermittelten Wortart und der Wortartabfolge werden zu akzentuierende Wörter und die Grenzen von intona torischen Einheiten ermittelt. Die Auswahl der Akzent- und Grenztöne erfolgt abhängig vom ermittelten Satztyp. So entsteht ein um Akzent- und Grenztöne erweiterter Text.

Aus unserem Beispieltext entsteht somit der in den Fig. 1 und 2 oben wiedergegeben, schwarz hinterlegte Text.

Danach werden Zielpunkte in bestimmten Mikrosegmenten in der Umgebung von betonten Silben oder abhängig vom Ende der Phrase zugewiesen. In den zu akzentuierenden Wörtern werden anhand der im Lexikonvergleich er mittelten Aussprache die betonten Silben ermittelt. Dann werden nach vorgegebenen Regeln die Positionen der Zielpunkte auf die Mikrosegmente übertragen. Die Frequenzwerte der Zielpunkte ergeben sich aus dem Verlauf einer oberen und einer unteren Registerlinie, die den aktuell in der Äußerung verfügbaren Frequenz bereich angibt. Zwischen den Zielpunkten wird innerhalb des Registers linear interpoliert.

Im einzelnen erfolgt die Analyse wie folgt:
Zunächst wird der in Sprache umzuwandelnde Text in Sätze oder Satzteile gegliedert. Beim vorliegenden Ausführungsbeispiel erkennt das Sprachsyntheseverfahren die Satzeinheit an dem Punkt und erkennt somit den Text "Der neugierige Peter ißt gerne saure Bonbons." als eine Satzeinheit, wobei jede Satzeinheit getrennt analysiert und umgesetzt wird.

Als kleinere intonatorische Einheit, werden anhand der Abfolge der Wortarten die Phrasengrenzen ermittelt. In der ersten Spalte ist neben der Satzeinheit auch eine Unterstruktur angegeben, die zwischen dem Wort "Peter" und "ißt" eine kurze Unterbrechung setzt.

In der vorliegenden Satzeinheit werden die einzelnen Wörter durch die dazwischen angeordneten Leerstellen erkannt. Dann werden aufgrund grammatikalischer Vorgaben die Wortarten analysiert. Die Zuordnung der Mikrosegmentfolge erfolgt aufgrund von Regeln für die Umwandlung von Phonempaaren in Mikrosegmente. Die Phonemfolge für ein Wort ist im Lexikon hinterlegt. Dies ist in den Fig. 1 und 2 im mittleren Bildteil angegeben. Dabei sind die erkannten Worte in der zweiten Spalte wiedergegeben. In der dritten Spalte ist die Phonemkette des jeweiligen Wortes wiedergegeben. Die vierte Zeile ist mit Wortart bezeichnet und gibt die jeweilige Wortart des in einem Lexikon gefundenen Wortes oder Wortteils an. Die fünfte Spalte zeigt die zur Nachbildung des jeweiligen Wortes erforderlichen Mikrosegmente in zeitlicher Abfolge. Die Wortart und die Phonemfolge sind die beiden Informationen, die im Lexikon bzw. in Unterlexika zu einem bestimmten Wort bzw. Wortteil zur Verfügung stehen.

In der rechten Spalte sind die Zielpunkte der Intonationsnachbildung angezeigt. Diese werden über die ermittelten Wortarten und damit der Satzstellung nach vorgegebenen Regeln ermittelt.

Aus der Analyse ergibt sich, daß für das Wort "neugierige" in diesem Kontext ein tiefer Ziel punkt (L*) in der akzentuierten Silbe mit einem hohen Zielpunkt (H) danach nachzubilden ist. In dem Wort "Peter" ist ein hoher Zielpunkt (H*) in der akzentuierten Silbe als Standardakzent für schwache Betonung und anschließend ein weiterweisender Grenzton (H-) zur Nachbildung der Intonation vor der Phrasengrenze angeordnet.

In der zweiten Phrase des Satzes weist das Wort "ißt" keine Zielpunkte der Intonation auf. An dem Wortüber gang "gerne saure" ist ein tiefer Zielpunkt (L) kurz vor einem hohen Zielpunkt (H*) in der akzentuierten Silbe des Wortes "saure" nachgebildet. Das Wort "Bonbons" weist wiederum einen hohen Zielpunkt (H*) hinter einem tiefen Zielpunkt (L) auf, wobei die satzabschließende Intonation (L-L%) mit einer tieffallenden Kontur nachgebildet wird.

In der unteren Darstellung der Fig. 1 und 2 ist in der Abszisse die Zeitachse aufgetragen, die durch die Abfolge der benötigten Mikrosegmente definiert wird. Zur Orientierung sind die sich hinter den Mikro segmenten verbergenden Worte aufgetragen und mit senk rechten Trennlinien voneinander optisch getrennt.

Die Ordinate in dieser Darstellung gibt die Grund frequenzänderung zur mittleren, unbeeinflußten Grund frequenz, die der mittig dargestellten horizontalen Linie entspricht, an. In der Anzeige kennzeichnet eine Unterteilungslinie einen Halbton.

Aus der vorgenannten exakten Zuweisung der Zielposi tionen zu den ermittelten Mikrosegmenten und einem vorbestimmten Frequenzbereich werden die zu reali sierenden Frequenzänderungen bestimmt. Dabei werden Registerlinien gewählt, die als im wesentlichen horizontale Linien oberhalb und unterhalb der horizon talen Mittellinie ausgebildet sind. Der Übersichtlich keit halber sind diese Registerlinien nicht darge stellt, obwohl sich die Zielpunkte an diesen Register linien orientieren. Die beiden Registerlinien bestimmen den aktuell in der Äußerung verfügbaren Frequenz bereich, nämlich das Register.

Alle Intonationszeichen enthalten entweder eine H- oder eine L-Komponente oder beides. Dabei bedeutet H ein hoher und L ein tiefer Zielpunkt. Die L-Komponenten werden auf der unteren Registerlinie aufgetragen. Die H-Komponenten werden analog dem Wert der oberen Registerlinie zugewiesen. Die Start- und Endpunkte der Registerlinien werden vorgegeben. Ausgehend von einem Startpunkt in mittlerer Stimmlage werden alle Ziel punkte dann linear miteinander verbunden. Somit ergibt sich das in den Fig. 1 und 2 in der unteren Darstellung wiedergegebene Bild.

Um eine sprachlich harmonische Intonationsnachbildung herstellen zu können, wird bevorzugt das dem Zielpunkt zugeordnete Mikrosegment mit konstanter Frequenzänderung wiedergegeben, so daß eine zeitliche Ausdehnung des "Zielpunktes" auf ein Mikrosegment bewirkt wird.

Die Berechnung der zu realisierenden Grundfrequenzände rung erfolgt dabei zunächst für die jeweiligen Mikro segmente, in denen Zielpunkte liegen. Danach wird die zu realisierende Grundfrequenzänderung für jedes zwischen den Zielpunkten liegendes Mikrosegment inter poliert. Dazu wird die Anzahl der zwischen den jeweiligen Zielpunkten befindlichen Mikrosegmente ermittelt und entsprechend wird das Intervall zwischen den beiden Zielpunkten unterteilt. Um nun keine Frequenzsprünge zwischen den Mikrosegmenten zu erhalten, wird für jedes Mikrosegment ein Zielwert angegeben, der am Ende des Mikrosegments erreicht werden soll. Der Startwert entspricht dabei am Anfang dem definierten Startpunkt in mittlerer Stimmlage und nachfolgend dem jeweiligen Endwert des vorhergehenden Mikrosegments. Entsprechend dieser Kalkulation werden die Periodendauer der Perioden des Mikrosegments verändert.

Dabei wird der spektralinformationswichtige Teil jeder Stimmperiode, nämlich die Phase der geschlossenen Glottis, im wesentlichen nicht verändert und vornehm lich der informationsunwichtigere zweite Teil, ent sprechend der Phase der offenen Glottis, verändert.

Diese Manipulation an den Mikrosegmenten wird im Zeitbereich durchgeführt, wobei die digitalen Daten der Zeitreihe auf die einheitlich gewünschte Abtastrate mit bekannten Methoden umgerechnet wird. Für eine natür liche Sprachwiedergabe wird bevorzugt eine Abtast frequenz von 22 kHz verwendet.

Claims

1. Digitales Sprachsyntheseverfahren, bei dem

- ein als Sprache auszugebender Text in eine Phonemkette überführt wird,
- die Phonemkette mit bei einer Analyse des Textes ermittelten ergänzenden Informationen zu einer Symbolkette ergänzt wird,
- der Symbolkette generalisierte Mikrosegmente, die vorab aus aufgenommenen Äußerungen der Sprache erstellt wurden, zugeordnet werden und
- ein für die Sprachausgabe aus den aneinanderzu reihenden Mikrosegmenten gebildetes Zeitreihen signal entsprechend der Symbolkette beeinflußt wird,

wobei mit der Analyse Intonationen zugeordnet werden und die Phonemkette an dieser Stelle mit Intonationssymbolen als ergänzende Informationen in der Symbolkette ergänzt wird und bei der Aneinanderreihung der Mikrosegmente an diesen Intonationssymbolen Grundfrequenzveränderungen bestimmter Teile der Perioden von Mikrosegmenten im Zeitbereich durchgeführt werden, gekennzeichnet durch, die Schritte:

- Definieren eines Frequenzbereichs als Variationsbereich für die Tonhöhenänderung um die mittlere Sprachsignalfrequenz der aufgenommenen Äußerungen,
- Zuordnen der Intonationssymbole als Zielpunkte im definierten Frequenzbereich in Bezug zu den Mikrosegmenten,
- Berechnen der zu realisierenden Grundfrequenz änderung für jedes Mikrosegment, in dem ein Zielpunkt liegt,
- Interpolieren der zu realisierenden Grund frequenzänderung für Mikrosegmente zwischen aufeinanderfolgenden Zielpunkten und
- Umrechnen der Datenwerte im Zeitbereich jedes Mikrosegments entsprechend der zu realisierenden Grundfrequenzänderungen.

2. Sprachsyntheseverfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Grundfrequenzveränderung zwischen zwei aufeinander folgenden Zielpunkten entlang der Zeitreihe linear interpoliert erfolgt.

3. Sprachsyntheseverfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß vorab die "geschlossene Phase" oder der erste Teil der Periode in der ersten Stimmperiode eines Mikrosegments als informationswichtiger Teil markiert wird und bei der Signalausgabe die spektral unwichtigere "offene Phase" oder zweite Phase jeder Stimmperiode ent sprechend der zu realisierenden Grundfrequenz änderung verändert wird.

4. Sprachsyntheseverfahren nach Anspruch 1, 2, oder 3, dadurch gekennzeichnet, daß der Frequenzbereich durch eine obere und eine untere im Zeitverlauf geneigte Registerlinie vorab definiert wird.

5. Sprachsyntheseverfahren nach Anspruch 4, dadurch gekennzeichnet, daß die obere Registerlinie abhängig von der Textanalyse negative oder positive Steigung hat.

6. Sprachsyntheseverfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, daß unter vorgegebenen Voraussetzungen bei bestimmte Akzente symboli sierenden Intonationssymbolen eine Veränderung der Höhenlage der oberen Registerlinie erfolgt.

7. Sprachsyntheseverfahren nach Anspruch 6, dadurch gekennzeichnet, daß zur Veränderung der Höhenlage der Registerlinie eine Herabstufung auf 50-85%, bevorzugt ca. 70%, oder eine Heraufstufung auf 125 % bis 200%, bevorzugt ca. 143%, des Halbtonwert umfanges erfolgt.

8. Sprachsyntheseverfahren nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß nach dem letzten Akzent eines Satzes der Frequenzverlauf nicht mehr der Registerlinie folgt.

9. Sprachsyntheseverfahren nach einem der voran gehenden Ansprüche, dadurch gekennzeichnet, daß die Frequenzwerte der oberen und unteren Zielpunkte für Grenztöne unabhängig von der Registerlinienbe grenzung gewählt werden.

10. Sprachsyntheseverfahren nach einem der Ansprüche 4 bis 9, dadurch gekennzeichnet, daß eine zufällige Streuung der Tonhöhe der Zielpunkte um die jeweilig verfügbaren Registerlinien erfolgt.