DE19939947C2 - Digitales Sprachsyntheseverfahren mit Intonationsnachbildung - Google Patents

Digitales Sprachsyntheseverfahren mit Intonationsnachbildung

Info

Publication number
DE19939947C2
DE19939947C2 DE1999139947 DE19939947A DE19939947C2 DE 19939947 C2 DE19939947 C2 DE 19939947C2 DE 1999139947 DE1999139947 DE 1999139947 DE 19939947 A DE19939947 A DE 19939947A DE 19939947 C2 DE19939947 C2 DE 19939947C2
Authority
DE
Germany
Prior art keywords
speech synthesis
synthesis method
fundamental frequency
microsegments
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE1999139947
Other languages
English (en)
Other versions
DE19939947A1 (de
Inventor
Ralf Benzmueller
Andreas Luening
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
G DATA SOFTWARE AG, 44793 BOCHUM, DE
Original Assignee
G DATA SOFTWARE AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by G DATA SOFTWARE AG filed Critical G DATA SOFTWARE AG
Priority to DE1999139947 priority Critical patent/DE19939947C2/de
Priority to EP00958260A priority patent/EP1212748A1/de
Priority to PCT/DE2000/002784 priority patent/WO2001015138A1/de
Publication of DE19939947A1 publication Critical patent/DE19939947A1/de
Application granted granted Critical
Publication of DE19939947C2 publication Critical patent/DE19939947C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

Die Erfindung betrifft ein digitales Sprachsyntheseverfahren, bei dem ein als Sprache auszugebender Text in eine Phonemkette überführt wird, die Phonemkette mit bei einer Analyse des Textes ermittelten ergänzenden Informationen zu einer Symbolkette ergänzt wird, der Symbolkette generalisierte Mikrosegmente, die vorab aus aufgenommenen Äußerungen der Sprache erstellt wurden, zugeordnet werden und ein für die Sprachausgabe aus den aneinanderzureihenden Mikrosegmenten gebildetes Zeitreihensignal entsprechend der Symbolkette beeinflußt wird, wobei Informationen als ergänzende Informationen ermittelt und an diesen Intonationssymbolen Grundfrequenzveränderungen bestimmter Teile der Perioden von Mikrosegmenten im Zeitbereich durchgeführt werden, mit den Schritten: DOLLAR A - Definieren eines Frequenzbereichs in Bezug zur mittleren Aufnahmefrequenz der aufgenommenen Äußerungen, DOLLAR A - Zuordnen der Intonationssymbole als Zielpunkte im definierten Frequenzbereich in Bezug zu den Mikrosegmenten, DOLLAR A - Berechnen der zu realisierenden Grundfrequenzänderung für jedes Mikrosegment, in dem ein Zielpunkt liegt, DOLLAR A - Interpolieren der zu realisierenden Grundfrequenzänderung für Mikrosegmente zwischen aufeinanderfolgenden Zielpunkten und DOLLAR A - Umrechnen der Datenwerte im Zeitbereich jedes Mikrosegments entsprechend der zu realisierenden Grundfrequenzänderungen.

Description

Die Erfindung betrifft ein Digitales Sprachsynthese­ verfahren, bei dem ein als Sprache auszugebender Text in eine Phonemkette überführt wird, die Phonemkette mit bei einer Analyse des Textes ermittelten ergänzenden Informationen zu einer Symbolkette ergänzt wird, der Symbolkette generalisierte Mikrosegmente, die vorab aus aufgenommenen Äußerungen der Sprache erstellt wurden, zugeordnet werden und ein für die Sprachausgabe aus den aneinanderzureihenden Mikrosegmenten gebildetes Zeit­ reihensignal entsprechend der Symbolkette beeinflußt wird, wobei Intonationen als ergänzende Informationen ermittelt und an diesen Intonationssymbolen Grund­ frequenzveränderungen bestimmter Teile der Perioden von Mikrosegmenten im Zeitbereich durchgeführt werden.
Ein derartiges Sprachsyntheseverfahren ist aus der WO 97/34291 A1 bekannt. Bei diesem Verfahren wird eine große Natürlichkeit der in einem Rechner synthetisch erzeugten Sprache bei geringem Speicherplatzbedarf und ohne hohen Rechenaufwand erzeugt. Dabei wird eine Generalisierung bei der Verwendung der Sprachsignal­ bausteine in Form von Mikrosegmenten erreicht, so daß die in der Diphonsynthese nötige Verwendung eines eigenen akustischen Segments für jede der möglichen Verbindungen zweier Sprachlaute vermieden wird.
Die für die Sprachausgabe benötigten Mikrosegmente können in drei Kategorien aufgegliedert werden:
  • 1. Segmente für Vokalhälften und Halbvokalhälften:
    Sie geben in der Dynamik der spektralen Struktur die Bewegungen der Sprechorgane von bzw. zu der Artiku­ lationsstelle des benachbarten Konsonanten an. Aufgrund der Silbenstruktur der meisten Sprachen ist häufig eine Konsonant-Vokal-Konsonant-Folge anzu­ treffen. Da die Bewegungen der Sprechorgane für eine gegebene Artikulationsstelle entsprechend den relativ unbeweglichen Teilen des menschlichen Ansatzrohres unabhängig von der Artikulationsart, d. h., unabhängig von den vorangehenden oder nach­ folgenden Konsonanten, vergleichbar sind, ist daher für jeden Vokal nur ein Mikrosegment pro globaler Artikulationsstelle des vorherigen Konsonanten (= erste Hälfte des Vokals) und ein Mikrosegment pro Artikulationsstelle des folgenden Konsonanten (= zweite Hälfte des Vokals) nötig.
  • 2. Segmente für quasi stationäre Vokalteile:
    Diese Segmente sind aus der Mitte von langen Vokal­ realisierungen, die klanglich relativ konstant wahr­ genommen werden, herausgetrennt. Sie werden in verschiedenen Textpositionen bzw. Kontexten einge­ setzt, beispielsweise am Wortanfang, nach den Halb­ vokalsegmenten, die bestimmten Konsonanten bzw. Konsonantfolgen folgen, im Deutschen beispielsweise nach /h/, /j/ sowie /?/, zur Enddehnung, zwischen nicht diphthongischen Vokal-Vokalfolgen und in Diphthongen als Start- und Zielposition.
  • 3. Konsonantische Segmente:
    Die konsonantischen Segmente sind so gebildet, daß sie unabhängig von der Art der Nachbarlaute für mehrere Vorkommen des Lautes entweder generell oder wie vornehmlich bei Plosiven im Kontext von be­ stimmten Lautgruppen verwendet werden können.
Dabei werden die in drei Kategorien aufgegliederten Mikrosegmente mehrfach in unterschiedlichen lautlichen Kontexten verwendet. Die perzeptorisch wichtigen Über­ gänge von einem Laut zum anderen werden berücksichtigt, ohne daß dabei für jede der möglichen Verbindungen zweier Sprachlaute eigene akustische Segmente erforder­ lich sind. So können identische Segmente für verschie­ dene Lautübergänge für eine Gruppe von Konsonanten verwendet werden. Die generalisierten Mikrosegmente werden als Zeitreihensignal abgespeichert und benötigen somit nur geringen Speicherplatz.
Um die Natürlichkeit dieser Sprachwiedergabe zu ver­ bessern, wurde beschrieben, daß mit der Analyse Intonationen zugeordnet werden und die Phonemkette an diesen Stellen mit Intonationssymbolen zu einer Symbolkette ergänzt wird, wobei bei der Aneinander­ reihung der Mikrosegmente an den Intonationssymbolen eine Grundfrequenzänderung bestimmter Teile der Perioden von Mikrosegmenten im Zeitbereich durchgeführt wird. Damit wird die Melodie sprachlicher Äußerungen nachgebildet. Die Grundfrequenzänderung erfolgt dabei vorzugsweise durch Überspringen und Hinzufügen be­ stimmter Abtastwerte. Dafür werden die vorab aufge­ nommenen stimmhaften Mikrosegmente, d. h. Vokale und Sonoranten, markiert. Dabei wird automatisch jede Stimmperiode mit dem spektral informationswichtigen ersten Teil, in dem die Stimmlippen geschlossen sind, und dem unwichtigeren zweiten Teil, in dem die Stimm­ lippen offen sind, getrennt behandelt. Die Markierungen werden so gesetzt, daß bei der Signalausgabe lediglich die spektral unkritischen zweiten Teile jeder Periode zur Grundfrequenzänderung gekürzt oder verlängert wiedergegeben werden. Die Natürlichkeit dieser Intonationsnachbildung ist jedoch durch die uniforme Anwendung begrenzt.
In dem EP 0 689 706 B1 ist eine Vorrichtung zur Intonationssteuerung von mittels Synthese erzeugter künstlicher Sprache beschrieben. Ausgangspunkt sind dabei Diphon-Synthese-Systeme. Bei der Intonations­ steuerung bisheriger Systeme entstehen zur Verlängerung oder Kürzung bestimmter Signalabschnitte durch relativ grobe Kapp- und Extrapolationsvorgänge hörbare Diskontinuitäten, was mit der Vorrichtung gemäß EP 0 689 706 B1 verbessert werden soll.
Dafür werden zwei Gewichtungsfunktionen am Anfang und Ende des in Tonlage und Dauer anzupassenden Signalabschnittes zur Erzeugung harmonischer Übergänge am modifizierten Signal angewandt. Die Manipulation für Intonationsänderungen erfolgt am parametrisierten Signal. Nachteilig ist dabei, daß die Schaffung harmonischer Übergänge zwischen unbeeinflußten und mit der Intationsänderung beeinflußten Signalabschnitten mit einem erheblichen Rechenaufwand erreicht wird.
Als sprachwissenschaftlicher Hintergrund ist aus dem Artikel "Trainingsmaterialien zu Etikettierung deutscher Intonation mit GTOBI" von Ralf Benzmüller und Martine Grice in Phonus 3, Institut für Phonetik, Universität des Saarlandes, 1997, Seiten 9 bis 34, ein System für die Transcription deutscher Intonation bekannt. Darin werden die Tonhöhenverläufe mit zwei verschiedenen Ebenen beschrieben, die entsprechend zugeordnete hohe oder tiefe lokale Zielpunkte auf­ weisen. Für die Tonhöhenbewegungen sind grundsätzlich die Akzenttöne, die dazu dienen, Silben in Wörtern und Sätzen hervorzuheben, und die Grenztöne, die an Grenzen von Einheiten stattfinden, zu unterscheiden.
Aufgabe der Erfindung ist es, das eingangs dargestellte Sprachsyntheseverfahren mit vertretbarem Rechenaufwand mit einer natürlichen Intonationsnachbildung auszu­ statten.
Gelöst wird diese Aufgabe mit einem Sprachsynthese­ verfahren gemäß Patentanspruch 1.
Mit der erfindungsgemäßen Verfahrensabfolge wird entsprechend den in der Analyse gefundenen Intonations­ symbolen, die an den Mikrosegmenten Zielpunkten entsprechen, ein Variationsbereich für die Tonhöhen­ änderung festgelegt und die Zielpunkte in diesem Bereich in Bezug zu den Mikrosegmenten zugeordnet. Dann wird die zu realisierende Grundfrequenzänderung für jedes Mikrosegment mit Zielpunkt berechnet. Für dazwischenliegende Mikrosegmente wird die zu realisierende Grundfrequenzänderung zwischen aufeinanderfolgenden Zielpunkten interpoliert.
Damit können aus einem analysierten Text die für eine Intonationsnachbildung wichtigen Tonhöhenbewegungen festgelegt werden. Bei der anschließenden Umrechnung der Datenwerte im Zeitbereich wird für jedes Mikro­ segment die demnach zu realisierende Grundfrequenzände­ rung berücksichtigt. Damit können aus den generali­ sierten, gespeicherten Mikrosegmenten, die aus Sprache ohne Intonation herausgeschnitten sind, der für eine natürliche Sprachmelodie erforderliche Schwankungs­ bereich in der Tonhöhe nachgebildet werden. Diese Intonationsnachbildung benötigt somit keinen weiteren Speicherbedarf, da lediglich die bekannten generali­ sierten Mikrosegmente durch Umrechnung manipuliert werden. Der Umrechungsaufwand ist, da er im Zeitbereich durchgeführt wird, mit heutigen PC-Rechnern in Echtzeit mit vertretbarem Aufwand möglich. Das Ergebnis ist eine sehr natürliche Intonationsnachbildung.
Um eine besonders harmonische Tonhöhenschwankung zwischen aufeinanderfolgenden Zielpunkten zu verwirk­ lichen, erfolgt die Grundfrequenzveränderung zwischen zwei aufeinander folgenden Zielpunkten entlang der Zeitreihe linear interpoliert.
Wenn vorab die "geschlossene Phase" oder der erste Teil der Periode in der ersten Stimmperiode eines Mikro­ segments als informationswichtiger Teil markiert wird und bei der Signalausgabe die spektral unwichtigere "offene Phase" oder zweite Phase jeder Stimmperiode entsprechend der zu realisierenden Grundfrequenzände­ rung verändert wird, wird die akustische Wiedererkenn­ barkeit der Sprache auch bei stärkerer Tonhöhenverände­ rung erhalten.
Dadurch, daß der Frequenzbereich durch eine obere und eine untere im Zeitverlauf geneigte Registerlinie vorab definiert wird, wird die bei der natürlichen Sprache nachweisbare Frequenzbereichsvarianz in einfacher Weise nachgebildet. Wenn die obere Registerlinie negative Steigung hat, entspricht dies den natürlichen Tonhöhen­ bewegungen in einem üblichen Satz oder Satzteil. Bei bei der Textanalyse festgestellten besonderen Satzkon­ stellationen kann die obere Registerlinie auch positive Steigung aufweisen. Dabei definieren die Registerlinien in der Regel die Höhenlage der Zielpunkte von mehreren aufeinanderfolgenden Akzenten.
Dadurch, daß unter vorgegebenen Voraussetzungen bei Akzente symbolisierenden Intonationssymbolen eine Veränderung der Höhenlage der oberen Registerlinie erfolgt, wird der Frequenzbereich an Akzenten eingeengt oder vergrößert. Dabei soll die Verengung bzw. Erweite­ rung des Registers nur bei bestimmten Akzenten statt­ finden. Sie gilt dann für alle weiteren Akzente bis zum Phrasenende oder einer neuerlichen Modifikation des Registers durch bestimmte Akzenttypen. Bevorzugt er­ folgt dabei zur Veränderung der Höhenlage der Register­ linie eine Herabstufung auf 50-85%, bevorzugt ca. 70 %, oder eine Heraufstufung auf 125% bis 200%, bevor­ zugt ca. 143%, des Halbtonwertumfanges.
Dadurch, daß nach dem letzten Akzent eines Satzes der Frequenzverlauf nicht mehr der Registerlinie folgt, kann die in der natürlichen Sprache bekannte End­ absenkung am Ende einer Äußerung wiedergegeben werden.
Dadurch, daß die Frequenzwerte der oberen und unteren Zielpunkte für Grenztöne unabhängig von der Register­ linienbegrenzung gewählt werden, werden die in der natürlichen Sprachmelodie hervortretenden Grenztöne ebenso markant nachgebildet.
Dadurch, daß eine zufällige Streuung der Tonhöhe der Zielpunkte um die jeweilig verfügbaren Registerlinien erfolgt, werden die berechneten gemittelten Werte für die jeweilig zu realisierende Tonhöhe modifiziert, was die Natürlichkeit der synthetisch erzeugten Sprache weiter erhöht. Die zufällige "natürliche" Streuung der Tonhöhe der jeweiligen Zielpunkte um einen bestimmten Variationsbereich um die Registerlinien erzeugt eine besondere Lebendigkeit der synthetischen Sprache. Beispielsweise kann die Variation durch Addition von zufälligen absoluten Werten, gemessen in 10tel Halbton­ werten, oder relativ zum derzeitig verfügbaren Registerumfang aus den berechneten Werten für den jeweiliegen Zielpunkt hergeleitet werden. Die maximale Variationsbreite wird dabei vorbestimmt.
Nachfolgend wird die Intonationsnachbildung im Sprach­ syntheseverfahren anhand eines Satzbeispiels bezug­ nehmend auf die beiliegenden Zeichnungen detailliert beschrieben. Darin zeigt:
Fig. 1 die Intonationsveränderung in Abhängigkeit der Zielpunkte für einen ersten Teil eines Beispielsatzes und
Fig. 2 den zweiten Teil dieser Darstellung.
Die Fig. 1 und 2 zeigen die Bearbeitung eines Beispiel­ textes, hier "Der neugierige Peter ißt gerne saure Bonbons.". Für die Bestimmung der Intonationskontur aus einem Text, hier dem Beispieltext, ist die Lokalisie­ rung an akzentuierten Wörtern und von intonatorischen Grenzen wichtig. Dazu wird der Text zunächst in Folgen von Einzelwörtern zerlegt. Den Wörtern wird beim Lexikonvergleich eine Aussprache und eine Wortart zugewiesen. Anhand von im Text enthaltenen Satzzeichen, der ermittelten Wortart und der Wortartabfolge werden zu akzentuierende Wörter und die Grenzen von intona­ torischen Einheiten ermittelt. Die Auswahl der Akzent- und Grenztöne erfolgt abhängig vom ermittelten Satztyp. So entsteht ein um Akzent- und Grenztöne erweiterter Text.
Aus unserem Beispieltext entsteht somit der in den Fig. 1 und 2 oben wiedergegeben, schwarz hinterlegte Text.
Danach werden Zielpunkte in bestimmten Mikrosegmenten in der Umgebung von betonten Silben oder abhängig vom Ende der Phrase zugewiesen. In den zu akzentuierenden Wörtern werden anhand der im Lexikonvergleich er­ mittelten Aussprache die betonten Silben ermittelt. Dann werden nach vorgegebenen Regeln die Positionen der Zielpunkte auf die Mikrosegmente übertragen. Die Frequenzwerte der Zielpunkte ergeben sich aus dem Verlauf einer oberen und einer unteren Registerlinie, die den aktuell in der Äußerung verfügbaren Frequenz­ bereich angibt. Zwischen den Zielpunkten wird innerhalb des Registers linear interpoliert.
Im einzelnen erfolgt die Analyse wie folgt:
Zunächst wird der in Sprache umzuwandelnde Text in Sätze oder Satzteile gegliedert. Beim vorliegenden Ausführungsbeispiel erkennt das Sprachsyntheseverfahren die Satzeinheit an dem Punkt und erkennt somit den Text "Der neugierige Peter ißt gerne saure Bonbons." als eine Satzeinheit, wobei jede Satzeinheit getrennt analysiert und umgesetzt wird.
Als kleinere intonatorische Einheit, werden anhand der Abfolge der Wortarten die Phrasengrenzen ermittelt. In der ersten Spalte ist neben der Satzeinheit auch eine Unterstruktur angegeben, die zwischen dem Wort "Peter" und "ißt" eine kurze Unterbrechung setzt.
In der vorliegenden Satzeinheit werden die einzelnen Wörter durch die dazwischen angeordneten Leerstellen erkannt. Dann werden aufgrund grammatikalischer Vorgaben die Wortarten analysiert. Die Zuordnung der Mikrosegmentfolge erfolgt aufgrund von Regeln für die Umwandlung von Phonempaaren in Mikrosegmente. Die Phonemfolge für ein Wort ist im Lexikon hinterlegt. Dies ist in den Fig. 1 und 2 im mittleren Bildteil angegeben. Dabei sind die erkannten Worte in der zweiten Spalte wiedergegeben. In der dritten Spalte ist die Phonemkette des jeweiligen Wortes wiedergegeben. Die vierte Zeile ist mit Wortart bezeichnet und gibt die jeweilige Wortart des in einem Lexikon gefundenen Wortes oder Wortteils an. Die fünfte Spalte zeigt die zur Nachbildung des jeweiligen Wortes erforderlichen Mikrosegmente in zeitlicher Abfolge. Die Wortart und die Phonemfolge sind die beiden Informationen, die im Lexikon bzw. in Unterlexika zu einem bestimmten Wort bzw. Wortteil zur Verfügung stehen.
In der rechten Spalte sind die Zielpunkte der Intonationsnachbildung angezeigt. Diese werden über die ermittelten Wortarten und damit der Satzstellung nach vorgegebenen Regeln ermittelt.
Aus der Analyse ergibt sich, daß für das Wort "neugierige" in diesem Kontext ein tiefer Ziel­ punkt (L*) in der akzentuierten Silbe mit einem hohen Zielpunkt (H) danach nachzubilden ist. In dem Wort "Peter" ist ein hoher Zielpunkt (H*) in der akzentuierten Silbe als Standardakzent für schwache Betonung und anschließend ein weiterweisender Grenzton (H-) zur Nachbildung der Intonation vor der Phrasengrenze angeordnet.
In der zweiten Phrase des Satzes weist das Wort "ißt" keine Zielpunkte der Intonation auf. An dem Wortüber­ gang "gerne saure" ist ein tiefer Zielpunkt (L) kurz vor einem hohen Zielpunkt (H*) in der akzentuierten Silbe des Wortes "saure" nachgebildet. Das Wort "Bonbons" weist wiederum einen hohen Zielpunkt (H*) hinter einem tiefen Zielpunkt (L) auf, wobei die satzabschließende Intonation (L-L%) mit einer tieffallenden Kontur nachgebildet wird.
In der unteren Darstellung der Fig. 1 und 2 ist in der Abszisse die Zeitachse aufgetragen, die durch die Abfolge der benötigten Mikrosegmente definiert wird. Zur Orientierung sind die sich hinter den Mikro­ segmenten verbergenden Worte aufgetragen und mit senk­ rechten Trennlinien voneinander optisch getrennt.
Die Ordinate in dieser Darstellung gibt die Grund­ frequenzänderung zur mittleren, unbeeinflußten Grund­ frequenz, die der mittig dargestellten horizontalen Linie entspricht, an. In der Anzeige kennzeichnet eine Unterteilungslinie einen Halbton.
Aus der vorgenannten exakten Zuweisung der Zielposi­ tionen zu den ermittelten Mikrosegmenten und einem vorbestimmten Frequenzbereich werden die zu reali­ sierenden Frequenzänderungen bestimmt. Dabei werden Registerlinien gewählt, die als im wesentlichen horizontale Linien oberhalb und unterhalb der horizon­ talen Mittellinie ausgebildet sind. Der Übersichtlich­ keit halber sind diese Registerlinien nicht darge­ stellt, obwohl sich die Zielpunkte an diesen Register­ linien orientieren. Die beiden Registerlinien bestimmen den aktuell in der Äußerung verfügbaren Frequenz­ bereich, nämlich das Register.
Alle Intonationszeichen enthalten entweder eine H- oder eine L-Komponente oder beides. Dabei bedeutet H ein hoher und L ein tiefer Zielpunkt. Die L-Komponenten werden auf der unteren Registerlinie aufgetragen. Die H-Komponenten werden analog dem Wert der oberen Registerlinie zugewiesen. Die Start- und Endpunkte der Registerlinien werden vorgegeben. Ausgehend von einem Startpunkt in mittlerer Stimmlage werden alle Ziel­ punkte dann linear miteinander verbunden. Somit ergibt sich das in den Fig. 1 und 2 in der unteren Darstellung wiedergegebene Bild.
Um eine sprachlich harmonische Intonationsnachbildung herstellen zu können, wird bevorzugt das dem Zielpunkt zugeordnete Mikrosegment mit konstanter Frequenzänderung wiedergegeben, so daß eine zeitliche Ausdehnung des "Zielpunktes" auf ein Mikrosegment bewirkt wird.
Die Berechnung der zu realisierenden Grundfrequenzände­ rung erfolgt dabei zunächst für die jeweiligen Mikro­ segmente, in denen Zielpunkte liegen. Danach wird die zu realisierende Grundfrequenzänderung für jedes zwischen den Zielpunkten liegendes Mikrosegment inter­ poliert. Dazu wird die Anzahl der zwischen den jeweiligen Zielpunkten befindlichen Mikrosegmente ermittelt und entsprechend wird das Intervall zwischen den beiden Zielpunkten unterteilt. Um nun keine Frequenzsprünge zwischen den Mikrosegmenten zu erhalten, wird für jedes Mikrosegment ein Zielwert angegeben, der am Ende des Mikrosegments erreicht werden soll. Der Startwert entspricht dabei am Anfang dem definierten Startpunkt in mittlerer Stimmlage und nachfolgend dem jeweiligen Endwert des vorhergehenden Mikrosegments. Entsprechend dieser Kalkulation werden die Periodendauer der Perioden des Mikrosegments verändert.
Dabei wird der spektralinformationswichtige Teil jeder Stimmperiode, nämlich die Phase der geschlossenen Glottis, im wesentlichen nicht verändert und vornehm­ lich der informationsunwichtigere zweite Teil, ent­ sprechend der Phase der offenen Glottis, verändert.
Diese Manipulation an den Mikrosegmenten wird im Zeitbereich durchgeführt, wobei die digitalen Daten der Zeitreihe auf die einheitlich gewünschte Abtastrate mit bekannten Methoden umgerechnet wird. Für eine natür­ liche Sprachwiedergabe wird bevorzugt eine Abtast­ frequenz von 22 kHz verwendet.

Claims (10)

1. Digitales Sprachsyntheseverfahren, bei dem
  • - ein als Sprache auszugebender Text in eine Phonemkette überführt wird,
  • - die Phonemkette mit bei einer Analyse des Textes ermittelten ergänzenden Informationen zu einer Symbolkette ergänzt wird,
  • - der Symbolkette generalisierte Mikrosegmente, die vorab aus aufgenommenen Äußerungen der Sprache erstellt wurden, zugeordnet werden und
  • - ein für die Sprachausgabe aus den aneinanderzu­ reihenden Mikrosegmenten gebildetes Zeitreihen­ signal entsprechend der Symbolkette beeinflußt wird,
wobei mit der Analyse Intonationen zugeordnet werden und die Phonemkette an dieser Stelle mit Intonationssymbolen als ergänzende Informationen in der Symbolkette ergänzt wird und bei der Aneinanderreihung der Mikrosegmente an diesen Intonationssymbolen Grundfrequenzveränderungen bestimmter Teile der Perioden von Mikrosegmenten im Zeitbereich durchgeführt werden, gekennzeichnet durch, die Schritte:
  • - Definieren eines Frequenzbereichs als Variationsbereich für die Tonhöhenänderung um die mittlere Sprachsignalfrequenz der aufgenommenen Äußerungen,
  • - Zuordnen der Intonationssymbole als Zielpunkte im definierten Frequenzbereich in Bezug zu den Mikrosegmenten,
  • - Berechnen der zu realisierenden Grundfrequenz­ änderung für jedes Mikrosegment, in dem ein Zielpunkt liegt,
  • - Interpolieren der zu realisierenden Grund­ frequenzänderung für Mikrosegmente zwischen aufeinanderfolgenden Zielpunkten und
  • - Umrechnen der Datenwerte im Zeitbereich jedes Mikrosegments entsprechend der zu realisierenden Grundfrequenzänderungen.
2. Sprachsyntheseverfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Grundfrequenzveränderung zwischen zwei aufeinander folgenden Zielpunkten entlang der Zeitreihe linear interpoliert erfolgt.
3. Sprachsyntheseverfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß vorab die "geschlossene Phase" oder der erste Teil der Periode in der ersten Stimmperiode eines Mikrosegments als informationswichtiger Teil markiert wird und bei der Signalausgabe die spektral unwichtigere "offene Phase" oder zweite Phase jeder Stimmperiode ent­ sprechend der zu realisierenden Grundfrequenz­ änderung verändert wird.
4. Sprachsyntheseverfahren nach Anspruch 1, 2, oder 3, dadurch gekennzeichnet, daß der Frequenzbereich durch eine obere und eine untere im Zeitverlauf geneigte Registerlinie vorab definiert wird.
5. Sprachsyntheseverfahren nach Anspruch 4, dadurch gekennzeichnet, daß die obere Registerlinie abhängig von der Textanalyse negative oder positive Steigung hat.
6. Sprachsyntheseverfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, daß unter vorgegebenen Voraussetzungen bei bestimmte Akzente symboli­ sierenden Intonationssymbolen eine Veränderung der Höhenlage der oberen Registerlinie erfolgt.
7. Sprachsyntheseverfahren nach Anspruch 6, dadurch gekennzeichnet, daß zur Veränderung der Höhenlage der Registerlinie eine Herabstufung auf 50-85%, bevorzugt ca. 70%, oder eine Heraufstufung auf 125 % bis 200%, bevorzugt ca. 143%, des Halbtonwert­ umfanges erfolgt.
8. Sprachsyntheseverfahren nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß nach dem letzten Akzent eines Satzes der Frequenzverlauf nicht mehr der Registerlinie folgt.
9. Sprachsyntheseverfahren nach einem der voran­ gehenden Ansprüche, dadurch gekennzeichnet, daß die Frequenzwerte der oberen und unteren Zielpunkte für Grenztöne unabhängig von der Registerlinienbe­ grenzung gewählt werden.
10. Sprachsyntheseverfahren nach einem der Ansprüche 4 bis 9, dadurch gekennzeichnet, daß eine zufällige Streuung der Tonhöhe der Zielpunkte um die jeweilig verfügbaren Registerlinien erfolgt.
DE1999139947 1999-08-23 1999-08-23 Digitales Sprachsyntheseverfahren mit Intonationsnachbildung Expired - Fee Related DE19939947C2 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE1999139947 DE19939947C2 (de) 1999-08-23 1999-08-23 Digitales Sprachsyntheseverfahren mit Intonationsnachbildung
EP00958260A EP1212748A1 (de) 1999-08-23 2000-08-16 Digitales sprachsyntheseverfahren mit intonationsnachbildung
PCT/DE2000/002784 WO2001015138A1 (de) 1999-08-23 2000-08-16 Digitales sprachsyntheseverfahren mit intonationsnachbildung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1999139947 DE19939947C2 (de) 1999-08-23 1999-08-23 Digitales Sprachsyntheseverfahren mit Intonationsnachbildung

Publications (2)

Publication Number Publication Date
DE19939947A1 DE19939947A1 (de) 2001-03-08
DE19939947C2 true DE19939947C2 (de) 2002-01-24

Family

ID=7919325

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1999139947 Expired - Fee Related DE19939947C2 (de) 1999-08-23 1999-08-23 Digitales Sprachsyntheseverfahren mit Intonationsnachbildung

Country Status (3)

Country Link
EP (1) EP1212748A1 (de)
DE (1) DE19939947C2 (de)
WO (1) WO2001015138A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10207875A1 (de) * 2002-02-19 2003-08-28 Deutsche Telekom Ag Parametergesteuerte Sprachsynthese

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9368104B2 (en) 2012-04-30 2016-06-14 Src, Inc. System and method for synthesizing human speech using multiple speakers and context
DE102013219828B4 (de) * 2013-09-30 2019-05-02 Continental Automotive Gmbh Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen und sprachgesteuerte Benutzerschnittstelle

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997034291A1 (de) * 1996-03-14 1997-09-18 G Data Software Gmbh Auf mikrosegmenten basierendes sprachsyntheseverfahren
EP0689706B1 (de) * 1993-01-21 1999-11-24 Apple Computer, Inc. Intonationsregelung in text-zu-sprache-systemen

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0689706B1 (de) * 1993-01-21 1999-11-24 Apple Computer, Inc. Intonationsregelung in text-zu-sprache-systemen
WO1997034291A1 (de) * 1996-03-14 1997-09-18 G Data Software Gmbh Auf mikrosegmenten basierendes sprachsyntheseverfahren

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BENZMÜLLER, Ralf, GRICE, Martine:"Trainingsmateri-alien zu Etikettierung deutscher Intonation", In: Phonus 3, Inst. für Phonetik, Univ. des Saarlandes1997, S. 9-34 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10207875A1 (de) * 2002-02-19 2003-08-28 Deutsche Telekom Ag Parametergesteuerte Sprachsynthese

Also Published As

Publication number Publication date
EP1212748A1 (de) 2002-06-12
WO2001015138A1 (de) 2001-03-01
DE19939947A1 (de) 2001-03-08

Similar Documents

Publication Publication Date Title
EP0886853B1 (de) Auf mikrosegmenten basierendes sprachsyntheseverfahren
Jilka The contribution of intonation to the perception of foreign accent
Cooper et al. Some experiments on the perception of synthetic speech sounds
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
Lehiste et al. Some basic considerations in the analysis of intonation
EP1282112B1 (de) Verfahren zur Unterstützung des Korrekturlesens eines spracherkannten Textes mit an die Erkennungszuverlässigkeit angepasstem Wiedergabegeschwindigkeitsverlauf
DE69821673T2 (de) Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren
DE60118874T2 (de) Prosodiemustervergleich für Text-zu-Sprache Systeme
DD143970A1 (de) Verfahren und anordnung zur synthese von sprache
DE1965480B2 (de) Geraet zur umwandlung eines in graphischen zeichen gedruckten textes in gesprochene worte
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
Bessemans et al. Visual prosody supports reading aloud expressively
Namozova The problems of phonetic interference in speech of cadets
Brannon jr The speech production and spoken language of the deaf
DE102020134752B4 (de) Verfahren zum bewerten der qualität des vorlesens eines texts, computerprogrammprodukt, computerlesbares medium und bewertungsvorrichtung
Lehiste Some acoustic correlates of accent in Serbo-Croatian
DE19939947C2 (de) Digitales Sprachsyntheseverfahren mit Intonationsnachbildung
EP0058130B1 (de) Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens
EP1110203B1 (de) Vorrichtung und verfahren zur digitalen sprachbearbeitung
Braun Effects of dialect and context in the realisation of German prenuclear accents
KR20050057409A (ko) 음성 신호 합성 방법, 컴퓨터 프로그램 제품, 컴퓨터시스템 및 합성 음성 신호
Herlina Phonological Analysis of University Students’ Spoken Discourse
DE3232835A1 (de) Verfahren und schaltungsgruppenanordnung zur sprachsynthese
EP3144929A1 (de) Synthetische erzeugung eines natürlich klingenden sprachsignals
Kharlamov LYNNE CAHILL, Discovering phonetics and phonology. London: Red Globe Press, 2019. Pp. xvi+ 254. ISBN: 978-1-137-54571-8

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8127 New person/name/address of the applicant

Owner name: G DATA SOFTWARE AG, 44793 BOCHUM, DE

8181 Inventor (new situation)

Free format text: BENZMUELLER, RALF, 44892 BOCHUM, DE LUENING, ANDREAS, 44649 HERNE, DE

D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee