DE10042571A1 - Verfahren zur konkatenativen Sprachsynthese mittels graphenbasierter Bausteinauswahl mit variabler Bewertungsfunktion - Google Patents

Verfahren zur konkatenativen Sprachsynthese mittels graphenbasierter Bausteinauswahl mit variabler Bewertungsfunktion

Info

Publication number
DE10042571A1
DE10042571A1 DE2000142571 DE10042571A DE10042571A1 DE 10042571 A1 DE10042571 A1 DE 10042571A1 DE 2000142571 DE2000142571 DE 2000142571 DE 10042571 A DE10042571 A DE 10042571A DE 10042571 A1 DE10042571 A1 DE 10042571A1
Authority
DE
Germany
Prior art keywords
block
sound
graph
costs
building block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE2000142571
Other languages
English (en)
Other versions
DE10042571C2 (de
Inventor
Diane Hirschfeld
Matthias Wolff
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Voice Inter Connect De GmbH
Original Assignee
Technische Universitaet Dresden
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technische Universitaet Dresden filed Critical Technische Universitaet Dresden
Priority to DE2000142571 priority Critical patent/DE10042571C2/de
Publication of DE10042571A1 publication Critical patent/DE10042571A1/de
Application granted granted Critical
Publication of DE10042571C2 publication Critical patent/DE10042571C2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur konkatenativen Sprachsynthese mittels graphenbasierter Bausteinauswahl mit variabler Bewertungsfunktion, bei dem für die zu synthetisierende Sprache ein Äußerungsgraph aus der zu synthetisierenden Phonemfolge erzeugt wird, in dem die Phoneme durch Knoten und die Phonemübergänge durch Kanten repräsentiert sind, durch Zerlegung der Phoneme in Anfangs- und Endhalbphoneme in Äußerungsgraph und Inventar die alternative Verwendung der Verkettungsarten innerlautliche Verkettung und Verkettung an der lautgrenze ermöglicht wird, ein Äußerungsgraph durch Einfügen passender Bausteine und Bausteinteile aus einem Inventar in einen Bausteingraphen überführt wird, der Bausteingraph in eine Repräsentation überführt wird, wo die Bausteine durch Knoten und die Übergänge zwischen zwei Bausteinen durch Kanten repräsentiert werden, den Knoten Bausteinkosten und den Kanten Verkettungskosten angehängt werden, alle potentiellen Wege im Bausteingraphen ermittelt werden, wobei eine Bewegung in zeitlich positiver Richtung entlang der verbundenen Knoten und Kanten erfolgt, entlang des aktuellen Weges alle Knoten- und Kantenbewertungen aufsummiert werden, und der zusammenhängende Weg im Bausteingraphen mit dem insgesamt geringsten Kostenbeitrag die optimale Bausteinfolge für die zu synthetisierende Sprache darstellt.

Description

Die Erfindung betrifft ein Verfahren zur konkatenativen Sprachsynthese mittels graphenbasierter Bausteinauswahl mit variabler Bewertungsfunktion.
Bei der konkatenativen Sprachsynthese werden natürlichsprachliche Signalbausteine zu einem synthetischen Sprachsignal verkettet. Dazu dienen Sprachbausteinsammlungen oder Inventare, die alle Sprachbausteine für eine gegebene Sprache bzw. einen Sprecher umfassen. Die Bausteingröße und -anzahl ist abhängig von der zu synthetisierenden Sprache bzw. vom Sprecher. Je nach Ansatz existieren von einem Baustein mehrere kontextuelle und prosodische Varianten.
Während des Sprachsyntheseprozesses ist eine Auswahl der Bausteinfolge notwendig, die die aktuell zu synthetisierende Äußerung optimal repräsentiert.
Zur konkatenativen Sprachsynthese ist aus Kaeslin, H.: "Systematische Gewinnung und Verkettung von Diphonelementen für die Synthese deutscher Standardsprache", Ph. D. Dissertation 7732, ETH Zürich, 1985 ein Diphon-Verfahren bekannt. Dabei wird die synthetische Sprache aus Zweilautverbindungen (Diphonen) zusammengesetzt, wobei die Verkettung zweier, benachbarter Bausteine im Lautinnern erfolgt. Ein Baustein beginnt in der Stationärphase des ersten Lautes und endet in der Stationärphase des zweiten Lautes und enthält den (meist variablen) Lautübergang.
Aus Dettweiler, H.; Hess, W.: "Concatenation rules for demisyllable speech synthesis", ACUSTICA (57), S. 268-283 ist ein Halbsilben-Verfahren und aus Portele, T.: "Ein phonetisch-akustisch motiviertes Inventar zur Sprachsynthese deutscher Äußerungen", Rheinische Friedrich-Wilhelms-Universität, Bonn, Dissertation ein Mischverfahren mit Bausteinen unterschiedlicher Länge (Halbsilben, Diphone und Suffixe) bekannt. Die Verkettung erfolgt bei diesen Verfahren für Vokale im Lautinnern und für Konsonanten an der Lautgrenze.
Aus Alan W. Black, Campbell, N.: "Optimising the selection of units from databases for concatenative speech synthesis", EUROSPEECH'95, Madrid, 581-584 ist die korpusbasierte Synthese bekannt. Dabei erfolgt eine Ermittlung aller passenden Bausteinvarianten innerhalb einer natürlichsprachlichen Datenbasis. Mittels heuristischer Eignungskriterien, sogenannter "Kostenfunktionen", wird die Ähnlichkeit des aktuellen Bausteins zur Zieläußerung ("Bausteinkosten") sowie die Ähnlichkeit zweier zu verkettender, benachbarter Bausteine ("Verkettungskosten") bewertet. Eine anschließende Viterbi-Suche ermittelt die optimale Bausteinfolge aus der Menge der potentiell passenden Bausteine. In diesem Verfahren ist der Laut der Baustein. Es wird bei der Auswahl berücksichtigt, daß in der Ausgangsäußerung aufeinanderfolgende Laute keine Verkettungskosten verursachen. Daher variiert die Länge der aus den Ausgangsäußerungen geschnittenen Bausteine je nach Anzahl der mit der Zieläußerung übereinstimmenden Laute. Die Verkettung erfolgt allgemein an der Lautgrenze.
Der Nachteil des Standes der Technik besteht darin, daß mit Diphon-Verfahren nur eine begrenzte Sprachqualität erreichbar ist. Halbsilben- und Mischverfahren sind an komplizierte Auswahl- und Verkettungsregeln für das Bausteininventar gebunden, die in der Bausteinauswahl fest programmiert sind. Damit ergibt sich eine unflexible und sprachabhängige Sprachsynthese. Die bestehenden Lösungen sind nicht unabhängig von der verwendeten Bausteingröße. Es existieren spezielle Lösungen für Diphone, Triphone und Halbsilben. Damit sind sie oft auch unflexibel gegenüber einer Inventarerweiterung; einem Hinzufügen neuer Sprachbausteine zum Inventar.
Korpusbasierte Ansätze weisen im Allgemeinen eine hohe Sprachqualität auf. Da Bausteine in der Ausgangsdatenbasis jedoch statistisch nicht gleichverteilt sind, kommt es von Zeit zu Zeit zur Auswahl schlecht passender Bausteine. Bei Verwendung größerer Bausteine (Wort, Silbe) können Bausteine fehlen. Die dadurch verursachten Störungen können die Gesamtqualität der resultierenden Sprache beeinträchtigen. Korpusbasierte Verfahren sind sehr aufwendig, da für die Abspeicherung der Baustein-Unterscheidungsmerkmale viel Speicherplatz benötigt wird und zur Kostenberechnung und Suche der optimalen Bausteinfolge aus einer Vielzahl von Varianten viel Rechenzeit verbraucht wird. Insofern sind korpusbasierte Verfahren für die Sprachsynthese mit herkömmlichen Inventaren nicht geeignet. Die Verkettungsart ist für jeden Baustein fest vorgegeben; meist wird Verkettung an der Lautgrenze verwendet.
Die Aufgabe der Erfindung besteht darin, unter Verwendung ein und desselben Softwaremoduls für die datenbasierte Sprachsynthese in verschiedenen Sprachen (d. h. unterschiedliche Phonemsymbole) und mit unterschiedlichen Inventaren (d. h. unterschiedliche Bausteinanzahl und -typ und Berücksichtigung von Bausteinvarianten) ohne hörbaren Qualitätsverlust Sprache wie natürliche Sprache zu synthetisieren. Eine strenge Trennung von prozeduralem und datenbasiertem Wissen bildet die Voraussetzung für eine Unabhängigkeit des Verfahrens von einer Sprache. Das Verfahren soll die Leistungsfähigkeit der bereits bekannten Verfahren kombinieren und nach Möglichkeit übertreffen, ohne wie jene an eine bestimmte Bausteingröße und unflexible, weil fest programmierte Zerlegungsregeln gebunden zu sein.
Die Aufgabe wird mit den im Anspruch 1 angegebenen Merkmalen gelöst. Vorteilhafte Varianten des Verfahrens sind Gegenstand von Unteransprüchen.
Gemäß der Erfindung wird eine spezielle, graphenbasierte Repräsentation der Zieläußerung verwendet, deren Struktur durch die mögliche Verkettung von Bausteinen und Bausteinteilen an den Lautgrenzen und im Lautinnern bestimmt wird. Der Halblaut wird als minimaler, zusammenhängender Signalbaustein verwendet.
Die Anzahl der Halblaute in der Zieläußerung bildet das zeitliche Raster für die Positionierung der Bausteine und Bausteinteile des Inventars. Die verwendeten Bausteine - Allophone (Laute), Diphone (2 Halblaute und Lautübergang), Halbsilben, Silben, ja sogar Wörter oder Teilsätze - werden in dasselbe Raster zerlegt und durch Zeichenkettenvergleich auf die Zieläußerung abgebildet. Durch das Einfügen passender Bausteine und Bausteinteile in den Äußerungsgraphen entsteht der Bausteingraph. Die Verwendung beliebiger Teile der Inventarbausteine ist ohne weiteren manuellen Aufbereitungsaufwand möglich.
Die Steuerung des Selektionsverhaltens erfolgt durch universelle Kostenfunktionen. Je nach Verfügbarkeit von Varianten für die Bausteine wird die Kostenfunktion und damit der Beschreibungsraum der Bausteine um Merkmale erweitert. Durch dieses flexible Vorgehen wird eine Speicherersparnis für Inventare mit dünn besetztem oder leerem Merkmalsraum erreicht. Als Kostenfunktionen können:
  • - einfache Kostenfunktion (z. B. für herkömmliche Diphon-Inventare ohne Baustein-Varianten),
  • - lautklassen-basierte Kostenfunktion (z. B. für Multiphon- oder Silbeninventare mit Kontextvarianten) und
  • - meßwert-basierte Kostenfunktion (z. B. für Korpus-Inventare mit Kontext- und prosodischen Varianten) verwendet werden.
Die Merkmalsherleitung für die Kostenfunktion basiert auf automatischer Messung spektraler und prosodischer Charakteristika der Laute oder auf Clusterung solcher Merkmale.
Die Berechnung der Baustein- und Verkettungskosten für alle im Bausteingraphen repräsentierten Bausteine und Verkettungsstellen erfolgt alternativ mit Hilfe der 3 angegebenen Varianten von Kostenfunktionen.
Der Auswahlalgorithmus ist vollständig extern über Wissensquellen konfigurierbar, so daß eine strenge Trennung von datenbasiertem und prozeduralem Wissen erfolgt und der Algorithmus für beliebige Sprachen und Bausteine beliebiger Länge einfach durch Austausch der Wissensquellen genutzt werden kann.
Das Auswahlverfahren entscheidet anhand der Bausteinmerkmale für jeden Baustein über die optimale Verkettungsart.
Die Vorteile der Erfindung bestehen in:
  • - der Unabhängigkeit von der gewählten Sprache (Phoneminventar),
  • - Unabhängigkeit von der Bausteingröße - auch mit einfacher Kostenfunktion werden automatisch die längsten, passenden Bausteinketten ausgewählt,
  • - Unabhängigkeit von phonetischem Expertenwissen - keine aufwendige Formulierung spezieller Auswahl- und Verkettungsregeln notwendig,
  • - automatische Erzeugung einer Beschreibungsdatenbank für die Sprachdatenbasis, aus der das Inventar gewonnen werden soll, anhand von Signalmerkmalen, inklusive der Zerlegung der Sprachsignale in Bausteine der gewünschten Größe,
  • - automatische Ermittlung der geeigneten Verkettungsart für jeden Baustein resultiert in einem glatten Sprachsignal,
  • - hohe Flüssigkeit und Natürlichkeit der resultierenden Sprache durch gute Abbildung natürlicher, prosodischer und koartikulatorischer Einflüsse,
  • - Speicher- und Rechenzeitersparnis durch angepaßte Dimensionierung des Merkmalsraumes der Kostenfunktion.
Die Erfindung wird nachfolgend an Hand eines Ausführungsbeispiels näher erläutert. In den Zeichnungen zeigen:
Fig. 1 einen Aufbau eines Äußerungsgraphen für ein zu synthetisierendes Sprachstück,
Fig. 2 einen Aufbau eines Bausteingraphen für ein zu synthetisierendes Sprachstück,
Fig. 3 eine Darstellung zur Erläuterung der Kostenfunktion.
Die datenbasierte Sprachsynthese beruht auf der Verkettung von Abschnitten natürlicher Sprachsignale. Die kleinsten, unterscheidbaren Signalabschnitte sind die Laute. Diese können durch ein Symbol etikettiert werden. Eine Synthesevorschrift eines Textes besteht aus einer Folge von solchen Symbolen, den Phonemen.
Ein Baustein umfaßt mindestens das Sprachsignal sowie Laut-Etiketten. Im Inventar sind eine Vielzahl von Sprachbausteinen enthalten, die je nach Bausteintyp einen (Allophon), zwei (Diphon) oder mehrere Laute (Multiphon, Silbe) enthalten können. Die Aufgabe der Bausteinauswahl besteht in der Zuordnung von im Inventar enthaltenen Sprachsignalbausteinen auf eine Folge von Phonemen, die die zu synthetisierende Äußerung repräsentiert. Bei Vorhandensein von prosodischen Bausteinvarianten, also Bausteinen gleicher Lautfolge aber mit unterschiedlicher Dauer, Sprechmelodie oder Lautstärke, ist auch noch diejenige Variante aufzufinden, die den Zielvorgaben für die synthetische Äußerung möglichst nahe kommt.
Allgemein besteht jeder Baustein mindestens aus einem oder mehreren Lauten. Die maximale Bausteinlänge ist im vorgestellten Verfahren nicht festgelegt; prinzipiell können auch Wörter oder Sätze verwendet werden.
Die Verkettung der Bausteine zu einer Zieläußerung kann entweder an der Lautgrenze (hart) oder im Lautinnern erfolgen. Damit ergeben sich für jeden in Baustein oder Zieläußerung enthaltenen Laut zwei Teillaute sowie drei potentielle Verkettungsstellen (an linker und rechter Lautgrenze sowie in Lautmitte oder alternativ nach 40% der Lautdauer).
Die Zieläußerung kann als einfacher, sequentieller Graph der enthaltenen Teillaute aufgefaßt werden. Für den Aufbau des Äußerungsgraphen werden die potentiellen Verkettungsstellen als Knoten und die Teillaute der Zieläußerung in Form von Kanten dargestellt. In Fig. 1 ist ein Aufbau eines solchen Äußerungsgraphen der Äußerung ". . .Bausteine. . ." gezeigt. Die Apostrophe an den Phonemsymbolen markieren die innerlautliche Verkettungsstelle.
Für den Aufbau eines Bausteingraphen werden passende Bausteine aus dem Inventar als neue Kanten in diesen Äußerungsgraphen zwischen jene beiden Knoten eingefügt, deren Symbolkette mit der Bausteinsymbolkette übereinstimmt.
In der Fig. 2 ist ein Aufbau eines solchen Bausteingraphen für die Äußerung aus Fig. 1 dargestellt. In der oberen Bildhälfte ist der Graph der Zieläußerung als eine Kette von Teillauten zu sehen. Die eingefügten Bausteine in der unteren Bildhälfte repräsentieren die zwischen den Randknoten befindliche Symbolfolge in der Zieläußerung.
Die Bewertung und das Auswahlverfahren erfolgt folgendermaßen:
Durch Bewertung aller Bausteine und aller Verkettungsstellen durch empirische, numerische Funktionen ("Kosten") ist eine Gewichtung der Bausteine hinsichtlich ihrer Eignung in der Zieläußerung möglich. Die Kostenfunktion steuert also das Selektionsverhalten der Bausteinauswahl. Zur Veranschaulichung dient die Darstellung in Fig. 3.
Unter Kostenfunktionen werden im Sinne der Erfindung die Bausteinkosten als Abstand zwischen Baustein und Zieläußerung und die Verkettungskosten als Abstand zwischen benachbarten Bausteinen verstanden.
Für die Kostenberechnung wird der Bausteingraph in einen Graphen überführt, in dem die Bausteine durch Knoten und die Bausteinübergänge durch Kanten repräsentiert sind. Den Knoten werden Bausteinkosten und den Kanten Verkettungskosten angehängt.
Die Kosten sollen sich ganz allgemein als gewichtete Differenz der n Kontextmerkmale (m) zweier Bausteine (i und k) berechnen lassen:
Im Anschluß an die Kostenberechnung werden alle potentiellen Wege im Bausteingraphen ermittelt (wobei eine Bewegung nur in zeitlich positiver Richtung entlang verbundener Knoten und Kanten möglich ist), und entlang des aktuellen Weges werden alle Knoten- und Kantenbewertungen aufsummiert. Jener zusammenhängende Weg im Bausteingraphen, der insgesamt den geringsten Kostenbeitrag liefert, stellt die Lösung des Selektionsproblems dar.
Die Wahl der Merkmale zur Kostenberechnung bestimmt neben dem Rechenaufwand auch den notwendigen Umfang der verwendeten Beschreibungsdatenbank, denn diese sollte hinsichtlich der gewählten Bewertungskriterien für jede Merkmalskombination mindestens eine Bausteinvariante enthalten (Vollständigkeitsprinzip). Je nach Verfügbarkeit von Bausteinvarianten in einem Inventar wird die Kostenfunktion und damit der Beschreibungsraum der Bausteine um Merkmale erweitert. Ziel dieses flexiblen Vorgehens ist die Speicher- und Rechenzeitersparnis für Inventare mit dünn besetztem oder leerem Merkmalsraum. Folgende Kostenfunktionen kommen zum Einsatz:
1. Einfache Kostenfunktion
Sind keine Bausteinvarianten im Inventar enthalten, so werden auch keine zusätzlichen Beschreibungsmerkmale zu deren Unterscheidung benötigt. Bausteinkosten für reale Bausteine fallen nicht an. Verkettung an der Lautgrenze ist teurer (Standardkosten von 100) als innerlautliche Verkettung (wegen Vorhandenseins von ½ Laut Kontext: Standardkosten von 1).
2. Lautklassen-basierte Kostenfunktion
Mit dieser Kostenfunktion ist die Unterscheidung von Bausteinvarianten mit unterschiedlichem Lautkontext möglich. Die benachbarten Lautsymbole sind die zu vergleichenden Merkmale. Die Bausteinkosten berechnen sich durch Vergleich der Merkmale von Baustein und Zieläußerung. Stimmen die Symbole überein, so entstehen keine Kosten; weichen sie voneinander ab, so entstehen maximale Kosten. Die Kostenbeiträge für linken Nachbarlaut und rechten Nachbarlaut in Baustein und Zieläußerung werden addiert zu den Gesamtkosten. Die Verkettungskosten vergleichen die Merkmale von linkem Nachbarlaut des aktuellen Bausteins mit dem äußersten rechten Laut des Vorgängerbausteins, den äußersten linken Bausteinlaut mit dem rechten Nachbarn des Vorgängerbausteins, den äußersten rechten Bausteinlaut mit dem linken Nachbarn des Folgebausteins und den äußersten linken Laut des Folgebausteins mit dem rechten Nachbarlaut des aktuellen Bausteins. Die einzelnen Kostenbeiträge werden aufsummiert und gewichtet.
3. Meßwert-basierte Kostenfunktion
Diese Art der Bewertung ist für Inventare mit prosodischen und Kontextvarianten eines Bausteines einzusetzen. Als Bewertungsmerkmale werden Parameter-Meßwerte eingesetzt, die durch Signalanalyse aus dem Ausgangssprachsignal zu gewinnen sind, und die als gutes Kriterium zur Unterscheidung der Bausteinvarianten dienen. Zur Abbildung lautlicher Kontexteinflüsse eignen sich zum Beispiel die Verläufe der Formanten. Zur Abbildung prosodischer Unterschiede zwischen Bausteinen eignen sich zum Beispiel Meßwerte oder lautweise gemittelte Meßwerte der Grundfrequenz oder die Dauer des Lautes/des Bausteines. Für solche zeitlich veränderlichen Parameter müssen konkret an der Verkettungsstelle Parameter gemessen werden. Die Verkettungskosten können sich als Differenz dieser Meßwerte an der Verkettungsstelle für zwei zu verkettende Bausteine ergeben. Die Beträge der Differenzen an der linken und rechten Bausteingrenze werden zu den Gesamtkosten addiert. Die Bausteinkosten werden (sofern im Merkmalsvektor enthalten) durch die Differenz der realen, prosodischen Meßwerte (Grundfrequenz, Dauer) und der für die Zieläußerung vorgegebenen, prosodischen Angaben ausgedrückt, da für die Zieläußerung ja keine Formantverläufe vorgegeben werden können.

Claims (10)

1. Verfahren zur konkatenativen Sprachsynthese mittels graphenbasierter Bausteinauswahl mit variabler Bewertungsfunktion, bei dem für die zu synthetisierende Sprache:
  • a) eine Phonemfolge und zugehörige, prosodische Informationen in Form eines Äußerungsgraphen erzeugt wird, der als Zieläußerung für eine Bausteinauswahl dient, wobei in dem Äußerungspraphen die Phoneme durch Kanten und die Bausteinübergänge durch Knoten repräsentiert werden,
  • b) die in Zieläußerung und Bausteinen enthaltenen Phoneme in zwei Teillaute zerlegt werden, so daß eine alternative Anwendung von innerlautlicher Verkettung und Verkettung an Lautgrenze erfolgen kann und eine für den Baustein bestgeeignete Verkettungsart ausgewählt wird,
  • c) aus dem Äußerungsgraphen ein Bausteingraph erzeugt wird, indem passende Bausteine und Bausteinteile aus einer Sprachbausteinsammlung oder einem Inventar in den Äußerungsgraphen zwischen die entsprechenden Knoten eingefügt werden,
  • d) der Bausteingraph in eine Form überführt wird, in der die Knoten die Bausteine und die Kanten die Bausteinübergänge repräsentieren, wobei in einer nachfolgenden Kostenberechnung den Knoten Bausteinkosten und den Kanten Verkettungskosten angehängt werden,
  • e) alle potentiellen Wege im Bausteingraphen ermittelt werden, wobei eine Bewegung in zeitlich positiver Richtung entlang der verbundenen Knoten und Kanten erfolgt,
  • f) entlang des aktuellen Weges alle Knoten- und Kantenbewertungen aufsummiert werden
  • g) und der zusammenhängende Weg im Bausteingraphen mit dem insgesamt geringsten Kostenbeitrag als Bausteinfolge für die Synthese der Sprache zur Verfügung gestellt wird.
2. Verfahren nach Anspruch 1, bei dem, sofern keine Bausteinvarianten im Inventar vorliegen, keine zusätzlichen Beschreibungsmerkmale zur Unterscheidung herangezogen werden.
3. Verfahren nach Anspruch 2, bei dem Verkettungen an der Lautgrenze mit Kosten von 100 bewertet werden.
4. Verfahren nach Anspruch 2 oder 3, bei dem innerlautliche Verkettungen mit Kosten von 1 bewertet werden.
5. Verfahren nach Anspruch 1, bei dem zur Unterscheidung von Bausteinvarianten mit unterschiedlichem Lautkontext die Bausteinkosten durch Vergleich der Merkmale von Baustein und Zieläußerung berechnet werden, wobei bei Übereinstimmung der Symbole keine Kosten und bei Abweichung voneinander maximale Kosten entstehen.
6. Verfahren nach Anspruch 5, bei dem die Kostenbeiträge für den linken Nachbarlaut und rechten Nachbarlaut in Baustein und Zieläußerung zu den Gesamtkosten addiert werden.
7. Verfahren nach Anspruch 5 oder 6, bei dem zur Ermittlung der Verkettungskosten die Merkmale von linkem Nachbarlaut des aktuellen Bausteins mit dem äußersten rechten Laut des Vorgängerbausteins, den äußersten linken Bausteinlaut mit dem rechten Nachbarn des Vorgängerbausteins, den äußersten rechten Bausteinlaut mit dem linken Nachbarn des Folgebausteins und den äußersten linken Laut des Folgebausteins mit dem rechten Nachbarlaut des aktuellen Bausteins verglichen werden, wobei die einzelnen Kostenbeiträge aufsummiert und gewichtet werden.
8. Verfahren nach Anspruch 1, bei dem für Inventare mit prosodischen und Kontextvarianten eines Bausteins als Bewertungsmerkmale Parameter-Meßwerte eingesetzt werden, die durch Signalanalyse aus dem Ausgangssprachsignal gewonnen werden, die als Kriterium zur Unterscheidung der Bausteinvarianten dienen.
9. Verfahren nach Anspruch 8, bei dem die Bausteinkosten durch die Differenz der realen, prosodischen Meßwerte, insbesondere Grundfrequenz und Dauer, und der für die Zieläußerung vorgegebenen, prosodischen Angaben ausgewiesen werden.
10. Verfahren nach Anspruch 8 oder 9, bei dem für zeitlich veränderliche Parameter an der Verkettungsstelle Parameter gemessen werden.
DE2000142571 2000-08-22 2000-08-22 Verfahren zur konkatenativen Sprachsynthese mittels graphenbasierter Bausteinauswahl mit variabler Bewertungsfunktion Expired - Lifetime DE10042571C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE2000142571 DE10042571C2 (de) 2000-08-22 2000-08-22 Verfahren zur konkatenativen Sprachsynthese mittels graphenbasierter Bausteinauswahl mit variabler Bewertungsfunktion

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2000142571 DE10042571C2 (de) 2000-08-22 2000-08-22 Verfahren zur konkatenativen Sprachsynthese mittels graphenbasierter Bausteinauswahl mit variabler Bewertungsfunktion

Publications (2)

Publication Number Publication Date
DE10042571A1 true DE10042571A1 (de) 2002-03-14
DE10042571C2 DE10042571C2 (de) 2003-02-06

Family

ID=7654298

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2000142571 Expired - Lifetime DE10042571C2 (de) 2000-08-22 2000-08-22 Verfahren zur konkatenativen Sprachsynthese mittels graphenbasierter Bausteinauswahl mit variabler Bewertungsfunktion

Country Status (1)

Country Link
DE (1) DE10042571C2 (de)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19861167A1 (de) * 1998-08-19 2000-06-15 Christoph Buskies Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19861167A1 (de) * 1998-08-19 2000-06-15 Christoph Buskies Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Alan W. Black, Campbell, N.: "Optimising the selection of units from databases for concatenative speech synthesis", EUROSPEECH'95, Madrid, 581-584 *
Dettweiler, H., Hess, W.: "Concatenation rules for demisyllable speech synthesis", ACUSTICA (57),S. 268-283 *
Kaeslin, H.: "Systematische Gewinnung und Verkettung von Diphonelementen für die Synthese deutscher Standardsprache", Ph.D. Dissertation 7732, ETH Zürich, 1985 *
Portele, T.: "Ein phonetisch-akustisch motiviertes Inventar zur Sprachsynthese deutscher Äußerungen", Rheinische Friedrich-Wilhelms- Universität, Bonn, Dissertation *

Also Published As

Publication number Publication date
DE10042571C2 (de) 2003-02-06

Similar Documents

Publication Publication Date Title
DE69925932T2 (de) Sprachsynthese durch verkettung von sprachwellenformen
DE69719654T2 (de) Grundfrequenzmuster enthaltende Prosodie-Datenbanken für die Sprachsynthese
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
DE69713452T2 (de) Verfahren und System zur Auswahl akustischer Elemente zur Laufzeit für die Sprachsynthese
EP0886853B1 (de) Auf mikrosegmenten basierendes sprachsyntheseverfahren
DE60126564T2 (de) Verfahren und Anordnung zur Sprachsysnthese
EP1159734B1 (de) Verfahren und anordnung zur ermittlung einer merkmalsbeschreibung eines sprachsignals
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE60004420T2 (de) Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem
DE69506037T2 (de) Audioausgabeeinheit und Methode
DE69625950T2 (de) Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem
Conkie Robust unit selection system for speech synthesis
DE69627865T2 (de) Sprachsynthesizer mit einer datenbank für akustische elemente
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DE60216651T2 (de) Vorrichtung zur Sprachsynthese
DE3211313A1 (de) Verfahren und vorrichtung zur kontinuierlichen sprachmustererkennung
DE4237563A1 (de)
DE69720861T2 (de) Verfahren zur Tonsynthese
DE60305716T2 (de) Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
EP1159733B1 (de) Verfahren und anordnung zur bestimmung eines repräsentativen lautes
WO2000011647A1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
DE69318209T2 (de) Verfahren und Anordnung zur Sprachsynthese

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8304 Grant after examination procedure
8364 No opposition during term of opposition
R081 Change of applicant/patentee

Owner name: VOICE INTER CONNECT GMBH, DE

Free format text: FORMER OWNER: TECHNISCHE UNIVERSITAET DRESDEN, 01069 DRESDEN, DE

Effective date: 20111116

R071 Expiry of right