DE10042571A1 - Verfahren zur konkatenativen Sprachsynthese mittels graphenbasierter Bausteinauswahl mit variabler Bewertungsfunktion - Google Patents
Verfahren zur konkatenativen Sprachsynthese mittels graphenbasierter Bausteinauswahl mit variabler BewertungsfunktionInfo
- Publication number
- DE10042571A1 DE10042571A1 DE2000142571 DE10042571A DE10042571A1 DE 10042571 A1 DE10042571 A1 DE 10042571A1 DE 2000142571 DE2000142571 DE 2000142571 DE 10042571 A DE10042571 A DE 10042571A DE 10042571 A1 DE10042571 A1 DE 10042571A1
- Authority
- DE
- Germany
- Prior art keywords
- block
- sound
- graph
- costs
- building block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title 1
- 238000000034 method Methods 0.000 claims abstract description 29
- 230000007704 transition Effects 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 23
- 230000015572 biosynthetic process Effects 0.000 claims description 16
- 238000003786 synthesis reaction Methods 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000004069 differentiation Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 9
- 238000013459 approach Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 2
- 230000005526 G1 to G0 transition Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Die Erfindung betrifft ein Verfahren zur konkatenativen Sprachsynthese mittels graphenbasierter Bausteinauswahl mit variabler Bewertungsfunktion, bei dem für die zu synthetisierende Sprache ein Äußerungsgraph aus der zu synthetisierenden Phonemfolge erzeugt wird, in dem die Phoneme durch Knoten und die Phonemübergänge durch Kanten repräsentiert sind, durch Zerlegung der Phoneme in Anfangs- und Endhalbphoneme in Äußerungsgraph und Inventar die alternative Verwendung der Verkettungsarten innerlautliche Verkettung und Verkettung an der lautgrenze ermöglicht wird, ein Äußerungsgraph durch Einfügen passender Bausteine und Bausteinteile aus einem Inventar in einen Bausteingraphen überführt wird, der Bausteingraph in eine Repräsentation überführt wird, wo die Bausteine durch Knoten und die Übergänge zwischen zwei Bausteinen durch Kanten repräsentiert werden, den Knoten Bausteinkosten und den Kanten Verkettungskosten angehängt werden, alle potentiellen Wege im Bausteingraphen ermittelt werden, wobei eine Bewegung in zeitlich positiver Richtung entlang der verbundenen Knoten und Kanten erfolgt, entlang des aktuellen Weges alle Knoten- und Kantenbewertungen aufsummiert werden, und der zusammenhängende Weg im Bausteingraphen mit dem insgesamt geringsten Kostenbeitrag die optimale Bausteinfolge für die zu synthetisierende Sprache darstellt.
Description
Die Erfindung betrifft ein Verfahren zur konkatenativen Sprachsynthese mittels graphenbasierter
Bausteinauswahl mit variabler Bewertungsfunktion.
Bei der konkatenativen Sprachsynthese werden natürlichsprachliche Signalbausteine zu einem
synthetischen Sprachsignal verkettet. Dazu dienen Sprachbausteinsammlungen oder Inventare,
die alle Sprachbausteine für eine gegebene Sprache bzw. einen Sprecher umfassen. Die
Bausteingröße und -anzahl ist abhängig von der zu synthetisierenden Sprache bzw. vom
Sprecher. Je nach Ansatz existieren von einem Baustein mehrere kontextuelle und prosodische
Varianten.
Während des Sprachsyntheseprozesses ist eine Auswahl der Bausteinfolge notwendig, die die
aktuell zu synthetisierende Äußerung optimal repräsentiert.
Zur konkatenativen Sprachsynthese ist aus Kaeslin, H.: "Systematische Gewinnung und
Verkettung von Diphonelementen für die Synthese deutscher Standardsprache", Ph. D.
Dissertation 7732, ETH Zürich, 1985 ein Diphon-Verfahren bekannt. Dabei wird die
synthetische Sprache aus Zweilautverbindungen (Diphonen) zusammengesetzt, wobei die
Verkettung zweier, benachbarter Bausteine im Lautinnern erfolgt. Ein Baustein beginnt in der
Stationärphase des ersten Lautes und endet in der Stationärphase des zweiten Lautes und enthält
den (meist variablen) Lautübergang.
Aus Dettweiler, H.; Hess, W.: "Concatenation rules for demisyllable speech synthesis",
ACUSTICA (57), S. 268-283 ist ein Halbsilben-Verfahren und aus Portele, T.: "Ein
phonetisch-akustisch motiviertes Inventar zur Sprachsynthese deutscher Äußerungen",
Rheinische Friedrich-Wilhelms-Universität, Bonn, Dissertation ein Mischverfahren mit
Bausteinen unterschiedlicher Länge (Halbsilben, Diphone und Suffixe) bekannt. Die Verkettung
erfolgt bei diesen Verfahren für Vokale im Lautinnern und für Konsonanten an der Lautgrenze.
Aus Alan W. Black, Campbell, N.: "Optimising the selection of units from databases for
concatenative speech synthesis", EUROSPEECH'95, Madrid, 581-584 ist die korpusbasierte
Synthese bekannt. Dabei erfolgt eine Ermittlung aller passenden Bausteinvarianten innerhalb
einer natürlichsprachlichen Datenbasis. Mittels heuristischer Eignungskriterien, sogenannter
"Kostenfunktionen", wird die Ähnlichkeit des aktuellen Bausteins zur Zieläußerung
("Bausteinkosten") sowie die Ähnlichkeit zweier zu verkettender, benachbarter Bausteine
("Verkettungskosten") bewertet. Eine anschließende Viterbi-Suche ermittelt die optimale
Bausteinfolge aus der Menge der potentiell passenden Bausteine. In diesem Verfahren ist der
Laut der Baustein. Es wird bei der Auswahl berücksichtigt, daß in der Ausgangsäußerung
aufeinanderfolgende Laute keine Verkettungskosten verursachen. Daher variiert die Länge der
aus den Ausgangsäußerungen geschnittenen Bausteine je nach Anzahl der mit der Zieläußerung
übereinstimmenden Laute. Die Verkettung erfolgt allgemein an der Lautgrenze.
Der Nachteil des Standes der Technik besteht darin, daß mit Diphon-Verfahren nur eine
begrenzte Sprachqualität erreichbar ist. Halbsilben- und Mischverfahren sind an komplizierte
Auswahl- und Verkettungsregeln für das Bausteininventar gebunden, die in der Bausteinauswahl
fest programmiert sind. Damit ergibt sich eine unflexible und sprachabhängige Sprachsynthese.
Die bestehenden Lösungen sind nicht unabhängig von der verwendeten Bausteingröße. Es
existieren spezielle Lösungen für Diphone, Triphone und Halbsilben. Damit sind sie oft auch
unflexibel gegenüber einer Inventarerweiterung; einem Hinzufügen neuer Sprachbausteine zum
Inventar.
Korpusbasierte Ansätze weisen im Allgemeinen eine hohe Sprachqualität auf. Da Bausteine in
der Ausgangsdatenbasis jedoch statistisch nicht gleichverteilt sind, kommt es von Zeit zu Zeit
zur Auswahl schlecht passender Bausteine. Bei Verwendung größerer Bausteine (Wort, Silbe)
können Bausteine fehlen. Die dadurch verursachten Störungen können die Gesamtqualität der
resultierenden Sprache beeinträchtigen. Korpusbasierte Verfahren sind sehr aufwendig, da für
die Abspeicherung der Baustein-Unterscheidungsmerkmale viel Speicherplatz benötigt wird und
zur Kostenberechnung und Suche der optimalen Bausteinfolge aus einer Vielzahl von Varianten
viel Rechenzeit verbraucht wird. Insofern sind korpusbasierte Verfahren für die Sprachsynthese
mit herkömmlichen Inventaren nicht geeignet. Die Verkettungsart ist für jeden Baustein fest
vorgegeben; meist wird Verkettung an der Lautgrenze verwendet.
Die Aufgabe der Erfindung besteht darin, unter Verwendung ein und desselben Softwaremoduls
für die datenbasierte Sprachsynthese in verschiedenen Sprachen (d. h. unterschiedliche
Phonemsymbole) und mit unterschiedlichen Inventaren (d. h. unterschiedliche Bausteinanzahl
und -typ und Berücksichtigung von Bausteinvarianten) ohne hörbaren Qualitätsverlust Sprache
wie natürliche Sprache zu synthetisieren. Eine strenge Trennung von prozeduralem und
datenbasiertem Wissen bildet die Voraussetzung für eine Unabhängigkeit des Verfahrens von
einer Sprache. Das Verfahren soll die Leistungsfähigkeit der bereits bekannten Verfahren
kombinieren und nach Möglichkeit übertreffen, ohne wie jene an eine bestimmte Bausteingröße
und unflexible, weil fest programmierte Zerlegungsregeln gebunden zu sein.
Die Aufgabe wird mit den im Anspruch 1 angegebenen Merkmalen gelöst. Vorteilhafte
Varianten des Verfahrens sind Gegenstand von Unteransprüchen.
Gemäß der Erfindung wird eine spezielle, graphenbasierte Repräsentation der Zieläußerung
verwendet, deren Struktur durch die mögliche Verkettung von Bausteinen und Bausteinteilen an
den Lautgrenzen und im Lautinnern bestimmt wird. Der Halblaut wird als minimaler,
zusammenhängender Signalbaustein verwendet.
Die Anzahl der Halblaute in der Zieläußerung bildet das zeitliche Raster für die Positionierung
der Bausteine und Bausteinteile des Inventars. Die verwendeten Bausteine - Allophone (Laute),
Diphone (2 Halblaute und Lautübergang), Halbsilben, Silben, ja sogar Wörter oder Teilsätze -
werden in dasselbe Raster zerlegt und durch Zeichenkettenvergleich auf die Zieläußerung
abgebildet. Durch das Einfügen passender Bausteine und Bausteinteile in den Äußerungsgraphen
entsteht der Bausteingraph. Die Verwendung beliebiger Teile der Inventarbausteine ist ohne
weiteren manuellen Aufbereitungsaufwand möglich.
Die Steuerung des Selektionsverhaltens erfolgt durch universelle Kostenfunktionen. Je nach
Verfügbarkeit von Varianten für die Bausteine wird die Kostenfunktion und damit der
Beschreibungsraum der Bausteine um Merkmale erweitert. Durch dieses flexible Vorgehen wird
eine Speicherersparnis für Inventare mit dünn besetztem oder leerem Merkmalsraum erreicht.
Als Kostenfunktionen können:
- - einfache Kostenfunktion (z. B. für herkömmliche Diphon-Inventare ohne Baustein-Varianten),
- - lautklassen-basierte Kostenfunktion (z. B. für Multiphon- oder Silbeninventare mit Kontextvarianten) und
- - meßwert-basierte Kostenfunktion (z. B. für Korpus-Inventare mit Kontext- und prosodischen Varianten) verwendet werden.
Die Merkmalsherleitung für die Kostenfunktion basiert auf automatischer Messung spektraler
und prosodischer Charakteristika der Laute oder auf Clusterung solcher Merkmale.
Die Berechnung der Baustein- und Verkettungskosten für alle im Bausteingraphen
repräsentierten Bausteine und Verkettungsstellen erfolgt alternativ mit Hilfe der 3 angegebenen
Varianten von Kostenfunktionen.
Der Auswahlalgorithmus ist vollständig extern über Wissensquellen konfigurierbar, so daß eine
strenge Trennung von datenbasiertem und prozeduralem Wissen erfolgt und der Algorithmus für
beliebige Sprachen und Bausteine beliebiger Länge einfach durch Austausch der Wissensquellen
genutzt werden kann.
Das Auswahlverfahren entscheidet anhand der Bausteinmerkmale für jeden Baustein über die
optimale Verkettungsart.
Die Vorteile der Erfindung bestehen in:
- - der Unabhängigkeit von der gewählten Sprache (Phoneminventar),
- - Unabhängigkeit von der Bausteingröße - auch mit einfacher Kostenfunktion werden automatisch die längsten, passenden Bausteinketten ausgewählt,
- - Unabhängigkeit von phonetischem Expertenwissen - keine aufwendige Formulierung spezieller Auswahl- und Verkettungsregeln notwendig,
- - automatische Erzeugung einer Beschreibungsdatenbank für die Sprachdatenbasis, aus der das Inventar gewonnen werden soll, anhand von Signalmerkmalen, inklusive der Zerlegung der Sprachsignale in Bausteine der gewünschten Größe,
- - automatische Ermittlung der geeigneten Verkettungsart für jeden Baustein resultiert in einem glatten Sprachsignal,
- - hohe Flüssigkeit und Natürlichkeit der resultierenden Sprache durch gute Abbildung natürlicher, prosodischer und koartikulatorischer Einflüsse,
- - Speicher- und Rechenzeitersparnis durch angepaßte Dimensionierung des Merkmalsraumes der Kostenfunktion.
Die Erfindung wird nachfolgend an Hand eines Ausführungsbeispiels näher erläutert. In den
Zeichnungen zeigen:
Fig. 1 einen Aufbau eines Äußerungsgraphen für ein zu synthetisierendes Sprachstück,
Fig. 2 einen Aufbau eines Bausteingraphen für ein zu synthetisierendes Sprachstück,
Fig. 3 eine Darstellung zur Erläuterung der Kostenfunktion.
Die datenbasierte Sprachsynthese beruht auf der Verkettung von Abschnitten natürlicher
Sprachsignale. Die kleinsten, unterscheidbaren Signalabschnitte sind die Laute. Diese können
durch ein Symbol etikettiert werden. Eine Synthesevorschrift eines Textes besteht aus einer
Folge von solchen Symbolen, den Phonemen.
Ein Baustein umfaßt mindestens das Sprachsignal sowie Laut-Etiketten. Im Inventar sind eine
Vielzahl von Sprachbausteinen enthalten, die je nach Bausteintyp einen (Allophon), zwei
(Diphon) oder mehrere Laute (Multiphon, Silbe) enthalten können. Die Aufgabe der
Bausteinauswahl besteht in der Zuordnung von im Inventar enthaltenen Sprachsignalbausteinen
auf eine Folge von Phonemen, die die zu synthetisierende Äußerung repräsentiert. Bei
Vorhandensein von prosodischen Bausteinvarianten, also Bausteinen gleicher Lautfolge aber mit
unterschiedlicher Dauer, Sprechmelodie oder Lautstärke, ist auch noch diejenige Variante
aufzufinden, die den Zielvorgaben für die synthetische Äußerung möglichst nahe kommt.
Allgemein besteht jeder Baustein mindestens aus einem oder mehreren Lauten. Die maximale
Bausteinlänge ist im vorgestellten Verfahren nicht festgelegt; prinzipiell können auch Wörter
oder Sätze verwendet werden.
Die Verkettung der Bausteine zu einer Zieläußerung kann entweder an der Lautgrenze (hart)
oder im Lautinnern erfolgen. Damit ergeben sich für jeden in Baustein oder Zieläußerung
enthaltenen Laut zwei Teillaute sowie drei potentielle Verkettungsstellen (an linker und rechter
Lautgrenze sowie in Lautmitte oder alternativ nach 40% der Lautdauer).
Die Zieläußerung kann als einfacher, sequentieller Graph der enthaltenen Teillaute aufgefaßt
werden. Für den Aufbau des Äußerungsgraphen werden die potentiellen Verkettungsstellen als
Knoten und die Teillaute der Zieläußerung in Form von Kanten dargestellt. In Fig. 1 ist ein
Aufbau eines solchen Äußerungsgraphen der Äußerung ". . .Bausteine. . ." gezeigt. Die Apostrophe
an den Phonemsymbolen markieren die innerlautliche Verkettungsstelle.
Für den Aufbau eines Bausteingraphen werden passende Bausteine aus dem Inventar als neue
Kanten in diesen Äußerungsgraphen zwischen jene beiden Knoten eingefügt, deren Symbolkette
mit der Bausteinsymbolkette übereinstimmt.
In der Fig. 2 ist ein Aufbau eines solchen Bausteingraphen für die Äußerung aus Fig. 1
dargestellt. In der oberen Bildhälfte ist der Graph der Zieläußerung als eine Kette von Teillauten
zu sehen. Die eingefügten Bausteine in der unteren Bildhälfte repräsentieren die zwischen den
Randknoten befindliche Symbolfolge in der Zieläußerung.
Die Bewertung und das Auswahlverfahren erfolgt folgendermaßen:
Durch Bewertung aller Bausteine und aller Verkettungsstellen durch empirische, numerische Funktionen ("Kosten") ist eine Gewichtung der Bausteine hinsichtlich ihrer Eignung in der Zieläußerung möglich. Die Kostenfunktion steuert also das Selektionsverhalten der Bausteinauswahl. Zur Veranschaulichung dient die Darstellung in Fig. 3.
Durch Bewertung aller Bausteine und aller Verkettungsstellen durch empirische, numerische Funktionen ("Kosten") ist eine Gewichtung der Bausteine hinsichtlich ihrer Eignung in der Zieläußerung möglich. Die Kostenfunktion steuert also das Selektionsverhalten der Bausteinauswahl. Zur Veranschaulichung dient die Darstellung in Fig. 3.
Unter Kostenfunktionen werden im Sinne der Erfindung die Bausteinkosten als Abstand
zwischen Baustein und Zieläußerung und die Verkettungskosten als Abstand zwischen
benachbarten Bausteinen verstanden.
Für die Kostenberechnung wird der Bausteingraph in einen Graphen überführt, in dem die
Bausteine durch Knoten und die Bausteinübergänge durch Kanten repräsentiert sind. Den
Knoten werden Bausteinkosten und den Kanten Verkettungskosten angehängt.
Die Kosten sollen sich ganz allgemein als gewichtete Differenz der n Kontextmerkmale (m)
zweier Bausteine (i und k) berechnen lassen:
Im Anschluß an die Kostenberechnung werden alle potentiellen Wege im Bausteingraphen
ermittelt (wobei eine Bewegung nur in zeitlich positiver Richtung entlang verbundener Knoten
und Kanten möglich ist), und entlang des aktuellen Weges werden alle Knoten- und
Kantenbewertungen aufsummiert. Jener zusammenhängende Weg im Bausteingraphen, der
insgesamt den geringsten Kostenbeitrag liefert, stellt die Lösung des Selektionsproblems dar.
Die Wahl der Merkmale zur Kostenberechnung bestimmt neben dem Rechenaufwand auch den
notwendigen Umfang der verwendeten Beschreibungsdatenbank, denn diese sollte hinsichtlich
der gewählten Bewertungskriterien für jede Merkmalskombination mindestens eine
Bausteinvariante enthalten (Vollständigkeitsprinzip). Je nach Verfügbarkeit von
Bausteinvarianten in einem Inventar wird die Kostenfunktion und damit der Beschreibungsraum
der Bausteine um Merkmale erweitert. Ziel dieses flexiblen Vorgehens ist die Speicher- und
Rechenzeitersparnis für Inventare mit dünn besetztem oder leerem Merkmalsraum. Folgende
Kostenfunktionen kommen zum Einsatz:
Sind keine Bausteinvarianten im Inventar enthalten, so werden auch keine zusätzlichen
Beschreibungsmerkmale zu deren Unterscheidung benötigt. Bausteinkosten für reale Bausteine
fallen nicht an. Verkettung an der Lautgrenze ist teurer (Standardkosten von 100) als innerlautliche
Verkettung (wegen Vorhandenseins von ½ Laut Kontext: Standardkosten von 1).
Mit dieser Kostenfunktion ist die Unterscheidung von Bausteinvarianten mit unterschiedlichem
Lautkontext möglich. Die benachbarten Lautsymbole sind die zu vergleichenden Merkmale. Die
Bausteinkosten berechnen sich durch Vergleich der Merkmale von Baustein und Zieläußerung.
Stimmen die Symbole überein, so entstehen keine Kosten; weichen sie voneinander ab, so
entstehen maximale Kosten. Die Kostenbeiträge für linken Nachbarlaut und rechten Nachbarlaut
in Baustein und Zieläußerung werden addiert zu den Gesamtkosten. Die Verkettungskosten
vergleichen die Merkmale von linkem Nachbarlaut des aktuellen Bausteins mit dem äußersten
rechten Laut des Vorgängerbausteins, den äußersten linken Bausteinlaut mit dem rechten
Nachbarn des Vorgängerbausteins, den äußersten rechten Bausteinlaut mit dem linken Nachbarn
des Folgebausteins und den äußersten linken Laut des Folgebausteins mit dem rechten
Nachbarlaut des aktuellen Bausteins. Die einzelnen Kostenbeiträge werden aufsummiert und
gewichtet.
Diese Art der Bewertung ist für Inventare mit prosodischen und Kontextvarianten eines
Bausteines einzusetzen. Als Bewertungsmerkmale werden Parameter-Meßwerte eingesetzt, die
durch Signalanalyse aus dem Ausgangssprachsignal zu gewinnen sind, und die als gutes
Kriterium zur Unterscheidung der Bausteinvarianten dienen. Zur Abbildung lautlicher
Kontexteinflüsse eignen sich zum Beispiel die Verläufe der Formanten. Zur Abbildung
prosodischer Unterschiede zwischen Bausteinen eignen sich zum Beispiel Meßwerte oder
lautweise gemittelte Meßwerte der Grundfrequenz oder die Dauer des Lautes/des Bausteines. Für
solche zeitlich veränderlichen Parameter müssen konkret an der Verkettungsstelle Parameter
gemessen werden. Die Verkettungskosten können sich als Differenz dieser Meßwerte an der
Verkettungsstelle für zwei zu verkettende Bausteine ergeben. Die Beträge der Differenzen an der
linken und rechten Bausteingrenze werden zu den Gesamtkosten addiert. Die Bausteinkosten
werden (sofern im Merkmalsvektor enthalten) durch die Differenz der realen, prosodischen
Meßwerte (Grundfrequenz, Dauer) und der für die Zieläußerung vorgegebenen, prosodischen
Angaben ausgedrückt, da für die Zieläußerung ja keine Formantverläufe vorgegeben werden
können.
Claims (10)
1. Verfahren zur konkatenativen Sprachsynthese mittels graphenbasierter Bausteinauswahl mit
variabler Bewertungsfunktion, bei dem für die zu synthetisierende Sprache:
- a) eine Phonemfolge und zugehörige, prosodische Informationen in Form eines Äußerungsgraphen erzeugt wird, der als Zieläußerung für eine Bausteinauswahl dient, wobei in dem Äußerungspraphen die Phoneme durch Kanten und die Bausteinübergänge durch Knoten repräsentiert werden,
- b) die in Zieläußerung und Bausteinen enthaltenen Phoneme in zwei Teillaute zerlegt werden, so daß eine alternative Anwendung von innerlautlicher Verkettung und Verkettung an Lautgrenze erfolgen kann und eine für den Baustein bestgeeignete Verkettungsart ausgewählt wird,
- c) aus dem Äußerungsgraphen ein Bausteingraph erzeugt wird, indem passende Bausteine und Bausteinteile aus einer Sprachbausteinsammlung oder einem Inventar in den Äußerungsgraphen zwischen die entsprechenden Knoten eingefügt werden,
- d) der Bausteingraph in eine Form überführt wird, in der die Knoten die Bausteine und die Kanten die Bausteinübergänge repräsentieren, wobei in einer nachfolgenden Kostenberechnung den Knoten Bausteinkosten und den Kanten Verkettungskosten angehängt werden,
- e) alle potentiellen Wege im Bausteingraphen ermittelt werden, wobei eine Bewegung in zeitlich positiver Richtung entlang der verbundenen Knoten und Kanten erfolgt,
- f) entlang des aktuellen Weges alle Knoten- und Kantenbewertungen aufsummiert werden
- g) und der zusammenhängende Weg im Bausteingraphen mit dem insgesamt geringsten Kostenbeitrag als Bausteinfolge für die Synthese der Sprache zur Verfügung gestellt wird.
2. Verfahren nach Anspruch 1, bei dem, sofern keine Bausteinvarianten im Inventar vorliegen,
keine zusätzlichen Beschreibungsmerkmale zur Unterscheidung herangezogen werden.
3. Verfahren nach Anspruch 2, bei dem Verkettungen an der Lautgrenze mit Kosten von 100
bewertet werden.
4. Verfahren nach Anspruch 2 oder 3, bei dem innerlautliche Verkettungen mit Kosten von 1
bewertet werden.
5. Verfahren nach Anspruch 1, bei dem zur Unterscheidung von Bausteinvarianten mit
unterschiedlichem Lautkontext die Bausteinkosten durch Vergleich der Merkmale von
Baustein und Zieläußerung berechnet werden, wobei bei Übereinstimmung der Symbole
keine Kosten und bei Abweichung voneinander maximale Kosten entstehen.
6. Verfahren nach Anspruch 5, bei dem die Kostenbeiträge für den linken Nachbarlaut und
rechten Nachbarlaut in Baustein und Zieläußerung zu den Gesamtkosten addiert werden.
7. Verfahren nach Anspruch 5 oder 6, bei dem zur Ermittlung der Verkettungskosten die
Merkmale von linkem Nachbarlaut des aktuellen Bausteins mit dem äußersten rechten Laut
des Vorgängerbausteins, den äußersten linken Bausteinlaut mit dem rechten Nachbarn des
Vorgängerbausteins, den äußersten rechten Bausteinlaut mit dem linken Nachbarn des
Folgebausteins und den äußersten linken Laut des Folgebausteins mit dem rechten
Nachbarlaut des aktuellen Bausteins verglichen werden, wobei die einzelnen Kostenbeiträge
aufsummiert und gewichtet werden.
8. Verfahren nach Anspruch 1, bei dem für Inventare mit prosodischen und Kontextvarianten
eines Bausteins als Bewertungsmerkmale Parameter-Meßwerte eingesetzt werden, die durch
Signalanalyse aus dem Ausgangssprachsignal gewonnen werden, die als Kriterium zur
Unterscheidung der Bausteinvarianten dienen.
9. Verfahren nach Anspruch 8, bei dem die Bausteinkosten durch die Differenz der realen,
prosodischen Meßwerte, insbesondere Grundfrequenz und Dauer, und der für die
Zieläußerung vorgegebenen, prosodischen Angaben ausgewiesen werden.
10. Verfahren nach Anspruch 8 oder 9, bei dem für zeitlich veränderliche Parameter an der
Verkettungsstelle Parameter gemessen werden.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2000142571 DE10042571C2 (de) | 2000-08-22 | 2000-08-22 | Verfahren zur konkatenativen Sprachsynthese mittels graphenbasierter Bausteinauswahl mit variabler Bewertungsfunktion |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2000142571 DE10042571C2 (de) | 2000-08-22 | 2000-08-22 | Verfahren zur konkatenativen Sprachsynthese mittels graphenbasierter Bausteinauswahl mit variabler Bewertungsfunktion |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10042571A1 true DE10042571A1 (de) | 2002-03-14 |
DE10042571C2 DE10042571C2 (de) | 2003-02-06 |
Family
ID=7654298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2000142571 Expired - Lifetime DE10042571C2 (de) | 2000-08-22 | 2000-08-22 | Verfahren zur konkatenativen Sprachsynthese mittels graphenbasierter Bausteinauswahl mit variabler Bewertungsfunktion |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE10042571C2 (de) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19861167A1 (de) * | 1998-08-19 | 2000-06-15 | Christoph Buskies | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten |
-
2000
- 2000-08-22 DE DE2000142571 patent/DE10042571C2/de not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19861167A1 (de) * | 1998-08-19 | 2000-06-15 | Christoph Buskies | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten |
Non-Patent Citations (4)
Title |
---|
Alan W. Black, Campbell, N.: "Optimising the selection of units from databases for concatenative speech synthesis", EUROSPEECH'95, Madrid, 581-584 * |
Dettweiler, H., Hess, W.: "Concatenation rules for demisyllable speech synthesis", ACUSTICA (57),S. 268-283 * |
Kaeslin, H.: "Systematische Gewinnung und Verkettung von Diphonelementen für die Synthese deutscher Standardsprache", Ph.D. Dissertation 7732, ETH Zürich, 1985 * |
Portele, T.: "Ein phonetisch-akustisch motiviertes Inventar zur Sprachsynthese deutscher Äußerungen", Rheinische Friedrich-Wilhelms- Universität, Bonn, Dissertation * |
Also Published As
Publication number | Publication date |
---|---|
DE10042571C2 (de) | 2003-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69925932T2 (de) | Sprachsynthese durch verkettung von sprachwellenformen | |
DE69719654T2 (de) | Grundfrequenzmuster enthaltende Prosodie-Datenbanken für die Sprachsynthese | |
DE69909716T2 (de) | Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich | |
DE60035001T2 (de) | Sprachsynthese mit Prosodie-Mustern | |
DE69713452T2 (de) | Verfahren und System zur Auswahl akustischer Elemente zur Laufzeit für die Sprachsynthese | |
EP0886853B1 (de) | Auf mikrosegmenten basierendes sprachsyntheseverfahren | |
DE60126564T2 (de) | Verfahren und Anordnung zur Sprachsysnthese | |
EP1159734B1 (de) | Verfahren und anordnung zur ermittlung einer merkmalsbeschreibung eines sprachsignals | |
DE60112512T2 (de) | Kodierung von Ausdruck in Sprachsynthese | |
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
DE60004420T2 (de) | Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem | |
DE69506037T2 (de) | Audioausgabeeinheit und Methode | |
DE69625950T2 (de) | Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem | |
Conkie | Robust unit selection system for speech synthesis | |
DE69627865T2 (de) | Sprachsynthesizer mit einer datenbank für akustische elemente | |
DE2212472A1 (de) | Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte | |
DE60216651T2 (de) | Vorrichtung zur Sprachsynthese | |
DE3211313A1 (de) | Verfahren und vorrichtung zur kontinuierlichen sprachmustererkennung | |
DE4237563A1 (de) | ||
DE69720861T2 (de) | Verfahren zur Tonsynthese | |
DE60305716T2 (de) | Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
EP1159733B1 (de) | Verfahren und anordnung zur bestimmung eines repräsentativen lautes | |
WO2000011647A1 (de) | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten | |
DE69318209T2 (de) | Verfahren und Anordnung zur Sprachsynthese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8304 | Grant after examination procedure | ||
8364 | No opposition during term of opposition | ||
R081 | Change of applicant/patentee |
Owner name: VOICE INTER CONNECT GMBH, DE Free format text: FORMER OWNER: TECHNISCHE UNIVERSITAET DRESDEN, 01069 DRESDEN, DE Effective date: 20111116 |
|
R071 | Expiry of right |