DE19920501A1 - Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese - Google Patents
Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter SprachsyntheseInfo
- Publication number
- DE19920501A1 DE19920501A1 DE19920501A DE19920501A DE19920501A1 DE 19920501 A1 DE19920501 A1 DE 19920501A1 DE 19920501 A DE19920501 A DE 19920501A DE 19920501 A DE19920501 A DE 19920501A DE 19920501 A1 DE19920501 A1 DE 19920501A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- character string
- variant
- converted
- speech input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000015572 biosynthetic process Effects 0.000 title claims description 29
- 238000003786 synthesis reaction Methods 0.000 title claims description 28
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000013459 approach Methods 0.000 claims description 8
- 230000001755 vocal effect Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000005309 stochastic process Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
Abstract
Erfindungsgemäß wird ein einfaches und ausspracheverbessertes Wiedergabeverfahren für sprachgesteuerte Systeme mit basierter Sprachsynthese angegeben, auch wenn die hinterlegte und zu synthetisierende Zeichenkette nicht den allgemeinen Regeln der Sprachwiedergabe folgt. Auch wird nach der Erfindung ein im Stand der Technik teilweises angewendetes "Hineinkopieren" des originalen Spracheingabetextes in den sonst synthetisierten Wiedergabetext vermieden, wodurch durch das erfindungsgemäße Verfahren die Akzeptanz des Anwenders des sprachgesteuerten System wesentlich verbessert wird. Im einzelnen wird zunächst bei Vorliegen einer tatsächlich gesprochenen und mit einer gespeicherten Zeichenkette korrespondierenden Spracheingabe von einer Wiedergabe der nach allgemeinen Regeln phonetisch beschriebenen und in eine rein synthetische Form gewandelten Zeichenkette die gewandelte Zeichenkette mit der Spracheingabe verglichen. Bei Feststellung einer oberhalb einer Schwelle liegenden Abweichung der gewandelten Zeichenkette von der Spracheingabe wird dann wenigstens eine Variante von der gewandelten Zeichenkette gebildet. Diese Variante wird dann, sofern diese bei einem Vergleich mit der Spracheingabe eine unterhalb der Schwelle liegende Abweichung aufweist, anstelle der gewandelten Zeichenkette ausgegeben.
Description
Die Erfindung befaßt sich mit der Verbesserung von sprachgesteuerten
Systemen mit text-basierter Sprachsynthese, insbesondere mit der Verbesserung
der synthetischen Wiedergabe von gespeichert vorliegenden, aber bei der
Aussprache bestimmten Eigentümlichkeiten unterliegenden Zeichenketten.
Bei der Bedienung von technischen Geräten gewinnt die Sprache zunehmend an
Bedeutung. Dies betrifft sowohl die Eingabe von Daten und Kommandos wie
auch die Ausgabe von Meldungen. Systeme, bei denen die Kommunikation
zwischen Benutzer und Maschine in beiden Richtungen mit Hilfe akustischer
Signale in Form von Sprache erfolgt, werden als Sprachdialogsysteme
bezeichnet. Die vom jeweiligen System ausgegebenen Äußerungen können
entweder zuvor aufgezeichnete natürliche Sprache sein oder entsprechend dem
Gegenstand der vorliegenden Erfindung synthetisch erzeugt werden. Auch sind
Anordnungen bekannt, bei denen die jeweiligen Äußerungen Kombinationen
aus synthetischer und zuvor aufgezeichneter natürlicher Sprache sind.
Um die Erfindung besser zu verstehen, seien einige allgemeine Erläuterungen
und Definitionen zur Sprachsynthese vorausgeschickt.
Gegenstand der Sprachsynthese ist die maschinelle Transformation der
symbolischen Repräsentation einer Äußerung in ein akustisches Signal, welches
von einem menschlichen Sprecher als der menschlichen Sprache hinreichend
ähnlich anerkannt wird.
Im Bereich der Sprachsynthese gilt es, zwei unterschiedliche Systeme zu
unterscheiden:
- 1. Ein Sprachsynthesesystem produziert, ausgehend von einem Text, gesprochene Sprache.
- 2. Ein Sprachsynthetisator produziert, ausgehend von gewissen Kontrollparametern gesprochene Sprache. Der Sprachsynthetisator stellt damit die letzte Stufe eines Sprachsynthesesystems dar.
Eine Sprachsynthesetechnik ist eine Technik, die den Bau eines
Sprachsynthetisators erlaubt. Beispiele für Sprachsynthesetechniken sind die
direkte Synthese, die Synthese mittels eines Modells und die Simulation des
Vokaltraktes.
Bei der direkten Synthese werden entweder Teilstücke des Sprachsignals
ausgehend von abgespeicherten Signalstücken (z. B. eines je Phonem) zu den
entsprechenden Wörtern zusammengesetzt oder die Transferfunktion des
Vokaltraktes, welcher beim Menschen für die Spracherzeugung benutzt wird,
durch Energie eines Signals in bestimmten Frequenzbereichen nachgebildet. So
werden hier beispielsweise stimmhafte Laute durch eine quasiperiodische
Anregung einer bestimmten Frequenz repräsentiert.
Das oben erwähnte Phonem ist die kleinste bedeutungsunterscheidende aber
selbst nicht bedeutungstragende Einheit der Sprache. Zwei Wörter verschiedener
Bedeutung, die sich nur durch ein Phonem unterscheiden (z. B. Fisch - Tisch-
Wald - Wild), bilden ein Minimalpaar. Die Anzahl der Phoneme einer Sprache
ist verhältnismässig klein (zwischen 20 und 60). So existieren etwa im
Deutschen 45 Phoneme.
Um die charakteristischen Übergänge zwischen den Phonemen zu
berücksichtigen, werden bei der direkten Synthese meist Diphone verwendet.
Vereinfacht kann ein Diphon als der Bereich vom invariablen Teil des ersten
Phonems bis zum invariablen Teil des folgenden Phonems definiert werden.
Phoneme bzw. Sequenzen von Phonemen werden mit Hilfe des Internationalen
Phonetischen Alphabets (IPA) notiert. Die Umsetzung eines Textes in eine
Abfolge von Zeichen des Phonetischen Alphabetes wird als Phonetische
Transkription bezeichnet.
Bei der Synthese mittels eines Modells wird ein Produktionsmodell gebildet,
welches meist auf der Minimierung der Differenz zwischen einem digitalisierten
menschlichen Sprachsignal (Originalsignal) und einem prädizierten Signal
basiert.
Eine weitere Methode besteht in der Simulation des Vokaltraktes, bei der dessen
Form sowie die Lage der einzelnen Artikulationsorgane (Zunge, Kiefer, Lippen)
nachgebildet wird. Dazu wird ein mathematisches Modell der
Strömungsverhältnisse in einem derartig definierten Vokaltrakt erzeugt und das
Sprachsignal mit Hilfe dieses Modells berechnet.
Im folgenden sollen weitere Begriffe und Verfahren, die im Zusammenhang mit
der Sprachsynthese Verwendung finden, kurz erläutert werden.
Die bei der direkten Synthese verwendeten Phoneme bzw. Diphone müssen
zunächst durch Segmentierung aus natürlicher Sprache gewonnen werden.
Hierbei können zwei Ansätze unterschieden werden:
Bei der impliziten Segmentierung werden nur die im Sprachsignal selbst enthaltenen Informationen zur Segmentierung verwendet.
Bei der impliziten Segmentierung werden nur die im Sprachsignal selbst enthaltenen Informationen zur Segmentierung verwendet.
Die explizite Segmentierung hingegen nutzt zusätzliche Informationen, wie z. B.
die Anzahl der in der Äußerung enthaltenen Phoneme.
Zur Segmentierung müssen zunächst Merkmale aus dem Sprachsignal extrahiert
werden, anhand derer eine Unterscheidung der Segmente möglich wird.
Anschließend werden diese Merkmale in Klassen eingeordnet.
Möglichkeiten zur Merkmalsextraktion bieten unter anderem Spektralanalysen,
Filterbankanalysen oder das Verfahren der Linearen Prädiktion.
Für die Klassifikation können beispielsweise Hidden Markov Modelle,
künstliche neuronale Netze oder Dynamic Time Warping (ein Verfahren zur
Zeitnormalisierung) benutzt werden.
Das Hidden-Markov-Modell (HMM) ist ein zweistufiger stochastischer Prozeß.
Er besteht aus einer Markov-Kette mit einer meist geringen Zahl von Zuständen,
denen Wahrscheinlichkeiten bzw. Wahrscheinlichkeitsdichten zugeordnet sind.
Beobachtbar sind die Sprachsignale bzw. deren durch
Wahrscheinlichkeitsdichten beschriebene Parameter. Die durchlaufende
Zustandsfolge selbst bleibt verborgen. HMMs haben sich wegen ihrer
Leistungsfähigkeit, Robustheit und guten Trainierbarkeit in der
Spracherkennung weithin durchgesetzt.
Mit Hilfe des sogenannten Viterbi-Algorithmus kann die Übereinstimmung
mehrerer HMMs bestimmt werden.
In neueren Ansätzen werden zur Klassifikation vielfach selbstorganisierende
Merkmalskarten (Kohonen-Maps) verwendet. Diese spezielle Art eines
Künstlichen Neuronalen Netzes ist in der Lage, die im menschlichen Gehirn
ablaufenden Vorgänge nachzubilden.
Ein verbreiteter Ansatz ist die Klassifizierung in Stimmhaft/Stimmlos/Stille -
gemäß der verschiedenen Anregungsformen bei der Erzeugung von Sprache im
Vokaltrakt.
Gleichgültig, welche der eben genannten Synthesetechniken auch angewendet
wird, bleibt bei text-basierten Syntheseanordnungen das Problem, daß, auch
wenn zwischen der Aussprache einer als Text vorliegenden bzw. gespeicherten
Zeichenfolge eine relativ große Korrelation gegeben ist, in jeder Sprache Worte
vorhanden sind, bei denen aus der Schreibweise nicht ohne weiteres auf deren
Aussprache geschlossen werden kann. Insbesondere für Eigennamen ist es
vielfach nicht möglich, allgemeine phonetische Regeln zur Aussprache
anzugeben. So haben zum Beispiel die beiden Städtenamen Itzehoe und Laboe
die gleiche Endung, wenngleich Itzehoe mit "oe" und Laboe mit "ö"
ausgesprochen wird. Liegen die jeweiligen Worte, die zur synthetischen
Wiedergabe bestimmt sind, als Zeichenfolge vor, führt die Anwendung einer
allgemeinen Regel dazu, daß in dem obigen Beispiel beiden Städtenamen
entweder durchgängig mit "ö" oder "oe" ausgesprochen werden, was im Falle
der "ö-Version" für Itzehoe und im Fall der "oe-Version" für Laboe
aussprachetechnisch falsch wäre. Will man diese Besonderheiten
berücksichtigen, ist es notwendig, daß die entsprechenden Worte dieser Sprache
zur Wiedergabe einer besonderen Behandlung unterzogen werden müssen. Dies
bedeutet aber gleichzeitig, daß keine rein text-basierte Eingabe der zur späteren
Wiedergabe vorgesehenen Wörter mehr möglich ist.
Da die besondere Behandlung von bestimmten Wörtern einer Sprache
außerordentlich aufwendig ist, ist man bei sprachgesteuerten Anordnungen dazu
übergegangen, die Ansage, welche eine Anordnung angeben soll, aus einem Mix
von gesprochener und synthetisierter Sprache zu bilden. Dazu wird
beispielsweise bei einem Routefinder der gewünschte Zielort, welcher
gegenüber den übrigen Worten der entsprechenden Sprache oftmals
aussprachetechnische Besonderheiten ausweist und welcher bei
sprachgesteuerten Anordnungen von einem Benutzer vorgegeben wird,
aufgenommen und in die entsprechende Zielansage hineinkopiert. Dies führt
dann dazu, daß bei de Zielansage "In drei Kilometern erreichen sie Itzehoe" nur
der kursiv geschriebene Teil synthetisiert wurde und der restliche Teil "Itzehoe"
aus der Zieleingabe des Benutzers entnommen wurde. Die gleichen
Gegebenheiten treten auch bei der Einrichtung vom Mailboxen auf, bei denen
bei der Einrichtung der Nutzer seinen Namen eingeben muß. Dort wird auch zur
Vermeidung des Aufwands der entsprechende Ansagetext, der bei Verbindung
eines Anrufers mit der Mailbox wiedergeben wird, aus dem synthetisierten Teil
"Sie sind verbunden mit der Mailbox von" und dem originalen - bei der
Einrichtung der Mailbox aufgenommenen - Teil "Otto Berger" gebildet.
Abgesehen davon, daß zusammengesetzte Ansagen der vorbeschriebenen Art
einen eher wenig professionellen Eindruck hinterlassen, können sie auch durch
die Einbindung der Originalsprache zu Abhörproblemen führen. In diesem
Zusammenhang sei nur auf die Spracheingabe in lärmbelasteter Umgebung
hingewiesen. Daher liegt der Erfindung die Aufgabe zugrunde, ein
Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter
Sprachsynthese anzugeben, bei welchem die im Stand der Technik gegebenen
Nachteile beseitigt werden.
Diese Aufgabe wird mit den in Anspruch 1 angegebenen Merkmalen gelöst.
Vorteilhafte Aus- und Weiterbildungen der Erfindung sind den Ansprüchen 2
bis 9 entnehmbar.
Wird gemäß Anspruch 1 beim Vorliegen einer tatsächlich gesprochenen und mit
einer gespeicherten Zeichenkette korrespondierenden Spracheingabe vor einer
tatsächlichen Wiedergabe der nach allgemeinen Regeln phonetisch
beschriebenen und in eine rein synthetische Form gewandelten Zeichenkette die
gewandelte Zeichenkette mit der gesprochenen Spracheingabe verglichen und
erfolgt die tatsächliche Wiedergabe der gewandelten Zeichenkette erst dann,
wenn der Vergleich dieser Zeichenkette mit der tatsächlich gesprochenen
Spracheingabe eine unterhalb einer Schwelle liegenden Abweichung zeigt, wird
die Verwendung der Originalsprache bei der Wiedergabe entsprechend dem
Stand der Technik überflüssig. Dies ist selbst dann der Fall, wenn das
gesprochene Wort von der diesem Wort entsprechenden, gewandelten
Zeichenfolge erheblich abweicht. Hierbei muß lediglich sichergestellt werden,
daß von der gewandelten Zeichenkette wenigstens eine Variante gebildet wird
und daß die gebildete Variante, sofern diese bei einem Vergleich mit der
originalen Spracheingabe eine unterhalb der Schwelle liegende Abweichung
aufweist, anstelle der - ursprünglich - gewandelten Zeichenkette ausgegeben
wird.
Wird das Verfahren gemäß Anspruch 2 durchgeführt, ist der Rechen- und
Speicheraufwand relativ gering. Dies ist darauf zurückzuführen, daß immer nur
eine Variante gebildet und untersucht werden muß.
Werden gemäß Anspruch 3 wenigstens zwei Varianten gebildet und wird aus
den hergestellten Varianten diejenige herausgesucht, welche die geringsten
Abweichungen zur originalen Spracheingabe hat, ist im Gegensatz zur
Verfahrensführung gemäß Anspruch 2 immer eine der originalen Spracheingabe
entsprechende synthetische Wiedergabe möglich.
Die Verfahrensführung wird vereinfacht, wenn gemäß Anspruch 4 eine
Segmentierung der Spracheingabe und der gewandelten Zeichenkette bzw. der
daraus gebildeten Varianten erfolgt. Diese Segmentierung erlaubt es, Segmente,
in denen keine bzw. unter der Schwelle liegende Unterschiede festgestellt
werden, von der weiteren Behandlung auszuschließen.
Wird gemäß Anspruch 5 ein gleicher Segmentierungsansatz verwendet, ist der
Vergleich besonders einfach, da eine direkte Zuordnung der jeweiligen
Segmente gegeben ist.
Wie Anspruch 6 zeigt, können auch verschiedene Segmentierungsansätze
verwendet werden. Dies hat insbesondere bei der Betrachtung der originalen
Spracheingabe Vorteile, weil dort zur Segmentierung zwingend die im
Sprachsignal enthaltenen und nur in einem sehr aufwendigen Schritt
ermittelbaren Informationen genutzt werden müssen, während bei der
Segmentierung von Zeichenketten sehr einfach die bekannte Anzahl der in der
Äußerung enthaltenen Phoneme genutzt werden kann.
Sehr rationell wird die Verfahrensführung dann, wenn gemäß Anspruch 8 die
Segmente ausgeschieden werden, in denen ein hohes Maß an Übereinstimmung
besteht, und nur noch das Segment der Zeichenkette, welches zu dem
korrespondierenden Segment der originalen Spracheingabe eine oberhalb der
Schwelle liegenden Abweichung zeigt, dadurch variiert wird, indem das in dem
Segment der Zeichenkette vorliegende Phonem durch ein Ersatzphonem ersetzt
wird.
Eine besonders einfache Verfahrensführung wird erreicht, wenn gemäß
Anspruch 9 zu jedem Phonem wenigstens ein diesem Phonem ähnliches
Ersatzphonem verknüpft bzw. in einer Liste abgelegt ist.
Die Rechenarbeit wird weiter verringert, wenn gemäß Anspruch 10 bei einer als
wiedergabewürdig ermittelten Variante einer Zeichenkette die Besonderheiten,
die mit der Wiedergabe der Zeichenkette verbunden sind, zusammen mit der
Zeichenkette abgespeichert werden. In diesem Fall ist dann die besondere
Aussprache der jeweiligen Zeichenkette bei späterer Nutzung ohne großen
Aufwand sofort aus dem Speicher abrufbar.
Es zeigen:
Fig. 1 einen schematischen Ablauf gemäß der Erfindung; und
Fig. 2 einen Vergleich von segmentierten Äußerungen.
Die Erfindung soll nun anhand der beiden Figuren näher erläutert werden.
Um die Wirkungen der Erfindung besser darlegen zu können, wird von einem
sprachgesteuerten System mit text-basierter Sprachsynthese ausgegangen.
Derartige Systeme sind beispielsweise in Routefindern oder
Mailboxanordnungen realisiert, so daß sich wegen der hohen Verbreitung
derartiger Systeme deren Darstellung auf die Dinge beschränken kann, die für
die Ausführung der Erfindung zwingend notwendig sind.
Allen diesen Systemen ist ein Speicher gemein, in welchem eine Mehrzahl von
Zeichenketten abgelegt sind. Bei diesen Zeichenketten kann es sich bei einem
Routefinder beispielsweise um Straßen- oder Ortsnamen handeln. In einer
Mailboxanwendung können dies wie in einem Telefonbuch die Namen von
Anschlußinhabern sein. Damit die Speicher leicht mit den entsprechenden
Informationen beladen bzw. die gespeicherten Informationen leicht upgedatet
werden können, liegen die jeweiligen Zeichenketten als Text vor.
In Fig. 1, die den schematischen Ablauf entsprechend dem erfinderischen
Verfahren zeigt, ist ein solcher Speicher mit 10 bezeichnet. Dieser Speicher 10,
welcher für die Darstellung der Erfindung die deutschen Städtenamen enthalten
soll, gehört zu einem Routefinder 11. Außerdem umfaßt dieser Routefinder 11
eine Anordnung 12, mit welcher natürliche Spracheingaben aufgenommen und
temporär gespeichert werden können. Vorliegend ist dies so realisiert, daß die
jeweilige Spracheingabe von einem Mikrophon 13 erfaßt und in einem
Sprachspeicher 14 abgelegt wird. Wird nun ein Benutzer vom Routefinder 11
aufgefordert, seine Zieleingabe zu machen, wird der jeweils vom Benutzer
ausgesprochene Zielort z. B. "Bochum" oder "Itzehoe" vom Mikrophon 13
erfaßt und an den Sprachspeicher 14 weitergeben. Da der Routefinder 11
entweder seinen derzeitigen Standort mitgeteilt bekommen hat oder aber ihn
noch kennt, wird er zunächst anhand der gewünschten Zieleingabe und dem
derzeitigen Standort die entsprechende Fahrtroute zum Zielort ermitteln. Soll der
Routefinder 11 die entsprechende Fahrtroute nicht nur graphisch zeigen, sondern
gesprochene Ansage liefern, werden die textlich hinterlegten Zeichenketten der
jeweiligen Ansage nach allgemeinen Regeln phonetisch beschrieben und
anschließend für die Sprachausgabe in eine rein synthetische Form gewandelt.
In dem in Fig. 1 gezeigten Ausführungsbeispiel erfolgt die phonetische
Beschreibung der hinterlegten Zeichenketten im Umsetzer 15 und die
Synthetisierung in der nachfolgend angeordneten Sprachsynthetisieranordnung
16.
Solange die über die Spracheingabe aufgerufenen und zur Wiedergabe
bestimmten Zeichenketten in bezug auf ihre jeweilige Aussprache den Regeln
der phonetischen Transkription der Sprache, in welcher der Dialog zwischen
dem Benutzer und dem Routefinder 11 geführt werden soll, folgen, kann die
jeweilige Zeichenkette, wenn sie dem Umsetzer 15 und die
Sprachsynthetisieranordnung 16 durchlaufen hat, als ein den phonetischen
Gegebenheiten der jeweiligen Sprache entsprechendes Wort mittels eines
Lautsprechers 17 an die Umwelt abgegeben und von dieser als solches auch
verstanden werden. Dies bedeutet für einen Routefinder 11 der
vorbeschriebenen Art, daß beispielsweise der aus einer Mehrzahl von
Zeichenketten bestehende, zur Wiedergabe bestimmte und über die
Spracheingabe initiierte Wiedergabetext "An der nächsten Kreuzung rechts
abbiegen!" problemlos, d. h. entsprechend den phonetischen Gegebenheiten der
Sprache über den Lautsprecher 17 abgegeben und auch verstanden werden kann,
da diese Information keinen Eigentümlichkeiten bei der Wiedergabe unterliegt.
Soll aber beispielsweise dem Benutzer nach Eingabe des Zielorts die
Möglichkeit eingeräumt werden, die Richtigkeit seiner Zieleingabe zu
überprüfen, wird der Routefinder 11 nach der Zieleingabe etwa folgenden Satz
wiedergeben: "Sie haben als Ziel Berlin gewählt. Sofern dies nicht Ihren
Vorstellungen entspricht, geben sie jetzt ein neues Ziel ein". Auch wenn diese
Information nach allgemeinen Regeln phonetisch richtig wiedergegeben werden
kann, treten dann Probleme auf, wenn das Ziel nicht Berlin, sondern Laboe sein
soll. Wird die Zeichenkette, welche die textliche Darstellung des Zielortes
Laboe im Umsetzer 15 nach allgemeinen Regeln phonetisch geschrieben und
anschließend in der Sprachsynthetisieranordnung 16 zur Ausgabe über den
Lautsprecher 17 wie der übrige Teil der obigen Information in eine synthetische
Form gebracht, wäre das über den Lautsprecher 17 abgegebene Ergebnis nur
dann richtig, wenn nach allgemeinen Regeln die Endung "oe" grundsätzlich als
"ö" wiedergeben wird. Die Richtigkeit der Wiedergabe des Zielorts Laboe im
letzten Fall führt aber dann zwangsläufig zu einer fehlerhaften Wiedergabe,
wenn der Benutzer als Zielort Itzehoe wählt, denn wegen der grundsätzlichen
Aussprache der "oe" als "ö" würde der Zielort dann phonetisch falsch als
"Itzehö" wiedergegeben.
Um dies zu vermeiden, ist zwischen der Sprachsynthetisieranordnung 16 und
dem Lautsprecher 17 eine Vergleichsanordnung 18 angeordnet. Dieser
Vergleichsanordnung 18 werden der tatsächlich vom Benutzer gesprochene
Zielort und die dem Zielort entsprechende Zeichenkette, nachdem sie den
Umsetzer 15 und die Sprachsynthetisieranordnung 16 durchlaufen hat, zugeführt
und anschließend verglichen. Zeigt die synthetisierte Zeichenkette eine hohe
- oberhalb einer Schwelle liegenden - Übereinstimmung mit dem original
gesprochenen Zielort, wird für die Wiedergabe die synthetisierte Zeichenkette
verwendet. Kann diese Übereinstimmung nicht festgestellt werden, wird in der
Sprachsynthetisieranordnung 16 eine Variante der ursprünglichen Zeichenkette
gebildet und im Vergleicher 18 erneut ein Vergleich zwischen dem original
gesprochenen Zielort und der gebildeten Variante durchgeführt.
Ist der Routefinder 11 so ausgebildet, daß sobald eine Zeichenkette bzw. eine
Variante die geforderte Übereinstimmung mit dem Original aufweist, deren
Wiedergabe über den Lautsprecher 17 erfolgt, werden weitere
Variantenbildungen sofort gestoppt. Auch kann der Routefinder 11 so
modifiziert sein, daß eine Mehrzahl von Varianten gebildet werden und dann aus
den Varianten diejenige Variante ausgewählt wird, die die größte
Übereinstimmung mit dem Original zeigt.
Wie der Vergleich im Vergleicher 18 ausgeführt wird, wird im Zusammenhang
mit Fig. 2a und b näher gezeigt. Dort ist in Fig. 2a ein Sprachsignal im
Zeitbereich des tatsächlich von einem Benutzer gesprochenen Wortes Itzehoe
dargestellt. Fig. 2b zeigt ebenfalls ein Sprachsignal im Zeitbereich des Wortes
Itzehoe, wobei jedoch im in Fig. 2b gezeigten Fall das Wort Itzehoe aus einer
entsprechend vorliegenden Zeichenkette zunächst im Umsetzer 15 nach
allgemeinen Regeln phonetisch beschrieben und dann anschließend in der
Sprachsynthetisieranordnung 16 in eine synthetische Form gebracht wurde.
Deutlich ist der Darstellung gemäß Fig. 2b entnehmbar, daß bei Anwendung der
allgemeinen Regeln die Endung "oe" des Wortes Itzehoe als "ö" wiedergeben
wird. Um jedoch diese fehlerhafte Wiedergabe auszuschließen, werden die
gesprochene und die synthetisierte Form in einem Vergleicher 18 miteinander
verglichen.
Um diesen Vergleich zu vereinfachen, werden sowohl die gesprochene als auch
die synthetisierte Form in Segmente 19, 20 unterteilt und dann der Vergleich
zwischen korrespondierenden Segmenten 19/20 durchgeführt. In dem in Fig. 2a
und b gezeigten Ausführungsbeispiel zeigt sich, daß lediglich in den beiden
letzten Segmenten 19.6, 20.6 eine starke Abweichung gegeben ist, während der
Vergleich der übrigen Segmentpaare 19.1/20.1, 19.2/20.2 . . . 19.5/20.5 eine
relativ große Übereinstimmung zeigen. Wegen der starken Abweichung in dem
Segmentpaar 19.6/20.6 wird die phonetische Beschreibung im Segment 20.6
anhand einer in einem Speicher 21 (Fig. 1) hinterlegten Liste, welche besser
passende bzw. ähnliche Phoneme enthält, verändert. Da vorliegend das fragliche
Phonem "ö" ist und die Liste mit ähnlichen Phonemen die Ersatzphoneme "o"
und "oh" vorsieht, wird das Phonem "ö" gegen das Ersatzphonem "o"
ausgetauscht. Dazu wird die hinterlegte Zeichenkette in einem Umsetzer 15'
(Fig. 1) erneut phonetisch beschrieben, in der Sprachsynthetisieranordnung 16 in
eine synthetische Form gebracht und erneut mit der tatsächlich gesprochenen
Zieleingabe im Vergleicher 18 verglichen.
Nur der Vollständigkeit halber sei darauf hingewiesen, daß der Umsetzer 15' in
einem anderen - nicht dargestellten - Ausführungsbeispiel auch vom Umsetzer 15
gebildet sein kann.
Zeigt sich, daß die entsprechend modifizierte Zeichenkette, welche im
Zusammenhang mit dieser Anmeldung auch als Variante bezeichnet wird, keine
oberhalb einer Schwelle liegende Übereinstimmung mit dem gesprochenen Wort
hat, wird die Prozedur mit einem weiteren Ersatzphonem nochmals ausgeführt.
Liegt der Grad der Übereinstimmung dann oberhalb der Schwelle, wird das
entsprechend synthetisierte Wort über den Lautsprecher 17 ausgegeben.
Auch kann der Verfahrensablauf modifiziert sein. Wird festgestellt, daß eine
Abweichung zwischen der gesprochenen und der ursprünglichen synthetischen
Form gegeben ist, und liegen eine Mehrzahl von Ersatzphonemen in der im
Speicher 21 ablegten Liste vor, können auch gleichzeitig eine Mehrzahl von
Varianten gebildet und mit dem tatsächlich gesprochenen Wort verglichen
werden. Wiedergegeben wird dann diejenige Variante, die die größte
Übereinstimmung mit dem gesprochenen Wort zeigt.
Soll vermieden werden, daß bei der mehrfachen Benutzung von Worten, die die
obige Prozedur auslösen können, immer die richtige - synthetische - Aussprache
aufwendig ermittelt werden muß, kann, wenn beispielweise die richtige
synthetische Aussprache zum Beispiel des Wortes Itzehoe ermittelt worden ist,
die entsprechende Modifikation mit Hinweis auf die Zeichenkette Itzehoe
gespeichert werden. Dies bedeutet, daß bei eine erneuten Anforderung der
Zeichenkette Itzehoe gleichzeitig zur richtigen Aussprache dieses Wortes die
von der phonetischen Beschreibung nach allgemeinen Regeln abweichenden
Besonderheiten berücksichtigt werden, so daß der Vergleichsschritt im
Vergleicher 18 entfallen kann. Um diese Modifikation sichtbar zu machen,
wurde in Fig. 1 ein Zusatzspeicher 22 gestrichelt angedeutet, in welchem die auf
Modifikationen von hinterlegten Zeichenketten hinweisenden Informationen
abgelegt werden.
Nur der Vollständigkeit halber sei auch darauf hingewiesen, daß der
Zusatzspeicher 22 nicht nur auf die Aufnahme von Informationen zur richtigen
Aussprache von hinterlegten Zeichenketten beschränkt ist. Ergibt beispielsweise
ein Vergleich im Vergleicher 18, daß zwischen der gesprochenen und der
synthetisierten Form eines Wortes keine bzw. unterhalb einer Schwelle liegende
Abweichung gegeben sind, kann im Zusatzspeicher 22 für dieses Wort ein
Hinweis hinterlegt werden, welcher bei der künftigen Verwendung dieses
Wortes einen aufwendigen Vergleich im Vergleicher 18 ausschließt.
Auch ist den Fig. 2a und b entnehmbar, daß die Segmente 19 gemäß Fig. 2a und
die Segmente 20 gemäß Fig. 2b kein gleiches Format besitzen. So hat
beispielsweise das Segment 20.1 im Vergleich zum Segment 19.1 eine größere
Breite, während das Segment 20.2 gegenüber dem korrespondierenden Segment
19.2 wesentlich schmaler ausgebildet ist. Dies ist darauf zurückzuführen, daß
die "Sprechlänge" der verschiedenen zum Vergleich anstehenden Phoneme
unterschiedlich lang sein kann. Da aber derart unterschiedliche lange
Sprechzeiten nicht ausgeschlossen werden können, ist die Vergleichsanordnung
18 so ausgelegt, daß verschieden lange Aussprechzeiten eines Phonems noch
keine gegenseitige Abweichung indizieren.
Nur der Vollständigkeit halber sei darauf hingewiesen, daß bei der Verwendung
von verschiedenen Segmentierungsverfahren für das gesprochene und das
synthetisierte Format auch eine unterschiedliche Anzahl von Segmenten 19, 20
berechnet werden können. Tritt dies ein, sollte dann ein bestimmtes Segment 19,
20 nicht nur mit einem korrespondieren Segment 19, 20 verglichen werden,
sondern ebenfalls mit dem Vorgänger und Nachfolger des korrespondierenden
Segments 19, 20. Somit ist es auch möglich, ein Phonem durch zwei andere
Phoneme zu ersetzen. Dieses Vorgehen ist in umgekehrter Richtung ebenfalls
möglich. Gibt es keine Übereinstimmung für ein Segment 19, 20, so kann dieses
ausgeschlossen, oder durch zwei besser passende ersetzt werden.
Claims (10)
1. Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter
Sprachsynthese
dadurch gekennzeichnet,
daß beim Vorliegen einer tatsächlich gesprochenen und mit einer gespeicherten Zeichenkette korrespondierenden Spracheingabe vor einer Wiedergabe der nach allgemeinen Regeln phonetisch beschriebenen und in eine rein synthetische Form gewandelten Zeichenkette die gewandelte Zeichenkette mit der Spracheingabe verglichen wird,
daß bei Feststellung einer oberhalb einer Schwelle liegenden Abweichung der gewandelten Zeichenkette von der Spracheingabe wenigstens eine Variante der gewandelten Zeichenkette gebildet wird und
daß eine der gebildeten Varianten, sofern diese bei einem Vergleich mit der Spracheingabe eine unterhalb der Schwelle liegende Abweichung aufweist, anstelle der gewandelten Zeichenkette ausgegeben wird.
dadurch gekennzeichnet,
daß beim Vorliegen einer tatsächlich gesprochenen und mit einer gespeicherten Zeichenkette korrespondierenden Spracheingabe vor einer Wiedergabe der nach allgemeinen Regeln phonetisch beschriebenen und in eine rein synthetische Form gewandelten Zeichenkette die gewandelte Zeichenkette mit der Spracheingabe verglichen wird,
daß bei Feststellung einer oberhalb einer Schwelle liegenden Abweichung der gewandelten Zeichenkette von der Spracheingabe wenigstens eine Variante der gewandelten Zeichenkette gebildet wird und
daß eine der gebildeten Varianten, sofern diese bei einem Vergleich mit der Spracheingabe eine unterhalb der Schwelle liegende Abweichung aufweist, anstelle der gewandelten Zeichenkette ausgegeben wird.
2. Wiedergabeverfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß in Schritt zwei jeweils immer nur eine Variante gebildet wird und
daß, sofern in Schritt drei ein Vergleich der Variante mit der Spracheingabe immer eine oberhalb der Schwelle liegende Abweichung zeigt, Schritt zwei mindestens noch einmal zur Bildung einer neuen Variante durchgeführt wird.
daß in Schritt zwei jeweils immer nur eine Variante gebildet wird und
daß, sofern in Schritt drei ein Vergleich der Variante mit der Spracheingabe immer eine oberhalb der Schwelle liegende Abweichung zeigt, Schritt zwei mindestens noch einmal zur Bildung einer neuen Variante durchgeführt wird.
3. Wiedergabeverfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß in Schritt zwei wenigstens zwei Varianten gebildet werden und
daß beim Vorliegen von Varianten, die jeweils im Vergleich zur Spracheingabe eine unterhalb der Schwelle liegende Abweichung haben, immer diejenige Variante wiedergegeben wird, die die geringste Abweichung zur Spracheingabe besitzt.
daß in Schritt zwei wenigstens zwei Varianten gebildet werden und
daß beim Vorliegen von Varianten, die jeweils im Vergleich zur Spracheingabe eine unterhalb der Schwelle liegende Abweichung haben, immer diejenige Variante wiedergegeben wird, die die geringste Abweichung zur Spracheingabe besitzt.
4. Verfahren nach einem der Ansprüche 1 bis 3,
dadurch gekennzeichnet,
daß vor einem Vergleich der Spracheingabe mit der gewandelten
Zeichenkette bzw. der daraus gebildeten Variante(n) eine Segmentierung der
Spracheingabe und der gewandelten Zeichenkette bzw. der gebildeten
Variante(n) erfolgt.
5. Wiedergabeverfahren nach Anspruch 4,
dadurch gekennzeichnet,
daß sowohl zur Segmentierung der Spracheingabe und der gewandelten
Zeichenkette bzw. der daraus abgeleiteten Variante(n) ein gleicher
Segmentierungsansatz verwendet wird.
6. Wiedergabeverfahren nach Anspruch 4,
dadurch gekennzeichnet,
daß sowohl zur Segmentierung der Spracheingabe und der gewandelten
Zeichenkette bzw. der daraus abgeleiteten Variante(n) jeweils ein
verschiedener Segmentierungsansatz verwendet wird.
7. Wiedergabeverfahren nach Anspruch 4,
dadurch gekennzeichnet,
daß zur Segmentierung der gewandelten Zeichenkette bzw. der daraus
abgeleiteten Variante(n) ein explizierter und zur Segmentierung der
Spracheingabe ein implizierter Segmentierungsansatz verwendet wird.
8. Wiedergabeverfahren nach einem der Ansprüche 4 bis 7,
dadurch kennzeichnet,
daß die in segmentierter Form vorliegende gewandelte Zeichenkette und die segmentierte Spracheingabe in den entsprechenden Segmenten auf Gemeinsamkeiten untersucht wird und
daß, wenn in zwei korrespondierenden Segmenten eine oberhalb eines Schwellwerts liegende Abweichung vorliegt, das in dem Segment der gewandelten Zeichenkette vorliegende Phonem durch ein Ersatzphonem ersetzt wird.
daß die in segmentierter Form vorliegende gewandelte Zeichenkette und die segmentierte Spracheingabe in den entsprechenden Segmenten auf Gemeinsamkeiten untersucht wird und
daß, wenn in zwei korrespondierenden Segmenten eine oberhalb eines Schwellwerts liegende Abweichung vorliegt, das in dem Segment der gewandelten Zeichenkette vorliegende Phonem durch ein Ersatzphonem ersetzt wird.
9. Wiedergabeverfahren nach Anspruch 8,
dadurch gekennzeichnet,
daß mit jedem Phonem wenigstens ein diesem Phonem ähnliches
Ersatzphonem verknüpft ist.
10. Wiedergabeverfahren nach einem der Ansprüche 1 bis 9,
dadurch gekennzeichnet,
daß, sobald eine Variante einer Zeichenkette als wiedergabewürdig ermittelt
wird, die Besonderheiten, die mit der Wiedergabe der Zeichenkette
verbunden sind, im Zusammenhang mit der Zeichenkette abgespeichert
werden.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19920501A DE19920501A1 (de) | 1999-05-05 | 1999-05-05 | Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese |
EP00108486A EP1058235B1 (de) | 1999-05-05 | 2000-04-19 | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese |
AT00108486T ATE253762T1 (de) | 1999-05-05 | 2000-04-19 | Wiedergabeverfahren für sprachgesteuerte systeme mit text-basierter sprachsynthese |
DE50004296T DE50004296D1 (de) | 1999-05-05 | 2000-04-19 | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese |
JP2000132902A JP4602511B2 (ja) | 1999-05-05 | 2000-04-27 | テキスト・ベースの音声合成を利用した音声制御システム用の再生方法 |
US09/564,787 US6546369B1 (en) | 1999-05-05 | 2000-05-05 | Text-based speech synthesis method containing synthetic speech comparisons and updates |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19920501A DE19920501A1 (de) | 1999-05-05 | 1999-05-05 | Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19920501A1 true DE19920501A1 (de) | 2000-11-09 |
Family
ID=7906935
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19920501A Withdrawn DE19920501A1 (de) | 1999-05-05 | 1999-05-05 | Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese |
DE50004296T Expired - Lifetime DE50004296D1 (de) | 1999-05-05 | 2000-04-19 | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE50004296T Expired - Lifetime DE50004296D1 (de) | 1999-05-05 | 2000-04-19 | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese |
Country Status (5)
Country | Link |
---|---|
US (1) | US6546369B1 (de) |
EP (1) | EP1058235B1 (de) |
JP (1) | JP4602511B2 (de) |
AT (1) | ATE253762T1 (de) |
DE (2) | DE19920501A1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10253786A1 (de) * | 2002-11-19 | 2004-06-17 | Detmar Schäfer | Verfahren zur rechnergestützten Ermittlung einer Ähnlichkeit eines elektronisch erfassten ersten Kennzeichens zu mindestens einem elektronisch erfassten zweiten Kennzeichen sowie Vorrichtung und Computerprogramm zur Durchführung desselben |
WO2007007256A1 (en) * | 2005-07-12 | 2007-01-18 | Nokia Corporation | Correcting a pronunciation of a synthetically generated speech object |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4759827B2 (ja) * | 2001-03-28 | 2011-08-31 | 日本電気株式会社 | 音声セグメンテーション装置及びその方法並びにその制御プログラム |
US7107215B2 (en) * | 2001-04-16 | 2006-09-12 | Sakhr Software Company | Determining a compact model to transcribe the arabic language acoustically in a well defined basic phonetic study |
AT6920U1 (de) | 2002-02-14 | 2004-05-25 | Sail Labs Technology Ag | Verfahren zur erzeugung natürlicher sprache in computer-dialogsystemen |
DE60314844T2 (de) * | 2003-05-07 | 2008-03-13 | Harman Becker Automotive Systems Gmbh | Verfahren und Vorrichtung zur Sprachausgabe, Datenträger mit Sprachdaten |
DE602004018385D1 (de) * | 2003-11-05 | 2009-01-22 | Philips Intellectual Property | Fehlerdetektion für sprach-zu-text-transkriptionssysteme |
JP2006047866A (ja) * | 2004-08-06 | 2006-02-16 | Canon Inc | 電子辞書装置およびその制御方法 |
US20060136195A1 (en) * | 2004-12-22 | 2006-06-22 | International Business Machines Corporation | Text grouping for disambiguation in a speech application |
JP4385949B2 (ja) * | 2005-01-11 | 2009-12-16 | トヨタ自動車株式会社 | 車載チャットシステム |
US20070129945A1 (en) * | 2005-12-06 | 2007-06-07 | Ma Changxue C | Voice quality control for high quality speech reconstruction |
US8504365B2 (en) * | 2008-04-11 | 2013-08-06 | At&T Intellectual Property I, L.P. | System and method for detecting synthetic speaker verification |
US8489399B2 (en) | 2008-06-23 | 2013-07-16 | John Nicholas and Kristin Gross Trust | System and method for verifying origin of input through spoken language analysis |
US8752141B2 (en) | 2008-06-27 | 2014-06-10 | John Nicholas | Methods for presenting and determining the efficacy of progressive pictorial and motion-based CAPTCHAs |
US9564120B2 (en) * | 2010-05-14 | 2017-02-07 | General Motors Llc | Speech adaptation in speech synthesis |
KR20170044849A (ko) * | 2015-10-16 | 2017-04-26 | 삼성전자주식회사 | 전자 장치 및 다국어/다화자의 공통 음향 데이터 셋을 활용하는 tts 변환 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2435654A1 (de) * | 1974-07-24 | 1976-02-05 | Gretag Ag | Verfahren und vorrichtung zur analyse und synthese von menschlicher sprache |
EP0137532A2 (de) * | 1983-08-26 | 1985-04-17 | Koninklijke Philips Electronics N.V. | Linearer Prädiktionssprachcodierer mit Mehrimpulsanregung |
US5293449A (en) * | 1990-11-23 | 1994-03-08 | Comsat Corporation | Analysis-by-synthesis 2,4 kbps linear predictive speech codec |
EP0666558A2 (de) * | 1994-02-08 | 1995-08-09 | Nokia Mobile Phones Ltd. | Parametrische Sprachkodierung |
DE69311303T2 (de) * | 1992-11-04 | 1997-10-30 | Secr Defence Brit | Sprachtrainingshilfe für kinder. |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5029200A (en) * | 1989-05-02 | 1991-07-02 | At&T Bell Laboratories | Voice message system using synthetic speech |
US6005549A (en) * | 1995-07-24 | 1999-12-21 | Forest; Donald K. | User interface method and apparatus |
US5913193A (en) * | 1996-04-30 | 1999-06-15 | Microsoft Corporation | Method and system of runtime acoustic unit selection for speech synthesis |
JPH10153998A (ja) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 |
US6163769A (en) * | 1997-10-02 | 2000-12-19 | Microsoft Corporation | Text-to-speech using clustered context-dependent phoneme-based units |
US6081780A (en) * | 1998-04-28 | 2000-06-27 | International Business Machines Corporation | TTS and prosody based authoring system |
US6173263B1 (en) * | 1998-08-31 | 2001-01-09 | At&T Corp. | Method and system for performing concatenative speech synthesis using half-phonemes |
US6266638B1 (en) * | 1999-03-30 | 2001-07-24 | At&T Corp | Voice quality compensation system for speech synthesis based on unit-selection speech database |
-
1999
- 1999-05-05 DE DE19920501A patent/DE19920501A1/de not_active Withdrawn
-
2000
- 2000-04-19 AT AT00108486T patent/ATE253762T1/de not_active IP Right Cessation
- 2000-04-19 DE DE50004296T patent/DE50004296D1/de not_active Expired - Lifetime
- 2000-04-19 EP EP00108486A patent/EP1058235B1/de not_active Expired - Lifetime
- 2000-04-27 JP JP2000132902A patent/JP4602511B2/ja not_active Expired - Fee Related
- 2000-05-05 US US09/564,787 patent/US6546369B1/en not_active Expired - Lifetime
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2435654A1 (de) * | 1974-07-24 | 1976-02-05 | Gretag Ag | Verfahren und vorrichtung zur analyse und synthese von menschlicher sprache |
EP0137532A2 (de) * | 1983-08-26 | 1985-04-17 | Koninklijke Philips Electronics N.V. | Linearer Prädiktionssprachcodierer mit Mehrimpulsanregung |
US5293449A (en) * | 1990-11-23 | 1994-03-08 | Comsat Corporation | Analysis-by-synthesis 2,4 kbps linear predictive speech codec |
DE69311303T2 (de) * | 1992-11-04 | 1997-10-30 | Secr Defence Brit | Sprachtrainingshilfe für kinder. |
EP0666558A2 (de) * | 1994-02-08 | 1995-08-09 | Nokia Mobile Phones Ltd. | Parametrische Sprachkodierung |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10253786A1 (de) * | 2002-11-19 | 2004-06-17 | Detmar Schäfer | Verfahren zur rechnergestützten Ermittlung einer Ähnlichkeit eines elektronisch erfassten ersten Kennzeichens zu mindestens einem elektronisch erfassten zweiten Kennzeichen sowie Vorrichtung und Computerprogramm zur Durchführung desselben |
DE10253786B4 (de) * | 2002-11-19 | 2009-08-06 | Anwaltssozietät BOEHMERT & BOEHMERT GbR (vertretungsberechtigter Gesellschafter: Dr. Carl-Richard Haarmann, 28209 Bremen) | Verfahren zur rechnergestützten Ermittlung einer Ähnlichkeit eines elektronisch erfassten ersten Kennzeichens zu mindestens einem elektronisch erfassten zweiten Kennzeichen sowie Vorrichtung und Computerprogramm zur Durchführung desselben |
WO2007007256A1 (en) * | 2005-07-12 | 2007-01-18 | Nokia Corporation | Correcting a pronunciation of a synthetically generated speech object |
Also Published As
Publication number | Publication date |
---|---|
EP1058235B1 (de) | 2003-11-05 |
JP4602511B2 (ja) | 2010-12-22 |
JP2000347681A (ja) | 2000-12-15 |
EP1058235A3 (de) | 2003-02-05 |
EP1058235A2 (de) | 2000-12-06 |
DE50004296D1 (de) | 2003-12-11 |
US6546369B1 (en) | 2003-04-08 |
ATE253762T1 (de) | 2003-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE60111329T2 (de) | Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung | |
EP1466317B1 (de) | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE3876207T2 (de) | Spracherkennungssystem unter verwendung von markov-modellen. | |
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
DE60203705T2 (de) | Umschreibung und anzeige eines eingegebenen sprachsignals | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
EP0925578B1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
EP3010014B1 (de) | Verfahren zur interpretation von automatischer spracherkennung | |
EP1264301A1 (de) | Verfahren zur erkennung von sprachäusserungen nicht-mutter-sprachlicher sprecher in einem sprachverarbeitungssystem | |
DE60018696T2 (de) | Robuste sprachverarbeitung von verrauschten sprachmodellen | |
EP1282897B1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
DE10040063A1 (de) | Verfahren zur Zuordnung von Phonemen | |
EP1159733B1 (de) | Verfahren und anordnung zur bestimmung eines repräsentativen lautes | |
EP1435087B1 (de) | Verfahren zur erzeugung von sprachbausteine beschreibenden referenzsegmenten und verfahren zur modellierung von spracheinheiten eines gesprochenen testmusters | |
DE102010040553A1 (de) | Spracherkennungsverfahren | |
DE60021666T2 (de) | Inkrementales Trainieren eines Spracherkenners für eine neue Sprache | |
DE19851287A1 (de) | Datenverarbeitungssystem oder Kommunikationsendgerät mit einer Einrichtung zur Erkennugn gesprochener Sprache und Verfahren zur Erkennung bestimmter akustischer Objekte | |
DE4111781A1 (de) | Computersystem zur spracherkennung | |
DE69908034T2 (de) | Minimierung eines Suchnetzwerks für die Spracherkennung | |
EP1224661B1 (de) | Verfahren und anordnung zur verifikation eines sprechers anhand eines rechners |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
8128 | New person/name/address of the agent |
Representative=s name: BECKER, KURIG, STRAUS, 80336 MUENCHEN |
|
8141 | Disposal/no request for examination |