EP1058235A2 - Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese - Google Patents

Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese Download PDF

Info

Publication number
EP1058235A2
EP1058235A2 EP00108486A EP00108486A EP1058235A2 EP 1058235 A2 EP1058235 A2 EP 1058235A2 EP 00108486 A EP00108486 A EP 00108486A EP 00108486 A EP00108486 A EP 00108486A EP 1058235 A2 EP1058235 A2 EP 1058235A2
Authority
EP
European Patent Office
Prior art keywords
character string
variant
converted
speech
speech input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP00108486A
Other languages
English (en)
French (fr)
Other versions
EP1058235A3 (de
EP1058235B1 (de
Inventor
Peter Buth
Frank Dufhues
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Mobile Phones Ltd
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Mobile Phones Ltd, Nokia Oyj filed Critical Nokia Mobile Phones Ltd
Publication of EP1058235A2 publication Critical patent/EP1058235A2/de
Publication of EP1058235A3 publication Critical patent/EP1058235A3/de
Application granted granted Critical
Publication of EP1058235B1 publication Critical patent/EP1058235B1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Definitions

  • the invention is concerned with the improvement of voice-controlled systems text-based speech synthesis, especially with the improvement of synthetic Playback of saved but determined during pronunciation Strings subject to peculiarities.
  • the subject of speech synthesis is the mechanical transformation of the symbolic Representation of an utterance in an acoustic signal emitted by one human speaker recognized as sufficiently similar to human language becomes.
  • a speech synthesis technique is a technique that involves building a speech synthesizer allowed.
  • Examples of speech synthesis techniques are direct synthesis, the Synthesis using a model and simulation of the vocal tract.
  • either parts of the speech signal are started from stored signal pieces (e.g. one per phoneme) to the corresponding ones Words put together or the transfer function of the vocal tract, which at People used for speech generation by energy of a signal in simulated certain frequency ranges.
  • stored signal pieces e.g. one per phoneme
  • Words put together e.g. one per phoneme
  • the transfer function of the vocal tract which at People used for speech generation by energy of a signal in simulated certain frequency ranges.
  • Voiced sounds through a quasi-periodic excitation of a certain frequency represents.
  • the phoneme mentioned above is the smallest meaning-distinguishing, but itself not meaningful unity of language.
  • Two words different Meaning that only differ by a phoneme e.g. fish - table; forest - Wild
  • form a minimal pair e.g. fish - table; forest - Wild
  • the number of phonemes in a language is proportional small (between 20 and 60).
  • Diphones are mostly used in direct synthesis.
  • Phonemes or sequences of phonemes are created with the help of the International Phonetic alphabet (IPA) noted.
  • IPA International Phonetic alphabet
  • the implementation of a text in a sequence of Phonetic Alphabet characters is called Phonetic Transcription designated.
  • a production model is formed, which mostly on minimizing the difference between a digitized human Speech signal (original signal) and a predicted signal based.
  • Another method consists in the simulation of the vocal tract, in which its Shape and position of the individual articulation organs (tongue, jaw, lips) is reproduced. To do this, a mathematical model of the flow conditions generated in such a defined vocal tract and the speech signal with the help of this model.
  • the phonemes or diphones used in direct synthesis must first can be obtained by segmentation from natural language. Here you can two approaches can be distinguished:
  • features For segmentation, features must first be extracted from the speech signal, on the basis of which it is possible to distinguish between the segments. These characteristics are then classified into classes.
  • Features for feature extraction include spectral analysis, filter bank analysis or the method of linear prediction.
  • Hidden Markov models for the classification, for example, Hidden Markov models, artificial ones neural networks or dynamic time warping (a method for line normalization) to be used.
  • HMM Hidden Markov Model
  • a common approach is to classify voiced / unvoiced / silent - according to the different forms of stimulation in the generation of language in Vocal tract.
  • the special treatment of certain words of a language is extremely complex, it has been used in speech-controlled arrangements to form the announcement, which an arrangement is to indicate, from a mix of spoken and synthesized language.
  • the desired destination is recorded for a route finder, for example, which has special pronunciations in terms of pronunciation compared to the other words of the corresponding language and which is specified by a user in the case of voice-controlled arrangements, and copied into the corresponding destination announcement.
  • a route finder for example, which has special pronunciations in terms of pronunciation compared to the other words of the corresponding language and which is specified by a user in the case of voice-controlled arrangements, and copied into the corresponding destination announcement.
  • the procedure is simplified if, according to claim 4 Segmentation of the speech input and the converted character string or the variants formed therefrom. This segmentation allows segments in where no differences or differences below the threshold are found, of exclude further treatment.
  • segmentation approaches can also be used become. This is especially true when looking at the original voice input Advantages, because the segmentation contains those contained in the speech signal information that can only be determined in a very complex step is used must, while the segmentation of strings very simply the well-known Number of phonemes contained in the utterance can be used.
  • a particularly simple procedure is achieved if according to claim 9 at least one replacement phoneme similar to this phoneme is linked to each phoneme or stored in a list.
  • the computing work is further reduced if according to claim 10 at a variant of a character string that is determined to be reproducible, the special features, associated with rendering the string, along with the String can be saved. In this case there is the special pronunciation the respective character string if you use it later without much effort available in the memory.
  • strings can be one
  • route finders are street or place names.
  • a mailbox application can do this as in a phone book the names of subscribers his. So that the memory easily with the appropriate information loaded or the stored information can be easily updated, the respective strings are available as text.
  • a memory is designated 10.
  • This memory 10 which for the Representation of the invention, which should contain German city names, belongs to one Route finder 11.
  • This route finder 11 also includes an arrangement 12 with which natural voice inputs are recorded and temporarily saved can. In the present case, this is realized in such a way that the respective voice input by one Microphone 13 is detected and stored in a voice memory 14. Now becomes a The user of the route finder 11 is prompted to enter his destination, the each destination spoken by the user z. B. "Bochum” or "Itzehoe” from Microphone 13 detected and passed on to the voice memory 14.
  • the route finder 11 Because the route finder 11 has either been informed of his current location or has still been given it knows, he is first based on the desired destination and the current one Determine the appropriate route to the destination. If the route finder 11 not only show the corresponding route graphically, but spoken ones Deliver announcement, the textual strings of the respective announcement Described phonetically according to general rules and then for speech converted into a purely synthetic form. In that shown in Fig. 1 Exemplary embodiment is the phonetic description of the stored character strings in the converter 15 and the synthesizing arranged in the following Speech synthesizer arrangement 16.
  • the respective character string if it has passed through the converter 15 and the speech synthesizer assembly 16 as a word corresponding to the phonetic conditions of the respective language a speaker 17 to the environment and from this as such be understood.
  • the Play route finder 11 after entering the destination approximately the following sentence: "You have Berlin chosen as the destination. If this does not meet your expectations, give it now set a new goal. "Even though this information follows general rules can be reproduced correctly, problems arise when that The goal should not be Berlin, but Laboe. If the string that the Textual representation of the destination Laboe in the converter 15 according to general rules written phonetically and then in the speech synthesizer 16 Output through speaker 17 like the rest of the information above in brought a synthetic form, that would be given over the speaker 17 Correct result only if, according to general rules, the ending "oe” is generally reproduced as "ö".
  • a comparison arrangement 18 becomes the destination actually spoken by the user and the the character string corresponding to the destination after the converter 15 and the Speech synthesizer 16 has passed, fed and then compared. If the synthesized string shows a high - above a threshold lying - coincidence with the originally spoken destination, is used for the Playback uses the synthesized string. Can this match are not ascertained, a variant becomes in the speech synthesis arrangement 16 of the original string and in the comparator 18 again Comparison between the originally spoken destination and the variant formed carried out.
  • the route finder 11 designed such that as soon as a character string or a Variant has the required agreement with the original, whose Playback via the loudspeaker 17 takes place, further variant formations stopped immediately.
  • the route finder 11 can also be modified such that a A plurality of variants are formed and then one from the variants Variant is selected that most closely matches the original shows.
  • FIG. 2a there is a speech signal in the time domain of actually represented by Itzehoe spoken by a user.
  • Fig. 2b also shows a speech signal in the time domain of the word Itzehoe, but in in Fig. 2b the word Itzehoe from a corresponding present String first in the converter 15 phonetically according to general rules described and then subsequently in the speech synthesizer 16 in a synthetic form.
  • the illustration according to FIG. 2b is clear it can be seen that, when applying the general rules, the ending "oe" des Word Itzehoe is reproduced as "ö". However, this incorrect playback exclude the spoken and the synthesized form in one Comparator 18 compared with each other.
  • the converter 15 'in another - not shown - embodiment of the converter 15th can be formed.
  • the process sequence can also be modified. It is found that a Deviation between the spoken and the original synthetic form is given, and there are a plurality of replacement phonemes in the memory 21 stored list, a plurality of variants can also be formed at the same time and be compared to the actual spoken word. Is played then the variant that most closely matches what is spoken Word shows.
  • the additional memory 22 not just on the inclusion of information on the correct pronunciation of stored strings is limited.
  • a comparison in Comparator 18 that between the spoken and the synthesized form of a Word no deviation or below a threshold can be stored in the additional memory 22 for this word, which in the future use of this word an elaborate comparison in Comparator 18 excludes.
  • the segments 19 according to FIGS. 2a and the segments 20 according to FIG. 2b do not have the same format.
  • the segment 20.1 compared to segment 19.1 a larger width
  • the segment 20.2 compared to the corresponding segment 19.2. essential is narrower. This is due to the fact that the "speech length" of the different phonemes to be compared can be of different lengths.
  • the comparison arrangement 18 is designed so that different lengths Speaking times of a phoneme do not yet indicate a mutual deviation.
  • segment 19, 20 when using different segmentation methods for the spoken and the synthesized Format also a different number of segments 19, 20 can be calculated can. If this occurs, then a certain segment 19, 20 should not only have one correspond to segment 19, 20, but also with the Predecessor and successor of the corresponding segment 19, 20. So it is also possible to replace one phoneme with two other phonemes. This procedure is also possible in the opposite direction. There is no match for a segment 19, 20, this can be excluded, or by two better fitting ones be replaced.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)

Abstract

Erfindungsgemäß wird ein einfaches und ausspracheverbessertes Wiedergabeverfahren für sprachgesteuerte Systeme mit basierter Sprachsynthese angegeben, auch wenn die hinterlegte und zu synthetisierende Zeichenkette nicht den allgemeinen Regeln der Sprachwiedergabe folgt. Auch wird nach der Erfindung ein im Stand der Technik teilweises angewendetes "Hineinkopieren" des originalen Spracheingabetextes in den sonst synthetisierten Wiedergabetext vermeiden, wodurch durch das erfindungsgemäße Verfahren die Akzeptanz des Anwenders des sprachgesteuerten System wesentlich verbessert wird. Im einzelnen wird zunächst bei Vorliegen einer tatsächlich gesprochenen und mit einer gespeicherten Zeichenkette korrespondierenden Spracheingabe vor einer Wiedergabe der nach allgemeinen Regeln phonetisch beschriebenen und in eine rein synthetische Form gewandelten Zeichenkette die gewandelte Zeichenkette mit der Spracheingabe verglichen. Bei Feststellung einer oberhalb einer Schwelle liegenden Abweichung der gewandelten Zeichenkette von der Spracheingabe wird dann wenigstens eine Variante von der gewandelten Zeichenkette gebildet. Diese Variante wird dann, sofern diese bei einem Vergleich mit der Spracheingabe eine unterhalb der Schwelle liegende Abweichung aufweist, anstelle der gewandelten Zeichenkette ausgegeben.

Description

Technisches Gebiet
Die Erfindung befasst sich mit der Verbesserung von sprachgesteuerten Systemen mit text-basierter Sprachsynthese, insbesondere mit der Verbesserung der synthetischen Wiedergabe von gespeichert vorliegenden, aber bei der Aussprache bestimmten Eigentümlichkeiten unterliegenden Zeichenketten.
Stand der Technik
Bei der Bedienung von technischen Geräten gewinnt die Sprache zunehmend an Bedeutung. Dies betrifft sowohl die Eingabe von Daten und Kommandos wie auch die Ausgabe von Meldungen. Systeme, bei denen die Kommunikation zwischen Benutzer und Maschine in beiden Richtungen mit Hilfe akustischer Signale in Form von Sprache erfolgt, werden als Sprachdialogsysteme bezeichnet. Die vom jeweiligen System ausgegebenen Äußerungen können entweder zuvor aufgezeichnete natürliche Sprache sein oder entsprechend dem Gegenstand der vorliegenden Erfindung synthetisch erzeugt werden. Auch sind Anordnungen bekannt, bei denen die jeweiligen Äußerungen Kombinationen aus synthetischer und zuvor aufgezeichneter natürlicher Sprache sind.
Um die Erfindung besser zu verstehen, seien einige allgemeine Erläuterungen und Definitionen zur Sprachsynthese vorausgeschickt.
Gegenstand der Sprachsynthese ist die maschinelle Transformation der symbolischen Repräsentation einer Äußerung in ein akustisches Signal, welches von einem menschlichen Sprecher als der menschlichen Sprache hinreichend ähnlich anerkannt wird.
Im Bereich der Sprachsynthese gilt es, zwei unterschiedliche Systeme zu unterscheiden:
  • 1) Ein Sprachsynthesesystem produziert, ausgehend von einem Text, gesprochene Sprache.
  • 2) Ein Sprachsynthetisator produziert, ausgehend von gewissen Kontrollparametern gesprochene Sprache. Der Sprachsynthetisator stellt damit die letzte Stufe eines Sprachsynthesesystems dar.
  • Eine Sprachsynthesetechnik ist eine Technik, die den Bau eines Sprachsynthetisators erlaubt. Beispiele für Sprachsynthesetechniken sind die direkte Synthese, die Synthese mittels eines Modells und die Simulation des Vokaltraktes.
    Bei der direkten Synthese werden entweder Teilstücke des Sprachsignals ausgehend von abgespeicherten Signalstücken (z. B. eines je Phonem) zu den entsprechenden Wörtern zusammengesetzt oder die Transferfunktion des Vokaltraktes, welcher beim Menschen für die Spracherzeugung benutzt wird, durch Energie eines Signals in bestimmten Frequenzbereichen nachgebildet. So werden hier beispielsweise stimmhafte Laute durch eine quasiperiodische Anregung einer bestimmten Frequenz repräsentiert.
    Das oben erwähnte Phonem ist die kleinste bedeutungsunterscheidende, aber selbst nicht bedeutungstragende Einheit der Sprache. Zwei Wörter verschiedener Bedeutung, die sich nur durch ein Phonem unterscheiden (z. B. Fisch - Tisch; Wald - Wild), bilden ein Minimalpaar. Die Anzahl der Phoneme einer Sprache ist verhältnismäßig klein (zwischen 20 und 60). So existieren etwa im Deutschen 45 Phoneme.
    Um die charakteristischen Übergänge zwischen den Phonemen zu berücksichtigen, werden bei der direkten Synthese meist Diphone verwendet. Vereinfacht kann ein Diphon als der Bereich vom invariablen Teil des ersten Phonems bis zum invariablen Teil des folgenden Phonems definiert werden.
    Phoneme bzw. Sequenzen von Phonemen werden mit Hilfe des Internationalen Phonetischen Alphabets (IPA) notiert. Die Umsetzung eines Textes in eine Abfolge von Zeichen des Phonetischen Alphabetes wird als Phonetische Transkription bezeichnet.
    Bei der Synthese mittels eines Modells wird ein Produktionsmodell gebildet, welches meist auf der Minimierung der Differenz zwischen einem digitalisierten menschlichen Sprachsignal (Originalsignal) und einem prädizierten Signal basiert.
    Eine weitere Methode besteht in der Simulation des Vokaltraktes, bei der dessen Form sowie die Lage der einzelnen Artikulationsorgane (Zunge, Kiefer, Lippen) nachgebildet wird. Dazu wird ein mathematisches Modell der Strömungsverhältnisse in einem derartig definierten Vokaltrakt erzeugt und das Sprachsignal mit Hilfe dieses Modells berechnet.
    Im folgenden sollen weitere Begriffe und Verfahren, die im Zusammenhang mit der Sprachsynthese Verwendung finden, kurz erläutert werden.
    Die bei der direkten Synthese verwendeten Phoneme bzw. Diphone müssen zunächst durch Segmentierung aus natürlicher Sprache gewonnen werden. Hierbei können zwei Ansätze unterschieden werden:
    Bei der impliziten Segmentierung werden nur die im Sprachsignal selbst enthaltenen Informationen zur Segmentierung verwendet.
    Die explizite Segmentierung hingegen nutzt zusätzliche Informationen, wie z.B. die Anzahl der in der Äußerung enthaltenen Phoneme.
    Zur Segmentierung müssen zunächst Merkmale aus dem Sprachsignal extrahiert werden, anhand derer eine Unterscheidung der Segmente möglich wird.
    Anschließend werden diese Merkmale in Klassen eingeordnet.
    Möglichkeiten zur Merkmalsextraktion bieten unter anderem Spektralanalysen, Filterbankanalysen oder das Verfahren der Linearen Prädiktion.
    Für die Klassifikation können beispielsweise Hidden Markov Modelle, künstliche neuronale Netze oder Dynamic Time Warping (ein Verfahren zur Zeilnormalisierung) benutzt werden.
    Das Hidden-Markov-Modell (HMM) ist ein zweistufiger stochastischer Prozess. Er besteht aus einer Markov-Kette mit einer meist geringen Zahl von Zuständen, denen Wahrscheinlichkeiten bzw. Wahrscheinlichkeitsdichten zugeordnet sind. Beobachtbar sind die Sprachsignale bzw. deren durch Wahrscheinlichkeitsdichten beschriebene Parameter. Die durchlaufende Zustandsfolge selbst bleibt verborgen. HMMs haben sich wegen ihrer Leistungsfähigkeit, Robustheit und guten Trainierbarkeit in der Spracherkennung weithin durchgesetzt.
    Mit Hilfe des sogenannten Viterbi-Algorithmus kann die Übereinstimmung mehrerer HMMs bestimmt werden.
    In neueren Ansätzen werden zur Klassifikation vielfach selbstorganisierende Merkmalskarten (Kohonen-Maps) verwendet. Diese spezielle Art eines Künstlichen Neuronalen Netzes ist in der Lage, die im menschlichen Gehirn ablaufenden Vorgänge nachzubilden.
    Ein verbreiteter Ansatz ist die Klassifizierung in Stimmhaft / Stimmlos / Stille - gemäß der verschiedenen Anregungsformen bei der Erzeugung von Sprache im Vokaltrakt.
    Gleichgültig, welche der eben genannten Synthesetechniken auch angewendet wird, bleibt bei text-basierten Syntheseanordnungen das Problem, dass, auch wenn zwischen der Aussprache einer als Text vorliegenden bzw. gespeicherten Zeichenfolge eine relativ große Korrelation gegeben ist, in jeder Sprache Worte vorhanden sind, bei denen aus der Schreibweise nicht ohne weiteres auf deren Aussprache geschlossen werden kann. Insbesondere für Eigennamen ist es vielfach nicht möglich, allgemeine phonetische Regeln zur Aussprache anzugeben. So haben zum Beispiel die beiden Städtenamen Itzehoe und Laboe die gleiche Endung, wenngleich Itzehoe mit "oe" und Laboe mit "ö" ausgesprochen wird. Liegen die jeweiligen Worte, die zur synthetischen Wiedergabe bestimmt sind, als Zeichenfolge vor, führt die Anwendung einer allgemeinen Regel dazu, dass in dem obigen Beispiel beiden Städtenamen entweder durchgängig mit "ö" oder "oe" ausgesprochen werden, was im Falle der "ö-Version" für Itzehoe und im Fall der "oe-Version" für Laboe aussprachetechnisch falsch wäre. Will man diese Besonderheiten berücksichtigen, ist es notwendig, dass die entsprechenden Worte dieser Sprache zur Wiedergabe einer besonderen Behandlung unterzogen werden müssen. Dies bedeutet aber gleichzeitig, dass keine rein text-basierte Eingabe der zur späteren Wiedergabe vorgesehenen Wörter mehr möglich ist.
    Da die besondere Behandlung von bestimmten Wörtern einer Sprache außerordentlich aufwendig ist, ist man bei sprachgesteuerten Anordnungen dazu übergegangen, die Ansage, welche eine Anordnung angeben soll, aus einem Mix von gesprochener und synthetisierter Sprache zu bilden. Dazu wird beispielsweise bei einem Routefinder der gewünschte Zielort, welcher gegenüber den übrigen Worten der entsprechenden Sprache oftmals aussprachetechnische Besonderheiten ausweist und welcher bei sprachgesteuerten Anordnungen von einem Benutzer vorgegeben wird, aufgenommen und in die entsprechende Zielansage hineinkopiert. Dies führt dann dazu, dass bei der Zielansage "In drei Kilometern erreichen sie Itzehoe" nur der kursiv geschriebene Teil synthetisiert wurde und der restliche Teil "Itzehoe" aus der Zieleingabe des Benutzers entnommen wurde. Die gleichen Gegebenheiten treten auch bei der Einrichtung vom Mailboxen auf, bei denen bei der Einrichtung der Nutzer seinen Namen eingeben muss. Dort wird auch zur Vermeidung des Aufwands der entsprechende Ansagetext, der bei Verbindung eines Anrufers mit der Mailbox wiedergeben wird, aus dem synthetisierten Teil "Sie sind verbunden mit der Mailbox von" und dem originalen - bei der Einrichtung der Mailbox aufgenommenen - Teil "Otto Berger" gebildet.
    Abgesehen davon, dass zusammengesetzte Ansagen der vorbeschriebenen Art einen eher wenig professionellen Eindruck hinterlassen, können sie auch durch die Einbindung der Originalsprache zu Abhörproblemen führen. In diesem Zusammenhang sei nur auf die Spracheingabe in lärmbelasteter Umgebung hingewiesen. Daher liegt der Erfindung die Aufgabe zugrunde, ein Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese anzugeben, bei welchem die im Stand der Technik gegebenen Nachteile beseitigt werden.
    Darstellung der Erfindung
    Diese Aufgabe wird mit den in Anspruch 1 angegebenen Merkmalen gelöst. Vorteilhafte Aus- und Weiterbildungen der Erfindung sind den Ansprüchen 2 bis 9 entnehmbar.
    Wird gemäß Anspruch 1 beim Vorliegen einer tatsächlich gesprochenen und mit einer gespeicherten Zeichenkette korrespondierenden Spracheingabe vor einer tatsächlichen Wiedergabe der nach allgemeinen Regeln phonetisch beschriebenen und in eine rein synthetische Form gewandelten Zeichenkette die gewandelte Zeichenkette mit der gesprochenen Spracheingabe verglichen und erfolgt die tatsächliche Wiedergabe der gewandelten Zeichenkette erst dann, wenn der Vergleich dieser Zeichenkette mit der tatsächlich gesprochenen Spracheingabe eine unterhalb einer Schwelle liegenden Abweichung zeigt, wird die Verwendung der Originalsprache bei der Wiedergabe entsprechend dem Stand der Technik überflüssig. Dies ist selbst dann der Fall, wenn das gesprochene Wort von der diesem Wort entsprechenden, gewandelten Zeichenfolge erheblich abweicht. Hierbei muss lediglich sichergestellt werden, dass von der gewandelten Zeichenkette wenigstens eine Variante gebildet wird und dass die gebildete Variante, sofern diese bei einem Vergleich mit der originalen Spracheingabe eine unterhalb der Schwelle liegende Abweichung aufweist, anstelle der -ursprünglich- gewandelten Zeichenkette ausgegeben wird.
    Wird das Verfahren gemäß Anspruch 2 durchgeführt, ist der Rechen- und Speicheraufwand relativ gering. Dies ist darauf zurückzuführen, dass immer nur eine Variante gebildet und untersucht werden muss.
    Werden gemäß Anspruch 3 wenigstens zwei Varianten gebildet und wird aus den hergestellten Varianten diejenige herausgesucht, welche die geringsten Abweichungen zur originalen Spracheingabe hat, ist im Gegensatz zur Verfahrensführung gemäß Anspruch 2 immer eine der originalen Spracheingabe entsprechende synthetische Wiedergabe möglich.
    Die Verfahrensführung wird vereinfacht, wenn gemäß Anspruch 4 eine Segmentierung der Spracheingabe und der gewandelten Zeichenkette bzw. der daraus gebildeten Varianten erfolgt. Diese Segmentierung erlaubt es, Segmente, in denen keine bzw. unter der Schwelle liegende Unterschiede festgestellt werden, von der weiteren Behandlung auszuschließen.
    Wird gemäß Anspruch 5 ein gleicher Segmentierungsansatz verwendet, ist der Vergleich besonders einfach, da eine direkte Zuordnung der jeweiligen Segmente gegeben ist.
    Wie Anspruch 6 zeigt, können auch verschiedene Segmentierungsansätze verwendet werden. Dies hat insbesondere bei der Betrachtung der originalen Spracheingabe Vorteile, weil dort zur Segmentierung zwingend die im Sprachsignal enthaltenen und nur in einem sehr aufwendigen Schritt ermittelbaren Informationen genutzt werden müssen, während bei der Segmentierung von Zeichenketten sehr einfach die bekannte Anzahl der in der Äußerung enthaltenen Phoneme genutzt werden kann.
    Sehr rationell wird die Verfahrensführung dann, wenn gemäß Anspruch 8 die Segmente ausgeschieden werden, in denen ein hohes Maß an Übereinstimmung besteht, und nur noch das Segment der Zeichenkette, welches zu dem korrespondierenden Segment der originalen Spracheingabe eine oberhalb der Schwelle liegenden Abweichung zeigt, dadurch variiert wird, indem das in dem Segment der Zeichenkette vorliegende Phonem durch ein Ersatzphonem ersetzt wird.
    Eine besonders einfache Verfahrensführung wird erreicht, wenn gemäß Anspruch 9 zu jedem Phonem wenigstens ein diesem Phonem ähnliches Ersatzphonem verknüpft bzw. in einer Liste abgelegt ist.
    Die Rechenarbeit wird weiter verringert, wenn gemäß Anspruch 10 bei einer als wiedergabewürdig ermittelten Variante einer Zeichenkette die Besonderheiten, die mit der Wiedergabe der Zeichenkette verbunden sind, zusammen mit der Zeichenkette abgespeichert werden. In diesem Fall ist dann die besondere Aussprache der jeweiligen Zeichenkette bei späterer Nutzung ohne großen Aufwand sofort aus dem Speicher abrufbar.
    Kurze Darstellung der Figuren
    Es zeigen:
    Fig. 1
    einen schematischen Ablauf gemäß der Erfindung
    Fig. 2
    einen Vergleich von segmentierten Äußerungen
    Wege zum Ausführen der Erfindung
    Die Erfindung soll nun anhand der beiden Figuren näher erläutert werden.
    Um die Wirkungen der Erfindung besser darlegen zu können, wird von einem sprachgesteuerten System mit text-basierter Sprachsynthese ausgegangen. Derartige Systeme sind beispielsweise in Routefindern oder Mailboxanordnungen realisiert, so dass sich wegen der hohen Verbreitung derartiger Systeme deren Darstellung auf die Dinge beschränken kann, die für die Ausführung der Erfindung zwingend notwendig sind.
    Allen diesen Systemen ist ein Speicher gemein, in welchem eine Mehrzahl von Zeichenketten abgelegt sind. Bei diesen Zeichenketten kann es sich bei einem Routefinder beispielsweise um Straßen- oder Ortsnamen handeln. In einer Mailboxanwendung können dies wie in einem Telefonbuch die Namen von Anschlussinhabern sein. Damit die Speicher leicht mit den entsprechenden Informationen beladen bzw. die gespeicherten Informationen leicht upgedatet werden können, liegen die jeweiligen Zeichenketten als Text vor.
    In Fig. 1, die den schematischen Ablauf entsprechend dem erfinderischen Verfahren zeigt, ist ein solcher Speicher mit 10 bezeichnet. Dieser Speicher 10, welcher für die Darstellung der Erfindung die deutschen Städtenamen enthalten soll, gehört zu einem Routefinder 11. Außerdem umfasst dieser Routefinder 11 eine Anordnung 12, mit welcher natürliche Spracheingaben aufgenommen und temporär gespeichert werden können. Vorliegend ist dies so realisiert, dass die jeweilige Spracheingabe von einem Mikrophon 13 erfasst und in einem Sprachspeicher 14 abgelegt wird. Wird nun ein Benutzer vom Routefinder 11 aufgefordert, seine Zieleingabe zu machen, wird der jeweils vom Benutzer ausgesprochene Zielort z. B. "Bochum" oder "Itzehoe" vom Mikrophon 13 erfasst und an den Sprachspeicher 14 weitergeben. Da der Routefinder 11 entweder seinen derzeitigen Standort mitgeteilt bekommen hat oder aber ihn noch kennt, wird er zunächst anhand der gewünschten Zieleingabe und dem derzeitigen Standort die entsprechende Fahrtroute zum Zielort ermitteln. Soll der Routefinder 11 die entsprechende Fahrtroute nicht nur graphisch zeigen, sondern gesprochene Ansage liefern, werden die textlich hinterlegten Zeichenketten der jeweiligen Ansage nach allgemeinen Regeln phonetisch beschrieben und anschließend für die Sprachausgabe in eine rein synthetische Form gewandelt. In dem in Fig. 1 gezeigten Ausführungsbeispiel erfolgt die phonetische Beschreibung der hinterlegten Zeichenketten im Umsetzer 15 und die Synthetisierung in der nachfolgend angeordneten Sprachsynthetisieranordnung 16.
    Solange die über die Spracheingabe aufgerufenen und zur Wiedergabe bestimmten Zeichenketten in bezug auf ihre jeweilige Aussprache den Regeln der phonetischen Transkription der Sprache, in welcher der Dialog zwischen dem Benutzer und dem Routefinder 11 geführt werden soll, folgen, kann die jeweilige Zeichenkette, wenn sie dem Umsetzer 15 und die Sprachsynthetisieranordnung 16 durchlaufen hat, als ein den phonetischen Gegebenheiten der jeweiligen Sprache entsprechendes Wort mittels eines Lautsprechers 17 an die Umwelt abgegeben und von dieser als solches auch verstanden werden. Dies bedeutet für einen Routefinder 11 der vorbeschriebenen Art, dass beispielsweise der aus einer Mehrzahl von Zeichenketten bestehende, zur Wiedergabe bestimmte und über die Spracheingabe initiierte Wiedergabetext "An der nächsten Kreuzung rechts abbiegen!" problemlos, d.h. entsprechend den phonetischen Gegebenheiten der Sprache über den Lautsprecher 17 abgegeben und auch verstanden werden kann, da diese Information keinen Eigentümlichkeiten bei der Wiedergabe unterliegt.
    Soll aber beispielsweise dem Benutzer nach Eingabe des Zielorts die Möglichkeit eingeräumt werden, die Richtigkeit seiner Zieleingabe zu überprüfen, wird der Routefinder 11 nach der Zieleingabe etwa folgenden Satz wiedergeben: "Sie haben als Ziel Berlin gewählt. Sofern dies nicht Ihren Vorstellungen entspricht, geben sie jetzt ein neues Ziel ein." Auch wenn diese Information nach allgemeinen Regeln phonetisch richtig wiedergegeben werden kann, treten dann Probleme auf, wenn das Ziel nicht Berlin, sondern Laboe sein soll. Wird die Zeichenkette, welche die textliche Darstellung des Zielortes Laboe im Umsetzer 15 nach allgemeinen Regeln phonetisch geschrieben und anschließend in der Sprachsynthetisieranordnung 16 zur Ausgabe über den Lautsprecher 17 wie der übrige Teil der obigen Information in eine synthetische Form gebracht, wäre das über den Lautsprecher 17 abgegebene Ergebnis nur dann richtig, wenn nach allgemeinen Regeln die Endung "oe" grundsätzlich als "ö" wiedergeben wird. Die Richtigkeit der Wiedergabe des Zielorts Laboe im letzten Fall führt aber dann zwangsläufig zu einer fehlerhaften Wiedergabe, wenn der Benutzer als Zielort Itzehoe wählt, denn wegen der grundsätzlichen Aussprache der "oe" als "ö" würde der Zielort dann phonetisch falsch als "Itzehö" wiedergegeben.
    Um dies zu vermeiden, ist zwischen der Sprachsynthetisieranordnung 16 und dem Lautsprecher 17 eine Vergleichsanordnung 18 angeordnet. Dieser Vergleichsanordnung 18 werden der tatsächlich vom Benutzer gesprochene Zielort und die dem Zielort entsprechende Zeichenkette, nachdem sie den Umsetzer 15 und die Sprachsynthetisieranordnung 16 durchlaufen hat, zugeführt und anschließend verglichen. Zeigt die synthetisierte Zeichenkette eine hohe - oberhalb einer Schwelle liegenden - Übereinstimmung mit dem original gesprochenen Zielort, wird für die Wiedergabe die synthetisierte Zeichenkette verwendet. Kann diese Übereinstimmung nicht festgestellt werden, wird in der Sprachsynthetisieranordnung 16 eine Variante der ursprünglichen Zeichenkette gebildet und im Vergleicher 18 erneut ein Vergleich zwischen dem original gesprochenen Zielort und der gebildeten Variante durchgeführt.
    Ist der Routefinder 11 so ausgebildet, dass sobald eine Zeichenkette bzw. eine Variante die geforderte Übereinstimmung mit dem Original aufweist, deren Wiedergabe über den Lautsprecher 17 erfolgt, werden weitere Variantenbildungen sofort gestoppt. Auch kann der Routefinder 11 so modifiziert sein, dass eine Mehrzahl von Varianten gebildet werden und dann aus den Varianten diejenige Variante ausgewählt wird, die die größte Übereinstimmung mit dem Original zeigt.
    Wie der Vergleich im Vergleicher 18 ausgeführt wird, wird im Zusammenhang mit Fig. 2a und b näher gezeigt. Dort ist in Fig. 2a ein Sprachsignal im Zeitbereich des tatsächlich von einem Benutzer gesprochenen Wortes Itzehoe dargestellt. Fig. 2b zeigt ebenfalls ein Sprachsignal im Zeitbereich des Wortes Itzehoe, wobei jedoch im in Fig. 2b gezeigten Fall das Wort Itzehoe aus einer entsprechend vorliegenden Zeichenkette zunächst im Umsetzer 15 nach allgemeinen Regeln phonetisch beschrieben und dann anschließend in der Sprachsynthetisieranordnung 16 in eine synthetische Form gebracht wurde. Deutlich ist der Darstellung gemäß Fig. 2b entnehmbar, dass bei Anwendung der allgemeinen Regeln die Endung "oe" des Wortes Itzehoe als "ö" wiedergeben wird. Um jedoch diese fehlerhafte Wiedergabe auszuschließen, werden die gesprochene und die synthetisierte Form in einem Vergleicher 18 miteinander verglichen.
    Um diesen Vergleich zu vereinfachen, werden sowohl die gesprochene als auch die synthetisierte Form in Segmente 19, 20 unterteilt und dann der Vergleich zwischen korrespondierenden Segmenten 19/20 durchgeführt. In dem in Fig. 2a und b gezeigten Ausführungsbeispiel zeigt sich, dass lediglich in den beiden letzten Segmenten 19.6, 20.6 eine starke Abweichung gegeben ist, während der Vergleich der übrigen Segmentpaare 19.1/20.1, 19.2/20.2 ... 19.5/20.5 eine relativ große Übereinstimmung zeigen. Wegen der starken Abweichung in dem Segmentpaar 19.6/20.6 wird die phonetische Beschreibung im Segment 20.6 anhand einer in einem Speicher 21 (Fig. 1) hinterlegten Liste, welche besser passende bzw. ähnliche Phoneme enthält, verändert. Da vorliegend das fragliche Phonem "ö" ist und die Liste mit ähnlichen Phonemen die Ersatzphoneme "o" und "oh" vorsieht, wird das Phonem "ö" gegen das Ersatzphonem "o" ausgetauscht. Dazu wird die hinterlegte Zeichenkette in einem Umsetzer 15' (Fig. 1) erneut phonetisch beschrieben, in der Sprachsynthetisieranordnung 16 in eine synthetische Form gebracht und erneut mit der tatsächlich gesprochenen Zieleingabe im Vergleicher 18 verglichen.
    Nur der Vollständigkeit halber sei darauf hingewiesen, dass der Umsetzer 15' in einem anderen - nicht dargestellten - Ausführungsbeispiel auch vom Umsetzer 15 gebildet sein kann.
    Zeigt sich, dass die entsprechend modifizierte Zeichenkette, welche im Zusammenhang mit dieser Anmeldung auch als Variante bezeichnet wird, keine oberhalb einer Schwelle liegende Übereinstimmung mit dem gesprochenen Wort hat wird die Prozedur mit einem weiteren Ersatzphonem nochmals ausgeführt. Liegt der Grad der Übereinstimmung dann oberhalb der Schwelle, wird das entsprechend synthetisierte Wort über den Lautsprecher 17 ausgegeben.
    Auch kann der Verfahrensablauf modifiziert sein. Wird festgestellt, dass eine Abweichung zwischen der gesprochenen und der ursprünglichen synthetischen Form gegeben ist, und liegen eine Mehrzahl von Ersatzphonemen in der im Speicher 21 ablegten Liste vor, können auch gleichzeitig eine Mehrzahl von Varianten gebildet und mit dem tatsächlich gesprochenen Wort verglichen werden. Wiedergegeben wird dann diejenige Variante, die die größte Übereinstimmung mit dem gesprochenen Wort zeigt.
    Soll vermieden werden, dass bei der mehrfachen Benutzung von Worten, die die obige Prozedur auslösen können, immer die richtige -synthetische- Aussprache aufwendig ermittelt werden muss, kann, wenn beispielweise die richtige synthetische Aussprache zum Beispiel des Wortes Itzehoe ermittelt worden ist, die entsprechende Modifikation mit Hinweis auf die Zeichenkette Itzehoe gespeichert werden. Dies bedeutet, dass bei eine erneuten Anforderung der Zeichenkette Itzehoe gleichzeitig zur richtigen Aussprache dieses Wortes die von der phonetischen Beschreibung nach allgemeinen Regeln abweichenden Besonderheiten berücksichtigt werden, so dass der Vergleichsschritt im Vergleicher 18 entfallen kann. Um diese Modifikation sichtbar zu machen, wurde in Fig. 1 ein Zusatzspeicher 22 gestrichelt angedeutet, in welchem die auf Modifikationen von hinterlegten Zeichenketten hinweisenden Informationen abgelegt werden.
    Nur der Vollständigkeit halber sei auch darauf hingewiesen, dass der Zusatzspeicher 22 nicht nur auf die Aufnahme von Informationen zur richtigen Aussprache von hinterlegten Zeichenketten beschränkt ist. Ergibt beispielsweise ein Vergleich im Vergleicher 18, dass zwischen der gesprochenen und der synthetisierten Form eines Wortes keine bzw. unterhalb einer Schwelle liegende Abweichung gegeben sind, kann im Zusatzspeicher 22 für dieses Wort ein Hinweis hinterlegt werden, welcher bei der künftigen Verwendung dieses Wortes einen aufwendigen Vergleich im Vergleicher 18 ausschließt.
    Auch ist den Fig. 2a und b entnehmbar, dass die Segmente 19 gemäß Fig. 2a und die Segmente 20 gemäß Fig. 2b kein gleiches Format besitzen. So hat beispielsweise das Segment 20.1 im Vergleich zum Segment 19.1 eine größere Breite, während das Segment 20.2 gegenüber dem korrespondierenden Segment 19.2. wesentlich schmaler ausgebildet ist. Dies ist darauf zurückzuführen, dass die "Sprechlänge" der verschiedenen zum Vergleich anstehenden Phoneme unterschiedlich lang sein kann. Da aber derart unterschiedliche lange Sprechzeiten nicht ausgeschlossen werden können, ist die Vergleichsanordnung 18 so ausgelegt, dass verschieden lange Aussprechzeiten eines Phonemes noch keine gegenseitige Abweichung indizieren.
    Nur der Vollständigkeit halber sei darauf hingewiesen, dass bei der Verwendung von verschiedenen Segmentierungsverfahren für das gesprochene und das synthetisierte Format auch eine unterschiedliche Anzahl von Segmenten 19, 20 berechnet werden können. Tritt dies ein, sollte dann ein bestimmtes Segment 19, 20 nicht nur mit einem korrespondieren Segment 19, 20 verglichen werden, sondern ebenfalls mit dem Vorgänger und Nachfolger des korrespondierenden Segments 19, 20. Somit ist es auch möglich, ein Phonem durch zwei andere Phoneme zu ersetzen. Dieses Vorgehen ist in umgekehrter Richtung ebenfalls möglich. Gibt es keine Übereinstimmung für ein Segment 19, 20, so kann dieses ausgeschlossen, oder durch zwei besser passende ersetzt werden.

    Claims (10)

    1. Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese,
      dadurch gekennzeichnet,
      dass beim Vorliegen einer tatsächlich gesprochenen und mit einer gespeicherten Zeichenkette korrespondierenden Spracheingabe vor einer Wiedergabe der nach allgemeinen Regeln phonetisch beschriebenen und in eine rein synthetische Form gewandelten Zeichenkette die gewandelte Zeichenkette mit der Spracheingabe verglichen wird,
      dass bei Feststellung einer oberhalb einer Schwelle liegenden Abweichung der gewandelten Zeichenkette von der Spracheingabe wenigstens eine Variante der gewandelten Zeichenkette gebildet wird und
      dass eine der gebildeten Varianten, sofern diese bei einem Vergleich mit der Spracheingabe eine unterhalb der Schwelle liegende Abweichung aufweist, anstelle der gewandelten Zeichenkette ausgegeben wird.
    2. Wiedergabeverfahren nach Anspruch 1,
      dadurch gekennzeichnet,
      dass in Schritt zwei jeweils immer nur eine Variante gebildet wird und
      dass, sofern in Schritt drei ein Vergleich der Variante mit der Spracheingabe immer eine oberhalb der Schwelle liegende Abweichung zeigt, Schritt zwei mindestens noch einmal zur Bildung einer neuen Variante durchgeführt wird.
    3. Wiedergabeverfahren nach Anspruch 1,
      dadurch gekennzeichnet,
      dass in Schritt zwei wenigstens zwei Varianten gebildet werden und
      dass beim Vorliegen von Varianten, die jeweils im Vergleich zur Spracheingabe eine unterhalb der Schwelle liegende Abweichung haben, immer diejenige Variante wiedergegeben wird, die die geringste Abweichung zur Spracheingabe besitzt.
    4. Verfahren nach einem der Ansprüche 1 bis 3,
      dadurch gekennzeichnet,
      dass vor einem Vergleich der Spracheingabe mit der gewandelten Zeichenkette bzw. der daraus gebildeten Variante(n) eine Segmentierung der Spracheingabe und der gewandelten Zeichenkette bzw. der gebildeten Variante(n) erfolgt.
    5. Wiedergabeverfahren nach Anspruch 4,
      dadurch gekennzeichnet,
      dass das sowohl zur Segmentierung der Spracheingabe und der gewandelten Zeichenkette bzw. der daraus abgeleiteten Variante(n) ein gleicher Segmentierungsansatz verwendet wird.
    6. Wiedergabeverfahren nach Anspruch 4,
      dadurch gekennzeichnet,
      dass das sowohl zur Segmentierung der Spracheingabe und der gewandelten Zeichenkette bzw. der daraus abgeleiteten Variante(n) jeweils ein verschiedener Segmentierungsansatz verwendet wird.
    7. Wiedergabeverfahren nach Anspruch 4,
      dadurch gekennzeichnet,
      dass zur Segmentierung der gewandelten Zeichenkette bzw. der daraus abgeleiteten Variante(n) ein explizierter und zur Segmentierung der Spracheingabe ein implizierter Segmentierungsansatz verwendet wird.
    8. Wiedergabeverfahren nach einem der Ansprüche 4 bis 7,
      dadurch kennzeichnet,
      dass die in segmentierter Form vorliegende gewandelte Zeichenkette und die segmentierte Spracheingabe in den entsprechenden Segmenten auf Gemeinsamkeiten untersucht wird und
      dass, wenn in zwei korrespondierenden Segmenten eine oberhalb eines Schwellwerts liegende Abweichung vorliegt, das in dem Segment der gewandelten Zeichenkette vorliegende Phonem durch ein Ersatzphonem ersetzt wird.
    9. Wiedergabeverfahren nach Anspruch 8,
      dadurch gekennzeichnet,
      dass mit jedem Phonem wenigstens ein diesem Phonem ähnliches Ersatzphonem verknüpft ist.
    10. Wiedergabeverfahren nach einem der Ansprüche 1 bis 9,
      dadurch gekennzeichnet,
      dass, sobald eine Variante einer Zeichenkette als wiedergabewürdig ermittelt wird, die Besonderheiten, die mit der Wiedergabe der Zeichenkette verbunden sind, im Zusammenhang mit der Zeichenkette abgespeichert werden.
    EP00108486A 1999-05-05 2000-04-19 Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese Expired - Lifetime EP1058235B1 (de)

    Applications Claiming Priority (2)

    Application Number Priority Date Filing Date Title
    DE19920501 1999-05-05
    DE19920501A DE19920501A1 (de) 1999-05-05 1999-05-05 Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese

    Publications (3)

    Publication Number Publication Date
    EP1058235A2 true EP1058235A2 (de) 2000-12-06
    EP1058235A3 EP1058235A3 (de) 2003-02-05
    EP1058235B1 EP1058235B1 (de) 2003-11-05

    Family

    ID=7906935

    Family Applications (1)

    Application Number Title Priority Date Filing Date
    EP00108486A Expired - Lifetime EP1058235B1 (de) 1999-05-05 2000-04-19 Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese

    Country Status (5)

    Country Link
    US (1) US6546369B1 (de)
    EP (1) EP1058235B1 (de)
    JP (1) JP4602511B2 (de)
    AT (1) ATE253762T1 (de)
    DE (2) DE19920501A1 (de)

    Cited By (2)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    EP1422638A2 (de) * 2002-11-19 2004-05-26 Detmar Schäfer Rechnergestützte Ermittlung einer Ähnlichkeit eines elektronisch erfassten ersten Kennzeichens zu mindestens einem zweiten solchen Kennzeichen
    US7167824B2 (en) 2002-02-14 2007-01-23 Sail Labs Technology Ag Method for generating natural language in computer-based dialog systems

    Families Citing this family (14)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    JP4759827B2 (ja) * 2001-03-28 2011-08-31 日本電気株式会社 音声セグメンテーション装置及びその方法並びにその制御プログラム
    US7107215B2 (en) * 2001-04-16 2006-09-12 Sakhr Software Company Determining a compact model to transcribe the arabic language acoustically in a well defined basic phonetic study
    EP1475611B1 (de) * 2003-05-07 2007-07-11 Harman/Becker Automotive Systems GmbH Verfahren und Vorrichtung zur Sprachausgabe, Datenträger mit Sprachdaten
    CN1879146B (zh) * 2003-11-05 2011-06-08 皇家飞利浦电子股份有限公司 用于语音到文本的转录系统的错误检测
    JP2006047866A (ja) * 2004-08-06 2006-02-16 Canon Inc 電子辞書装置およびその制御方法
    US20060136195A1 (en) * 2004-12-22 2006-06-22 International Business Machines Corporation Text grouping for disambiguation in a speech application
    JP4385949B2 (ja) * 2005-01-11 2009-12-16 トヨタ自動車株式会社 車載チャットシステム
    US20070016421A1 (en) * 2005-07-12 2007-01-18 Nokia Corporation Correcting a pronunciation of a synthetically generated speech object
    US20070129945A1 (en) * 2005-12-06 2007-06-07 Ma Changxue C Voice quality control for high quality speech reconstruction
    US8504365B2 (en) * 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
    US8489399B2 (en) * 2008-06-23 2013-07-16 John Nicholas and Kristin Gross Trust System and method for verifying origin of input through spoken language analysis
    US9186579B2 (en) * 2008-06-27 2015-11-17 John Nicholas and Kristin Gross Trust Internet based pictorial game system and method
    US9564120B2 (en) * 2010-05-14 2017-02-07 General Motors Llc Speech adaptation in speech synthesis
    KR20170044849A (ko) * 2015-10-16 2017-04-26 삼성전자주식회사 전자 장치 및 다국어/다화자의 공통 음향 데이터 셋을 활용하는 tts 변환 방법

    Family Cites Families (13)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    DE2435654C2 (de) * 1974-07-24 1983-11-17 Gretag AG, 8105 Regensdorf, Zürich Verfahren und Vorrichtung zur Analyse und Synthese von menschlicher Sprache
    NL8302985A (nl) * 1983-08-26 1985-03-18 Philips Nv Multipulse excitatie lineair predictieve spraakcodeerder.
    US5029200A (en) * 1989-05-02 1991-07-02 At&T Bell Laboratories Voice message system using synthetic speech
    US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
    GB9223066D0 (en) * 1992-11-04 1992-12-16 Secr Defence Children's speech training aid
    FI98163C (fi) * 1994-02-08 1997-04-25 Nokia Mobile Phones Ltd Koodausjärjestelmä parametriseen puheenkoodaukseen
    US6005549A (en) * 1995-07-24 1999-12-21 Forest; Donald K. User interface method and apparatus
    US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
    JPH10153998A (ja) * 1996-09-24 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
    US6163769A (en) * 1997-10-02 2000-12-19 Microsoft Corporation Text-to-speech using clustered context-dependent phoneme-based units
    US6081780A (en) * 1998-04-28 2000-06-27 International Business Machines Corporation TTS and prosody based authoring system
    US6173263B1 (en) * 1998-08-31 2001-01-09 At&T Corp. Method and system for performing concatenative speech synthesis using half-phonemes
    US6266638B1 (en) * 1999-03-30 2001-07-24 At&T Corp Voice quality compensation system for speech synthesis based on unit-selection speech database

    Non-Patent Citations (1)

    * Cited by examiner, † Cited by third party
    Title
    DESHMUKH N ET AL: "Automated generation of N-best pronunciations of proper nouns" 1996 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING - PROCEEDINGS. (ICASSP). ATLANTA, MAY 7 - 10, 1996, IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING - PROCEEDINGS. (ICASSP), NEW YORK, IEEE, US, Bd. 1 CONF. 21, 7. Mai 1996 (1996-05-07), Seiten 283-286, XP002164538 ISBN: 0-7803-3193-1 *

    Cited By (3)

    * Cited by examiner, † Cited by third party
    Publication number Priority date Publication date Assignee Title
    US7167824B2 (en) 2002-02-14 2007-01-23 Sail Labs Technology Ag Method for generating natural language in computer-based dialog systems
    EP1422638A2 (de) * 2002-11-19 2004-05-26 Detmar Schäfer Rechnergestützte Ermittlung einer Ähnlichkeit eines elektronisch erfassten ersten Kennzeichens zu mindestens einem zweiten solchen Kennzeichen
    EP1422638A3 (de) * 2002-11-19 2005-11-16 Detmar Schäfer Rechnergestützte Ermittlung einer Ähnlichkeit eines elektronisch erfassten ersten Kennzeichens zu mindestens einem zweiten solchen Kennzeichen

    Also Published As

    Publication number Publication date
    JP2000347681A (ja) 2000-12-15
    EP1058235A3 (de) 2003-02-05
    DE19920501A1 (de) 2000-11-09
    JP4602511B2 (ja) 2010-12-22
    US6546369B1 (en) 2003-04-08
    EP1058235B1 (de) 2003-11-05
    DE50004296D1 (de) 2003-12-11
    ATE253762T1 (de) 2003-11-15

    Similar Documents

    Publication Publication Date Title
    DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
    DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
    DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
    EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
    DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
    EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
    DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
    EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
    DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
    EP3010014B1 (de) Verfahren zur interpretation von automatischer spracherkennung
    DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
    DE60108104T2 (de) Verfahren zur Sprecheridentifikation
    DE112021000959T5 (de) Synthetische Sprachverarbeitung
    DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
    DE10018134A1 (de) Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
    EP1264301A1 (de) Verfahren zur erkennung von sprachäusserungen nicht-mutter-sprachlicher sprecher in einem sprachverarbeitungssystem
    EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
    DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
    EP1159733B1 (de) Verfahren und anordnung zur bestimmung eines repräsentativen lautes
    DE102010040553A1 (de) Spracherkennungsverfahren
    EP1435087B1 (de) Verfahren zur erzeugung von sprachbausteine beschreibenden referenzsegmenten und verfahren zur modellierung von spracheinheiten eines gesprochenen testmusters
    DE60021666T2 (de) Inkrementales Trainieren eines Spracherkenners für eine neue Sprache
    DE4111781A1 (de) Computersystem zur spracherkennung
    EP1224661B1 (de) Verfahren und anordnung zur verifikation eines sprechers anhand eines rechners
    EP1170723B1 (de) Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese

    Legal Events

    Date Code Title Description
    PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

    Free format text: ORIGINAL CODE: 0009012

    AK Designated contracting states

    Kind code of ref document: A2

    Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

    AX Request for extension of the european patent

    Free format text: AL;LT;LV;MK;RO;SI

    RAP1 Party data changed (applicant data changed or rights of an application transferred)

    Owner name: NOKIA CORPORATION

    PUAL Search report despatched

    Free format text: ORIGINAL CODE: 0009013

    AK Designated contracting states

    Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

    AX Request for extension of the european patent

    Extension state: AL LT LV MK RO SI

    17P Request for examination filed

    Effective date: 20030120

    GRAH Despatch of communication of intention to grant a patent

    Free format text: ORIGINAL CODE: EPIDOS IGRA

    GRAS Grant fee paid

    Free format text: ORIGINAL CODE: EPIDOSNIGR3

    GRAA (expected) grant

    Free format text: ORIGINAL CODE: 0009210

    AKX Designation fees paid

    Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

    AK Designated contracting states

    Kind code of ref document: B1

    Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: IE

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20031105

    Ref country code: IT

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT;WARNING: LAPSES OF ITALIAN PATENTS WITH EFFECTIVE DATE BEFORE 2007 MAY HAVE OCCURRED AT ANY TIME BEFORE 2007. THE CORRECT EFFECTIVE DATE MAY BE DIFFERENT FROM THE ONE RECORDED.

    Effective date: 20031105

    Ref country code: FI

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20031105

    Ref country code: CY

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20031105

    REG Reference to a national code

    Ref country code: GB

    Ref legal event code: FG4D

    Free format text: NOT ENGLISH

    REG Reference to a national code

    Ref country code: CH

    Ref legal event code: EP

    REF Corresponds to:

    Ref document number: 50004296

    Country of ref document: DE

    Date of ref document: 20031211

    Kind code of ref document: P

    REG Reference to a national code

    Ref country code: IE

    Ref legal event code: FG4D

    Free format text: GERMAN

    GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

    Effective date: 20031224

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: SE

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20040205

    Ref country code: GR

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20040205

    Ref country code: DK

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20040205

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: ES

    Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

    Effective date: 20040216

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: LU

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20040419

    Ref country code: AT

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20040419

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: MC

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20040430

    Ref country code: CH

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20040430

    Ref country code: BE

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20040430

    Ref country code: LI

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20040430

    REG Reference to a national code

    Ref country code: IE

    Ref legal event code: FD4D

    ET Fr: translation filed
    PLBE No opposition filed within time limit

    Free format text: ORIGINAL CODE: 0009261

    STAA Information on the status of an ep patent application or granted ep patent

    Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

    26N No opposition filed

    Effective date: 20040806

    BERE Be: lapsed

    Owner name: *NOKIA CORP.

    Effective date: 20040430

    REG Reference to a national code

    Ref country code: CH

    Ref legal event code: PL

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: PT

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20040405

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: DE

    Payment date: 20120425

    Year of fee payment: 13

    Ref country code: NL

    Payment date: 20120413

    Year of fee payment: 13

    PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

    Ref country code: FR

    Payment date: 20120504

    Year of fee payment: 13

    Ref country code: GB

    Payment date: 20120418

    Year of fee payment: 13

    REG Reference to a national code

    Ref country code: NL

    Ref legal event code: V1

    Effective date: 20131101

    GBPC Gb: european patent ceased through non-payment of renewal fee

    Effective date: 20130419

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: DE

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20131101

    Ref country code: GB

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20130419

    REG Reference to a national code

    Ref country code: FR

    Ref legal event code: ST

    Effective date: 20131231

    REG Reference to a national code

    Ref country code: DE

    Ref legal event code: R119

    Ref document number: 50004296

    Country of ref document: DE

    Effective date: 20131101

    PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

    Ref country code: FR

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20130430

    Ref country code: NL

    Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

    Effective date: 20131101