EP1058235B1 - Reproduction method for voice controlled systems with text based speech synthesis - Google Patents
Reproduction method for voice controlled systems with text based speech synthesis Download PDFInfo
- Publication number
- EP1058235B1 EP1058235B1 EP00108486A EP00108486A EP1058235B1 EP 1058235 B1 EP1058235 B1 EP 1058235B1 EP 00108486 A EP00108486 A EP 00108486A EP 00108486 A EP00108486 A EP 00108486A EP 1058235 B1 EP1058235 B1 EP 1058235B1
- Authority
- EP
- European Patent Office
- Prior art keywords
- characters
- train
- variation
- converted
- speech input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 25
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 24
- 238000013459 approach Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 abstract description 4
- 230000011218 segmentation Effects 0.000 description 12
- 230000001755 vocal effect Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005755 formation reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000005309 stochastic process Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Definitions
- the invention is concerned with the improvement of voice-controlled systems text-based speech synthesis, especially with the improvement of synthetic Playback of saved but determined during pronunciation Strings subject to peculiarities.
- the subject of speech synthesis is the mechanical transformation of the symbolic Representation of an utterance in an acoustic signal emitted by one human speaker recognized as sufficiently similar to human language becomes.
- a speech synthesis technique is a technique that involves building a speech synthesizer allowed.
- Examples of speech synthesis techniques are direct synthesis, the Synthesis using a model and simulation of the vocal tract.
- either parts of the speech signal are started from stored signal pieces (e.g. one per phoneme) to the corresponding ones Words put together or the transfer function of the vocal tract, which at People used for speech generation by energy of a signal in simulated certain frequency ranges.
- stored signal pieces e.g. one per phoneme
- Words put together e.g. one per phoneme
- the transfer function of the vocal tract which at People used for speech generation by energy of a signal in simulated certain frequency ranges.
- Voiced sounds through a quasi-periodic excitation of a certain frequency represents.
- the phoneme mentioned above is the smallest meaning-distinguishing, but itself not meaningful unity of language.
- Two words different Meaning that only differ by a phoneme e.g. fish - table; forest - Wild
- form a minimal pair e.g. fish - table; forest - Wild
- the number of phonemes in a language is proportional small (between 20 and 60).
- Diphones are mostly used in direct synthesis.
- Phonemes or sequences of phonemes are created with the help of the International Phonetic alphabet (IPA) noted.
- IPA International Phonetic alphabet
- the implementation of a text in a sequence Signs of the Phonetic Alphabet is called Phonetic Transcription designated.
- a production model is formed, which mostly on minimizing the difference between a digitized human Speech signal (original signal) and a predicted signal based.
- Another method consists in the simulation of the vocal tract, in which its Shape and position of the individual articulation organs (tongue, jaw, lips) is reproduced.
- a mathematical model of the flow conditions is used generated in such a defined vocal tract and the speech signal with the help of this model.
- the phonemes or diphones used in direct synthesis must first can be obtained from natural language by segmentation. Here you can two approaches can be distinguished:
- features For segmentation, features must first be extracted from the speech signal, on the basis of which it is possible to distinguish between the segments. These characteristics are then classified into classes.
- Features for feature extraction include spectral analysis, filter bank analysis or the method of linear prediction.
- Hidden Markov models for the classification, for example, Hidden Markov models, artificial ones neural networks or dynamic time warping (a method for time normalization) to be used.
- HMM Hidden Markov Model
- a common approach is the classification of voiced / unvoiced / silent - according to the different forms of stimulation in the generation of language in Vocal tract.
- the special treatment of certain words of a language is extremely complex, it has been used in speech-controlled arrangements to form the announcement, which an arrangement is to indicate, from a mix of spoken and synthesized language.
- the desired destination is recorded for a route finder, for example, which has special features in terms of pronunciation compared to the other words of the corresponding language and which is specified by a user in the case of voice-controlled arrangements, and copied into the corresponding destination announcement.
- a route finder for example, which has special features in terms of pronunciation compared to the other words of the corresponding language and which is specified by a user in the case of voice-controlled arrangements, and copied into the corresponding destination announcement.
- the procedure is simplified if, according to claim 4 Segmentation of the speech input and the converted character string or the variants formed therefrom. This segmentation allows segments in where no differences or differences below the threshold are found, of exclude further treatment.
- segmentation approaches can also be used become. This is especially true when looking at the original voice input Advantages because the segmentation contains those contained in the speech signal and information can only be used in a very complex step must, while the segmentation of strings very simply the well-known Number of phonemes contained in the utterance can be used.
- a particularly simple procedure is achieved if according to claim 9 at least one replacement phoneme similar to this phoneme is linked to each phoneme or stored in a list.
- the computing work is further reduced if according to claim 10 at a variant of a character string that is determined to be reproducible, the special features, associated with rendering the string, along with the String can be saved. In this case there is the special pronunciation the respective character string if you use it later without much effort available in the memory.
- strings can be one
- route finders are street or place names.
- a mailbox application can do this like in a phone book the names of subscribers his. So that the memory easily with the appropriate information loaded or the stored information can be easily updated, the respective strings are available as text.
- a memory is designated by 10.
- This memory 10 which for the Representation of the invention, which should contain German city names, belongs to one Route finder 11.
- this route finder 11 comprises an arrangement 12 with which natural voice inputs are recorded and temporarily saved can. In the present case, this is realized in such a way that the respective voice input is from one Microphone 13 is detected and stored in a voice memory 14. Now becomes a The user of the route finder 11 is asked to enter his destination, the each destination spoken by the user z. B. "Bochum” or "Itzehoe” from Microphone 13 detected and forwarded to the voice memory 14.
- the route finder 11 Because the route finder 11 has either been informed of his current location or has still been given it knows, he is first based on the desired destination and the current one Determine the corresponding route to the destination. If the route finder 11 not only show the corresponding route graphically, but spoken ones Deliver announcement, the textual strings of the respective announcement Described phonetically according to general rules and then for speech converted into a purely synthetic form. In that shown in Fig. 1 Exemplary embodiment is the phonetic description of the stored character strings in the converter 15 and the synthesizing in the subsequent ' Speech synthesizing arrangement 16.
- the respective character string if it has passed through the converter 15 and the speech synthesizer assembly 16 as a word corresponding to the phonetic conditions of the respective language a speaker 17 given to the environment and of this as such be understood.
- the Play route finder 11 after entering the destination approximately the following sentence: "You have Berlin chosen as the destination. If this does not meet your expectations, give it now set a new goal. "Even though this information follows general rules Problems can be reproduced phonetically, if that The goal should not be Berlin, but Laboe. If the string that the Textual representation of the destination Laboe in the converter 15 according to general rules written phonetically and then in the speech synthesizer 16 Output through speaker 17 like the rest of the information above in brought a synthetic form, that would be given over the speaker 17 Correct result only if, according to general rules, the ending "oe” is generally reproduced as "ö".
- a comparison arrangement 18 becomes the destination actually spoken by the user and the the character string corresponding to the destination after the converter 15 and the Speech synthesizer 16 has passed, fed and then compared. If the synthesized string shows a high - above a threshold lying - coincidence with the originally spoken destination, is for the Playback uses the synthesized string. Can this match are not ascertained, a variant becomes in the speech synthesis arrangement 16 of the original character string and again in the comparator 18 Comparison between the originally spoken destination and the variant formed carried out.
- the route finder 11 designed such that as soon as a character string or a Variant has the required agreement with the original, whose Playback via the loudspeaker 17 takes place, further variant formations stopped immediately.
- the route finder 11 can also be modified such that a A plurality of variants are formed and then one from the variants Variant is selected that most closely matches the original shows.
- FIG. 2a there is a speech signal in the time domain of actually represented by Itzehoe spoken by a user.
- Fig. 2b also shows a speech signal in the time domain of the word Itzehoe, but in in Fig. 2b the word Itzehoe from a corresponding present Character string first in the converter 15 phonetically according to general rules described and then subsequently in the speech synthesis arrangement 16 in a synthetic form.
- the illustration according to FIG. 2b is clear it can be seen that, when applying the general rules, the ending "oe" des Word Itzehoe is reproduced as "ö". However, this incorrect playback exclude the spoken and the synthesized form in one Comparator 18 compared with each other.
- the converter 15 'in another - not shown - embodiment of the converter 15th can be formed.
- the process sequence can also be modified. It is found that a Deviation between the spoken and the original synthetic form is given, and there are a plurality of replacement phonemes in the memory 21 stored list, a plurality of variants can also be formed at the same time and be compared to the actual spoken word. Is played then the variant that most closely matches what is spoken Word shows.
- the additional memory 22 not just on the inclusion of information on the correct pronunciation of stored strings is limited.
- a comparison in Comparator 18 that between the spoken and the synthesized form of a Word no deviation or below a threshold can be stored in the additional memory 22 for this word, which in the future use of this word an elaborate comparison in Comparator 18 excludes.
- segment 20.1 has a greater width compared to segment 19.1, while the segment 20.2 compared to the corresponding segment 19.2. essential is narrower.
- the comparison arrangement 18 is designed so that different lengths Speaking times of a phoneme do not yet indicate a mutual deviation.
- segment 19, 20 when using different segmentation methods for the spoken and the synthesized Format also a different number of segments 19, 20 can be calculated can. If this occurs, then a certain segment 19, 20 should not only have one correspond to segment 19, 20, but also with the Predecessor and successor of the corresponding segment 19, 20. So it is also possible to replace one phoneme with two other phonemes. This procedure is also possible in the opposite direction. There is no match for a segment 19, 20, this can be excluded, or by two better fitting ones be replaced.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
Abstract
Description
Die Erfindung befasst sich mit der Verbesserung von sprachgesteuerten Systemen mit text-basierter Sprachsynthese, insbesondere mit der Verbesserung der synthetischen Wiedergabe von gespeichert vorliegenden, aber bei der Aussprache bestimmten Eigentümlichkeiten unterliegenden Zeichenketten.The invention is concerned with the improvement of voice-controlled systems text-based speech synthesis, especially with the improvement of synthetic Playback of saved but determined during pronunciation Strings subject to peculiarities.
Bei der Bedienung von technischen Geräten gewinnt die Sprache zunehmend an Bedeutung. Dies betrifft sowohl die Eingabe von Daten und Kommandos wie auch die Ausgabe von Meldungen. Systeme, bei denen die Kommunikation zwischen Benutzer und Maschine in beiden Richtungen mit Hilfe akustischer Signale in Form von Sprache erfolgt, werden als Sprachdialogsysteme bezeichnet. Die vom jeweiligen System ausgegebenen Äußerungen können entweder zuvor aufgezeichnete natürliche Sprache sein oder entsprechend dem Gegenstand der vorliegenden Erfindung synthetisch erzeugt werden. Auch sind Anordnungen bekannt, bei denen die jeweiligen Äußerungen Kombinationen aus synthetischer und zuvor aufgezeichneter natürlicher Sprache sind.When it comes to operating technical devices, the language is becoming increasingly important Importance. This affects both the input of data and commands as well the output of messages. Systems where communication between Acoustic signals shape the user and the machine in both directions done by speech are called speech dialogue systems. That of the respective System-issued utterances can either be pre-recorded natural Language or according to the subject matter of the present invention synthetically produced. Arrangements are also known in which the respective utterances combinations of synthetic and previously recorded are natural language.
Um die Erfindung besser zu verstehen, seien einige allgemeine Erläuterungen und Definitionen zur Sprachsynthese vorausgeschickt.To better understand the invention, some general explanations and Speech synthesis definitions sent ahead.
Gegenstand der Sprachsynthese ist die maschinelle Transformation der symbolischen Repräsentation einer Äußerung in ein akustisches Signal, welches von einem menschlichen Sprecher als der menschlichen Sprache hinreichend ähnlich anerkannt wird.The subject of speech synthesis is the mechanical transformation of the symbolic Representation of an utterance in an acoustic signal emitted by one human speaker recognized as sufficiently similar to human language becomes.
Im Bereich der Sprachsynthese gilt es, zwei unterschiedliche Systeme zu unterscheiden:
Eine Sprachsynthesetechnik ist eine Technik, die den Bau eines Sprachsynthetisators erlaubt. Beispiele für Sprachsynthesetechniken sind die direkte Synthese, die Synthese mittels eines Modells und die Simulation des Vokaltraktes.A speech synthesis technique is a technique that involves building a speech synthesizer allowed. Examples of speech synthesis techniques are direct synthesis, the Synthesis using a model and simulation of the vocal tract.
Bei der direkten Synthese werden entweder Teilstücke des Sprachsignals ausgehend von abgespeicherten Signalstücken (z. B. eines je Phonem) zu den entsprechenden Wörtern zusammengesetzt oder die Transferfunktion des Vokaltraktes, welcher beim Menschen für die Spracherzeugung benutzt wird, durch Energie eines Signals in bestimmten Frequenzbereichen nachgebildet. So werden hier beispielsweise stimmhafte Laute durch eine quasiperiodische Anregung einer bestimmten Frequenz repräsentiert.In direct synthesis, either parts of the speech signal are started from stored signal pieces (e.g. one per phoneme) to the corresponding ones Words put together or the transfer function of the vocal tract, which at People used for speech generation by energy of a signal in simulated certain frequency ranges. For example, here Voiced sounds through a quasi-periodic excitation of a certain frequency represents.
Das oben erwähnte Phonem ist die kleinste bedeutungsunterscheidende, aber selbst nicht bedeutungstragende Einheit der Sprache. Zwei Wörter verschiedener Bedeutung, die sich nur durch ein Phonem unterscheiden (z. B. Fisch - Tisch; Wald - Wild), bilden ein Minimalpaar. Die Anzahl der Phoneme einer Sprache ist verhältnismäßig klein (zwischen 20 und 60). So existieren etwa im Deutschen 45 Phoneme.The phoneme mentioned above is the smallest meaning-distinguishing, but itself not meaningful unity of language. Two words different Meaning that only differ by a phoneme (e.g. fish - table; forest - Wild), form a minimal pair. The number of phonemes in a language is proportional small (between 20 and 60). There are 45 phonemes in German, for example.
Um die charakteristischen Übergänge zwischen den Phonemen zu berücksichtigen, werden bei der direkten Synthese meist Diphone verwendet. Vereinfacht kann ein Diphon als der Bereich vom invariablen Teil des ersten Phonems bis zum invariablen Teil des folgenden Phonems definiert werden.To take into account the characteristic transitions between the phonemes, Diphones are mostly used in direct synthesis. A can be simplified Diphon as the range from the invariable part of the first phoneme to the invariable Part of the following phoneme can be defined.
Phoneme bzw. Sequenzen von Phonemen werden mit Hilfe des Internationalen Phonetischen Alphabets (IPA) notiert. Die Umsetzung eines Textes in eine Abfolge von Zeichen des Phonetischen Alphabetes wird als Phonetische Transkription bezeichnet.Phonemes or sequences of phonemes are created with the help of the International Phonetic alphabet (IPA) noted. The implementation of a text in a sequence Signs of the Phonetic Alphabet is called Phonetic Transcription designated.
Bei der Synthese mittels eines Modells wird ein Produktionsmodell gebildet, welches meist auf der Minimierung der Differenz zwischen einem digitalisierten menschlichen Sprachsignal (Originalsignal) und einem prädizierten Signal basiert.In the synthesis using a model, a production model is formed, which mostly on minimizing the difference between a digitized human Speech signal (original signal) and a predicted signal based.
Eine weitere Methode besteht in der Simulation des Vokaltraktes, bei der dessen Form sowie die Lage der einzelnen Artikulationsorgane (Zunge, Kiefer, Lippen) nachgebildet wird. Dazu wird ein mathematisches Modell der Strömungsverhältnisse in einem derartig definierten Vokaltrakt erzeugt und das Sprachsignal mit Hilfe dieses Modells berechnet. Another method consists in the simulation of the vocal tract, in which its Shape and position of the individual articulation organs (tongue, jaw, lips) is reproduced. For this, a mathematical model of the flow conditions is used generated in such a defined vocal tract and the speech signal with the help of this model.
Im folgenden sollen weitere Begriffe und Verfahren, die im Zusammenhang mit der Sprachsynthese Verwendung finden, kurz erläutert werden.The following are additional terms and procedures related to the Speech synthesis will be used, briefly explained.
Die bei der direkten Synthese verwendeten Phoneme bzw. Diphone müssen zunächst durch Segmentierung aus natürlicher Sprache gewonnen werden. Hierbei können zwei Ansätze unterschieden werden:The phonemes or diphones used in direct synthesis must first can be obtained from natural language by segmentation. Here you can two approaches can be distinguished:
Bei der impliziten Segmentierung werden nur die im Sprachsignal selbst enthaltenen Informationen zur Segmentierung verwendet. Die explizite Segmentierung hingegen nutzt zusätzliche Informationen, wie z.B. die Anzahl der in der Äußerung enthaltenen Phoneme.With implicit segmentation, only those contained in the speech signal itself are used Segmentation information used. The explicit segmentation, however, uses additional information, such as the Number of phonemes contained in the utterance.
Zur Segmentierung müssen zunächst Merkmale aus dem Sprachsignal extrahiert
werden, anhand derer eine Unterscheidung der Segmente möglich wird.
Anschließend werden diese Merkmale in Klassen eingeordnet.
Möglichkeiten zur Merkmalsextraktion bieten unter anderem Spektralanalysen,
Filterbankanalysen oder das Verfahren der Linearen Prädiktion.For segmentation, features must first be extracted from the speech signal, on the basis of which it is possible to distinguish between the segments.
These characteristics are then classified into classes.
Features for feature extraction include spectral analysis, filter bank analysis or the method of linear prediction.
Für die Klassifikation können beispielsweise Hidden Markov Modelle, künstliche neuronale Netze oder Dynamic Time Warping (ein Verfahren zur Zeitnormalisierung) benutzt werden.For the classification, for example, Hidden Markov models, artificial ones neural networks or dynamic time warping (a method for time normalization) to be used.
Das Hidden-Markov-Modell (HMM) ist ein zweistufiger stochastischer Prozess. Er besteht aus einer Markov-Kette mit einer meist geringen Zahl von Zuständen, denen Wahrscheinlichkeiten bzw. Wahrscheinlichkeitsdichten zugeordnet sind. Beobachtbar sind die Sprachsignale bzw. deren durch Wahrscheinlichkeitsdichten beschriebene Parameter. Die durchlaufende Zustandsfolge selbst bleibt verborgen. HMMs haben sich wegen ihrer Leistungsfähigkeit, Robustheit und guten Trainierbarkeit in der Spracherkennung weithin durchgesetzt.The Hidden Markov Model (HMM) is a two-step stochastic process. He consists of a Markov chain with a mostly small number of states, the Probabilities or probability densities are assigned. observable are the speech signals or those described by probability densities Parameter. The continuous state sequence itself remains hidden. Have HMMs because of their performance, robustness and good trainability in the Speech recognition widely used.
Mit Hilfe des sogenannten Viterbi-Algorithmus kann die Übereinstimmung mehrerer
HMMs bestimmt werden.
In neueren Ansätzen werden zur Klassifikation vielfach selbstorganisierende
Merkmalskarten (Kohonen-Maps) verwendet. Diese spezielle Art eines Künstlichen
Neuronalen Netzes ist in der Lage, die im menschlichen Gehirn ablaufenden
Vorgänge nachzubilden. With the help of the so-called Viterbi algorithm the correspondence of several HMMs can be determined.
In more recent approaches, self-organizing feature maps (Kohonen maps) are often used for classification. This special type of artificial neural network is able to simulate the processes taking place in the human brain.
Ein verbreiteter Ansatz ist die Klassifizierung in Stimmhaft / Stimmlos / Stille - gemäß der verschiedenen Anregungsformen bei der Erzeugung von Sprache im Vokaltrakt.A common approach is the classification of voiced / unvoiced / silent - according to the different forms of stimulation in the generation of language in Vocal tract.
Gleichgültig, welche der eben genannten Synthesetechniken auch angewendet wird, bleibt bei text-basierten Syntheseanordnungen das Problem, dass, auch wenn zwischen der Aussprache einer als Text vorliegenden bzw. gespeicherten Zeichenfolge eine relativ große Korrelation gegeben ist, in jeder Sprache Worte vorhanden sind, bei denen aus der Schreibweise nicht ohne weiteres auf deren Aussprache geschlossen werden kann. Insbesondere für Eigennamen ist es vielfach nicht möglich, allgemeine phonetische Regeln zur Aussprache anzugeben. So haben zum Beispiel die beiden Städtenamen Itzehoe und Laboe die gleiche Endung, wenngleich Itzehoe mit "oe" und Laboe mit "ö" ausgesprochen wird. Liegen die jeweiligen Worte, die zur synthetischen Wiedergabe bestimmt sind, als Zeichenfolge vor, führt die Anwendung einer allgemeinen Regel dazu, dass in dem obigen Beispiel beiden Städtenamen entweder durchgängig mit "ö" oder "oe" ausgesprochen werden, was im Falle der "ö-Version" für Itzehoe und im Fall der "oe-Version" für Laboe aussprachetechnisch falsch wäre. Will man diese Besonderheiten berücksichtigen, ist es notwendig, dass die entsprechenden Worte dieser Sprache zur Wiedergabe einer besonderen Behandlung unterzogen werden müssen. Dies bedeutet aber gleichzeitig, dass keine rein text-basierte Eingabe der zur späteren Wiedergabe vorgesehenen Wörter mehr möglich ist.Regardless of which of the above-mentioned synthesis techniques is also used, the problem with text-based synthesis arrangements remains that, even if between the pronunciation of a text that is stored or saved String has a relatively large correlation, words in any language are available, from which the spelling is not readily based on their Pronunciation can be closed. It is particularly common for proper names not possible to specify general phonetic rules for pronunciation. Have so for example the two city names Itzehoe and Laboe have the same ending, although Itzehoe is pronounced with "oe" and Laboe with "ö". Are they lying respective words intended for synthetic reproduction as a string Before applying a general rule leads to that in the example above both city names are pronounced either consistently with "ö" or "oe", what in the case of the "ö version" for Itzehoe and in the case of the "oe version" for Laboe would be wrong in pronunciation. If one wants to take these special features into account, is it is necessary that the appropriate words of that language are used to represent a must undergo special treatment. But at the same time this means that no purely text-based entry of those intended for later playback Words more is possible.
Das Dokument "Automated generation of N-Best prononciations of proper nouns", N. Deshmukh et al., ICASSP 96, Atlanta, Mai 1996, befaßt sich mit der Ausprache von Eigennamen.The document "Automated generation of N-Best pronunciations of proper nouns", Deshmukh, N. et al., ICASSP 96, Atlanta, May 1996, deals with the pronunciation of proper names.
Da die besondere Behandlung von bestimmten Wörtern einer Sprache außerordentlich aufwendig ist, ist man bei sprachgesteuerten Anordnungen dazu übergegangen, die Ansage, welche eine Anordnung angeben soll, aus einem Mix von gesprochener und synthetisierter Sprache zu bilden. Dazu wird beispielsweise bei einem Routefinder der gewünschte Zielort, welcher gegenüber den übrigen Worten der entsprechenden Sprache oftmals aussprachetechnische Besonderheiten ausweist und welcher bei sprachgesteuerten Anordnungen von einem Benutzer vorgegeben wird, aufgenommen und in die entsprechende Zielansage hineinkopiert. Dies führt dann dazu, dass bei der Zielansage "In drei Kilometern erreichen sie Itzehoe" nur der kursiv geschriebene Teil synthetisiert wurde und der restliche Teil "Itzehoe" aus der Zieleingabe des Benutzers entnommen wurde. Die gleichen Gegebenheiten treten auch bei der Einrichtung vom Mailboxen auf, bei denen bei der Einrichtung der Nutzer seinen Namen eingeben muss. Dort wird auch zur Vermeidung des Aufwands der entsprechende Ansagetext, der bei Verbindung eines Anrufers mit der Mailbox wiedergeben wird, aus dem synthetisierten Teil "Sie sind verbunden mit der Mailbox von" und dem originalen - bei der Einrichtung der Mailbox aufgenommenen - Teil "Otto Berger" gebildet.Since the special treatment of certain words of a language is extremely complex, it has been used in speech-controlled arrangements to form the announcement, which an arrangement is to indicate, from a mix of spoken and synthesized language. For this purpose, the desired destination is recorded for a route finder, for example, which has special features in terms of pronunciation compared to the other words of the corresponding language and which is specified by a user in the case of voice-controlled arrangements, and copied into the corresponding destination announcement. This leads to the fact that in the destination announcement " In three kilometers you reach Itzehoe" only the part in italics was synthesized and the remaining part "Itzehoe" was taken from the destination input of the user. The same conditions also occur when setting up mailboxes, in which the user must enter his name when setting up. There, in order to avoid the expense, the corresponding announcement text, which is reproduced when a caller is connected to the mailbox, is made up of the synthesized part "You are connected to the mailbox from" and the original part - recorded when the mailbox was set up - "Otto Berger " educated.
Abgesehen davon, dass zusammengesetzte Ansagen der vorbeschriebenen Art einen eher wenig professionellen Eindruck hinterlassen, können sie auch durch die Einbindung der Originalsprache zu Abhörproblemen führen. In diesem Zusammenhang sei nur auf die Spracheingabe in lärmbelasteter Umgebung hingewiesen. Daher liegt der Erfindung die Aufgabe zugrunde, ein Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese anzugeben, bei welchem die im Stand der Technik gegebenen Nachteile beseitigt werden.Apart from the fact that composite announcements of the type described above they can leave a rather unprofessional impression, too the integration of the original language can lead to bugging problems. In this The relationship is only to voice input in a noisy environment pointed. The invention is therefore based on the object of a reproduction method for voice-controlled systems with text-based speech synthesis specify at which the disadvantages given in the prior art are eliminated become.
Diese Aufgabe wird mit den in Anspruch 1 angegebenen Merkmalen gelöst. Vorteilhafte Aus- und Weiterbildungen der Erfindung sind den Ansprüchen 2 bis 10 entnehmbar.This object is achieved with the features specified in claim 1. Advantageous further developments of the invention are claims 2 to 10 removable.
Wird gemäß Anspruch 1 beim Vorliegen einer tatsächlich gesprochenen und mit einer gespeicherten Zeichenkette korrespondierenden Spracheingabe vor einer tatsächlichen Wiedergabe der nach allgemeinen Regeln phonetisch beschriebenen und in eine rein synthetische Form gewandelten Zeichenkette die gewandelte Zeichenkette mit der gesprochenen Spracheingabe verglichen und erfolgt die tatsächliche Wiedergabe der gewandelten Zeichenkette erst dann, wenn der Vergleich dieser Zeichenkette mit der tatsächlich gesprochenen Spracheingabe eine unterhalb einer Schwelle liegenden Abweichung zeigt, wird die Verwendung der Originalsprache bei der Wiedergabe entsprechend dem Stand der Technik überflüssig. Dies ist selbst dann der Fall, wenn das gesprochene Wort von der diesem Wort entsprechenden, gewandelten Zeichenfolge erheblich abweicht. Hierbei muss lediglich sichergestellt werden, dass von der gewandelten Zeichenkette wenigstens eine Variante gebildet wird und dass die gebildete Variante, sofern diese bei einem Vergleich mit der originalen Spracheingabe eine unterhalb der Schwelle liegende Abweichung aufweist, anstelle der -ursprünglich- gewandelten Zeichenkette ausgegeben wird. Is according to claim 1 in the presence of an actually spoken and with a stored character string corresponding voice input in front of a actual reproduction of those described phonetically according to general rules and the character string converted into a purely synthetic form Character string compared with the spoken voice input and takes place actual rendering of the converted string only when the comparison this string with the actual spoken voice input one below shows a threshold deviation, the use of the original language superfluous when playing according to the state of the art. This is the case even if the spoken word differs from that word corresponding, converted string differs significantly. Here must only ensure that at least of the converted string a variant is formed and that the variant formed, provided that this is in a Comparison with the original voice input is below the threshold Shows deviation instead of the originally changed character string is issued.
Wird das Verfahren gemäß Anspruch 2 durchgeführt, ist der Rechen- und Speicheraufwand relativ gering. Dies ist darauf zurückzuführen, dass immer nur eine Variante gebildet und untersucht werden muss.If the method is carried out according to claim 2, the computation and storage effort relatively low. This is due to the fact that there is always only one variant must be formed and examined.
Werden gemäß Anspruch 3 wenigstens zwei Varianten gebildet und wird aus den hergestellten Varianten diejenige herausgesucht, welche die geringsten Abweichungen zur originalen Spracheingabe hat, ist im Gegensatz zur Verfahrensführung gemäß Anspruch 2 immer eine der originalen Spracheingabe entsprechende synthetische Wiedergabe möglich.Are formed according to claim 3 at least two variants and is made in the variants produced, the one that is the least selected Deviations from the original speech input is in contrast to the procedure according to claim 2 always one of the original voice input synthetic reproduction possible.
Die Verfahrensführung wird vereinfacht, wenn gemäß Anspruch 4 eine Segmentierung der Spracheingabe und der gewandelten Zeichenkette bzw. der daraus gebildeten Varianten erfolgt. Diese Segmentierung erlaubt es, Segmente, in denen keine bzw. unter der Schwelle liegende Unterschiede festgestellt werden, von der weiteren Behandlung auszuschließen.The procedure is simplified if, according to claim 4 Segmentation of the speech input and the converted character string or the variants formed therefrom. This segmentation allows segments in where no differences or differences below the threshold are found, of exclude further treatment.
Wird gemäß Anspruch 5 ein gleicher Segmentierungsansatz verwendet, ist der Vergleich besonders einfach, da eine direkte Zuordnung der jeweiligen Segmente gegeben ist.If an identical segmentation approach is used according to claim 5, the Comparison especially easy, because a direct assignment of the respective segments given is.
Wie Anspruch 6 zeigt, können auch verschiedene Segmentierungsansätze verwendet werden. Dies hat insbesondere bei der Betrachtung der originalen Spracheingabe Vorteile, weil dort zur Segmentierung zwingend die im Sprachsignal enthaltenen und nur in einem sehr aufwendigen Schritt ermittelbaren Informationen genutzt werden müssen, während bei der Segmentierung von Zeichenketten sehr einfach die bekannte Anzahl der in der Äußerung enthaltenen Phoneme genutzt werden kann.As shown in claim 6, different segmentation approaches can also be used become. This is especially true when looking at the original voice input Advantages because the segmentation contains those contained in the speech signal and information can only be used in a very complex step must, while the segmentation of strings very simply the well-known Number of phonemes contained in the utterance can be used.
Sehr rationell wird die Verfahrensführung dann, wenn gemäß Anspruch 8 die Segmente ausgeschieden werden, in denen ein hohes Maß an Übereinstimmung besteht, und nur noch das Segment der Zeichenkette, welches zu dem korrespondierenden Segment der originalen Spracheingabe eine oberhalb der Schwelle liegenden Abweichung zeigt, dadurch variiert wird, indem das in dem Segment der Zeichenkette vorliegende Phonem durch ein Ersatzphonem ersetzt wird.The process will be very efficient if, according to claim 8 Segments are eliminated in which there is a high degree of agreement exists, and only the segment of the string that corresponds to the corresponding Segment of the original voice input one above the threshold lying deviation shows, is varied by that in the segment phoneme present in the character string is replaced by a replacement phoneme.
Eine besonders einfache Verfahrensführung wird erreicht, wenn gemäß Anspruch 9 zu jedem Phonem wenigstens ein diesem Phonem ähnliches Ersatzphonem verknüpft bzw. in einer Liste abgelegt ist. A particularly simple procedure is achieved if according to claim 9 at least one replacement phoneme similar to this phoneme is linked to each phoneme or stored in a list.
Die Rechenarbeit wird weiter verringert, wenn gemäß Anspruch 10 bei einer als wiedergabewürdig ermittelten Variante einer Zeichenkette die Besonderheiten, die mit der Wiedergabe der Zeichenkette verbunden sind, zusammen mit der Zeichenkette abgespeichert werden. In diesem Fall ist dann die besondere Aussprache der jeweiligen Zeichenkette bei späterer Nutzung ohne großen Aufwand sofort aus dem Speicher abrufbar.The computing work is further reduced if according to claim 10 at a variant of a character string that is determined to be reproducible, the special features, associated with rendering the string, along with the String can be saved. In this case there is the special pronunciation the respective character string if you use it later without much effort available in the memory.
Es zeigen:
- Fig. 1
- einen schematischen Ablauf gemäß der Erfindung
- Fig. 2
- einen Vergleich von segmentierten Äußerungen
- Fig. 1
- a schematic flow according to the invention
- Fig. 2
- a comparison of segmented utterances
Die Erfindung soll nun anhand der beiden Figuren näher erläutert werden.The invention will now be explained in more detail with reference to the two figures.
Um die Wirkungen der Erfindung besser darlegen zu können, wird von einem sprachgesteuerten System mit text-basierter Sprachsynthese ausgegangen. Derartige Systeme sind beispielsweise in Routefindern oder Mailboxanordnungen realisiert, so dass sich wegen der hohen Verbreitung derartiger Systeme deren Darstellung auf die Dinge beschränken kann, die für die Ausführung der Erfindung zwingend notwendig sind.In order to better demonstrate the effects of the invention, one of speech-controlled system with text-based speech synthesis. such Systems are implemented in route finders or mailbox arrangements, for example that because of the high prevalence of such systems, their representation is based on the Can limit things that are imperative for the implementation of the invention are.
Allen diesen Systemen ist ein Speicher gemein, in welchem eine Mehrzahl von Zeichenketten abgelegt sind. Bei diesen Zeichenketten kann es sich bei einem Routefinder beispielsweise um Straßen- oder Ortsnamen handeln. In einer Mailboxanwendung können dies wie in einem Telefonbuch die Namen von Anschlussinhabern sein. Damit die Speicher leicht mit den entsprechenden Informationen beladen bzw. die gespeicherten Informationen leicht upgedatet werden können, liegen die jeweiligen Zeichenketten als Text vor.All these systems have a memory in which a plurality of Strings are stored. These strings can be one For example, route finders are street or place names. In a mailbox application can do this like in a phone book the names of subscribers his. So that the memory easily with the appropriate information loaded or the stored information can be easily updated, the respective strings are available as text.
In Fig. 1, die den schematischen Ablauf entsprechend dem erfinderischen Verfahren
zeigt, ist ein solcher Speicher mit 10 bezeichnet. Dieser Speicher 10, welcher für die
Darstellung der Erfindung die deutschen Städtenamen enthalten soll, gehört zu einem
Routefinder 11. Außerdem umfasst dieser Routefinder 11 eine Anordnung 12, mit
welcher natürliche Spracheingaben aufgenommen und temporär gespeichert werden
können. Vorliegend ist dies so realisiert, dass die jeweilige Spracheingabe Von einem
Mikrophon 13 erfasst und in einem Sprachspeicher 14 abgelegt wird. Wird nun ein
Benutzer vom Routefinder 11 aufgefordert, seine Zieleingabe zu machen, wird der
jeweils vom Benutzer ausgesprochene Zielort z. B. "Bochum" oder "Itzehoe" vom
Mikrophon 13 erfasst und an den Sprachspeicher 14 weitergeben. Da der Routefinder
11 entweder seinen derzeitigen Standort mitgeteilt bekommen hat oder aber ihn noch
kennt, wird er zunächst anhand der gewünschten Zieleingabe und dem derzeitigen
Standort die entsprechende Fahrtroute zum Zielort ermitteln. Soll der Routefinder 11
die entsprechende Fahrtroute nicht nur graphisch zeigen, sondern gesprochene
Ansage liefern, werden die textlich hinterlegten Zeichenketten der jeweiligen Ansage
nach allgemeinen Regeln phonetisch beschrieben und anschließend für die Sprachausgabe
in eine rein synthetische Form gewandelt. In dem in Fig. 1 gezeigten
Ausführungsbeispiel erfolgt die phonetische Beschreibung der hinterlegten Zeichenketten
im Umsetzer 15 und die Synthetisierung in der nachfolgend angeordneten'
Sprachsynthetisieranordnung 16.In Fig. 1, the schematic flow according to the inventive method
shows, such a memory is designated by 10. This
Solange die über die Spracheingabe aufgerufenen und zur Wiedergabe bestimmten
Zeichenketten in bezug auf ihre jeweilige Aussprache den Regeln der phonetischen
Transkription der Sprache, in welcher der Dialog zwischen dem Benutzer und dem
Routefinder 11 geführt werden soll, folgen, kann die jeweilige Zeichenkette, wenn sie
dem Umsetzer 15 und die Sprachsynthetisieranordnung 16 durchlaufen hat, als ein
den phonetischen Gegebenheiten der jeweiligen Sprache entsprechendes Wort mittels
eines Lautsprechers 17 an die Umwelt abgegeben und von dieser als solches auch
verstanden werden. Dies bedeutet für einen Routefinder 11 der vorbeschriebenen Art,
dass beispielsweise der aus einer Mehrzahl von Zeichenketten bestehende, zur
Wiedergabe bestimmte und über die Spracheingabe initiierte Wiedergabetext "An der
nächsten Kreuzung rechts abbiegen!" problemlos, d.h. entsprechend den phonetischen
Gegebenheiten der Sprache über den Lautsprecher 17 abgegeben und auch verstanden
werden kann, da diese Information keinen Eigentümlichkeiten bei der Wiedergabe
unterliegt.As long as those called up via voice input and intended for playback
Strings related to their respective pronunciation following the rules of phonetic
Transcription of the language in which the dialog between the user and the
Soll aber beispielsweise dem Benutzer nach Eingabe des Zielorts die Möglichkeit
eingeräumt werden, die Richtigkeit seiner Zieleingabe zu überprüfen, wird der
Routefinder 11 nach der Zieleingabe etwa folgenden Satz wiedergeben: "Sie haben
als Ziel Berlin gewählt. Sofern dies nicht Ihren Vorstellungen entspricht, geben sie
jetzt ein neues Ziel ein." Auch wenn diese Information nach allgemeinen Regeln
phonetisch richtig wiedergegeben werden kann, treten dann Probleme auf, wenn das
Ziel nicht Berlin, sondern Laboe sein soll. Wird die Zeichenkette, welche die
textliche Darstellung des Zielortes Laboe im Umsetzer 15 nach allgemeinen Regeln
phonetisch geschrieben und anschließend in der Sprachsynthetisieranordnung 16 zur
Ausgabe über den Lautsprecher 17 wie der übrige Teil der obigen Information in
eine synthetische Form gebracht, wäre das über den Lautsprecher 17 abgegebene
Ergebnis nur dann richtig, wenn nach allgemeinen Regeln die Endung "oe"
grundsätzlich als "ö" wiedergeben wird. Die Richtigkeit der Wiedergabe des Zielorts
Laboe im letzten Fall führt aber dann zwangsläufig zu einer fehlerhaften Wiedergabe,
wenn der Benutzer als Zielort Itzehoe wählt, denn wegen der grundsätzlichen
Aussprache der "oe" als "ö" würde der Zielort dann phonetisch falsch als "Itzehö"
wiedergegeben.However, for example, the user should be able to enter the destination
will be granted to check the correctness of his destination entry, the
Um dies zu vermeiden, ist zwischen der Sprachsynthetisieranordnung 16 und dem
Lautsprecher 17 eine Vergleichsanordnung 18 angeordnet. Dieser Vergleichsanordnung
18 werden der tatsächlich vom Benutzer gesprochene Zielort und die
dem Zielort entsprechende Zeichenkette, nachdem sie den Umsetzer 15 und die
Sprachsynthetisieranordnung 16 durchlaufen hat, zugeführt und anschließend
verglichen. Zeigt die synthetisierte Zeichenkette eine hohe - oberhalb einer Schwelle
liegenden - Übereinstimmung mit dem original gesprochenen Zielort, wird für die
Wiedergabe die synthetisierte Zeichenkette verwendet. Kann diese Übereinstimmung
nicht festgestellt werden, wird in der Sprachsynthetisieranordnung 16 eine Variante
der ursprünglichen Zeichenkette gebildet und im Vergleicher 18 erneut ein
Vergleich zwischen dem original gesprochenen Zielort und der gebildeten Variante
durchgeführt.To avoid this, is between the
Ist der Routefinder 11 so ausgebildet, dass sobald eine Zeichenkette bzw. eine
Variante die geforderte Übereinstimmung mit dem Original aufweist, deren
Wiedergabe über den Lautsprecher 17 erfolgt, werden weitere Variantenbildungen
sofort gestoppt. Auch kann der Routefinder 11 so modifiziert sein, dass eine
Mehrzahl von Varianten gebildet werden und dann aus den Varianten diejenige
Variante ausgewählt wird, die die größte Übereinstimmung mit dem Original
zeigt. Is the
Wie der Vergleich im Vergleicher 18 ausgeführt wird, wird im Zusammenhang mit
Fig. 2a und b näher gezeigt. Dort ist in Fig. 2a ein Sprachsignal im Zeitbereich des
tatsächlich von einem Benutzer gesprochenen Wortes Itzehoe dargestellt. Fig. 2b
zeigt ebenfalls ein Sprachsignal im Zeitbereich des Wortes Itzehoe, wobei jedoch im
in Fig. 2b gezeigten Fall das Wort Itzehoe aus einer entsprechend vorliegenden
Zeichenkette zunächst im Umsetzer 15 nach allgemeinen Regeln phonetisch
beschrieben und dann anschließend in der Sprachsynthetisieranordnung 16 in eine
synthetische Form gebracht wurde. Deutlich ist der Darstellung gemäß Fig. 2b
entnehmbar, dass bei Anwendung der allgemeinen Regeln die Endung "oe" des
Wortes Itzehoe als "ö" wiedergeben wird. Um jedoch diese fehlerhafte Wiedergabe
auszuschließen, werden die gesprochene und die synthetisierte Form in einem
Vergleicher 18 miteinander verglichen.How the comparison is performed in
Um diesen Vergleich zu vereinfachen, werden sowohl die gesprochene als auch die
synthetisierte Form in Segmente 19, 20 unterteilt und dann der Vergleich zwischen
korrespondierenden Segmenten 19/20 durchgeführt. In dem in Fig. 2a und b
gezeigten Ausführungsbeispiel zeigt sich, dass lediglich in den beiden letzten
Segmenten 19.6, 20.6 eine starke Abweichung gegeben ist, während der Vergleich
der übrigen Segmentpaare 19.1/20.1, 19.2/20.2 ... 19.5/20.5 eine relativ große
Übereinstimmung zeigen. Wegen der starken Abweichung in dem Segmentpaar
19.6/20.6 wird die phonetische Beschreibung im Segment 20.6 anhand einer in einem
Speicher 21 (Fig. 1) hinterlegten Liste, welche besser passende bzw. ähnliche
Phoneme enthält, verändert. Da vorliegend das fragliche Phonem "ö" ist und die Liste
mit ähnlichen Phonemen die Ersatzphoneme "o" und "oh" vorsieht, wird das Phonem
"ö" gegen das Ersatzphonem "o" ausgetauscht. Dazu wird die hinterlegte
Zeichenkette in einem Umsetzer 15' (Fig. 1) erneut phonetisch beschrieben, in der
Sprachsynthetisieranordnung 16 in eine synthetische Form gebracht und erneut mit
der tatsächlich gesprochenen Zieleingabe im Vergleicher 18 verglichen.To simplify this comparison, both the spoken and the
synthesized form divided into segments 19, 20 and then the comparison between
corresponding segments carried out 19/20. In the in Fig. 2a and b
The embodiment shown shows that only in the last two
Segments 19.6, 20.6 there is a large deviation during the comparison
the other segment pairs 19.1 / 20.1, 19.2 / 20.2 ... 19.5 / 20.5 a relatively large one
Show agreement. Because of the large deviation in the pair of segments
19.6 / 20.6 the phonetic description in segment 20.6 is based on one in one
Memory 21 (Fig. 1) stored list, which better fitting or similar
Contains phonemes, changes. Since the present phoneme is "ö" and the list
with similar phonemes that provide replacement phonemes "o" and "oh", the phoneme
"ö" replaced by the replacement phoneme "o". For this, the deposited
Character string in a converter 15 '(Fig. 1) again described phonetically in the
Nur der Vollständigkeit halber sei darauf hingewiesen, dass der Umsetzer 15' in einem anderen - nicht dargestellten - Ausführungsbeispiel auch vom Umsetzer 15 gebildet sein kann.For the sake of completeness, it should be pointed out that the converter 15 'in another - not shown - embodiment of the converter 15th can be formed.
Zeigt sich, dass die entsprechend modifizierte Zeichenkette, welche im
Zusammenhang mit dieser Anmeldung auch als Variante bezeichnet wird, keine
oberhalb einer Schwelle liegende Übereinstimmung mit dem gesprochenen Wort hat,
wird die Prozedur mit einem weiteren Ersatzphonem nochmals ausgeführt. Liegt der
Grad der Übereinstimmung dann oberhalb der Schwelle, wird das entsprechend
synthetisierte Wort über den Lautsprecher 17 ausgegeben.It turns out that the correspondingly modified character string, which in the
In connection with this application is also referred to as a variant, none
matches the spoken word above a threshold,
the procedure is repeated with another replacement phoneme. Is the
Degree of agreement then above the threshold, it will be accordingly
synthesized word output through the
Auch kann der Verfahrensablauf modifiziert sein. Wird festgestellt, dass eine
Abweichung zwischen der gesprochenen und der ursprünglichen synthetischen Form
gegeben ist, und liegen eine Mehrzahl von Ersatzphonemen in der im Speicher 21
ablegten Liste vor, können auch gleichzeitig eine Mehrzahl von Varianten gebildet
und mit dem tatsächlich gesprochenen Wort verglichen werden. Wiedergegeben wird
dann diejenige Variante, die die größte Übereinstimmung mit dem gesprochenen
Wort zeigt.The process sequence can also be modified. It is found that a
Deviation between the spoken and the original synthetic form
is given, and there are a plurality of replacement phonemes in the
Soll vermieden werden, dass bei der mehrfachen Benutzung von Worten, die die
obige Prozedur auslösen können, immer die richtige -synthetische- Aussprache
aufwendig ermittelt werden muss, kann, wenn beispielweise die richtige synthetische
Aussprache zum Beispiel des Wortes Itzehoe ermittelt worden ist, die entsprechende
Modifikation mit Hinweis auf die Zeichenkette Itzehoe gespeichert werden. Dies
bedeutet, dass bei eine erneuten Anforderung der Zeichenkette Itzehoe gleichzeitig
zur richtigen Aussprache dieses Wortes die von der phonetischen Beschreibung nach
allgemeinen Regeln abweichenden Besonderheiten berücksichtigt werden, so dass der
Vergleichsschritt im Vergleicher 18 entfallen kann. Um diese Modifikation sichtbar
zu machen, wurde in Fig. 1 ein Zusatzspeicher 22 gestrichelt angedeutet, in welchem
die auf Modifikationen von hinterlegten Zeichenketten hinweisenden Informationen
abgelegt werden.Should be avoided that the multiple use of words that the
can trigger the above procedure, always the correct - synthetic - pronunciation
can be elaborately determined if, for example, the correct synthetic
Pronunciation for example of the word Itzehoe has been identified, the corresponding
Modification with reference to the string Itzehoe can be saved. This
means that if the Itzehoe string is requested again at the same time
for the correct pronunciation of this word from the phonetic description
General rules deviating special features are taken into account, so that the
Comparative step in the
Nur der Vollständigkeit halber sei auch darauf hingewiesen, dass der Zusatzspeicher
22 nicht nur auf die Aufnahme von Informationen zur richtigen Aussprache von
hinterlegten Zeichenketten beschränkt ist. Ergibt beispielsweise ein Vergleich im
Vergleicher 18, dass zwischen der gesprochenen und der synthetisierten Form eines
Wortes keine bzw. unterhalb einer Schwelle liegende Abweichung gegeben sind,
kann im Zusatzspeicher 22 für dieses Wort ein Hinweis hinterlegt werden, welcher
bei der künftigen Verwendung dieses Wortes einen aufwendigen Vergleich im
Vergleicher 18 ausschließt.Just for the sake of completeness, it should also be noted that the
Auch ist den Fig. 2a und b entnehmbar, dass die Segmente 19 gemäß Fig. 2a und
die Segmente 20 gemäß Fig. 2b kein gleiches Format besitzen. So hat beispielsweise
das Segment 20.1 im Vergleich zum Segment 19.1 eine größere Breite, während
das Segment 20.2 gegenüber dem korrespondierenden Segment 19.2. wesentlich
schmaler ausgebildet ist. Dies ist darauf zurückzuführen, dass die "Sprechlänge" der
verschiedenen zum Vergleich anstehenden Phoneme unterschiedlich lang sein kann.
Da aber derart unterschiedliche lange Sprechzeiten nicht ausgeschlossen werden
können, ist die Vergleichsanordnung 18 so ausgelegt, dass verschieden lange
Aussprechzeiten eines Phonemes noch keine gegenseitige Abweichung indizieren.It can also be seen from FIGS. 2a and b that the segments 19 according to FIGS. 2a and
the segments 20 according to FIG. 2b do not have the same format. For example
segment 20.1 has a greater width compared to segment 19.1, while
the segment 20.2 compared to the corresponding segment 19.2. essential
is narrower. This is due to the fact that the "speech length" of the
different phonemes to be compared can be of different lengths.
However, since such long speaking times cannot be ruled out
can, the
Nur der Vollständigkeit halber sei darauf hingewiesen, dass bei der Verwendung von verschiedenen Segmentierungsverfahren für das gesprochene und das synthetisierte Format auch eine unterschiedliche Anzahl von Segmenten 19, 20 berechnet werden können. Tritt dies ein, sollte dann ein bestimmtes Segment 19, 20 nicht nur mit einem korrespondieren Segment 19, 20 verglichen werden, sondern ebenfalls mit dem Vorgänger und Nachfolger des korrespondierenden Segments 19, 20. Somit ist es auch möglich, ein Phonem durch zwei andere Phoneme zu ersetzen. Dieses Vorgehen ist in umgekehrter Richtung ebenfalls möglich. Gibt es keine Übereinstimmung für ein Segment 19, 20, so kann dieses ausgeschlossen, oder durch zwei besser passende ersetzt werden.For the sake of completeness, it should be noted that when using different segmentation methods for the spoken and the synthesized Format also a different number of segments 19, 20 can be calculated can. If this occurs, then a certain segment 19, 20 should not only have one correspond to segment 19, 20, but also with the Predecessor and successor of the corresponding segment 19, 20. So it is also possible to replace one phoneme with two other phonemes. This procedure is also possible in the opposite direction. There is no match for a segment 19, 20, this can be excluded, or by two better fitting ones be replaced.
Claims (10)
- A reproduction method for voice-controlled systems with text-based speech synthesis,
characterized in that
when there is actual spoken speech input that corresponds to a stored train of characters, the converted train of characters is compared to the speech input before reproduction of the train of characters described phonetically according to general rules and converted to a purely synthetic form,
that when a deviation is detected in the converted train of characters that has a value above a threshold value, at least one variation of the converted train of characters is created and
that one of the variations created will be output instead of the converted train of characters as long as the deviation of this variation from the speech input is below the threshold value when the two are compared. - A reproduction method according to Claim 1,
characterized in that
only one variation is ever created in step two and
that step two will be executed at least one more time to create a new variation if in step three the deviation of the variation from the speech input is always above the threshold value when the two are compared. - A reproduction method according to Claim 1,
characterized in that
at least two variations will be created in step two and
when there is more than one variation having a deviation from the speech input that is below the threshold value, the variation with the smallest deviation from the speech input will be reproduced. - A method according to one of Claims 1 through 3,
characterized in that
before comparing the speech input with the converted train of characters or the variation(s) created from it, the speech input and the converted train of characters or the variation(s) created will be segmented. - A reproduction method according to Claim 4,
characterized in that
the same segmenting approach will be used to segment the speech input and the converted train of characters or the variation(s) created from it. - A reproduction method according to Claim 4,
characterized in that
different segmenting approaches will be used to segment the speech input and the converted train of characters or the variation(s) created from it. - A reproduction method according to Claim 4,
characterized in that
an explicit segmenting approach will be used to segment the converted train of characters or the variation(s) created from it, and an implicit segmenting approach will be used to segment the speech input - A reproduction method according to one of Claims 4 through 7,
characterized in that
the corresponding segments of the converted train of characters provided in segmented form and of the segmented speech input will be examined for common features and
that the phoneme present in the segment of the converted train of characters will be replaced by a replacement phoneme when there is a deviation in two corresponding segments that is above the threshold value. - A reproduction method according to Claim 8,
characterized in that
each phoneme is linked to at least one replacement phoneme that is similar to the phoneme. - A reproduction method according to one of Claims 1 through 9,
characterized in that
as soon as a variation of a train of characters has been determined to be worthy of reproduction, the peculiarities arising in conjunction with the reproduction of the train of characters will be stored with a reference to the train of characters.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19920501 | 1999-05-05 | ||
DE19920501A DE19920501A1 (en) | 1999-05-05 | 1999-05-05 | Speech reproduction method for voice-controlled system with text-based speech synthesis has entered speech input compared with synthetic speech version of stored character chain for updating latter |
Publications (3)
Publication Number | Publication Date |
---|---|
EP1058235A2 EP1058235A2 (en) | 2000-12-06 |
EP1058235A3 EP1058235A3 (en) | 2003-02-05 |
EP1058235B1 true EP1058235B1 (en) | 2003-11-05 |
Family
ID=7906935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP00108486A Expired - Lifetime EP1058235B1 (en) | 1999-05-05 | 2000-04-19 | Reproduction method for voice controlled systems with text based speech synthesis |
Country Status (5)
Country | Link |
---|---|
US (1) | US6546369B1 (en) |
EP (1) | EP1058235B1 (en) |
JP (1) | JP4602511B2 (en) |
AT (1) | ATE253762T1 (en) |
DE (2) | DE19920501A1 (en) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4759827B2 (en) * | 2001-03-28 | 2011-08-31 | 日本電気株式会社 | Voice segmentation apparatus and method, and control program therefor |
US7107215B2 (en) * | 2001-04-16 | 2006-09-12 | Sakhr Software Company | Determining a compact model to transcribe the arabic language acoustically in a well defined basic phonetic study |
AT6920U1 (en) | 2002-02-14 | 2004-05-25 | Sail Labs Technology Ag | METHOD FOR GENERATING NATURAL LANGUAGE IN COMPUTER DIALOG SYSTEMS |
DE10253786B4 (en) * | 2002-11-19 | 2009-08-06 | Anwaltssozietät BOEHMERT & BOEHMERT GbR (vertretungsberechtigter Gesellschafter: Dr. Carl-Richard Haarmann, 28209 Bremen) | Method for the computer-aided determination of a similarity of an electronically registered first identifier to at least one electronically detected second identifier as well as apparatus and computer program for carrying out the same |
ATE366912T1 (en) * | 2003-05-07 | 2007-08-15 | Harman Becker Automotive Sys | METHOD AND DEVICE FOR VOICE OUTPUT, DATA CARRIER WITH VOICE DATA |
ATE417347T1 (en) * | 2003-11-05 | 2008-12-15 | Koninkl Philips Electronics Nv | ERROR DETECTION FOR VOICE TO TEXT TRANSCRIPTION SYSTEMS |
JP2006047866A (en) * | 2004-08-06 | 2006-02-16 | Canon Inc | Electronic dictionary device and control method thereof |
US20060136195A1 (en) * | 2004-12-22 | 2006-06-22 | International Business Machines Corporation | Text grouping for disambiguation in a speech application |
JP4385949B2 (en) * | 2005-01-11 | 2009-12-16 | トヨタ自動車株式会社 | In-vehicle chat system |
US20070016421A1 (en) * | 2005-07-12 | 2007-01-18 | Nokia Corporation | Correcting a pronunciation of a synthetically generated speech object |
US20070129945A1 (en) * | 2005-12-06 | 2007-06-07 | Ma Changxue C | Voice quality control for high quality speech reconstruction |
US8504365B2 (en) * | 2008-04-11 | 2013-08-06 | At&T Intellectual Property I, L.P. | System and method for detecting synthetic speaker verification |
US8494854B2 (en) | 2008-06-23 | 2013-07-23 | John Nicholas and Kristin Gross | CAPTCHA using challenges optimized for distinguishing between humans and machines |
US9266023B2 (en) * | 2008-06-27 | 2016-02-23 | John Nicholas and Kristin Gross | Pictorial game system and method |
US9564120B2 (en) * | 2010-05-14 | 2017-02-07 | General Motors Llc | Speech adaptation in speech synthesis |
KR20170044849A (en) * | 2015-10-16 | 2017-04-26 | 삼성전자주식회사 | Electronic device and method for transforming text to speech utilizing common acoustic data set for multi-lingual/speaker |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2435654C2 (en) * | 1974-07-24 | 1983-11-17 | Gretag AG, 8105 Regensdorf, Zürich | Method and device for the analysis and synthesis of human speech |
NL8302985A (en) * | 1983-08-26 | 1985-03-18 | Philips Nv | MULTIPULSE EXCITATION LINEAR PREDICTIVE VOICE CODER. |
US5029200A (en) * | 1989-05-02 | 1991-07-02 | At&T Bell Laboratories | Voice message system using synthetic speech |
US5293449A (en) * | 1990-11-23 | 1994-03-08 | Comsat Corporation | Analysis-by-synthesis 2,4 kbps linear predictive speech codec |
GB9223066D0 (en) * | 1992-11-04 | 1992-12-16 | Secr Defence | Children's speech training aid |
FI98163C (en) * | 1994-02-08 | 1997-04-25 | Nokia Mobile Phones Ltd | Coding system for parametric speech coding |
US6005549A (en) * | 1995-07-24 | 1999-12-21 | Forest; Donald K. | User interface method and apparatus |
US5913193A (en) * | 1996-04-30 | 1999-06-15 | Microsoft Corporation | Method and system of runtime acoustic unit selection for speech synthesis |
JPH10153998A (en) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | Auxiliary information utilizing type voice synthesizing method, recording medium recording procedure performing this method, and device performing this method |
US6163769A (en) * | 1997-10-02 | 2000-12-19 | Microsoft Corporation | Text-to-speech using clustered context-dependent phoneme-based units |
US6081780A (en) * | 1998-04-28 | 2000-06-27 | International Business Machines Corporation | TTS and prosody based authoring system |
US6173263B1 (en) * | 1998-08-31 | 2001-01-09 | At&T Corp. | Method and system for performing concatenative speech synthesis using half-phonemes |
US6266638B1 (en) * | 1999-03-30 | 2001-07-24 | At&T Corp | Voice quality compensation system for speech synthesis based on unit-selection speech database |
-
1999
- 1999-05-05 DE DE19920501A patent/DE19920501A1/en not_active Withdrawn
-
2000
- 2000-04-19 AT AT00108486T patent/ATE253762T1/en not_active IP Right Cessation
- 2000-04-19 EP EP00108486A patent/EP1058235B1/en not_active Expired - Lifetime
- 2000-04-19 DE DE50004296T patent/DE50004296D1/en not_active Expired - Lifetime
- 2000-04-27 JP JP2000132902A patent/JP4602511B2/en not_active Expired - Fee Related
- 2000-05-05 US US09/564,787 patent/US6546369B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP4602511B2 (en) | 2010-12-22 |
DE19920501A1 (en) | 2000-11-09 |
EP1058235A2 (en) | 2000-12-06 |
US6546369B1 (en) | 2003-04-08 |
EP1058235A3 (en) | 2003-02-05 |
DE50004296D1 (en) | 2003-12-11 |
ATE253762T1 (en) | 2003-11-15 |
JP2000347681A (en) | 2000-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60203705T2 (en) | DESCRIPTION AND DISPLAY OF A PRESENT LANGUAGE SIGNAL | |
DE602004012909T2 (en) | A method and apparatus for modeling a speech recognition system and estimating a word error rate based on a text | |
EP1058235B1 (en) | Reproduction method for voice controlled systems with text based speech synthesis | |
EP1466317B1 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
DE602005002706T2 (en) | Method and system for the implementation of text-to-speech | |
DE69937176T2 (en) | Segmentation method to extend the active vocabulary of speech recognizers | |
DE69832393T2 (en) | LANGUAGE RECOGNITION SYSTEM FOR THE DETECTION OF CONTINUOUS AND ISOLATED LANGUAGE | |
DE60111329T2 (en) | Adapting the phonetic context to improve speech recognition | |
DE19610019C2 (en) | Digital speech synthesis process | |
EP0925578B1 (en) | Speech-processing system and method | |
DE19825205C2 (en) | Method, device and product for generating post-lexical pronunciations from lexical pronunciations with a neural network | |
DE19847419A1 (en) | Procedure for the automatic recognition of a spoken utterance | |
EP1273003B1 (en) | Method and device for the determination of prosodic markers | |
EP3010014B1 (en) | Method for interpretation of automatic speech recognition | |
DE19942178C1 (en) | Method of preparing database for automatic speech processing enables very simple generation of database contg. grapheme-phoneme association | |
EP1264301B1 (en) | Method for recognition of verbal utterances by a non-mother tongue speaker in a speech processing system | |
DE60108104T2 (en) | Method for speaker identification | |
DE60018696T2 (en) | ROBUST LANGUAGE PROCESSING OF CHARACTERED LANGUAGE MODELS | |
EP1282897B1 (en) | Method for creating a speech database for a target vocabulary in order to train a speech recognition system | |
DE10040063A1 (en) | Procedure for assigning phonemes | |
EP1435087B1 (en) | Method for producing reference segments describing voice modules and method for modelling voice units of a spoken test model | |
DE60021666T2 (en) | Incremental training of a speech recognizer for a new language | |
EP0058130B1 (en) | Method for speech synthesizing with unlimited vocabulary, and arrangement for realizing the same | |
DE4111781A1 (en) | COMPUTER SYSTEM FOR VOICE RECOGNITION | |
EP1224661B1 (en) | Method and arrangement for verifying a speaker with a computer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Kind code of ref document: A2 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE |
|
AX | Request for extension of the european patent |
Free format text: AL;LT;LV;MK;RO;SI |
|
RAP1 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: NOKIA CORPORATION |
|
PUAL | Search report despatched |
Free format text: ORIGINAL CODE: 0009013 |
|
AK | Designated contracting states |
Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE |
|
AX | Request for extension of the european patent |
Extension state: AL LT LV MK RO SI |
|
17P | Request for examination filed |
Effective date: 20030120 |
|
GRAH | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOS IGRA |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
AKX | Designation fees paid |
Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20031105 Ref country code: IT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT;WARNING: LAPSES OF ITALIAN PATENTS WITH EFFECTIVE DATE BEFORE 2007 MAY HAVE OCCURRED AT ANY TIME BEFORE 2007. THE CORRECT EFFECTIVE DATE MAY BE DIFFERENT FROM THE ONE RECORDED. Effective date: 20031105 Ref country code: FI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20031105 Ref country code: CY Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20031105 |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: EP |
|
REF | Corresponds to: |
Ref document number: 50004296 Country of ref document: DE Date of ref document: 20031211 Kind code of ref document: P |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FG4D Free format text: GERMAN |
|
GBT | Gb: translation of ep patent filed (gb section 77(6)(a)/1977) |
Effective date: 20031224 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: SE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040205 Ref country code: GR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040205 Ref country code: DK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040205 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: ES Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040216 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LU Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20040419 Ref country code: AT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20040419 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: MC Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20040430 Ref country code: CH Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20040430 Ref country code: BE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20040430 Ref country code: LI Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20040430 |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FD4D |
|
ET | Fr: translation filed | ||
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
26N | No opposition filed |
Effective date: 20040806 |
|
BERE | Be: lapsed |
Owner name: *NOKIA CORP. Effective date: 20040430 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PL |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: PT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20040405 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: DE Payment date: 20120425 Year of fee payment: 13 Ref country code: NL Payment date: 20120413 Year of fee payment: 13 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: FR Payment date: 20120504 Year of fee payment: 13 Ref country code: GB Payment date: 20120418 Year of fee payment: 13 |
|
REG | Reference to a national code |
Ref country code: NL Ref legal event code: V1 Effective date: 20131101 |
|
GBPC | Gb: european patent ceased through non-payment of renewal fee |
Effective date: 20130419 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20131101 Ref country code: GB Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20130419 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: ST Effective date: 20131231 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R119 Ref document number: 50004296 Country of ref document: DE Effective date: 20131101 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: FR Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20130430 Ref country code: NL Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20131101 |