EP1170723B1 - Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese - Google Patents

Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese Download PDF

Info

Publication number
EP1170723B1
EP1170723B1 EP01114696A EP01114696A EP1170723B1 EP 1170723 B1 EP1170723 B1 EP 1170723B1 EP 01114696 A EP01114696 A EP 01114696A EP 01114696 A EP01114696 A EP 01114696A EP 1170723 B1 EP1170723 B1 EP 1170723B1
Authority
EP
European Patent Office
Prior art keywords
statistic
phonemes
primary
phoneme
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP01114696A
Other languages
English (en)
French (fr)
Other versions
EP1170723A2 (de
EP1170723A3 (de
Inventor
Martin Dr. Holzapfel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unify GmbH and Co KG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of EP1170723A2 publication Critical patent/EP1170723A2/de
Publication of EP1170723A3 publication Critical patent/EP1170723A3/de
Application granted granted Critical
Publication of EP1170723B1 publication Critical patent/EP1170723B1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Definitions

  • the present invention relates to a method for generating statistics of phoneme durations and to a method for determining the duration of individual phones for speech synthesis.
  • a phoneme is the smallest meaningful but not self-meaningful linguistic entity (e.g., b in leg as opposed to p in pein).
  • a phon is, however, the pronounced sound of a phoneme.
  • a phoneme of the triphone in its left-right context is assigned a mean phoneme length or sound duration.
  • This phoneme duration is determined from all the phonets of the spoken text which occur in the same context in the spoken text as in the respective triphone, that is to say their neighboring phones correspond to the neighboring phonemes in the triphone.
  • the phonemes of the synthesized Text that corresponds to the average sound duration of the phoneme of the statistic whose context in the triphone corresponds to the context of the phoneme in the text to be synthesized. If, for example, the phoneme duration of the phoneme "b" of the word "but" is to be determined, in the known method the phoneme "b" is assigned the phoneme duration which in the statistics is assigned to the phoneme "b" in the triphone "abe".
  • the contexts of the triphone and the text to be synthesized are identical here.
  • the invention is based on the object, a method for generating a statistic of phoneme durations, based on these statistics in synthetic speech production, the Phondauern can be controlled, and to provide a method for determining the duration of individual Phone for speech synthesis, whereby a speech synthesis with more natural pronunciation is to be achieved than in known methods.
  • the object is achieved by a method and / or a device for generating a statistic of phone durations having the features of claims 1 and 14 and by a method and a device for determining the duration of individual phones having the features of claims 11 and 15, respectively.
  • Advantageous embodiments of the invention are specified in the subclaims.
  • the statistics generated by the method according to the invention thus consists of a primary statistics and a secondary statistics.
  • the primary statistics may be based on primary clusters with e.g. each three phonemes are based, so that it corresponds to the statistics explained above based on triphones.
  • the secondary statistics is a further statistic based on secondary clusters, which at least partly differ in the number of phonemes from the number of phonemes of the primary clusters. As a result, a language-specific statistics at the phone duration is achieved.
  • the primary cycle comprises three phonemes and the secondary cycle four phonemes, thereby taking into account a larger context (four phonemes versus three phonemes) in the determination of the average cell durations, so as to achieve a substantially more language-specific evaluation.
  • the primary clusters have a constant number of phonemes, whereas the number of phonemes of the secondary lobes is variable.
  • the primary clusters may each include three phonemes and the secondary clusters may each include all the phonemes of a word. With the aid of these secondary clusters, a word-specific evaluation of the phoneme durations is achieved, which is much more precise than that based on the triphone.
  • only secondary clusters are detected in the secondary statistics whose frequency in the text is greater than or equal to a predetermined minimum frequency. This ensures that statistically significant frequencies are not taken into account. So it is appropriate not to consider words that appear only once or twice in the text on which statistics are based.
  • the language-specific secondary statistics are preferably evaluated in determining the phone durations. It should be noted that in generating the secondary statistics, only identical contexts between the secondary coder and the corresponding section in the spoken and recorded text on which the statistics are based are taken into account, whereas in the case of primary statistics, similar clusters should also be considered, if not identical Match exists. This is another reason why an initial attempt is made to evaluate the secondary statistics before resorting to primary statistics.
  • the standard deviation of the individual average phone duration is taken into account. This causes a further adaptation to a natural pronunciation.
  • FIG. 1 Figure 11 shows the basic procedures for a method of generating a statistic of phoneme durations, on the basis of which, in synthetic speech production, the phoneme duration can be controlled.
  • step S1 a predetermined training text is spoken and recorded by a speaker.
  • the recording takes place by means of a microphone, which converts the acoustic speech signals into corresponding electrical speech signals.
  • the recorded speech signal is segmented into individual phones in step S3.
  • the segmentation of the speech signal into the individual phones is often performed manually by a language expert.
  • Fully and partially automatic methods are also known, which are generally based on an HMM (Hidden Markow Model) algorithm.
  • step S4 the individual phones are statistically evaluated, their duration being determined. Phones of phones assigned to the same phoneme in the same or similar context are statistically evaluated by calculating their means and standard deviations.
  • step S5 this process is ended.
  • the method steps to be carried out according to the invention in the statistical evaluation are in Fig. 2 shown in a flow chart.
  • the statistical evaluation process begins with step S6.
  • the individual phones of the training text are assigned to a primary club.
  • the primary cluster is a triphone consisting of three phonemes.
  • a phoneme of the training text is assigned to that triphone whose middle phoneme corresponds to the phoneme of the training text and which has the same context as the section of the training text in which the phon to be assigned is located. This means, in that the phonemes adjacent to the middle phoneme of the triphone correspond to the neighboring phonons of the phoneme to be assigned to the training text.
  • the primary clusters are stored in a predetermined list. If the primary clusters are triphones, such a list typically comprises 1500 to 2000 triphones. This list contains the most common permutations of three consecutive phonemes. Rare and similar-sounding permutations are summarized in a cluster. Thus, e.g. the triphone "ter” and "the” in a cluster be summarized.
  • the phones are thus assigned to the respective phonemes in the same or similar context.
  • step S8 the average phoneme d 'and the standard deviation G are calculated for the respective middle phoneme of a primary clone each consisting of three phonemes.
  • the loud periods of the individual phones assigned to a primary cluster are averaged and stored as the average sound duration, and the corresponding standard deviation G is calculated.
  • the step S8 thus generates a primary statistic that substantially corresponds to the statistic discussed at the beginning, which is known from the prior art.
  • step S9 the individual Phone secondary clusters are assigned.
  • the secondary clusters each comprise all the phonemes of a word.
  • the length of the secondary cycle is thus variable.
  • the words of the training text are determined and the individual phones of these words are assigned to the corresponding phoneme of the corresponding secondary clause.
  • An essential difference compared to step S7 is that here not only one phoneme is assigned to a cluster, but all phones of a word are assigned to the corresponding phoneme of the secondary loop, that is to say that a phoneme is assigned to each phoneme of the secondary clause.
  • step S10 it is checked whether at least three phones of the training text have been assigned to the phonemes of the secondary coders. If this is not the case, this means that the corresponding word appears less than three times in the training text and is therefore not statistically significant. Secondary cushers to which less than three words of the training text have been assigned are deleted.
  • the required frequency for the significance is three. To achieve greater statistical certainty, it may be appropriate to set a correspondingly higher value.
  • step S11 the average phoneme duration d 'and the standard deviation G are calculated and stored for each phoneme of the secondary clause. As a result of the step S11, secondary statistics based on the secondary cycles are obtained.
  • step S12 the evaluation process is ended.
  • a statistic is obtained which is substantially more language-specific, since the individual phoneme durations are very strongly dependent on the corresponding context and a much more precise context is taken into account by the context of an entire word, if this is statistically possible. If it is determined on the basis of such two-stage statistics, the sound duration for a speech synthesis, this allows a much more natural synthesis of the language.
  • both other primary clusters and secondary clusters can be used.
  • it is e.g. possible secondary clusters with a constant length of e.g. to use four phonemes.
  • substantially longer secondary clusters e.g. a complete phrase, phrase or paragraph.
  • a typical example of a very specific field of application of speech synthesis is a navigation system for motor vehicles, in which very similar sentences and sentence structures are repeatedly generated.
  • Fig. 3 For example, a method for determining individual phones for speech synthesis is schematically illustrated in a flow chart.
  • the starting point of the method is that a phoneme of a text to be synthesized is converted into a phon and the duration of this phoneme is to be determined.
  • step S14 the context of the phoneme in the source text is determined.
  • the scope of the context is expediently selected such that it corresponds to the length of the secondary clause. in the The present embodiment determines the context within the scope of a word.
  • R rel is the ratio of the speaking rate to be spoken to the speech rate with which the text on which the statistics are based has been spoken.
  • Phone which the speaker of the training text pronounced with very different lengths, varies correspondingly strongly in speech synthesis.
  • plosive sounds such as "k” vary very little, so they have a very small standard deviation. They are correspondingly little varied in the speech synthesis.
  • Vowels such as "a” are widely varied, which is why they have a correspondingly large standard deviation.
  • the speed scaling factor s can also assume negative values, which correspondingly shortens the phoneme duration compared to the average phoneme duration.
  • step S15 if the query in step S15 indicates that the context determined in step S14 is not contained in the secondary statistics, the method flow proceeds to step S18.
  • step S18 it is checked whether the portion of the context in the area of the phoneme to be converted is identical to a primary cluster of the primary statistics. If this is the case, the procedure goes to step S19.
  • step S19 the average phoneme duration and the standard deviation of the middle phoneme of the corresponding primary cluster are read out. The process then proceeds to step S17, which calculates the actual phoneme duration to be used as explained above.
  • step S18 If the query in step S18 reveals that there is no identical primary cluster in the primary statistics for the context of the source text, the process flow proceeds to step S20, in which a primary cluster is determined that is as similar in sound as possible to the context.
  • step S21 the average phoneme duration and the standard deviation of the middle phoneme of this primary clause are read out. The process then proceeds to step S17.
  • step S17 After execution of step S17, the procedure for determining the duration of a phoneme of a phoneme of an original text is ended in step S18.
  • the method according to the invention for determining the speech durations for speech synthesis is thus a two-stage method in which an attempt is first made to determine by means of the secondary statistics an average phoneme duration which is based on a specific context (here: word length), whereby a phoneme duration is determined natural language is much more similar than the phonetic duration determined on the basis of the primary statistics. Should this condition determination by means of the secondary statistics not be possible, then the primary statistics recourse, which is always applicable.
  • the combination of the method for generating the statistics and the method for determining the phoneme durations represents a substantially purely statistical method for determining the phoneme durations, which can be created and applied essentially without expert knowledge.
  • this step can also be automated by means of known methods.
  • the methods described above can be implemented as computer programs that run autonomously on a computer for generating the statistics or for determining the phoneme durations. They thus represent automatically executable methods.
  • the computer programs can also be stored on electrically readable media and so transferred to other computer systems.
  • the computer system 1 has an internal bus 2, which is connected to a memory area 3, a central processor unit 4 and an interface 5.
  • the interface 5 establishes a data connection to other computer systems via a data line 6.
  • On the internal bus 2 are further an acoustic output unit 7, a graphic output unit 8 and an input unit 9 connected.
  • the acoustic output unit 7 is connected to a speaker 10, the graphic output unit 8 to a screen 11, and the input unit 9 to a keyboard 12.
  • voice recordings of a text can be transmitted via the data line 6 and the interface, which are stored in the memory area 3.
  • the memory area 3 is divided into a plurality of areas in which voice recordings, audio files, application programs for carrying out the methods according to the invention and further application and auxiliary programs are stored.
  • the language files are analyzed with predetermined program packages and segmented into the individual phone. Thereafter, the inventive method for generating a statistic is carried out, as a result, the primary and secondary statistics are present.
  • a text stored, for example, via the data line 6 and the interface 5 in the memory area 3 can then be converted into an audio file, wherein the cell durations are determined by means of the method according to the invention (FIG. Fig. 3 ) are determined on the basis of the primary and secondary statistics.
  • An audio file thus generated is transmitted via the internal bus 2 to the acoustic output unit 7 and output therefrom on the speaker 10 as speech.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zum Erzeugen einer Statistik von Phondauern und ein Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese.
  • Im Sinne der vorliegenden Anmeldung ist ein Phonem die kleinste bedeutungsunterscheidende, aber nicht selbstbedeutungstragende sprachliche Einheit (z.B. b in Bein im Unterschied zu p in Pein). Ein Phon ist hingegen der ausgesprochene Laut eines Phonems.
  • Verfahren zum Erzeugen einer Statistik von Phondauern, wobei auf Grundlage dieser Statistik bei der synthetischen Spracherzeugung die Phondauern gesteuert werden können, sind bekannt. Bei derartigen Verfahren wird ein von einem Sprecher gesprochener Text aufgezeichnet und der aufgezeichnete Text in einzelne Phone segmentiert. Von den einzelnen Phonen wird die Lautlänge bestimmt. Diese Phondauer wird in einer Statistik erfasst, wobei die Statistik eine Liste von Triphonen aufweist. Ein Triphon ist ein Kluster von einem oder mehreren Phonemen mit dem jeweiligen rechten und linken Kontext.
  • Bei den bekannten Verfahren wird jeweils einem Phonem der Triphone in ihrem links-rechts Kontext eine mittlere Phonlänge bzw. Lautdauer zugeordnet. Diese Phondauer wird aus allen Phonen des gesprochenen Textes ermittelt, die im gleichen Kontext im gesprochenen Text wie in dem jeweiligen Triphon vorkommen, das heißt deren benachbarte Phone korrespondieren zu den benachbarten Phonemen im Triphon.
  • Bei den bekannten Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese werden den Phonemen des zu synthetisierenden Textes die jeweils mittlere Lautdauer des Phonems der Statistik zugeordnet, dessen Kontext im Triphon dem Kontext des Phonems im zu synthetisierenden Textes entspricht. Ist z.B. die Phondauer des Phonems "b" des Wortes "aber" zu Ermitteln, so wird bei dem bekannten Verfahren dem Phonem "b" diejenige Phondauer zugeordnet, die in der Statistik dem Phonem "b" im Triphon "abe" zugeordnet ist. Die Kontexte des Triphons und im zu synthetisierenden Text sind hier jeweils identisch.
  • Ein Beispiel für die Modellierung von Phondauern in einem Sprachsynthesesystem ist beschrieben in Fries, G.; Wirth, A.: "Felix - A TTS system with improved pre-processing and source signal generation", 5th European conference on Speech communication and Technology, EUROSPEECH 1997, Rhodos, Griechenland, 22.-25. Sept. 1997, s. 589-592.
  • Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zum Erzeugen einer Statistik von Phondauern, wobei auf Grundlage dieser Statistik bei der synthetischen Spracherzeugung die Phondauern gesteuert werden können, und ein Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese zu schaffen, wodurch eine Sprachsynthese mit natürlicherer Aussprache als bei bekannten Verfahren erzielt werden soll.
  • Die Aufgabe wird mit einem Verfahren bzw einer Vorrichtung zum Erzeugen einer Statistik von Phondauern mit den Merkmalen des Anspruchs 1 bzw.14 und durch ein Verfahren bzw. eine Vorrichtung zum Ermitteln der Dauer einzelner Phone mit den Merkmalen des Anspruchs 11 bzw.15 gelöst. Vorteilhafte Ausgestaltungen der Erfindung sind in den Unteransprüchen angegeben.
  • Das erfindungsgemäße Verfahren zum Erzeugen einer Statistik von Phondauern auf Grundlage derer bei der synthetischen Spracherzeugung die Phondauern gesteuert werden können, umfasst folgende Schritte:
    • Zuordnen von Phonen eines in Phone segmentierten gesprochenen und aufgezeichneten Textes zu Phonemen von vorbestimmten Primärklustern, die aus mehreren Phonemen zusammengesetzt sind, wobei jeweils ein Phon einem Phonem eines Primärklusters zugeordnet wird, wenn es im gesprochenen Text in einem dem Kontext des Phonems des Primärklusters identi-schen oder ähnlichen Kontext auftritt,
    • Erstellen einer Primärstatistik, die zumindest die mittlere Phondauer aller Phone, die dem jeweiligen Phonem eines Primärklusters zugeordnet sind, umfasst,
    • Zuordnen von Phonen des gesprochenen und aufgezeichneten Textes zu Phonemen von vorbestimmten Sekundärklustern, die aus Phonemen zusammengesetzt sind, wobei die An-zahl Phoneme zumindest einiger Sekundärkluster sich von der Anzahl der Phoneme der Primärkluster unterscheidet, wobei jeweils ein Phon einem Phonem eines Sekundärklusters zugeordnet wird, wenn es im gesprochenen Text in einem dem Kontext des Phonems des Sekundärklusters identischen Kontext auftritt,
    • Erstellen einer Sekundärstatistik, die zumindest die mittlere Phondauer aller Phone, die dem jeweiligen Phonem eines Sekundärklusters zugeordnet sind, umfasst.
  • Die durch das erfindungsgemäße Verfahren erzeugte Statistik besteht somit aus einer Primärstatistik und einer Sekundärstatistik. Die Primärstatistik kann auf Primärkluster mit z.B. jeweils drei Phonemen beruhen, so dass sie der eingangs erläuterten Statistik auf Basis von Triphonen entspricht. Die Sekundärstatistik ist eine weitere Statistik auf Basis von Sekundärklustern, die sich in der Anzahl der Phoneme zumin-dest teilweise von der Anzahl der Phoneme der Primärkluster unterscheiden. Hierdurch wird eine sprachspezifischere Statistik zur Phondauer erzielt.
  • So können z.B. die Primärkluster drei Phoneme und die Sekundärkluster vier Phoneme umfassen, wodurch ein größerer Kontext (vier Phoneme gegenüber drei Phonemen) bei der Ermittlung der mittleren Phondauern berücksichtigt wird, so dass durch eine wesentlich sprachspezifischere Auswertung erzielt wird.
  • Nach einer bevorzugten Ausführungsform der Erfindung besitzen die Primärkluster eine konstante Anzahl Phoneme, wohingegen die Anzahl der Phoneme der Sekundärkluster variabel ist. So können z.B. die Primärkluster jeweils drei Phoneme und die Sekundärkluster jeweils alle Phoneme eines Wortes umfassen. Mit Hilfe dieser Sekundärkluster wird dann eine wortspezifische Auswertung der Phondauern erzielt, die wesentlich präziser ist, als die auf Grundlage der Triphone.
  • Nach einer bevorzugten Ausführungsform der Erfindung werden in der Sekundärstatistik nur Sekundärkluster erfasst, deren Häufigkeit im Text größer oder gleich einer vorbestimmten Mindesthäufigkeit ist. Hierdurch wird sichergestellt, dass in der Statistik nicht signifikante Häufigkeiten nicht berücksichtigt werden. So ist es zweckmäßig, Wörter, die in dem Text, auf dem die Statistik beruht, lediglich einmal oder zweimal vorkommen, nicht zu berücksichtigen.
  • Das erfindungsgemäße Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese beruht auf einer derartigen eine Primärstatistik und eine Sekundärstatistik umfassenden Statistik von Phondauern. Dieses Verfahren umfasst folgende Schritte:
    • Bestimmen, ob das in Sprache umzusetzende Phonem, für das die Phondauer zu ermitteln ist, Bestandteil eines Sekundärklusters ist,
    • Zuordnen der mittleren Phondauer (d), die in der Sekundärstatistik dem entsprechenden Phonem in dem jeweiligen Sekundärkluster zugeordnet ist, falls das Phonem Bestandteil eines Sekundärklusters ist, und
    • Zuordnen der mittleren Phondauer (d), die in der Primärstatistik dem entsprechenden Phonem in dem jeweiligen Primärkluster zugeordnet ist, falls das Phonem nicht Bestandteil eines Sekundärklusters ist.
  • Bei diesem Verfahren wird bevorzugt die sprachspezifischere Sekundärstatistik bei der Ermittlung der Phondauern ausgewertet. Hierbei ist zu berücksichtigen, dass beim Erzeugen der Sekundärstatistik lediglich identische Kontexte zwischen dem Sekundärkluster und dem entsprechenden Abschnitt in dem gesprochenen und aufgezeichneten Text, auf dem die Statistiken beruhen, berücksichtigt werden, wohingegen bei der Primärstatistik auch ähnliche Kluster zu berücksichtigen sind, falls keine identische Übereinstimmung vorhanden ist. Dies ist ein weiterer Grund, weshalb zunächst versucht wird, die Sekundärstatistik auszuwerten, bevor auf die Primärstatistik zurückgegriffen wird.
  • Gemäß einer bevorzugten Weiterbildung des Verfahrens zum Ermitteln der Dauer einzelner Phone wird die Standardabweichung der einzelnen mittleren Phondauer berücksichtigt. Dies bewirkt eine weitere Anpassung an eine natürliche Aussprache.
  • Die Erfindung wird nachfolgend beispielhaft anhand der beiliegenden Zeichnungen näher erläutert. In denen zeigen schematisch:
  • Fig. 1
    einen allgemeinen Überblick über die Abläufe bei der Erzeugung einer Statistik von Phondauern in einem Flussdiagramm,
    Fig. 2
    die Verfahrensschritte zur statistischen Auswertung einer Sprachaufzeichnung zur Erzeugung einer Statis- tik von Phondauern,
    Fig. 3
    ein Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese in einem Flussdiagramm, und
    Fig. 4
    ein Computersystem zum Ausführen der erfindungsgemä- ßen Verfahren in einem Blockschaltbild.
  • Fig. 1 zeigt die grundlegenden Abläufe für ein Verfahren zum Erzeugen einer Statistik von Phondauern, auf deren Grundlage bei der synthetischen Spracherzeugung die Phondauer gesteuert werden kann.
  • Das Verfahren beginnt mit dem Schritt S1 und im Schritt S2 wird ein vorbestimmter Trainingstext von einem Sprecher gesprochen und aufgezeichnet. Die Aufzeichnung erfolgt mittels eines Mikrofons, das die akustischen Sprachsignale in korrespondierende elektrische Sprachsignale wandelt.
  • Das aufgezeichnete Sprachsignal wird im Schritt S3 in einzelne Phone segmentiert. Das Segmentieren des Sprachsignals in die einzelnen Phone wird oftmals von einem Sprachexperten manuell durchgeführt. Es sind auch voll- und teilautomatische Verfahren bekannt, die in der Regel auf einem HMM (Hidden-Markow-Model) Algorithmus beruhen.
  • Im Schritt S4 werden die einzelnen Phone statistisch ausgewertet, wobei deren Dauer bestimmt wird. Phondauern von Phonen, die dem gleichen Phonem im gleichen oder ähnlichen Kontext zugeordnet sind, werden statistisch ausgewertet, indem deren Mittelwerte und Standardabweichungen berechnet werden.
  • Im Schritt S5 wird dieses Verfahren beendet.
  • Die erfindungsgemäß auszuführenden Verfahrensschritte bei der statistischen Auswertung (S4) sind in Fig. 2 in einem Flussdiagramm dargestellt. Mit dem Schritt S6 beginnt das statistische Auswerteverfahren. Zunächst werden die einzelnen Phone des Trainingstextes einem Primärkluster zugeordnet. Im vorliegenden Ausführungsbeispiel ist das Primärkluster ein aus drei Phonemen bestehendes Triphon. Ein Phon des Trainingstextes wird demjenigen Triphon zugeordnet, dessen mittleres Phonem dem Phon des Trainingstextes entspricht und das den gleichen Kontext wie der Abschnitt des Trainingstextes in dem das zuzuordnende Phon angeordnet ist, aufweist. Dies bedeutet, dass die zum mittleren Phonem des Triphons benachbarten Phoneme den benachbarten Phonen des zuzuordnenden Phones des Trainingstextes entsprechen. Soll z.B. das Phon des Phonems "f" des Wortes "Anfang" einem solchen Primärkluster zugeordnet werden, so wird dieses Phon dem Phonem "f" im Triphon "nfa" zugeordnet, da die beiden benachbarten Phoneme "n" (links) und "a" (rechts) den entsprechenden Phonen von "n" und a" im Trainingstext entsprechen.
  • Die Primärkluster sind in einer vorab festgelegten Liste gespeichert. Sind die Primärkluster Triphone, so umfasst eine solche Liste typischerweise 1500 bis 2000 Triphone. In dieser Liste sind die am häufigsten auftretenden Permutationen von drei aufeinanderfolgenden Phonemen enthalten. Selten und ähnlich klingende Permutationen werden in einem Kluster zusammengefasst. So können z.B. die Triphone "ter" und "der" in einem Kluster zusammengefasst sein.
  • Bei der Zuordnung nach dem Schritt S7 werden somit die Phone den jeweiligen Phonemen im gleichen oder ähnlichen Kontext zugeordnet.
  • Am Ende dieses Zuordnungsvorganges sind der Liste der Primärkluster alle Phone des Trainingstextes zugeordnet, das heißt, dass eine Liste vorliegt, in der zu jedem Primärkluster die entsprechenden Phone des Trainingstextes gespeichert sind.
  • Im Schritt S8 wird die mittlere Phondauer d' und die Standardabweichung G für das jeweils mittlere Phonem eines jedem aus drei Phonemen bestehenden Primärklusters berechnet. Hierbei werden die Lautdauern der einzelnen einem Primärkluster zugeordneten Phone gemittelt und als mittlere Lautdauer gespeichert und die entsprechende Standardabweichung G berechnet.
  • Mit dem Schritt S8 wird somit eine Primärstatistik erzeugt, die im wesentlicher der eingangs erörterten, aus dem Stand der Technik bekannten Statistik entspricht.
  • Im Schritt S9 werden die einzelnen Phone Sekundärklustern zugeordnet. Im vorliegenden Ausführungsbeispiel umfassen die Sekundärkluster jeweils alle Phoneme eines Wortes. Die Länge der Sekundärkluster ist somit variabel. Bei der Zuordnung der Phone zu den Sekundärklustern werden die Wörter des Trainingstextes ermittelt und die einzelnen Phone dieser Wörter werden den korrespondierenden Phonemen der entsprechenden Sekundärkluster zugeordnet. Ein wesentlicher Unterschied gegenüber dem Schritt S7 ist, dass hier nicht nur ein Phon einem Kluster zugeordnet wird, sondern alle Phone eines Wortes werden den entsprechenden Phonemen des Sekundärkluster zugeordnet, das heißt, dass allen Phonemen des Sekundärklusters jeweils ein Phon zugeordnet wird. Im Schritt S10 wird geprüft, ob den Phonemen der Sekundärkluster jeweils mindestens drei Phone des Trainingstextes zugeordnet worden sind. Ist dies nicht der Fall, bedeutet dies, dass das entsprechende Wort im Trainingstext weniger als dreimal vorkommt und deshalb nicht statistisch signifikant ist. Sekundärkluster, denen weniger als drei Wörter des Trainingstextes zugeordnet worden sind, werden gelöscht.
  • Im vorliegenden Ausführungsbeispiel beträgt die geforderte Häufigkeit für die Signifikanz drei. Zur Erzielung einer größeren statistischen Sicherheit kann es zweckmäßig sein, einen entsprechend höheren Wert anzusetzen.
  • Im Schritt S11 wird die mittlere Phondauer d' und die Standardabweichung G für ein jedes Phonem des Sekundärklusters berechnet und abgespeichert. Als Ergebnis des Schrittes S11 wird eine Sekundärstatistik auf Grundlage der Sekundärkluster erhalten.
  • Im Schritt S12 wird das Auswerteverfahren beendet.
  • Mit dem in Fig. 2 gezeigten Ausführungsbeispiel wird eine Statistik erhalten, die wesentlich sprachspezifischer ist, da die einzelnen Phondauern sehr stark von dem entsprechenden Kontext abhängen und ein wesentlich präziserer Kontext durch den Kontext eines gesamten Wortes berücksichtigt wird, falls dies statistisch möglich ist. Wird auf Grundlage einer solchen zweistufigen Statistik die Lautdauer für eine Sprachsynthese bestimmt, so ermöglicht dies eine wesentlich natürlichere Synthese der Sprache.
  • Im Rahmen der Erfindung können sowohl andere Primärkluster und Sekundärkluster verwendet werden. Insbesondere ist es z.B. möglich Sekundärkluster mit einer konstanten Länge von z.B. vier Phonemen zu verwenden. Es könnte jedoch auch zweckmäßig sein, bei bestimmten Anwendungen, wesentlich längere Sekundärkluster zu verwenden, die z.B. eine vollständige Phrase, einen vollständigen Satz oder einen ganzen Absatz umfassen können. Je länger die Sekundärkluster gewählt werden, desto spezieller sollte das Anwendungsgebiet der Sprachsynthese sein. Ein typisches Beispiel für ein sehr spezielles Anwendungsgebiet einer Sprachsynthese ist ein Navigationssystem für Kraftfahrzeuge, bei dem wiederholt sehr ähnliche Sätze und Satzstrukturen erzeugt werden.
  • In Fig. 3 ist ein Verfahren zum Ermitteln einzelner Phone für die Sprachsynthese schematisch in einem Flussdiagramm dargestellt.
  • Ausgangspunkt des Verfahrens ist, dass ein Phonem eines zu synthetisierenden Textes in ein Phon umgesetzt wird und die Dauer dieses Phons zu bestimmen ist.
  • Das Verfahren beginnt mit dem Schritt S13. Im Schritt S14 wird der Kontext des Phonems im Ausgangstext bestimmt. Hierbei wird zweckmäßigerweise der Umfang des Kontextes so gewählt, dass er der Länge des Sekundärklusters entspricht. Im vorliegenden Ausführungsbeispiel wird der Kontext im Umfang eines Wortes bestimmt.
  • Im Schritt S15 wird geprüft, ob der im Schritt S14 ermittelte Kontext als Sekundärkluster in der Sekundärstatistik gespeichert ist. Ist dies der Fall, geht der Programmablauf auf den Schritt S16 über, mit dem die mittlere Phondauer d' die dem Phonem des Sekundärklusters zugeordnet ist, der dem Phonem des Ausgangstextes entspricht, und die Phondauern und die Standardabweichung ausgelesen werden. Der Programmablauf geht dann auf den Schritt S17 über, bei dem die tatsächlich anzuwendende Phondauer d aus der mittleren Phondauer d' und der Standardabweichung G gemäß folgender Formel berechnet wird: d = d + G s ,
    Figure imgb0001
    wobei s ein Geschwindigkeitsskalierungsfaktor ist, der gemäß folgender Formel berechnet wird: s = R rel - 1 ,
    Figure imgb0002
    wobei Rrel das Verhältnis der zu sprechenden Sprechgeschwindigkeit gegenüber der Sprechgeschwindigkeit ist, mit der der Text auf dem die Statistik beruht, gesprochen worden ist. Durch die Berücksichtigung der Standardabweichung werden Phone, die der Sprecher des Trainingstextes mit stark unterschiedlichen Längen ausgesprochen hat, entsprechend stark bei der Sprachsynthese variiert. Z.B. werden Plosiv-Laute, wie z.B. "k" sehr wenig variiert, weshalb sie eine sehr kleine Standardabweichung besitzen. Sie werden bei der Sprachsynthese entsprechend wenig variiert. Vokale, wie z.B. "a" werden stark variiert, weshalb sie eine entsprechend große Standardabweichung besitzen. Bei obigen Formeln ist zu berücksichtigen, dass der Geschwindigkeitsskalierungsfaktor s auch negative Werte annehmen kann, wodurch die Phondauer gegenüber der mittleren Phondauer entsprechend verkürzt wird.
  • Ergibt die Abfrage im Schritt S15 hingegen, dass der im Schritt S14 ermittelte Kontext nicht in der Sekundärstatistik enthalten ist, so geht der Verfahrensablauf auf den Schritt S18 über. Im Schritt S18 wird geprüft, ob der Abschnitt des Kontextes im Bereich des umzusetzenden Phonems identisch zu einem Primärkluster der Primärstatistik ist. Ist dies der Fall, geht der Verfahrensablauf auf den Schritt S19 über. Im Schritt S19 wird die mittlere Phondauer und die Standardabweichung des mittleren Phonems des entsprechenden Primärklusters ausgelesen. Der Verfahrensablauf geht dann auf den Schritt S17 über, mit dem in der oben erläuterten Weise die tatsächlich anzuwendende Phondauer berechnet wird.
  • Ergibt die Abfrage im Schritt S18, dass zu dem Kontext des Ausgangstextes kein identisches Primärkluster in der Primärstatistik vorhanden ist, so geht der Verfahrensablauf auf den Schritt S20 über, in dem ein Primärkluster bestimmt wird, das dem Kontext klanglich möglichst ähnlich ist.
  • Im darauffolgenden Schritt S21 werden die mittlere Phondauer und die Standardabweichung des mittleren Phonems dieses Primärklusters ausgelesen. Der Verfahrensablauf geht dann auf den Schritt S17 über.
  • Nach Ausführung des Schrittes S17 wird das Verfahren zum Ermitteln der Dauer eines Phons eines Phonems eines Ausgangstextes im Schritt S18 beendet.
  • Das erfindungsgemäße Verfahren zum Bestimmen der Phondauern für die Sprachsynthese ist somit ein zweistufiges Verfahren, bei dem zunächst versucht wird, mittels der Sekundärstatistik eine mittlere Phondauer zu ermitteln, die auf einem speziellen Kontext (hier: Wortlänge) beruht, wodurch eine Lautdauer ermittelt wird die der natürlichen Sprechweise wesentlich ähnlicher ist, als die auf Grund der Primärstatistik ermittelte Phondauer. Sollte diese Phondauerbestimmung mittels der Sekundärstatistik nicht möglich sein, so wird auf die Primärstatistik zurückgegriffen, die grundsätzlich immer anwendbar ist.
  • Insbesondere die Kombination des Verfahrens zum Erzeugen der Statistik und des Verfahrens zum Ermitteln der Phondauern stellt ein im wesentlichen rein statistisches Verfahren zur Ermittlung der Phondauern dar, das im wesentlichen ohne Expertenwissen erstellt und angewendet werden kann. Bei dem oben beschriebenen Ausführungsbeispiel wird z.B. lediglich bei der Segmentierung der Sprachaufzeichnung Expertenwissen eingesetzt, wobei dieser Schritt mittels bekannter Verfahren auch automatisierbar ist.
  • Die erfindungsgemäßen Verfahren sind so einfach zu implementieren und zu trainieren. Dennoch haben erste Versuche mit Prototypen gezeigt, dass sie bei der Sprachsynthese eine wesentliche Steigerung der Sprachqualität bewirken, da die Phondauer durch das Vorsehen der Sekundärstatistik sprachspezifischer ermittelt wird.
  • Die oben beschriebenen Verfahren können als Computerprogramme realisiert werden, die selbständig auf einem Computer zum Erzeugen der Statistik bzw. zum Ermitteln der Phondauern ablaufen. Sie stellen somit automatisch ausführbare Verfahren dar.
  • Die Computerprogramme können auch auf elektrisch lesbaren Datenträgern gespeichert werden und so auf andere Computersysteme übertragen werden.
  • Ein zur Anwendung des erfindungsgemäßen Verfahrens geeignetes Computersystem ist in Fig. 4 gezeigt. Das Computersystem 1 weist einen internen Bus 2 auf, der mit einem Speicherbereich 3, einer zentralen Prozessoreinheit 4 und einem Interface 5 verbunden ist. Das Interface 5 stellt über eine Datenleitung 6 eine Datenverbindung zu weiteren Computersystemen her. An dem internen Bus 2 sind ferner eine akustische Ausgabeeinheit 7, eine grafische Ausgabeeinheit 8 und eine Eingabeeinheit 9 angeschlossen. Die akustische Ausgabeeinheit 7 ist mit einem Lautsprecher 10, die grafische Ausgabeeinheit 8 mit einem Bildschirm 11 und die Eingabeeinheit 9 mit einer Tastatur 12 verbunden. An dem Computersystem 1 können über die Datenleitung 6 und das Interface 5 Sprachaufzeichnungen eines Textes übertragen werden, die im Speicherbereich 3 abgespeichert werden. Der Speicherbereich 3 ist in mehrere Bereiche unterteilt, in denen Sprachaufzeichnungen, Audiodateien, Anwendungsprogramme zum Durchführen der erfindungsgemäßen Verfahren und weitere Anwendungs- und Hilfsprogramme gespeichert sind. Die Sprachdateien werden mit vorbestimmten Programmpaketen analysiert und in die einzelnen Phone segmentiert. Danach wird das erfindungsgemäße Verfahren zum Erzeugen einer Statistik ausgeführt, wobei als Ergebnis die Primär- und Sekundärstatistik vorliegen.
  • Ein beispielsweise über die Datenleitung 6 und das Interface 5 im Speicherbereich 3 abgespeicherter Text kann dann in eine Audiodatei umgesetzt werden, wobei die Phondauern mittels des erfindungsgemäßen Verfahrens (Fig. 3) auf Grundlage der Primär- und Sekundärstatistik bestimmt werden.
  • Eine so erzeugte Audiodatei wird über den internen Bus 2 zur akustischen Ausgabeeinheit 7 übertragen und von dieser am Lautsprecher 10 als Sprache ausgegeben.

Claims (15)

  1. Verfahren zum Erzeugen einer Statistik von Phondauern zur Steuerung von Phondauern bei Synthetische Spracherzeugung wobei die Statistik eine Primärstatistik und eine Sekundärstatistik aufweist, das Verfahren um-fassend folgende Schritte:
    - Zuordnen von Phonen eines in Phone segmentierten gesprochenen und aufgezeichneten Textes zu Phonemen von vorbestimmten Primärklustern, die aus mehreren Phonemen zusammengesetzt sind, wobei jeweils ein Phon einem Phonem eines Primärklusters zugeordnet wird, wenn es im gesprochenen Text in einem dem Kontext des Phonems des Primärklusters identi-schen oder ähnlichen Kontext auftritt,
    - Erstellen der Primärstatistik, die zumindest die mittlere Phondauer aller Phone, die dem jeweiligen Phonem eines Primärklusters zugeordnet sind, umfasst,
    gekennzeichnet durch
    - Zuordnen von Phonen des gesprochenen und aufgezeichneten Textes zu Phonemen von vorbestimmten Sekundärklustern, die aus Phonemen zusammengesetzt sind, wobei die An-zahl Phoneme zumindest einiger Sekundärkluster sich von der Anzahl der Phoneme der Primärkluster unterscheidet, wobei jeweils ein Phon einem Phonem eines Sekundärklusters zugeordnet wird, wenn es im gesprochenen Text in einem dem Kontext des Phonems des Sekundärklusters identischen Kontext auftritt,
    - Erstellen der Sekundärstatistik, die zumindest die mitt-lere Phondauer aller Phone, die dem jeweiligen Phonem eines Sekundärklusters zugeordnet sind, umfasst.
  2. Verfahren zum Erzeugen einer Statistik von Phondauern nach Anspruch 1,
    dadurch gekennzeichnet,
    dass die Anzahl der Phoneme der Primärkluster konstant ist und die Anzahl z.B. gleich 3 ist.
  3. Verfahren zum Erzeugen einer Statistik nach Anspruch 1 oder 2,
    dadurch gekennzeichnet,
    dass die Anzahl der Phoneme des Sekundärklusters variabel ist und die Sekundärkluster z.B. jeweils die Phoneme eines Wortes umfassen.
  4. Verfahren zum Erzeugen einer Statistik nach einem der Ansprüche 1 bis 3,
    dadurch gekennzeichnet,
    dass die Primärstatistik und die Sekundärstatistik jeweils die Standardabweichung der jeweiligen Phondauer umfassen.
  5. Verfahren zum Erzeugen einer Statistik nach einem der Ansprüche 1 bis 4,
    dadurch gekennzeichnet,
    dass mit der Sekundärstatistik nur Sekundärkluster erfasst werden, deren Häufigkeit im Text größer oder gleich einer vorbestimmten Mindesthäufigkeit ist.
  6. Verfahren zum Erzeugen einer Statistik nach Anspruch 5,
    dadurch gekennzeichnet,
    dass die Mindesthäufigkeit zumindest 3 beträgt und vorzugsweise im Bereich von 3 bis 10 liegt.
  7. Verfahren zum Erzeugen einer Statistik nach einem der Ansprüche 1 bis 6,
    dadurch gekennzeichnet,
    dass die Zuordnung der Phone zu Phonemen der Primärkluster mittels einer vorbestimmten Liste von in Primärklustern gruppierten Phonemen erfolgt, wobei die Phone den einzelnen Phonemen der Primärkluster der Liste zugeordnet werden und die einzelnen Zuordnungen abgespeichert werden.
  8. Verfahren nach Anspruch 7,
    dadurch gekennzeichnet,
    dass zu den einzelnen Phonemen der Primärkluster der Liste auf Grundlage der abgespeicherten Zuordnungen jeweils die mittlere Phondauer (d) und die Standardabweichung (G) der mittleren Phondauer berechnet werden.
  9. Verfahren nach einem der Ansprüche 1 bis 8,
    dadurch gekennzeichnet,
    dass die Zuordnung der Phone zu den Phonemen der Sekundärkluster mittels einer vorbestimmten Liste von in Sekundärklustern gruppierten Phonemen erfolgt, wobei die Phone den einzelnen Phonemen der Sekundärkluster der Liste zugeordnet werden und die einzelnen Zuordnungen abgespeichert werden.
  10. Verfahren nach Anspruch 9,
    dadurch gekennzeichnet,
    dass zu den einzelnen Phonemen der Sekundärkluster der Liste auf Grundlage der abgespeicherten Zuordnungen jeweils die mittlere Phondauer (d) und die Standardabweichung (G) der mittleren Phondauer berechnet werden.
  11. Verfahren zum Ermitteln der Dauer einzelne Phone für die Sprachsynthese, mittels einer Statistik von Phondauern, die eine Primärstatistik und eine Sekundärstatistik aufweist, wobei die Primärstatistik in Primärkluster gruppierte Phoneme umfasst, und den einzelnen Phonemen der Primärkluster zumindest eine mittlere Phondauer zugeordnet ist, und
    die Sekundärstatistik in Sekundärkluster gruppierte Phoneme umfasst, und den einzelnen Phonemen der Sekundärkluster zumindest eine mittlere Phondauer zugeordnet ist,
    umfassend folgende Schritte:
    - Bestimmen, ob das in Sprache umzusetzende Phonem, für das die Phondauer zu ermitteln ist, Bestandteil eines Sekundärklusters ist,
    - Zuordnen der mittleren Phondauer (d), die in der Sekundärstatistik dem entsprechenden Phonem in dem jeweiligen Se-kundärkluster zugeordnet ist, falls das Phonem Bestandteil eines Sekundärklusters ist, und
    - Zuordnen der mittleren Phondauer (d), die in der Primärstatistik dem entsprechenden Phonem in dem jeweiligen Primärkluster zugeordnet ist, falls das Phonem nicht Bestandteil eines Sekundärklusters ist.
  12. Verfahren zum Ermitteln der Dauer der einzelnen Phone bei der Sprachsynthese mittels einer Statistik, die mit einem Verfahren nach einem der Ansprüche 1 bis 10 erzeugt wurde
  13. Verfahren nach Anspruch 11 oder 12,
    dadurch gekennzeichnet,
    dass bei der Ermittlung der Dauer (d) der einzelnen Phone die Standardabweichungen (G) der in der Statistik gespeicherten mittleren Phondauern (d') gemäß folgender Formel berücksichtigt werden d = d + G s ,
    Figure imgb0003

    wobei s ein Geschwindigkeitsskalierungsfaktor ist, der gemäß folgender Formel berechnet wird s = R rel - 1 ,
    Figure imgb0004

    wobei Rrel das Verhältnis der zu sprechenden Sprechgeschwindigkeit gegenüber der Sprechgeschwindigkeit, mit der der Text, auf dem die Statistik beruht, gesprochen worden ist.
  14. Vorrichtung zum Erzeugen einer Statistik von Phondauern auf Grundlage derer bei der synthetischen Spracherzeugung die Phondauern gesteuert werden können, mit
    einem Computersystem (1), das einen Speicherbereich (3) aufweist, in dem ein Programm zum Ausführen eines Verfahrens nach einem der Ansprüche 1 bis 10 gespeichert ist.
  15. Vorrichtung zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese mit
    einem Computersystem (1), das einen Speicherbereich (3) aufweist, in dem ein Programm zum Ausführen eines Verfahrens nach einem der Ansprüche 11 bis 13 gespeichert ist.
EP01114696A 2000-07-07 2001-06-19 Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese Expired - Lifetime EP1170723B1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10033104A DE10033104C2 (de) 2000-07-07 2000-07-07 Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese
DE10033104 2000-07-07

Publications (3)

Publication Number Publication Date
EP1170723A2 EP1170723A2 (de) 2002-01-09
EP1170723A3 EP1170723A3 (de) 2002-10-30
EP1170723B1 true EP1170723B1 (de) 2010-11-03

Family

ID=7648160

Family Applications (1)

Application Number Title Priority Date Filing Date
EP01114696A Expired - Lifetime EP1170723B1 (de) 2000-07-07 2001-06-19 Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese

Country Status (3)

Country Link
US (1) US6934680B2 (de)
EP (1) EP1170723B1 (de)
DE (2) DE10033104C2 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7328157B1 (en) * 2003-01-24 2008-02-05 Microsoft Corporation Domain adaptation for TTS systems
US9245526B2 (en) * 2006-04-25 2016-01-26 General Motors Llc Dynamic clustering of nametags in an automated speech recognition system
US8924194B2 (en) * 2006-06-20 2014-12-30 At&T Intellectual Property Ii, L.P. Automatic translation of advertisements
US8447609B2 (en) * 2008-12-31 2013-05-21 Intel Corporation Adjustment of temporal acoustical characteristics

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5490234A (en) * 1993-01-21 1996-02-06 Apple Computer, Inc. Waveform blending technique for text-to-speech system
GB2296846A (en) * 1995-01-07 1996-07-10 Ibm Synthesising speech from text
DE19508711A1 (de) 1995-03-10 1996-09-12 Siemens Ag Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind
JP3854713B2 (ja) * 1998-03-10 2006-12-06 キヤノン株式会社 音声合成方法および装置および記憶媒体

Also Published As

Publication number Publication date
EP1170723A2 (de) 2002-01-09
DE50115685D1 (de) 2010-12-16
DE10033104C2 (de) 2003-02-27
EP1170723A3 (de) 2002-10-30
US20020016709A1 (en) 2002-02-07
DE10033104A1 (de) 2002-01-17
US6934680B2 (en) 2005-08-23

Similar Documents

Publication Publication Date Title
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE68919637T2 (de) Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen.
DE69031165T2 (de) System und methode zur text-sprache-umsetzung mit hilfe von kontextabhängigen vokalallophonen
DE3878541T2 (de) Verfahren und einrichtung, um ein markov-modell-referenzmuster von woertern zu erzeugen.
EP0925461B1 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
DE69816221T2 (de) Sprachschnellheitsveränderungsverfahren und vorrichtung
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE112004000187T5 (de) Verfahren und Vorrichtung der prosodischen Simulations-Synthese
DE69720861T2 (de) Verfahren zur Tonsynthese
DE60108104T2 (de) Verfahren zur Sprecheridentifikation
DE69727046T2 (de) Verfahren, vorrichtung und system zur erzeugung von segmentzeitspannen in einem text-zu-sprache system
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE2736082A1 (de) Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer)
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE60307965T2 (de) Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen
WO2001069591A1 (de) Verfahren zur erkennung von sprachäusserungen nicht-mutter-sprachlicher sprecher in einem sprachverarbeitungssystem
EP1170723B1 (de) Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese
DE4111781A1 (de) Computersystem zur spracherkennung

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

AX Request for extension of the european patent

Free format text: AL;LT;LV;MK;RO;SI

PUAL Search report despatched

Free format text: ORIGINAL CODE: 0009013

AK Designated contracting states

Kind code of ref document: A3

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

AX Request for extension of the european patent

Free format text: AL;LT;LV;MK;RO;SI

17P Request for examination filed

Effective date: 20021203

AKX Designation fees paid

Designated state(s): DE FR GB IT

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

RTI1 Title (correction)

Free format text: METHOD FOR THE COMPUTATION OF PHONE DURATION STATISTICS AND METHOD FOR THE DETERMINATION OF THE DURATION OF SINGLE PHONES FOR SPEECH SYNTHESIS

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): DE FR GB IT

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REF Corresponds to:

Ref document number: 50115685

Country of ref document: DE

Date of ref document: 20101216

Kind code of ref document: P

RAP2 Party data changed (patent owner data changed or rights of a patent transferred)

Owner name: SIEMENS ENTERPRISE COMMUNICATIONS GMBH & CO. KG

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20110804

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 50115685

Country of ref document: DE

Effective date: 20110804

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 50115685

Country of ref document: DE

Representative=s name: FRITZSCHE PATENT, DE

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 50115685

Country of ref document: DE

Representative=s name: FRITZSCHE PATENT, DE

Effective date: 20130305

Ref country code: DE

Ref legal event code: R081

Ref document number: 50115685

Country of ref document: DE

Owner name: SIEMENS ENTERPRISE COMMUNICATIONS GMBH & CO. K, DE

Free format text: FORMER OWNER: SIEMENS AKTIENGESELLSCHAFT, 80333 MUENCHEN, DE

Effective date: 20130305

Ref country code: DE

Ref legal event code: R081

Ref document number: 50115685

Country of ref document: DE

Owner name: UNIFY GMBH & CO. KG, DE

Free format text: FORMER OWNER: SIEMENS AKTIENGESELLSCHAFT, 80333 MUENCHEN, DE

Effective date: 20130305

Ref country code: DE

Ref legal event code: R082

Ref document number: 50115685

Country of ref document: DE

Representative=s name: FRITZSCHE PATENTANWAELTE, DE

Effective date: 20130305

REG Reference to a national code

Ref country code: GB

Ref legal event code: 746

Effective date: 20130418

REG Reference to a national code

Ref country code: DE

Ref legal event code: R084

Ref document number: 50115685

Country of ref document: DE

Effective date: 20130226

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 50115685

Country of ref document: DE

Representative=s name: FRITZSCHE PATENT, DE

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 50115685

Country of ref document: DE

Representative=s name: FRITZSCHE PATENT, DE

Effective date: 20131112

Ref country code: DE

Ref legal event code: R081

Ref document number: 50115685

Country of ref document: DE

Owner name: UNIFY GMBH & CO. KG, DE

Free format text: FORMER OWNER: SIEMENS ENTERPRISE COMMUNICATIONS GMBH & CO. KG, 81379 MUENCHEN, DE

Effective date: 20131112

Ref country code: DE

Ref legal event code: R082

Ref document number: 50115685

Country of ref document: DE

Representative=s name: FRITZSCHE PATENTANWAELTE, DE

Effective date: 20131112

REG Reference to a national code

Ref country code: FR

Ref legal event code: CD

Owner name: UNIFY GMBH & CO. KG, DE

Effective date: 20150209

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 15

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20150623

Year of fee payment: 15

Ref country code: GB

Payment date: 20150623

Year of fee payment: 15

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20150623

Year of fee payment: 15

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: IT

Payment date: 20150625

Year of fee payment: 15

REG Reference to a national code

Ref country code: GB

Ref legal event code: 732E

Free format text: REGISTERED BETWEEN 20151210 AND 20151216

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 50115685

Country of ref document: DE

Representative=s name: FRITZSCHE PATENTANWAELTE, DE

Ref country code: DE

Ref legal event code: R081

Ref document number: 50115685

Country of ref document: DE

Owner name: UNIFY GMBH & CO. KG, DE

Free format text: FORMER OWNER: UNIFY GMBH & CO. KG, 81379 MUENCHEN, DE

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 50115685

Country of ref document: DE

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20160619

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20170228

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170103

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20160630

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20160619

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20160619