DE10033104C2 - Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese - Google Patents

Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese

Info

Publication number
DE10033104C2
DE10033104C2 DE10033104A DE10033104A DE10033104C2 DE 10033104 C2 DE10033104 C2 DE 10033104C2 DE 10033104 A DE10033104 A DE 10033104A DE 10033104 A DE10033104 A DE 10033104A DE 10033104 C2 DE10033104 C2 DE 10033104C2
Authority
DE
Germany
Prior art keywords
phonemes
phone
duration
clusters
primary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE10033104A
Other languages
English (en)
Other versions
DE10033104A1 (de
Inventor
Martin Holzapfel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unify GmbH and Co KG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE10033104A priority Critical patent/DE10033104C2/de
Priority to DE50115685T priority patent/DE50115685D1/de
Priority to EP01114696A priority patent/EP1170723B1/de
Priority to US09/899,536 priority patent/US6934680B2/en
Publication of DE10033104A1 publication Critical patent/DE10033104A1/de
Application granted granted Critical
Publication of DE10033104C2 publication Critical patent/DE10033104C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Erzeugen einer Statistik von Phondauern und ein Verfahren zum Ermit­ teln der Dauer einzelner Phone für die Sprachsynthese.
Im Sinne der vorliegenden Anmeldung ist ein Phonem die kleinste bedeutungsunterscheidende, aber nicht selbstbedeu­ tungstragende sprachliche Einheit (z. B. b in Bein im Unter­ schied zu p in Pein). Ein Phon ist hingegen der ausgesproche­ ne Laut eines Phonems.
Verfahren zum Erzeugen einer Statistik von Phondauern, wobei auf Grundlage dieser Statistik bei der synthetischen Sprach­ erzeugung die Phondauern gesteuert werden können, sind be­ kannt. Bei derartigen Verfahren wird ein von einem Sprecher gesprochener Text aufgezeichnet und der aufgezeichnete Text in einzelne Phone segmentiert. Von den einzelnen Phonen wird die Lautlänge bestimmt. Diese Phondauer wird in einer Statis­ tik erfasst, wobei die Statistik eine Liste von Triphonen aufweist. Ein Triphon ist ein Kluster von einem oder mehreren Phonemen mit dem jeweiligen rechten und linken Kontext.
Bei den bekannten Verfahren wird jeweils einem Phonem der Triphone in ihrem links-rechts Kontext eine mittlere Phonlän­ ge bzw. Lautdauer zugeordnet. Diese Phondauer wird aus allen Phonen des gesprochenen Textes ermittelt, die im gleichen Kontext im gesprochenen Text wie in dem jeweiligen Triphon vorkommen, das heißt deren benachbarte Phone korrespondieren zu den benachbarten Phonemen im Triphon.
Bei den bekannten Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese werden den Phonemen des zu synthetisierenden Textes die jeweils mittlere Lautdauer des Pho­ nems der Statistik zugeordnet, dessen Kontext im Triphon dem Kontext des Phonems im zu synthetisierenden Textes ent­ spricht. Ist z. B. die Phondauer des Phonems "b" des Wortes "aber" zu Ermitteln, so wird bei dem bekannten Verfahren dem Phonem "b" diejenige Phondauer zugeordnet, die in der Statis­ tik dem Phonem "b" im Triphon "abe" zugeordnet ist. Die Kon­ texte des Triphons und im zu synthetisierenden Text sind hier jeweils identisch.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zum Erzeugen einer Statistik von Phondauern, wobei auf Grundlage dieser Statistik bei der synthetischen Spracherzeugung die Phondauern gesteuert werden können, und ein Verfahren zum Er­ mitteln der Dauer einzelner Phone für die Sprachsynthese zu schaffen, wodurch eine Sprachsynthese mit natürlicherer Aus­ sprache als bei bekannten Verfahren erzielt werden soll.
Aus DE 694 20 547 T2 ist eine Sprachsynthese bekannt, bei der die Phondauer eine Rolle spielt.
Die Aufgabe wird mit einem Verfahren zum Erzeugen einer Sta­ tistik von Phondauern mit den Merkmalen des Anspruchs 1 und durch ein Verfahren zum Ermitteln der Dauer einzelner Phone mit den Merkmalen des Anspruchs 11 gelöst. Vorteilhafte Aus­ gestaltungen der Erfindung sind in den Unteransprüchen ange­ geben.
Das erfindungsgemäße Verfahren zum Erzeugen einer Statistik von Phondauern auf Grundlage derer bei der synthetischen Spracherzeugung die Phondauern gesteuert werden können, um­ fasst folgende Schritte:
  • - Zuordnen von Phonen eines in Phone segmentierten gesproche­ nen und aufgezeichneten Textes zu Phonemen von vorbestimm­ ten Primärklustern, die aus mehreren Phonemen zusammenge­ setzt sind, wobei jeweils ein Phon einem Phonem eines Primärklusters zugeordnet wird, wenn es im gesprochenen Text zu einem im Kontext des Phonems des Primärklusters identi­ schen oder ähnlichen Kontext auftritt,
  • - Erstellen einer Primärstatistik, die zumindest die mittlere Phondauer aller Phone, die dem jeweiligen Phonem eines Pri­ märklusters zugeordnet sind, umfasst,
  • - Zuordnen von Phonen des gesprochenen und aufgezeichneten Textes zu Phonemen zu vorbestimmten Sekundärklustern, die aus Phonemen zusammengesetzt sind, wobei zumindest die An­ zahl Phoneme einiger Sekundärkluster sich von der Anzahl der Phoneme der Primärkluster unterscheidet, wobei jeweils ein Phon einem Phonem eines Sekundärklusters zugeordnet wird, wenn es im gesprochenen Text zu einem im Kontext des Phonems des Sekundärklusters identischen Kontext auftritt,
  • - Erstellen einer Sekundärstatistik, die zumindest die mitt­ lere Phondauer aller Phone, die dem jeweiligen Phonem eines Sekundärklusters zugeordnet sind, umfasst.
Die durch das erfindungsgemäße Verfahren erzeugte Statistik besteht somit aus einer Primärstatistik und einer Sekundär­ statistik. Die Primärstatistik kann auf Primärkluster mit z. B. jeweils drei Phonemen beruhen, so dass sie der eingangs erläuterten Statistik auf Basis von Triphonen entspricht. Die Sekundärstatistik ist eine weitere Statistik auf Basis von Sekundärklustern, die sich in der Anzahl der Phoneme zumin­ dest teilweise von der Anzahl der Phoneme der Primärkluster unterscheiden. Hierdurch wird eine sprachspezifischere Sta­ tistik zur Phondauer erzielt.
So können z. B. die Primärkluster drei Phoneme und die Sekun­ därkluster vier Phoneme umfassen, wodurch ein größerer Kon­ text (vier Phoneme gegenüber drei Phonemen) bei der Ermitt­ lung der mittleren Phondauern berücksichtigt wird, so dass da­ durch eine wesentlich sprachspezifischere Auswertung erzielt wird.
Nach einer bevorzugten Ausführungsform der Erfindung besitzen die Primärkluster eine konstante Anzahl Phoneme, wohingegen die Anzahl der Phoneme der Sekundärkluster variabel ist. So können z. B. die Primärkluster jeweils drei Phoneme und die Sekundärkluster jeweils alle Phoneme eines Wortes umfassen. Mit Hilfe dieser Sekundärkluster wird dann eine wortspezifi­ sche Auswertung der Phondauern erzielt, die wesentlich präzi­ ser ist, als die auf Grundlage der Triphone.
Nach einer bevorzugten Ausführungsform der Erfindung werden in der Sekundärstatistik nur Sekundärkluster erfasst, deren Häufigkeit im Text größer oder gleich einer vorbestimmten Mindesthäufigkeit ist. Hierdurch wird sichergestellt, dass in der Statistik nicht signifikante Häufigkeiten nicht berück­ sichtigt werden. So ist es zweckmäßig, Wörter, die in dem Text, auf dem die Statistik beruht, lediglich einmal oder zweimal vorkommen, nicht zu berücksichtigen.
Das erfindungsgemäße Verfahren zum Ermitteln der Dauer ein­ zelner Phone für die Sprachsynthese beruht auf einer derarti­ gen eine Primärstatistik und eine Sekundärstatistik umfassen­ den Statistik von Phondauern. Dieses Verfahren umfasst fol­ gende Schritte:
  • - Bestimmen, ob das in Sprache umzusetzende Phonem, für das die Phondauer zu ermitteln ist, Bestandteil eines Sekun­ därklusters ist,
  • - Zuordnen der mittleren Phondauer (d), die in der Sekundär­ statistik dem entsprechenden Phonem in dem jeweiligen Se­ kundärkluster zugeordnet ist, falls das Phonem Bestandteil eines Sekundärklusters ist, und
  • - Zuordnen der mittleren Phondauer (d), die in der Primärsta­ tistik dem entsprechenden Phonem in dem jeweiligen Pri­ märkluster zugeordnet ist, falls das Phonem nicht Bestand­ teil eines Sekundärklusters ist.
Bei diesem Verfahren wird bevorzugt die sprachspezifischere Sekundärstatistik bei der Ermittlung der Phondauern ausgewer­ tet. Hierbei ist zu berücksichtigen, dass beim Erzeugen der Sekundärstatistik lediglich identische Kontexte zwischen dem Sekundärkluster und dem entsprechenden Abschnitt in dem ge­ sprochenen und aufgezeichneten Text, auf dem die Statistiken beruhen, berücksichtigt werden, wohingegen bei der Primärsta­ tistik auch ähnliche Kluster zu berücksichtigen sind, falls keine identische Übereinstimmung vorhanden ist. Dies ist ein weiterer Grund, weshalb zunächst versucht wird, die Sekundär­ statistik auszuwerten, bevor auf die Primärstatistik zurück­ gegriffen wird.
Gemäß einer bevorzugten Weiterbildung des Verfahrens zum Er­ mitteln der Dauer einzelner Phone wird die Standardabweichung der einzelnen mittleren Phondauer berücksichtigt. Dies be­ wirkt eine weitere Anpassung an eine natürliche Aussprache.
Die Erfindung wird nachfolgend beispielhaft anhand der bei­ liegenden Zeichnungen näher erläutert. In denen zeigen sche­ matisch:
Fig. 1 einen allgemeinen Überblick über die Abläufe bei der Erzeugung einer Statistik von Phondauern in einem Flussdiagramm,
Fig. 2 die Verfahrensschritte zur statistischen Auswertung einer Sprachaufzeichnung zur Erzeugung einer Statis­ tik von Phondauern,
Fig. 3 ein Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese in einem Flussdiagramm, und
Fig. 4 ein Computersystem zum Ausführen der erfindungsgemä­ ßen Verfahren in einem Blockschaltbild.
Fig. 1 zeigt die grundlegenden Abläufe für ein Verfahren zum Erzeugen einer Statistik von Phondauern, auf deren Grundlage bei der synthetischen Spracherzeugung die Phondauer gesteuert werden kann.
Das Verfahren beginnt mit dem Schritt S1 und im Schritt S2 wird ein vorbestimmter Trainingstext von einem Sprecher ge­ sprochen und aufgezeichnet. Die Aufzeichnung erfolgt mittels eines Mikrofons, das die akustischen Sprachsignale in korres­ pondierende elektrische Sprachsignale wandelt.
Das aufgezeichnete Sprachsignal wird im Schritt S3 in einzel­ ne Phone segmentiert. Das Segmentieren des Sprachsignals in die einzelnen Phone wird oftmals von einem Sprachexperten ma­ nuell durchgeführt. Es sind auch voll- und teilautomatische Verfahren bekannt, die in der Regel auf einem HMM (Hidden- Markow-Model) Algorithmus beruhen.
Im Schritt S4 werden die einzelnen Phone statistisch ausge­ wertet, wobei deren Dauer bestimmt wird. Phondauern von Pho­ nen, die dem gleichen Phonem im gleichen oder ähnlichen Kon­ text zugeordnet sind, werden statistisch ausgewertet, indem deren Mittelwerte und Standardabweichungen berechnet werden.
Im Schritt S5 wird dieses Verfahren beendet.
Die erfindungsgemäß auszuführenden Verfahrensschritte bei der statistischen Auswertung (S4) sind in Fig. 2 in einem Fluss­ diagramm dargestellt. Mit dem Schritt S6 beginnt das statis­ tische Auswerteverfahren. Zunächst werden die einzelnen Phone des Trainingstextes einem Primärkluster zugeordnet. Im vor­ liegenden Ausführungsbeispiel ist das Primärkluster ein aus drei Phonemen bestehendes Triphon. Ein Phon des Trainingstex­ tes wird demjenigen Triphon zugeordnet, dessen mittleres Pho­ nem dem Phon des Trainingstextes entspricht und das den glei­ chen Kontext wie der Abschnitt des Trainingstextes in dem das zuzuordnende Phon angeordnet ist, aufweist. Dies bedeutet, dass die zum mittleren Phonem des Triphons benachbarten Pho­ neme den benachbarten Phonen des zuzuordnenden Phones des Trainingstextes entsprechen. Soll z. B. das Phon des Phonems "f" des Wortes "Anfang" einem solchen Primärkluster zugeord­ net werden, so wird dieses Phon dem Phonem "f" im Triphon "nfa" zugeordnet, da die beiden benachbarten Phoneme "n" (links) und "a" (rechts) den entsprechenden Phonen von "n" und "a" im Trainingstext entsprechen.
Die Primärkluster sind in einer vorab festgelegten Liste ge­ speichert. Sind die Primärkluster Triphone, so umfasst eine solche Liste typischerweise 1500 bis 2000 Triphone. In dieser Liste sind die am häufigsten auftretenden Permutationen von drei aufeinanderfolgenden Phonemen enthalten. Selten und ähn­ lich klingende Permutationen werden in einem Kluster zusam­ mengefasst. So können z. B. die Triphone "ter" und "der" in einem Kluster zusammengefasst sein.
Bei der Zuordnung nach dem Schritt S7 werden somit die Phone den jeweiligen Phonemen im gleichen oder ähnlichen Kontext zugeordnet.
Am Ende dieses Zuordnungsvorganges sind der Liste der Pri­ märkluster alle Phone des Trainingstextes zugeordnet, das heißt, dass eine Liste vorliegt, in der zu jedem Pri­ märkluster die entsprechenden Phone des Trainingstextes ge­ speichert sind.
Im Schritt S8 wird die mittlere Phondauer d' und die Stan­ dardabweichung G für das jeweils mittlere Phonem eines jedem aus drei Phonemen bestehenden Primärklusters berechnet. Hier­ bei werden die Lautdauern der einzelnen einem Primärkluster zugeordneten Phone gemittelt und als mittlere Lautdauer ge­ speichert und die entsprechende Standardabweichung G berech­ net.
Mit dem Schritt S8 wird somit eine Primärstatistik erzeugt, die im wesentlicher der eingangs erörterten, aus dem Stand der Technik bekannten Statistik entspricht.
Im Schritt S9 werden die einzelnen Phone Sekundärklustern zu­ geordnet. Im vorliegenden Ausführungsbeispiel umfassen die Sekundärkluster jeweils alle Phoneme eines Wortes. Die Länge der Sekundärkluster ist somit variabel. Bei der Zuordnung der Phone zu den Sekundärklustern werden die Wörter des Trai­ ningstextes ermittelt und die einzelnen Phone dieser Wörter werden den korrespondierenden Phonemen der entsprechenden Se­ kundärkluster zugeordnet. Ein wesentlicher Unterschied gegen­ über dem Schritt S7 ist, dass hier nicht nur ein Phon einem Kluster zugeordnet wird, sondern alle Phone eines Wortes wer­ den den entsprechenden Phonemen des Sekundärkluster zugeord­ net, das heißt, dass allen Phonemen des Sekundärklusters je­ weils ein Phon zugeordnet wird. Im Schritt S10 wird geprüft, ob den Phonemen der Sekundärkluster jeweils mindestens drei Phone des Trainingstextes zugeordnet worden sind. Ist dies nicht der Fall, bedeutet dies, dass das entsprechende Wort im Trainingstext weniger als dreimal vorkommt und deshalb nicht statistisch signifikant ist. Sekundärkluster, denen weniger als drei Wörter des Trainingstextes zugeordnet worden sind, werden gelöscht.
Im vorliegenden Ausführungsbeispiel beträgt die geforderte Häufigkeit für die Signifikanz drei. Zur Erzielung einer grö­ ßeren statistischen Sicherheit kann es zweckmäßig sein, einen entsprechend höheren Wert anzusetzen.
Im Schritt S11 wird die mittlere Phondauer d' und die Stan­ dardabweichung G für ein jedes Phonem des Sekundärklusters berechnet und abgespeichert. Als Ergebnis des Schrittes S11 wird eine Sekundärstatistik auf Grundlage der Sekundärkluster erhalten.
Im Schritt S12 wird das Auswerteverfahren beendet.
Mit dem in Fig. 2 gezeigten Ausführungsbeispiel wird eine Statistik erhalten, die wesentlich sprachspezifischer ist, da die einzelnen Phondauern sehr stark von dem entsprechenden Kontext abhängen und ein wesentlich präziserer Kontext durch den Kontext eines gesamten Wortes berücksichtigt wird, falls dies statistisch möglich ist. Wird auf Grundlage einer sol­ chen zweistufigen Statistik die Lautdauer für eine Sprachsyn­ these bestimmt, so ermöglicht dies eine wesentlich natürli­ chere Synthese der Sprache.
Im Rahmen der Erfindung können sowohl andere Primärkluster und Sekundärkluster verwendet werden. Insbesondere ist es z. B. möglich Sekundärkluster mit einer konstanten Länge von z. B. vier Phonemen zu verwenden. Es könnte jedoch auch zweck­ mäßig sein, bei bestimmten Anwendungen, wesentlich längere Sekundärkluster zu verwenden, die z. B. eine vollständige Phrase, einen vollständigen Satz oder einen ganzen Absatz um­ fassen können. Je länger die Sekundärkluster gewählt werden, desto spezieller sollte das Anwendungsgebiet der Sprachsyn­ these sein. Ein typisches Beispiel für ein sehr spezielles Anwendungsgebiet einer Sprachsynthese ist ein Navigationssys­ tem für Kraftfahrzeuge, bei dem wiederholt sehr ähnliche Sät­ ze und Satzstrukturen erzeugt werden.
In Fig. 3 ist ein Verfahren zum Ermitteln einzelner Phone für die Sprachsynthese schematisch in einem Flussdiagramm darge­ stellt.
Ausgangspunkt des Verfahrens ist, dass ein Phonem eines zu synthetisierenden Textes in ein Phon umgesetzt wird und die Dauer dieses Phons zu bestimmen ist.
Das Verfahren beginnt mit dem Schritt S13. Im Schritt S14 wird der Kontext des Phonems im Ausgangstext bestimmt. Hier­ bei wird zweckmäßigerweise der Umfang des Kontextes so ge­ wählt, dass er der Länge des Sekundärklusters entspricht. Im vorliegenden Ausführungsbeispiel wird der Kontext im Umfang eines Wortes bestimmt.
Im Schritt S15 wird geprüft, ob der im Schritt S14 ermittelte Kontext als Sekundärkluster in der Sekundärstatistik gespei­ chert ist. Ist dies der Fall, geht der Programmablauf auf den Schritt S16 über, mit dem die mittlere Phondauer d' die dem Phonem des Sekundärklusters zugeordnet ist, der dem Phonem des Ausgangstextes entspricht, und die Phondauern und die Standardabweichung ausgelesen werden. Der Programmablauf geht dann auf den Schritt S17 über, bei dem die tatsächlich anzu­ wendende Phondauer d aus der mittleren Phondauer d' und der Standardabweichung G gemäß folgender Formel berechnet wird:
d = d' + G.s,
wobei s ein Geschwindigkeitsskalierungsfaktor ist, der gemäß folgender Formel berechnet wird:
s = Rrel - 1
wobei Rrel das Verhältnis der zu sprechenden Sprechgeschwin­ digkeit gegenüber der Sprechgeschwindigkeit ist, mit der der Text auf dem die Statistik beruht, gesprochen worden ist. Durch die Berücksichtigung der Standardabweichung werden Pho­ ne, die der Sprecher des Trainingstextes mit stark unter­ schiedlichen Längen ausgesprochen hat, entsprechend stark bei der Sprachsynthese variiert. Z. B. werden Plosiv-Laute, wie z. B. "k" sehr wenig variiert, weshalb sie eine sehr kleine Standardabweichung besitzen. Sie werden bei der Sprachsynthe­ se entsprechend wenig variiert. Vokale, wie z. B. "a" werden stark variiert, weshalb sie eine entsprechend große Standard­ abweichung besitzen. Bei obigen Formeln ist zu berücksichti­ gen, dass der Geschwindigkeitsskalierungsfaktor s auch nega­ tive Werte annehmen kann, wodurch die Phondauer gegenüber der mittleren Phondauer entsprechend verkürzt wird.
Ergibt die Abfrage im Schritt S15 hingegen, dass der im Schritt S14 ermittelte Kontext nicht in der Sekundärstatistik enthalten ist, so geht der Verfahrensablauf auf den Schritt S18 über. Im Schritt S18 wird geprüft, ob der Abschnitt des Kontextes im Bereich des umzusetzenden Phonems identisch zu einem Primärkluster der Primärstatistik ist. Ist dies der Fall, geht der Verfahrensablauf auf den Schritt S19 über. Im Schritt S19 wird die mittlere Phondauer und die Standardab­ weichung des mittleren Phonems des entsprechenden Pri­ märklusters ausgelesen. Der Verfahrensablauf geht dann auf den Schritt S17 über, mit dem in der oben erläuterten Weise die tatsächlich anzuwendende Phondauer berechnet wird.
Ergibt die Abfrage im Schritt S18, dass zu dem Kontext des Ausgangstextes kein identisches Primärkluster in der Primär­ statistik vorhanden ist, so geht der Verfahrensablauf auf den Schritt S20 über, in dem ein Primärkluster bestimmt wird, das dem Kontext klanglich möglichst ähnlich ist.
Im darauffolgenden Schritt S21 werden die mittlere Phondauer und die Standardabweichung des mittleren Phonems dieses Pri­ märklusters ausgelesen. Der Verfahrensablauf geht dann auf den Schritt S17 über.
Nach Ausführung des Schrittes S17 wird das Verfahren zum Er­ mitteln der Dauer eines Phons eines Phonems eines Ausgangs­ textes im Schritt S18 beendet.
Das erfindungsgemäße Verfahren zum Bestimmen der Phondauern für die Sprachsynthese ist somit ein zweistufiges Verfahren, bei dem zunächst versucht wird, mittels der Sekundärstatistik eine mittlere Phondauer zu ermitteln, die auf einem speziel­ len Kontext (hier: Wortlänge) beruht, wodurch eine Lautdauer ermittelt wird die der natürlichen Sprechweise wesentlich ähnlicher ist, als die auf Grund der Primärstatistik ermit­ telte Phondauer. Sollte diese Phondauerbestimmung mittels der Sekundärstatistik nicht möglich sein, so wird auf die Primärstatistik zurückgegriffen, die grundsätzlich immer anwendbar ist.
Insbesondere die Kombination des Verfahrens zum Erzeugen der Statistik und des Verfahrens zum Ermitteln der Phondauern stellt ein im wesentlichen rein statistisches Verfahren zur Ermittlung der Phondauern dar, das im wesentlichen ohne Ex­ pertenwissen erstellt und angewendet werden kann. Bei dem o­ ben beschriebenen Ausführungsbeispiel wird z. B. lediglich bei der Segmentierung der Sprachaufzeichnung Expertenwissen ein­ gesetzt, wobei dieser Schritt mittels bekannter Verfahren auch automatisierbar ist.
Die erfindungsgemäßen Verfahren sind so einfach zu implemen­ tieren und zu trainieren. Dennoch haben erste Versuche mit Prototypen gezeigt, dass sie bei der Sprachsynthese eine we­ sentliche Steigerung der Sprachqualität bewirken, da die Phondauer durch das Vorsehen der Sekundärstatistik sprachspe­ zifischer ermittelt wird.
Die oben beschriebenen Verfahren können als Computerprogramme realisiert werden, die selbständig auf einem Computer zum Er­ zeugen der Statistik bzw. zum Ermitteln der Phondauern ablau­ fen. Sie stellen somit automatisch ausführbare Verfahren dar.
Die Computerprogramme können auch auf elektrisch lesbaren Da­ tenträgern gespeichert werden und so auf andere Computersys­ teme übertragen werden.
Ein zur Anwendung des erfindungsgemäßen Verfahrens geeignetes Computersystem ist in Fig. 4 gezeigt. Das Computersystem 1 weist einen internen Bus 2 auf, der mit einem Speicherbereich 3, einer zentralen Prozessoreinheit 4 und einem Interface 5 verbunden ist. Das Interface 5 stellt über eine Datenleitung 6 eine Datenverbindung zu weiteren Computersystemen her. An dem internen Bus 2 sind ferner eine akustische Ausgabeeinheit 7, eine grafische Ausgabeeinheit 8 und eine Eingabeeinheit 9 angeschlossen. Die akustische Ausgabeeinheit 7 ist mit einem Lautsprecher 10, die grafische Ausgabeeinheit 8 mit einem Bildschirm 11 und die Eingabeeinheit 9 mit einer Tastatur 12 verbunden. An dem Computersystem 1 können über die Datenlei­ tung 6 und das Interface 5 Sprachaufzeichnungen eines Textes übertragen werden, die im Speicherbereich 3 abgespeichert werden. Der Speicherbereich 3 ist in mehrere Bereiche unter­ teilt, in denen Sprachaufzeichnungen, Audiodateien, Anwen­ dungsprogramme zum Durchführen der erfindungsgemäßen Verfah­ ren und weitere Anwendungs- und Hilfsprogramme gespeichert sind. Die Sprachdateien werden mit vorbestimmten Programmpa­ keten analysiert und in die einzelnen Phone segmentiert. Da­ nach wird das erfindungsgemäße Verfahren zum Erzeugen einer Statistik ausgeführt, wobei als Ergebnis die Primär- und Se­ kundärstatistik vorliegen.
Ein beispielsweise über die Datenleitung 6 und das Interface 5 im Speicherbereich 3 abgespeicherter Text kann dann in eine Audiodatei umgesetzt werden, wobei die Phondauern mittels des erfindungsgemäßen Verfahrens (Fig. 3) auf Grundlage der Pri­ mär- und Sekundärstatistik bestimmt werden.
Eine so erzeugte Audiodatei wird über den internen Bus 2 zur akustischen Ausgabeeinheit 7 übertragen und von dieser am Lautsprecher 10 als Sprache ausgegeben.

Claims (15)

1. Verfahren zum Erzeugen einer Statistik von Phondauern, wo­ bei auf Grundlage dieser Statistik bei der synthetischen Spracherzeugung die Phondauern gesteuert werden können, um­ fassend folgende Schritte:
  • - Zuordnen von Phonen eines in Phone segmentierten gesproche­ nen und aufgezeichneten Textes zu Phonemen von vorbestimm­ ten Primärklustern, die aus mehreren Phonemen zusammenge­ setzt sind, wobei jeweils ein Phon einem Phonem eines Pri­ märklusters zugeordnet wird, wenn es im gesprochenem Text zu einem dem Kontext des Phonems des Primärklusters identi­ schen oder ähnlichen Kontext auftritt,
  • - Erstellen einer Primärstatistik, die zumindest die mittlere Phondauer aller Phone, die dem jeweiligen Phonem eines Pri­ märklusters zugeordnet sind, umfasst,
gekennzeichnet durch
  • - Zuordnen von Phonen des gesprochenen und aufgezeichneten Textes zu Phonemen von vorbestimmten Sekundärklustern, die aus Phonemen zusammengesetzt sind, wobei zumindest die An­ zahl Phoneme einiger Sekundärkluster sich von der Anzahl der Phoneme der Primärkluster unterscheidet, wobei jeweils ein Phon einem Phonem eines Sekundärklusters zugeordnet wird, wenn es im gesprochenem Text zu einem dem Kontext des Phonems des Sekundärklusters identischen Kontext auftritt,
  • - Erstellen einer Sekundärstatistik, die zumindest die mitt­ lere Phondauer aller Phone, die dem jeweiligen Phonem eines Sekundärklusters zugeordnet sind, umfasst.
2. Verfahren zum Erzeugen einer Statistik von Phondauern nach Anspruch 1, dadurch gekennzeichnet, dass die Anzahl der Phoneme der Primärkluster konstant ist und die Anzahl z. B. gleich 3 ist.
3. Verfahren zum Erzeugen einer Statistik nach Anspruch 1 o­ der 2, dadurch gekennzeichnet, dass die Anzahl der Phoneme des Sekundärklusters variabel ist und die Sekundärkluster z. B. jeweils die Phoneme eines Wortes umfassen.
4. Verfahren zum Erzeugen einer Statistik nach einem der An­ sprüche 1 bis 3, dadurch gekennzeichnet, dass die Primärstatistik und die Sekundärstatistik jeweils die Standardabweichung der jeweiligen Phondauer umfassen.
5. Verfahren zum Erzeugen einer Statistik nach einem der An­ sprüche 1 bis 4, dadurch gekennzeichnet, dass mit der Sekundärstatistik nur Sekundärkluster erfasst werden, deren Häufigkeit im Text größer oder gleich einer vorbestimmten Mindesthäufigkeit ist.
6. Verfahren zum Erzeugen einer Statistik nach einem der An­ sprüche 1 bis 5, dadurch gekennzeichnet, dass die Mindesthäufigkeit zumindest 3 beträgt und vorzugs­ weise im Bereich von 3 bis 10 liegt.
7. Verfahren zum Erzeugen einer Statistik nach einem der An­ sprüche 1 bis 6, dadurch gekennzeichnet, dass die Zuordnung der Phone zu Phonemen der Primärkluster mittels einer vorbestimmten Liste von in Primärklustern grup­ pierten Phonemen erfolgt, wobei die Phone den einzelnen Pho­ nemen der Primärkluster der Liste zugeordnet werden und die einzelnen Zuordnungen abgespeichert werden.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass zu den einzelnen Phonemen der Primärkluster der Liste auf Grundlage der abgespeicherten Zuordnungen jeweils die mittlere Phondauer (d) und die Standardabweichung (G) der mittleren Phondauer berechnet werden.
9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass die Zuordnung der Phone zu den Phonemen der Sekun­ därkluster mittels einer vorbestimmten Liste von in Sekun­ därklustern gruppierten Phonemen erfolgt, wobei die Phone den einzelnen Phonemen der Sekundärkluster der Liste zugeordnet werden und die einzelnen Zuordnungen abgespeichert werden.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass zu den einzelnen Phonemen der Sekundärkluster der Liste auf Grundlage der abgespeicherten Zuordnungen jeweils die mittlere Phondauer (d) und die Standardabweichung (G) der mittleren Phondauer berechnet werden.
11. Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese, mittels einer Statistik von Phondauern, die eine Primärstatistik und eine Sekundärstatistik aufweist, wo­ bei die Primärstatistik in Primärkluster gruppierte Phoneme umfasst, und den einzelnen Phonemen der Primärkluster zumin­ dest eine mittlere Phondauer zugeordnet ist, und die Sekundärstatistik in Sekundärkluster gruppierte Phoneme umfasst, und den einzelnen Phonemen der Sekundärkluster zu­ mindest eine mittlere Phondauer zugeordnet ist, umfassend folgende Schritte:
  • - Bestimmen, ob das in Sprache umzusetzende Phonem, für das die Phondauer zu ermitteln ist, Bestandteil eines Sekun­ därklusters ist,
  • - Zuordnen der mittleren Phondauer (d), die in der Sekundär­ statistik dem entsprechendem Phonem in dem jeweiligen Se­ kundärkluster zugeordnet ist, falls das Phonem Bestandteil eines Sekundärklusters ist, und
  • - Zuordnen der mittleren Phondauer (d), die in der Primär­ statistik dem entsprechendem Phonem in dem jeweiligen Primärkluster zugeordnet ist, falls das Phonem nicht Bestand­ teil eines Sekundärklusters ist.
12. Verfahren zum Ermitteln der Dauer der einzelnen Phone bei der Sprachsynthese mittels einer mit einem Verfah­ ren nach einem der Ansprüche 1 bis 10 erzeugten Statistik.
13. Verfahren nach Anspruch 11 oder 12, dadurch gekennzeichnet,
dass bei der Ermittlung der Dauer (d) der einzelnen Phone die Standardabweichungen (G) der in der Statistik gespeicherten mittleren Phondauern (d') gemäß folgender Formel berücksich­ tigt werden
d = d' + G.s,
wobei s ein Geschwindigkeitsskalierungsfaktor ist, der gemäß folgender Formel berechnet wird
s = Rrel - 1,
wobei Rrel das Verhältnis der zu sprechenden Sprechgeschwin­ digkeit gegenüber der Sprechgeschwindigkeit, mit der der Text auf dem die Statistik beruht, gesprochen worden ist.
14. Vorrichtung zum Erzeugen einer Statistik von Phondauern auf Grundlage derer bei der synthetischen Spracherzeugung die Phondauern gesteuert werden können, mit einem Computersystem (1), das einen Speicherbereich (3) auf­ weist, in dem ein Programm zum Ausführen eines Verfahrens nach einem der Ansprüche 1 bis 10 gespeichert ist.
15. Vorrichtung zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese mit einem Computersystem (1), das einen Speicherbereich (3) auf­ weist, in dem ein Programm zum Ausführen eines Verfahrens nach einem der Ansprüche 11 bis 13 gespeichert ist.
DE10033104A 2000-07-07 2000-07-07 Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese Expired - Fee Related DE10033104C2 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE10033104A DE10033104C2 (de) 2000-07-07 2000-07-07 Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese
DE50115685T DE50115685D1 (de) 2000-07-07 2001-06-19 Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese
EP01114696A EP1170723B1 (de) 2000-07-07 2001-06-19 Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese
US09/899,536 US6934680B2 (en) 2000-07-07 2001-07-06 Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10033104A DE10033104C2 (de) 2000-07-07 2000-07-07 Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese

Publications (2)

Publication Number Publication Date
DE10033104A1 DE10033104A1 (de) 2002-01-17
DE10033104C2 true DE10033104C2 (de) 2003-02-27

Family

ID=7648160

Family Applications (2)

Application Number Title Priority Date Filing Date
DE10033104A Expired - Fee Related DE10033104C2 (de) 2000-07-07 2000-07-07 Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese
DE50115685T Expired - Lifetime DE50115685D1 (de) 2000-07-07 2001-06-19 Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE50115685T Expired - Lifetime DE50115685D1 (de) 2000-07-07 2001-06-19 Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese

Country Status (3)

Country Link
US (1) US6934680B2 (de)
EP (1) EP1170723B1 (de)
DE (2) DE10033104C2 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7328157B1 (en) * 2003-01-24 2008-02-05 Microsoft Corporation Domain adaptation for TTS systems
US9245526B2 (en) * 2006-04-25 2016-01-26 General Motors Llc Dynamic clustering of nametags in an automated speech recognition system
US8924194B2 (en) * 2006-06-20 2014-12-30 At&T Intellectual Property Ii, L.P. Automatic translation of advertisements
US8447609B2 (en) * 2008-12-31 2013-05-21 Intel Corporation Adjustment of temporal acoustical characteristics

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69420547T2 (de) * 1993-01-21 2000-07-13 Apple Computer Wellenform-mischungsverfahren für system zur text-zu-sprache umsetzung

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2296846A (en) * 1995-01-07 1996-07-10 Ibm Synthesising speech from text
DE19508711A1 (de) * 1995-03-10 1996-09-12 Siemens Ag Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind
JP3854713B2 (ja) * 1998-03-10 2006-12-06 キヤノン株式会社 音声合成方法および装置および記憶媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69420547T2 (de) * 1993-01-21 2000-07-13 Apple Computer Wellenform-mischungsverfahren für system zur text-zu-sprache umsetzung

Also Published As

Publication number Publication date
DE10033104A1 (de) 2002-01-17
US6934680B2 (en) 2005-08-23
EP1170723A3 (de) 2002-10-30
US20020016709A1 (en) 2002-02-07
EP1170723B1 (de) 2010-11-03
DE50115685D1 (de) 2010-12-16
EP1170723A2 (de) 2002-01-09

Similar Documents

Publication Publication Date Title
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE69816221T2 (de) Sprachschnellheitsveränderungsverfahren und vorrichtung
DE102019200954A1 (de) Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen
WO2005013261A1 (de) Verfahren zur spracherkennung und kommunikationsgerät
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE10054583C2 (de) Verfahren und Vorrichtung zum Aufzeichnen, Suchen und Wiedergeben von Notizen
DE112004000187T5 (de) Verfahren und Vorrichtung der prosodischen Simulations-Synthese
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE102019200956A1 (de) Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
WO2001069591A1 (de) Verfahren zur erkennung von sprachäusserungen nicht-mutter-sprachlicher sprecher in einem sprachverarbeitungssystem
DE60008893T2 (de) Sprachgesteuertes tragbares Endgerät
DE60307965T2 (de) Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen
DE10033104C2 (de) Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese
DE4111781A1 (de) Computersystem zur spracherkennung
EP1344211B1 (de) Vorrichtung und verfahren zur differenzierten sprachausgabe
DE60311482T2 (de) Verfahren zur steuerung der dauer bei der sprachsynthese
DE10305369B4 (de) Benutzeradaptives Verfahren zur Geräuschmodellierung
EP1078354B1 (de) Verfahren und anordnung zur bestimmung spektraler sprachcharakteristika in einer gesprochenen äusserung
EP1062659B1 (de) Verfahren und vorrichtung zur bearbeitung eines tonsignals
DE10196989T5 (de) Verbessertes Sprachumwandlungssystem und -vorrichtung
WO1999010878A1 (de) Verfahren zur bestimmung eines repräsentanten für einen sprachbaustein einer sprache aus einem lautabschnitte umfassenden sprachsignal
DE2400027A1 (de) Verfahren und vorrichtung zum erkennen von worten

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8304 Grant after examination procedure
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee
R082 Change of representative

Representative=s name: FRITZSCHE PATENT, DE

R081 Change of applicant/patentee

Owner name: SIEMENS ENTERPRISE COMMUNICATIONS GMBH & CO. K, DE

Free format text: FORMER OWNER: SIEMENS AKTIENGESELLSCHAFT, 80333 MUENCHEN, DE

Effective date: 20130313

R082 Change of representative

Representative=s name: FRITZSCHE PATENT, DE

Effective date: 20130313

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20130201