DE69917961T2

DE69917961T2 - Phonembasierte Sprachsynthese

Info

Publication number: DE69917961T2
Application number: DE69917961T
Authority: DE
Inventors: Mitsuru Ohta-ku Ohtsuka
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1998-03-10
Filing date: 1999-03-09
Publication date: 2005-06-23
Anticipated expiration: 2019-03-10
Also published as: JP3854713B2; EP0942410A2; DE69917961D1; US6546367B2; JPH11259095A; EP0942410B1; US20020107688A1; EP0942410A3

Description

ALLGEMEINER STAND DER TECHNIK
Die vorliegende Erfindung bezieht sich auf ein Verfahren und ein Gerät zur Sprachanalyse unter Verwendung eines regelbasierenden Syntheseverfahrens und auf ein Speichermedium, das computerlesbare Programme zum Realisieren des Sprachsyntheseverfahrens speichert.
Als Verfahren zum Steuern einer Phonemdauer verwendet ein herkömmliches regelbasierendes Sprachsynthesegerät ein Steuerregelverfahren, das auf der Grundlage von Statistiken basiert, die sich auf eine Phonemdauer beziehen (Yoshinori KOUSAKA, Youichi TOUKURA, "Phoneme Duration Control for Rule-Based Speech Synthesis", The Journal of the Institute of Electronics and Communication Engineers of Japan, Band J67-A, Nr. 7 (1984), Seiten 629–636) oder ein Verfahren des Anwendens kategorischer multipler Regression als eine Technik der multiplen Regressionsanalyse (Tetsuya SAKAYORI, Shoichi SASAKI, Hiroo KITAGAWA, "Prosodies Control Using Categorical Multiple Regression for Rule-Based Synthesis, "Report of the 1986 Autumn Meeting of the Acoustic Society of Japan, 3-4-17 (1986-10).
Nach der obigen herkömmlichen Technik ist es jedoch schwierig, die Spracherzeugungszeit einer Phonemkette zu spezifizieren. Beispielsweise ist es bei dem Steuerregelverfahren schwierig, eine Steuerregel zu bestimmen, die einer spezifizierten Spracherzeugungszeit entspricht. Wenn eingegebene Daten eine Ausnahme im Steuerregelverfahren haben, oder wenn darüber hinaus ein befriedigender Schätzwert nicht im Verfahren der kategorischen multiplen Regression gewonnen wird, wird es schwierig, eine Phonemdauer zu erhalten, die einen natürlichen Klang hat.
Im Falle des Steuerns einer Phonemdauer unter Verwendung von Steuerregeln ist es erforderlich, die Statistiken zu wichten (Durchschnittswert, Standardabweichung usw.), während die Kombination vorangehender und nachfolgender Phoneme zu berücksichtigen ist, oder es ist erforderlich, einen Erweiterungskoeffizienten einzusetzen. Es gibt verschiedene Faktoren, die gehandhabt werden müssen, beispielsweise eine Kombination von Phonemen, die von jedem Fall abhängen, Parametern, wie Wichtungs- und Erweiterungskoeffizienten und dergleichen. Darüber hinaus muß das Betriebsverfahren (Steuerregeln) bestimmt werden durch eine Daumenregel. Im Falle, bei dem die Sprachproduktionszeit einer Phonemkette spezifiziert ist, wird folglich die Anzahl von Kombinationen der Phoneme äußerst groß. Des weiteren ist es schwierig, Steuerregeln zu bestimmen, die auf eine beliebige Kombination von Phonemen anwendbar sind, bei denen die Gesamtphonemdauer nahe an der spezifizierten Spracherzeugungszeit liegt.
Das Dokument WO 96/42079 beschreibt ein Sprachsynthesegerät, das eine Sprachsynthese gemäß einer eingegebenen Phonemkette ausführt, mit:
einem Speichermittel, das statistische Daten bezüglich einer Phonemdauer eines jeden Phonems speichert;
einem Bestimmungsmittel zum Bestimmen der Spracherzeugungszeit für die eingegebene Phonemkette;
einem Einstellmittel zum Einstellen der Phonemdauer entsprechend der Sprachwiedergabezeit eines jeden Phonems, das die Phonemkette aufbaut, basierend auf statistischen Daten eines jeden aus dem Speichermittel gewonnenen Phonems; und mit
einem Erzeugungsmittel, das eine Sprachwellenform durch Verbinden von Phonemen unter Verwendung der Phonemdauer erzeugt.
Nach einem Aspekt ist die vorliegende Erfindung dadurch gekennzeichnet, daß die im Speichermittel gespeicherten statistischen Daten wenigstens Standardabweichungsdaten und Mehrfachregressionsanalysedaten bezüglich einer Phonemdauer eines jeden Phonems enthalten;
das Gerät ein Anfangswertgewinnungsmittel enthält, um eine geschätzte Dauer des Phonems durch Mehrfachregressionsanalyse unter Verwendung der im Speichermittel gespeicherten Mehrfachregressionsanalysedaten zu gewinnen;
das Einstellmittel eine Anfangsphonemdauer für jedes die Phonemkette aufbauende Phonem auf der Grundlage der geschätzten Dauer einstellt; und daß
das Einstellmittel ein Rechenmittel enthält, das betriebsbereit ist zum Errechnen einer Phonemdauer durch Addieren eines auf den Standardabweichungsdaten vom aus dem Speichermittel gewonnenen Phonem basierend errechneten Wertes mit der für das Phonem eingestellten Anfangsphonemdauer, wobei die individuellen Phonemdauern bestimmt sind, um die vom Bestimmungsmittel bestimmte Spracherzeugungszeit aufzusummieren.
Nach weiteren Aspekten ist die Erfindung in den Patentansprüchen 10 und 19 angegeben.
Die vorliegende Erfindung hat den Vorteil, daß sie eine spezifizierte Spracherzeugungszeit erreicht und kann eine natürliche Phonemdauer schaffen, ungeachtet der Länge der Spracherzeugungszeit.
Des weiteren schafft die vorliegende Erfindung ein Sprachsyntheseverfahren, das vom obigen Sprachsynthesegerät ausgeführt wird. Darüber hinaus stellt die vorliegende Erfindung ein Speichermedium bereit, das Steuerprogramme speichert, um das obige Sprachsyntheseverfahren vom Computer zu realisieren.
Andere Merkmale und Vorteile der vorliegenden Erfindung werden aus der nachstehenden Beschreibung in Verbindung mit der beiliegenden Zeichnung deutlich, in der gleiche Bezugszeichen dieselben oder ähnliche Teile in allen Figuren bedeuten.
KURZE BESCHREIBUNG DER ZEICHNUNG
Die beiliegende Zeichnung, die einen Teil der Beschreibung bildet, veranschaulicht Beispiele der Erfindung und dient gemeinsam mit der Beschreibung der Erläuterung des erfinderischen Prinzips.
1 ist ein Blockdiagramm, das ein Aufbau eines Sprachsynthesegerätes nach einem Ausführungsbeispiel der vorliegenden Erfindung zeigt;
2 ist ein Blockdiagramm, das eine Ablaufstruktur des Sprachsynthesegerätes nach dem Ausführungsbeispiel der vorliegenden Erfindung zeigt;
3 ist ein Ablaufdiagramm, das die Sprachsyntheseschritte nach dem Ausführungsbeispiel der vorliegenden Erfindung zeigt;
4 ist eine Tabelle, die die Konfiguration von Phonemdaten gemäß einem Beispiel der Sprachsynthese zeigt;
5 ist ein Ablaufdiagramm, das einen Bestimmungsprozeß einer Phonemdauer nach dem ersten Ausführungsbeispiel der vorliegenden Erfindung zeigt;
6 ist eine Ansicht, die ein Beispiel einer eingegebenen Phonemkette zeigt;
7 ist eine Tabelle, die eine Datenkonfiguration einer Koeffiziententabelle zeigt, die Koeffizienten a_j,k für die kategorische multiple Regression nach einem Ausführungsbeispiel der vorliegenden Erfindung zeigt;
8 ist eine Tabelle, die eine Datenkonfiguration von Phonemdaten nach dem Ausführungsbeispiel der vorliegenden Erfindung zeigt; und
9A und 9B sind Ablaufdiagramme, die einen Bestimmungsprozeß einer Phonemdauer nach einem zweiten Ausführungsbeispiel der vorliegenden Erfindung zeigen.
DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
Ein Beispiel eines Sprachsyntheseverfahrens und ein Beispiel der vorliegenden Erfindung ist nachstehend anhand der beiliegenden Zeichnung beschrieben.
Beispiel
1 ist ein Blockdiagramm, das den Aufbau eines Sprachsynthesegerätes nach einem Ausführungsbeispiel der vorliegenden Erfindung zeigt. Bezugszeichen 101 bedeutet eine CPU, die verschiedene Steuerungen im regelbasierenden Sprachsynthesegerät des vorliegenden Ausführungsbeispiels ausführt. Bezugszeichen 102 bedeutet einen ROM, bei dem verschiedene Parameter und Steuerprogramme gespeichert sind, die die CPU 101 ausführt. Bezugszeichen 103 bedeutet einen RAM, der Steuerprogramme speichert, die die CPU 101 ausführt, und dient auch als Arbeitsbereich der CPU 101. Bezugszeichen 104 bedeutet einen externen Speicher, beispielsweise eine Festplatte, eine Diskette, einen CD-ROM und dergleichen. Bezugszeichen 105 bedeutet eine Eingabeeinheit, die über eine Tastatur, eine Maus usw. verfügt. Bezugszeichen 106 bedeutet eine Anzeige zum Ausführen verschiedener Anzeigen gemäß der Steuerung von der CPU 101. Bezugszeichen 6 bedeutet einen Sprachsynthesizer zum Erzeugen synthetisierter Sprache. Bezugszeichen 107 bedeutet einen Lautsprecher, der Sprachsignale (elektrische Signale) umsetzt in Klang und abgibt, die vom Sprachsynthesizer 6 kommen.
2 ist ein Blockdiagramm, das die Ablaufstruktur des Synthesegerätes nach dem Ausführungsbeispiel zeigt. Nachstehend zu beschreibende Funktionen realisiert die CPU 101, die Steuerprogramme ausführt, die der ROM 102 speichert, oder Steuerprogramme ausführt, die von einem externen Speicher 104 zum RAM 103 kommen.
Bezugszeichen 1 bedeutet eine Zeichenketteeingabeeinheit zur Eingabe einer Zeichenkette von zu synthetisierender Sprache, das heißt, phonetischer Text, der über die Eingabeeinheit 105 hereinkommt. Wenn beispielsweise die zu synthetisierende Sprache "O·N·S·E·I" ist, gibt die Zeichenketteneingabeeinheit eine Zeichenkette "o, n, s, e, i" ein. Diese Zeichenkette enthält gelegentlich eine Steuersequenz zur Eingabe der Spracherzeugungsgeschwindigkeit oder der Tonhöhe der Sprache. Bezugszeichen 2 bedeutet eine Steuerdatenspeichereinheit, die in internen Registern Informationen speichert, die man findet als Steuersequenz durch die Zeichenketteeingabeeinheit 1, und Steuerdaten, wie die Spracherzeugungsgeschwindigkeit und die Tonhöhe der Sprache oder dergleichen, die von einer Nutzerschnittstelle eingegeben werden. Bezugszeichen 3 bedeutet eine Phonemkettenerzeugungseinheit, die eine Zeichenkette umsetzt, die über die Zeichenketteneingabeeinheit 1 hereinkommt, und zwar in eine Phonemkette. Beispielsweise wird die Zeichenkette "o, n, s, e, i" umgesetzt in eine Phonemkette "o, X, s, e, i". Bezugszeichen 4 bedeutet eine Phonemkettenspeichereinheit, die die von der Phonemkettenerzeugungseinheit 3 erzeugte Phonemkette in internen Registern speichert. Angemerkt sei, daß der RAM 103 als zuvor genanntes internes Register dienen kann.
Bezugszeichen 5 bedeutet eine Phonemdauereinstelleinheit, die eine Phonemdauer gemäß den Steuerdaten einstellt, dargestellt durch Sprachwiedergabegeschwindigkeit, die in der Steuerdatenspeichereinheit 2 gespeichert ist, und die Art des Phonems, das in der Phonemkettenspeichereinheit 4 gespeichert ist. Bezugszeichen 6 bedeutet einen Sprachsynthesizer, der synthetisierte Sprache aus der Phonemkette erzeugt, in der die Phonemdauer von der Phonemdauereinstelleinheit 5 eingestellt ist, sowie den Steuerdaten, die die Tonhöhe der Sprache darstellen und in der Steuerdatenspeichereinheit 2 gespeichert sind.
Als nächstes beschrieben ist das Einstellen einer Phonemdauer, die ausgeführt wird von der Phonemdauereinstelleinheit 5. Die Prozedur erfolgt nicht gemäß der Erfindung, sondern wird beschrieben, um das Verständnis für das Ausführungsbeispiel der nachstehenden Erfindung zu erleichtern. In der folgenden Beschreibung zeigt Ω einen Satz von Phonemen auf. Als Beispiel von Ω kann folgendes verwendet werden:
Ω = {a, e, i, o, u, X (silbenbildend nasal), b, d, g, m, n, r, w, y, z, ch, f, h, k, p, s, sh, t, ts, Q (Doppelkonsonant)}
Hier wird angenommen, daß der Phonemsdauereinstellabschnitt ein Ausatmungsabschnitt ist (Abschnitt zwischen Pausen). Die Phonemsdauer di für jedes Phonem αi und der Phonemkette wird so bestimmt, daß die Phonemkette, aufgebaut aus dem Phonemen αi (1 ≤ i ≤ N) im Phonemdauereinstellabschnitt betont ist innerhalb der Spracherzeugungszeit T, die bestimmt ist auf der Grundlage der Steuerdaten, die eine jede Spracherzeugungsgeschwindigkeit darstellen, gespeichert in der Steuerdatenspeichereinheit 2. Mit anderen Worten, die Phonemdauer di (Gleichung (1b)) für jedes αi (Gleichung (1a)) der Phonemkette wird so bestimmt, daß sie der Gleichung (1c) genügt.
Hier ist der Phonemdaueranfangswert des Phonems αi festgelegt mit dαi0. Der Phonemdaueranfangswert dαi0 wird gewonnen beispielsweise durch Teilen der Spracherzeugungszeit T durch die Anzahl N der Phonemkette. In Hinsicht auf das Phonem αi eines Durchschnittswertes werden die Standardabweichung und der Minimalwert der Phonemdauer jeweils festgelegt mit μαi, σαi, dαimin. Unter Verwendung dieser Werte wird der Anfangswert dαi durch die Gleichung (2) bestimmt, und der gewonnene Wert wird eingesetzt als neuer Phonemdaueranfangswert. Genauer gesagt, der Durchschnittswert, der Standardabweichungswert und der Minimalwert der Phonemdauer werden für jede Phonemart gewonnen (für jedes αi), gespeichert im Speicher, und der Anfangswert der Phonemdauer wird erneut unter Verwendung dieser Werte bestimmt.
Unter Verwendung des Phonemdaueranfangswertes dαi, der auf diese Weise gewonnen wird, kann die Phonemdauer di gemäß folgender Gleichung (3a) bestimmt werden. Angemerkt sei, daß die gewonnene Phonemdauer di der Beziehung di < θαi genügt θαi (> 0) ein Schwellwert ist, di wird gemäß Gleichung (3b) eingesetzt. Der Grund dafür ist der, daß θαi wiedergegebene Sprache ist, die unnatürlich klingt, wenn sie zu kurz ist.
Genauer gesagt, die Summe der aktualisierten Anfangswerte von der Phonemdauer wird subtrahiert von der Spracherzeugungszeit T, und der sich ergebende Wert wird geteilt durch die Quadratsumme der Standardabweichung σαi der Phonemdauer. Der resultierende Wert wird als Koeffizient ρ verwendet. Das Produkt des Koeffizienten ρ mit dem Quadrat der Standardabweichung σαi wird dem Anfangswert dαi der Phonemdauer hinzugefügt, und als Ergebnis wird die Phonemdauer di gewonnen.
Die vorstehende Operation ist nachstehend anhand des Ablaufdiagramms von 3 beschrieben.
Zunächst wird in Schritt S1 ein phonetischer Text eingegeben durch die Zeichenketteeingabeeinheit 1. In Schritt S2 werden Steuerdaten (Spracherzeugungsgeschwindigkeit, Tonhöhe der Sprache) extern eingegeben, und die Steuerdaten im phonetischen Text, eingegeben in Schritt S1, werden in die Steuerdatenspeichereinheit 2 gespeichert. In Schritt 53 wird eine Phonemkette erzeugt von der Phonemkettenerzeugungseinheit 3 auf der Grundlage des phonetischen Textes, der von der Zeichenketteneingabeeinheit 1 eingegeben wurde.
Als nächstes wird in Schritt S4 eine Phonemkette des nächsten Phonemdauereinstellabschnitts in die Phonemkettenspeichereinheit 4 gespeichert. In Schritt S5 setzt die Phonemdauereinstelleinheit 5 den Phonemdaueranfangswert dαi gemäß der Phonemart αi ein (Gleichung (2)). In Schritt S6 wird die Spracherzeugungszeit T des Phonemdauereinstellabschnitts auf der Grundlage der Steuerdaten eingestellt, die die Spracherzeugungsgeschwindigkeit repräsentieren, gespeichert in der Steuerdatenspeichereinheit 2. Eine Phonemdauer wird für jede Phonemkette des Phonemdauereinstellabschnitts unter Verwendung der oben beschriebenen Gleichungen (3a) und (3b) eingesetzt, so daß die Gesamtphonemdauer der Phonemkette im Phonemdauereinstellabschnitt der Spracherzeugungszeit T vom Phonemdauereinstellabschnitt gleicht.
In Schritt S7 wird synthetisierte Sprache auf der Grundlage der Phonemkette erzeugt, wobei die Phonemdauer eingestellt wird von der Phonemdauereinstelleinheit 5 und den Steuerdaten, die die Tonhöhe der Sprache darstellen, gespeichert in der Steuerdatenspeichereinheit 2. In Schritt S8 wird bestimmt, ob die eingegebene Zeichenkette der letzte Phonemdauereinstellabschnitt ist, und wenn es sich nicht um den letzten Phonemdauereinstellabschnitt handelt, werden die extern eingegebenen Steuerdaten in die Steuerdatenspeichereinheit 2 in Schritt S10 gespeichert, und dann kehrt der Prozeß zu Schritt S4 zurück, um die Verarbeitung fortzusetzen.
Wenn zwischenzeitlich in Schritt S8 bestimmt ist, daß die eingegebene Zeichenkette der letzte Phonemdauereinstellabschnitt ist, schreitet der Ablauf fort zu Schritt S9, um zu bestimmen, ob alle Eingaben abgeschlossen sind. Sind die Eingaben nicht abgeschlossen, kehrt der Ablauf zu Schritt S1 zurück, um die oben beschrieben Verarbeitung zu wiederholen.
Der Prozeß des Bestimmens der Dauer für jedes Phonem, ausgeführt in den Schritten S5 und S6, wird weiterhin in Einzelheiten beschrieben.
4 ist eine Tabelle, die die Konfiguration der Phonemdaten gemäß dem ersten Ausführungsbeispiel zeigt. Wie in 4 gezeigt, enthalten die Phonemdaten den Durchschnittswert μ der Phonemdauer, die Standardabweichung σ, die den Minimalwert dmin und den Schwellwert θ in Hinsicht auf jedes Phonem (a, e, i, o, u, ...) des Satzes von Phonemen Ω.
5 ist ein Ablaufdiagramm, das den Prozeß des Bestimmens einer Phonemdauer gemäß dem ersten Ausführungsbeispiel zeigt, wobei der detaillierte Prozeß der Schritte S5 und S6 in 3 dargestellt ist.
Die Anzahl von Komponenten i in der Phonemkette (gewonnen in Schritt S4 in 3) und jede der Komponenten α1 bis αI, gewonnen in Hinsicht auf den Ausatmungsabschnittsgegenstand zur Verarbeitung werden als erstes in Schritt S101 bestimmt. Wenn beispielsweise die Phonemkette "o, X, s, e, i" enthält, werden α1 bis α5 in der in 6 gezeigten Weise bestimmt, und die Anzahl der Komponenten I beträgt 5. In Schritt S102 wird die Variable i auf 1 initialisiert, und der Prozeß schreitet fort zu Schritt S103.
In Schritt S103 werden der Durchschnittswert μ, die Standardabweichung σ und der Minimalwert dmin für das Phonem αi auf der Grundlage der Phonemdaten gewonnen, die in 4 gezeigt sind. Unter Verwendung der gewonnenen Daten wird der Phonemdaueranfangswert dαi aus der obigen Gleichung (2) bestimmt. Das Errechnen des Phonemdaueranfangswertes dαi in Schritt S103 wird für alle Phonemketten Gegenstände ausgeführt zur Verarbeitung. Genauer gesagt, die variable i wird in Schritt S104 inkrementiert, und Schritt S103 wird so oft wiederholt, wie die Variable i kleiner als i in Schritt S105 ist.
Die vorstehenden Schritte S101 bis S105 entsprechen dem Schritt S5 in 3. In der oben beschrieben Weise wird der Phonemdaueranfangswert für alle Phonemketten in Hinsicht auf den Ausatmungsabschnitt bestimmt, der Gegenstand der Verarbeitung ist, und die Verarbeitung schreitet fort zu Schritt S106.
In Schritt S106 wird die Variable i auf 1 initialisiert. In Schritt S107 wird die Phonemdauer di für das Phonem αi so bestimmt, daß es mit der Spracherzeugungszeit T des Ausatmungsabschnitts übereinstimmt, auf der Grundlage des Phonemdaueranfangswertes für alle Phoneme im Ausatmungsabschnitt, der im vorherigen Prozeß gewonnen wurde, und der Standardabweichung des Phonems αi (das heißt, bestimmt gemäß Gleichung (3a)). Wenn die in Schritt S107 gewonnene Phonemdauer kleiner ist als ein Schwellwert θαi, eingestellt für das Phonem αi, wird der Schwellwert θα1 auf di gesetzt (Schritte S108 und S109).
Das Errechnend er Phonemdauer di in den Schritten S107 bis S109 erfolgt für alle Phonemketten, die Gegenstand der Verarbeitung sind. Genauer gesagt, die Variable i wird in Schritt S110 inkrementiert, und die Schritte S107 bis S109 werden so lange wiederholt, wie die Variable i kleiner als i in Schritt S111 ist.
Die vorstehenden Schritte S106 bis S111 entsprechen Schritt S106 in 3. In der zuvor beschriebenen Weise wird die Phonemdauer aller Phonemketten zum Erzielen der Erzeugungszeit T in Hinsicht auf den Ausatmungsabschnitt gewonnen, der Gegenstand der Verarbeitung ist.
Gleichung (2) dient dem Verhindern, daß der Phonemdaueranfangswert auf einen unrealistischen Weg gesetzt wird, oder einen Wert mit geringer Auftrittswahrscheinlichkeit. Es wird angenommen, daß eine Wahrscheinlichkeitsdichte der Phonemdauer Normalverteilung hat, die Wahrscheinlichkeit, daß der Anfangswert in den Bereich des Durchschnittswertes zu einem Wert ± dem Dreifachen der Standartabweichung fällt, beträgt 0,996. Um des weiteren die Phonemdauer nicht auf einen zu kleinen Wert zu setzen, wird der Wert nicht kleiner als der Minimalwert einer Abtastgruppe natürlicher Spracherzeugung gesetzt.
Gleichung (3a) wird als Ergebnis des Ausführens maximaler Wahrscheinlichkeitsschätzung gewonnen, unter der Bedingung von Gleichung (1c), wobei angenommen wird, daß die Normalverteilung den Phonemdaueranfangswert hat, der in Gleichung (2) als Durchschnittswert eingestellt wurde und die Wahrscheinlichkeitsdichte Funktion für jede Phonemdauer ist. Die maximale Wahrscheinlichkeitsschätzung ist nachstehend beschrieben.
Es wird angenommen, daß die Standardabweichung einer Phonemdauer vom Phonem αi gleich σαi ist. Ebenfalls angenommen wird, daß die Wahrscheinlichkeitsdichteverteilung der Phonemdauer eine Normalverteilung hat (Gleichung (4a)). Unter dieser Bedingung wird die logarithmische Wahrscheinlichkeit der Phonemdauer als Gleichung (4b) ausgedrückt. Das Erzielen der größten logarithmischen Wahrscheinlichkeit ist hier equivalent dem Gewinnen des kleinsten Wertes K in Gleichung (4c). Die Phonemdauer di, die der obigen Gleichung (1c) genügt, wird so bestimmt, daß die logarithmische Wahrscheinlichkeit der Phonemdauer am größten ist.
wobei P_αi(d_i) die Wahrscheinlichkeitsdichte Funktion der Dauer des Phonems αi ist und
L(d_i) die Wahrscheinlichkeit der Phonemdauer ist.
Wenn hier die variable Umsetzung wie in Gleichung (5a) erfolgt, werden die Gleichungen (4c) und (1c) durch die Gleichungen (5b) beziehungsweise (5c) ausgedrückt. Wenn eine Sphere (Gleichung (5b)) in Kontakt mit einer Ebene (Gleichung (5c)) kommt, das heißt, der Fall der Gleichung (5d) hat der Wert K seinen kleinsten Wert. Im Ergebnis wird Gleichung (3a) gewonnen.
Betrachtet man die Gleichungen (2), (3a) und (3b) mit der Verwendung der statistischen Werte (Durchschnittwert, Standardabweichung, Minimalwert), gewonnen aus einer Abtastgruppe natürlicher Spracherzeugung, die Phonemdauer auf den höchstwahrscheinlichen Wert gesetzt (höchste Maximalwahrscheinlichkeit), die einer gewünschten Spracherzeugungszeit entspricht (Gleichung (1c)). Folglich ist es möglich, eine natürliche Phonemdauer zu erhalten, das heißt, ein Fehler, der in der Phonemdauer auftritt, ist gering, wenn Sprache erzeugt wird, die der gewünschten Spracherzeugungszeit entspricht (Gleichung (1c)).
Ausführungsbeispiel der Erfindung
Im Beispiel wird die Phonemdauer di eines jeden Phonems αi nach einer Regel bestimmt, ohne daß die Spracherzeugungsgeschwindigkeit oder die Kategorie des Phonems berücksichtigt wird. Im Ausführungsbeispiel wird die Regel für das Bestimmen der Phonemdauer di gemäß der Spracherzeugungsgeschwindigkeit oder der Kategorie des Phonems variiert, um eine natürlichere Sprachsynthese zu realisieren. Angemerkt sei, daß der Hardwareaufbau und der Funktionsaufbau vom zweiten Ausführungsbeispiel demjenigen des ersten Ausführungsbeispiels gleichen (1 und 2).
Ein Phonem αi wird einer Kategorie zugeordnet, die der Spracherzeugungsgeschwindigkeit gemäß ist, und der Durchschnittswert, die Standardabweichung und der Maximalwert werden gewonnen. Beispielsweise werden die Kategorien der Spracherzeugungsgeschwindigkeit folgendermaßen unter Verwendung einer Durchschnittsmoradauer im Ausatmungsabschnitt ausgedrückt:
1: geringer als 120 Millisekunden
2: gleich oder größer als 120 Millisekunden und kleiner als 140 Millisekunden
3: gleich oder größer als 140 Millisekunden und kleiner als 160 Millisekunden
4: gleich oder größer als 160 Millisekunden und kleiner als 180 Millisekunden
5: gleich oder größer als 180 Millisekunden.
Angemerkt sei, daß der numerische Wert, der einer jeden Kategorie zugewiesen ist, ein Kategorieindex ist, der einer jeden Spracherzeugungsgeschwindigkeit entspricht. Wenn hier der Kategorieindex gemäß einer Spracherzeugungsgeschwindigkeit festgelegt ist mit n, sind der Durchschnittswert, die Standardabweichung und der Minimalwert der Phonemdauer auszudrücken mit μαi(n), σαi(n) beziehungsweise dαimin(n).
Der Phonemdaueranfangswert des Phonems αi ist festgelegt mit dαi0. In einem Satz von Phonemen Ωa wird der Phonemdaueranfangswert dαi0 bestimmt vom Durchschnittswert. In einem Satz von Phonemen Ωr wird der Phonemdaueranfangswert dαi0 bestimmt durch entweder die multiple Regressionsanalyse, kategorische multiple Regression (Technik zur Erläuterung einer Prädiktion eines quantitativen externen Bezugs auf der Grundlage qualitativer Daten). Phoneme Ω enthalten keine Elemente, die nicht entweder Ωa oder Ωr enthalten, oder Elemente, die sowohl Ωa als auch Ωr enthalten. Mit anderen Worten, die Sätze von Phonemen entsprechen den folgenden Gleichungen (6a) und (6b).
Wenn αi ∈ Ωa ist, das heißt αi gehört zu Ωa, wird der Phonemdaueranfangswert durch einen Durchschnittswert bestimmt. Genauer gesagt, der Kategorieindex n gemäß der Spracherzeugungsgeschwindigkeit wird gewonnen, und der Phonemdaueranfangswert wird durch folgende Gleichung (7) bestimmt: dαi0 = μαi(n) (7)
Wenn αi ∈ Ωr, das heißt αi gehört zu Ωr, wird zwischenzeitlich der Phonemdaueranfangswert durch kategorische multiple Regression bestimmt. Hier wird angenommen, daß der Index der Faktoren j (1 ≤ j ≤ J) ist, und der Kategorieindex entsprechend einem jedem Faktor ist k (1 ≤ k ≤ K(j)), wobei der Koeffizient zur kategorischen multiplen Regression (j, k) entsprechend a_j,k ist.
Beispielsweise können folgende Faktoren benutzt werden.
1: die Phoneme, zwei Phoneme, die dem Gegenstandsphonem vorangehen
2: das Phonem, ein Phonem, dem das Gegenstandsphonem vorangeht
3: Gegenstandsphonem
4: das Phonem, ein Phonem, das dem Gegenstandsphonem nachfolgt
5: das Phonem, zwei Phoneme, die dem Gegenstandsphonem folgen
6: eine Durchschnittsmoradauer in einem Ausatmungsabschnitt
7: Moraposition in einem Ausatmungsabschnitt
8: Teil der Sprache des Wortes, das ein Gegenstandsphonem enthält
Die Zeichen, die einem jeden der obigen Faktoren zugeordnet sind, zeigen einen Index vom Faktor j.
Beispiele von Kategorien, die einem jeden Faktor entsprechen, sind hiernach bereitgestellt. Kategorien von Phonemen sind:
1: a, 2: 2, 3: i, 4: 0, 5: u, 6: X, 7: b, 8: d, 9: g, 10: m, 11: n, 12: r, 13: w, 14: y, 15: z, 16: +, 17: c, 18: f, 19: h, 20: k, 21: p, 22: s, 23: sh, 24: t, 25: ts, 26: Q, 27: Pause. Wenn der Faktor das "Gegenstandsphonem", "Pause" ist, erfolgt eine Beseitigung. Obwohl der Ausatmungsabschnitt festgelegt ist als Phonemdauereinstellabschnitt im vorliegenden Ausführungsbeispiel, wird, da der Ausatmungsabschnitt keine Pause enthält, "Pause" aus dem Gegenstandsphänomen entfernt. Angemerkt sei, daß der Ausdruck "Ausatmungsabschnitt" einen Abschnitt zwischen Pausen festlegt (Start und Ende des Satzes), der keine Pause in der Mitte enthält.
Kategorien einer Durchschnittsmoradauer in einem Ausatmungsabschnitt enthalten folgende:
1: kürzer als 120 Millisekunden
2: gleich oder länger als 120 Millisekunden und geringer als 140 Millisekunden
3: gleich oder länger als 140 Millisekunden und kürzer als 160 Millisekunden
4: gleich oder länger als 160 Millisekunden und kürzer als 180 Millisekunden
5: gleich oder länger als 180 Millisekunden.
Kategorien einer Moraposition enthalten folgende:
1: erste Mora
2: zweite Mora
3: dritte Mora ab Beginn und dritte Mora vor Ende
4: zweite Mora vor Ende
5: Endmora
Kategorien eines Sprachteiles (nach japanischer Grammatik) enthalten folgende:
1: Substantiv, 2: adverbisches Substantiv, 3: Pronomen, 4: Eigensubstantiv, 5: Zahl, 6: Verb, 7: Adjektiv, 8: adjektivisches Verb, 9: Adverb, 10: Attribut, 11: Konjunktion, 12: Interjektion, 13: Zusatzverb, 14: besonderer Fall, 15: untergeordnetes Teil, 16: Kollaterialteil, 17: Zusatzteil, 18: konjunktivisches Teil, 19: Schließteil, 20: Präfix, 21: Suffix, 22: adjektivisches Verbalsuffix, 23: sa-unregelmäßiges Konjugationssuffix, 24: adjektivisches Suffix, 25: verbales Suffix, 26: 26: Punze
Angemerkt sei, daß Faktoren (auch Punkte genannt) die Art qualitativer Daten aufzeigen, die bei der Prädiktion der kategorischen multiplen Regression verwendet werden. Die Kategorien zeigen mögliche Auswahlen für jeden Faktor auf. Folgendes basiert auf den obigen Beispielen.
Indexfaktor j = 1: das Phonem, zwei Phoneme, die dem Gegenstandsphonem vorangehen
Kategorie gemäß Index k = 1: a
Kategorie gemäß Index k = 2: e
Kategorie gemäß Index k = 3: i
Kategorie gemäß Index k = 4: o
...
Kategorie gemäß Index k = 26: Q
Kategorie gemäß Index k = 27: Pause
Index vom Faktor j = 2: das Phonem, ein Phonem, das dem Gegenstandsphonem vorangeht
Kategorie gemäß Index k = 1: a
Kategorie gemäß Index k = 2: e
Kategorie gemäß Index k = 3: i
Kategorie gemäß Index k = 4: o
...
Kategorie gemäß Index k = 26: Q
Kategorie gemäß Index k = 27: Pause
Index vom Faktor j = 3, das Gegenstandsphonem
Kategorie gemäß Index k = 1: a
Kategorie gemäß Index k = 2: e
Kategorie gemäß Index k = 3: i
Kategorie gemäß Index k = 4: o
...
Kategorie gemäß Index k = 26: Q
Index vom Faktor j = 4: das Phonem, ein Phonem, das dem Gegenstandsphonem folgt
Kategorie gemäß Index k = 1: a
Kategorie gemäß Index k = 2: e
Kategorie gemäß Index k = 3: i
Kategorie gemäß Index k = 4: o
...
Kategorie gemäß Index k = 26: Q
Kategorie gemäß Index k = 27: Pause
Index vom Faktor j = 5: das Phonem, zwei Phoneme, die dem Gegenstandsphonem folgen
Kategorie gemäß Index k = 1: a
Kategorie gemäß Index k = 2: e
Kategorie gemäß Index k = 3: i
Kategorie gemäß Index k = 4: o
...
Kategorie gemäß Index k = 26: Q
Kategorie gemäß Index k = 27: Pause
Index vom Faktor j = 6: eine Durchschnittsmoradauer in einem Ausatmungsabschnitt
Kategorie gemäß Index k = 1: kürzer als 120 Millisekunden
Kategorie gemäß Index k = 2: gleich oder länger als 120 Millisekunden und kürzer als 140 Millisekunden
Kategorie gemäß Index k = 3: gleich oder länger als 140 Millisekunden und kürzer als 160 Millisekunden
Kategorie gemäß Index k = 4: gleich oder länger als 160 Millisekunden und kürzer als 180 Millisekunden
Kategorie gemäß Index k = 5: gleich oder länger als 180 Millisekunden
Index vom Faktor j = 7: Moraposition in einem Ausatmungsabschnitt
Kategorie gemäß Index k = 1: erste Mora
Kategorie gemäß Index k = 2: zweite Mora
...
Kategorie gemäß Index k = 5: Endmora
Index vom Faktor j = 8: Teil der Sprache des Wortes, das das Gegenstandsphonem enthält
Kategorie gemäß Index k = 1: Substantiv
Kategorie gemäß Index k = 2: adverbisches Substantiv
...
Kategorie gemäß Index k = 26: Punze
Es ist einzustellen, daß der Durchschnittswert des Koeffizienten a_j,k für jeden Faktor gleich 0 ist, das heißt, der Gleichung (8) muß genügt werden. Angemerkt sei, daß der Koeffizient a_j,k im externen Speicher 104 gespeichert ist, wie später in 7 zu beschreiben.
Des weiteren wird eine Blindvariable vom Phonem αi folgendermaßen eingesetzt.
Eine der Summe der Produkte vom Koeffizienten und der Blindvariablen hinzuzufügenden Konstante ist c0. Ein geschätzter Wert einer Phonemdauer im Phonem αi nach der kategorischen multiplen Regression wird ausgedrückt gemäß Gleichung (10).
Unter Verwendung des Schätzwertes wird der Phonemdaueranfangswert des Phonems αi durch Gleichung (11) bestimmt. dαi0 = d ^αi0 (11)
Der Kategorieindex n gemäß der Spracherzeugungsgeschwindigkeit wird gewonnen, dann der Durchschnittswert, die Standardabweichung und der Minimalwert der Phonemdauer in der Kategorie werden darüber hinaus gewonnen. Mit diesen werten wird der Phonemdaueranfangswert dαi0 durch folgende Gleichung (12) aktualisiert. Der gewonnene Anfangswert dαi0 wird als neuer Phonemdaueranfangswert eingesetzt.
Ein Koeffizient r_σ der multipliziert ist mit der Standardabweichung in Gleichung (12) wird beispielsweise eingesetzt mit r_σ = 3. Mit dem Phonemdaueranfangswert, gewonnen in der vorstehenden Weise, wird die Phonemdauer nach dem Verfahren bestimmt, das demjenigen des ersten Ausführungsbeispiels gleicht. Genauer gesagt, die Phonemdauer di wird bestimmt unter Verwendung folgender Gleichung (13a). Die Phonemdauer di wird bestimmt nach Gleichung (13b), wenn ein Schwellwert θαi (> 0) der Beziehung di < θαi genügt.
Die zuvor beschriebene Operation ist nachstehend anhand des Ablaufdiagramms von 3 beschrieben. In Schritt S1 wird ein phonetischer Text über die Zeichenketteneingabeeinheit 1 eingegeben. In Schritt S2 werden Steuerdaten (Spracherzeugungsgeschwindigkeit, Tonhöhe der Sprache) extern eingegeben, und die Steuerdaten im phonetischen Text, eingegeben in Schritt S1, werden in der Steuerdatenspeichereinheit 2 gespeichert. In Schritt S3 wird eine Phonemkette von der Phonemkettenerzeugungseinheit 3 auf der Grundlage des phonetischen Textes erzeugt, den die Zeichenketteneingabeeinheit 1 eingegeben hat. In Schritt S4 wird eine Phonemkette des nächsten Dauereinstellabschnitts in der Phonemkettenspeichereinheit 4 gespeichert.
In Schritt S5 stellt die Phonemdauereinstelleinheit 5 den Phonemdaueranfangswert gemäß der Phonemart (Kategorie) ein unter Verwendung des oben beschriebenen Verfahrens, das auf den Steuerdaten basiert, die die Sprachwiedergabegeschwindigkeit darstellen, die in der Steuerdatenspeichereinheit 2 gespeichert sind, der Durchschnittswert, die Standardabweichung und der Minimalwert der Phonemdauer, und der Phonemdauerschätzwert, der durch kategorische multiple Regression geschätzt ist.
In Schritt S6 stellt die Phonemdauereinstelleinheit 5 die Spracherzeugungszeit des Phonemdauereinstellabschnitts auf der Grundlage der Steuerdaten ein, die die Sprachwiedergabegeschwindigkeit darstellen, gespeichert in der Steuerdatenspeichereinheit 2. Dann wird die Phonemdauer für jede Phonemkette des Phonemdauereinstellabschnitts eingestellt, und zwar unter Verwendung des zuvor beschriebenen Verfahrens, so daß die gesamte Phonemdauer der Phonemkette im Phonemdauereinstellabschnitt der Spracherzeugungszeit vom Phonemdauereinstellabschnitt gleicht.
In Schritt S7 wird synthetisierte Sprache auf der Grundlage der Phonemkette erzeugt, wobei die Phonemdauer eingestellt wird von der Phonemdauereinstelleinheit 5 und den Steuerdaten, die die Tonhöhe der Sprache repräsentieren, gespeichert in der Steuerdatenspeichereinheit 2. In Schritt S8 wird bestimmt, ob die eingegebene Zeichenkette der letzte Phonemdauereinstellabschnitt ist, und wenn es sich nicht um den letzten Phonemdauereinstellabschnitt handelt, schreitet die Verarbeitung fort zu Schritt S10. In Schritt S10 werden die Steuerdaten, extern eingegeben, in der Steuerdatenspeichereinheit 2 gespeichert, und dann kehrt der Prozeß zu Schritt S4 zurück, um die Verarbeitung fortzusetzen. Wenn zwischenzeitlich in Schritt S8 bestimmt ist, daß die eingegebene Zeichenkette der letzte Phonemdauereinstellabschnitt ist, schreitet die Verarbeitung fort zu Schritt S9, um zu bestimmen, ob alle Eingaben abgeschlossen sind. Ist der Abschluß noch nicht erreicht, kehrt die Verarbeitung zu Schritt S1 zurück, um die oben beschriebene Verarbeitung zu wiederholen.
Der Prozeß des Bestimmens der Dauer für jedes Phonem, der in den Schritten S5 und S6 im zweiten Ausführungsbeispiel durchgeführt wird, ist nachstehend in Einzelheiten beschrieben.
7 ist eine Tabelle, die die Datenkonfiguration einer Koeffiziententabelle zeigt, die den Koeffizienten a_j,k für die kategorische multiple Regression gemäß dem Ausführungsbeispiel speichert. Wie zuvor beschrieben, enthält der Faktor j des vorliegenden Ausführungsbeispiels die Faktoren 1 bis 8. Für jeden Faktor wird ein Koeffizient a_j,k gemäß der Kategorie registriert.
Beispielsweise gibt es 27 Kategorien (Phonemkategorien) für den Faktor j = 1, und 27 Koeffizienten a_1,1 bis a_1,27 werden gespeichert.
8 ist eine Tabelle, die die Datenkonfiguration von Phonemdaten gemäß dem Ausführungsbeispiel zeigt. Wie in 8 gezeigt, enthalten Phonemdaten ein Kennzeichen, das aufzeigt, ob ein Phonem zu Ωa oder Ωr, zur Blindvariablen δ (j,k) gehört, womit aufgezeigt ist, ob ein Phonem einen Wert für die Kategorie k mit dem Faktor j hat, einen Durchschnittswert μ, eine Standardabweichung σ, einen Minimalwert dmin und einen Schwellwert θ der Phonemdauer für jede Kategorie der Spracherzeugungsgeschwindigkeit in Hinsicht auf jedes Phonem (a, e, i, o, u, ...) des eingestellten Phonems Ω.
Mit den in den 7 und 8 gezeigten Daten werden die Schritte S5 und S6 in 3 ausgeführt. Hiernach ist dieser Prozeß in Einzelheiten anhand des Ablaufdiagramms der 9A und 9B erläutert.
Die Anzahl von Komponenten I der Phonemkette und einer jeden der Komponenten α1 bis αI, gewonnen in Hinsicht auf den Ausatmungsabschnittsgegenstand zur Verarbeitung (gewonnen in Schritt S4 in 3 werden in Schritt S201 in 9A bestimmt. Wenn beispielsweise die Phonemkette "o, X, s, e, e" enthält, werden α1 bis α5 in der in 6 gezeigten Weise bestimmt, und die Anzahl der Komponenten I beträgt 5. In Schritt S202 wird eine Kategorie n gemäß der Spracherzeugungsgeschwindigkeit bestimmt. Im vorliegenden Ausführungsbeispiel wird die Spracherzeugungszeit T des Ausatmungsabschnitts bestimmt auf der Grundlage einer Spracherzeugungsgeschwindigkeit, die durch Steuerdaten dargestellt wird. Die Zeit T wird geteilt durch die Anzahl von Komponenten I der Phonemkette in einem Ausatmungsabschnitt, um eine durchschnittliche Moradauer zu gewinnen, und die Kategorie n wird bestimmt. In Schritt S203 wird die Variable i auf 1 initialisiert, und der Phonemdaueranfangswert wird in den folgenden Schritten S204 bis S209 gewonnen.
In 8 gezeigte Phonemdaten werden in Schritt S204 als Bezug genommen, um zu bestimmen, ob das Phonem α1 zu Ωr gehört. Wenn das Phonem α1 zu Ωr gehört, schreitet die Verarbeitung fort zu Schritt S205, in dem der Koeffizient a_j,k aus der in 7 gezeigten Koeffiziententabelle gewonnen wird, und die Blindvariable (δi(j,k)) des Phonems αi wird aus den in 8 gezeigten Phonemdaten gewonnen. Dann wird dαi0 errechnet unter Verwendung der vorgenannten Gleichungen (10) und (11). Wenn mittlerweile das Phonem αi zu Ωa in Schritt S204 gehört, schreitet der Prozeß fort zu Schritt S206, bei dem ein Durchschnittswert μ des Phonems αi in der Kategorie n aus der Phonemtabelle gewonnen wird, und dαi0 wird aus Gleichung (7) gewonnen.
Dann schreitet der Prozeß fort zu Schritt S207, bei dem der Phonemdaueranfangswert dαi des Phonems αi mit Gleichung (12) unter Verwendung von μ, σ, dmin des Phonems αi in der Kategorie n gewonnen wird, die man aus der Phonemtabelle entnimmt, und dαi0 wird in Schritt S205 oder in Schritt S206 gewonnen.
Die Errechnung des Phonemdaueranfangswertes dαi0 in den Schritten S204 bis S207 erfolgt für alle Phonemketten, die Gegenstand der Verarbeitung sind. Genauer gesagt, die Variable i wird in Schritt S208 inkrementiert, und die Schritte S204 bis S207 werden solange wiederholt, wie die Variable i kleiner als I in Schritt S209 ist.
Die vorstehenden Schritte S201 bis S209 entsprechen dem Schritt S5 in 3. Auf die zuvor beschriebene Weise wird der Phonemdaueranfangswert aus den Phonemketten im Ausatmungsabschnitt gewonnen, der Gegenstand der Verarbeitung ist, und die Verarbeitung schreitet fort zu Schritt S211.
In Schritt S211 wird die Variable i auf 1 initialisiert. In Schritt S212 wird die Phonemdauer di für das Phonem αi bestimmt, um mit der Spracherzeugungszeit T des Ausatmungsabschnitts übereinzustimmen, und zwar auf der Grundlage des Phonemdaueranfangswertes für alle Phoneme im Ausatmungsabschnitt, der gewonnen wurde im vorhergehenden Prozeß und der Standardabweichung des Phonems αi in der Kategorie n (das heißt, bestimmt gemäß Gleichung (13a)). Ist die Phonemdauer di, die in Schritt S212 gewonnen wurde, kleiner als der Schwellwert θαi, der für das Phonem αi eingestellt ist, wird der Schwellwert θαi auf di gesetzt (Schritte S213, 214 und Gleichung (13b)).
Die Errechnung der Phonemdauer di in den Schritten S212 bis S214 erfolgt für alle Phonemketten, die Gegenstand der Verarbeitung sind. Genauer gesagt, die Variable i wird in Schritt S215 inkrementiert, und die Schritte S212 bis S214 werden solange wiederholt, wie die Variable i kleiner als i in Schritt S216 ist.
Die vorigen Schritte S211 bis S216 entsprechen dem Schritt S6 in 3. In der zuvor beschriebenen Weise wird die Phonemdauer aller Phonemketten zum Gewinnen der Erzeugungszeit t in Hinsicht auf den Ausatmungsabschnitt gewonnen, der Gegenstand der Verarbeitung ist.
Angemerkt sei, daß der Aufbau des obigen Ausführungsbeispiels lediglich ein Ausführungsbeispiel der vorliegenden Erfindung darstellt. Somit sind verschiedene Modifikationen möglich. Ein Beispiel von Modifikationen enthält folgendes.

(1) Der Satz an Phonemen Ω ist lediglich ein Beispiel, womit ein Satz anderer Elemente verwendet werden kann. Elemente eines Satzes von Phonemen können bestimmt werden auf der Grundlage der Art der Sprache und der Phoneme. Die vorliegende Erfindung ist auch anwendbar auf andere Sprachen als auf japanisch.
(2) Der Ausatmungsabschnitt ist ein Beispiel des Phonemdauereinstellabschnitts. Somit können ein Wort, ein Morphem, ein Satzabschnitt, ein Satz und dergleichen als Phonemdauereinstellabschnitt eingesetzt werden. Angemerkt sei, daß wenn ein Satz als Phonemdauereinstellabschnitt eingesetzt ist, es erforderlich wird, die Pause zwischen Phonemen zu berücksichtigen.
(3) Eine Phonemdauer natürlicher Sprache kann verwendet werden als Anfangswert der Phonemdauer. In alternativer Weise kann ein durch andere Phonemdauersteuerregeln bestimmter Wert oder ein Wert verwendet werden, der durch kategorische multiple Regression bestimmt ist.
(4) Die Kategorie gemäß der Spracherzeugungsgeschwindigkeit, die verwendet wird für den Durchschnittswert der Phonemdauer, ist lediglich ein Beispiel, und andere Kategorien sind anwendbar.
(5) Die Faktoren für die kategorische multiple Regression und die Kategorien sind lediglich ein Beispiel, so daß andere Faktoren und Kategorien verwendet werden können.
(6) Der Koeffizient r_n = 3, der mit der Standardabweichung multipliziert wird, um den Phonemdaueranfangswert einzustellen, ist ebenfalls lediglich ein Beispiel, womit andere Werte eingesetzt werden können.

Die Aufgabe der vorliegenden Erfindung kann des weiteren auch gelöst werden durch Bereitstellen eines Speichermediums, Speichersoftwareprogrammcodes, die die zuvor beschriebenen Funktionen des vorliegenden Ausführungsbeispiels erledigen, auf ein Computersystem oder Gerät, Lesen der Programmcodes vom Computer (beispielsweise CPU oder MPU) vom System oder Gerät aus dem Speichermedium und dann Ausführen des Programms.
In diesem Falle realisieren die Programmcodes aus dem Speichermedium die Funktionen gemäß dem zuvor beschriebenen Ausführungsbeispiel, und das Speichermedium speichert die Programmcodes, die die vorliegende Erfindung bilden.
Ein Speichermedium, beispielsweise eine Diskette, eine Festplatte, eine optische Platte, eine magnetooptische Platte, ein CD-ROM, CD-R, ein Magnetband, eine nicht flüchtige Speicherkarte und ein ROM können verwendet werden, um die Programmcodes bereitzustellen.
Neben den zuvor beschriebenen Funktionen nach dem obigen Ausführungsbeispiel, die realisiert werden durch Ausführen der Programmcodes, die ein Computer liest, enthält die vorliegende Erfindung des weiteren einen Fall, bei dem ein Betriebssystem oder dergleichen auf dem Computer arbeitet und einen Teil der gesamten Prozesse gemäß den Bestimmungen der Programmcodes ausführt und Funktionen gemäß den obigen Ausführungsbeispielen realisiert.
Die vorliegende Erfindung umfaßt des weiteren einen Fall, bei dem nach Auslesen der Programmcodes aus dem Speichermedium ein Einschreiben in eine Funktionserweiterungskarte erfolgt, die in den Computer eingesteckt wird, oder ein Speicher ist in einer Funktionserweiterung vorgesehen, die mit dem Computer verbunden ist, eine CPU oder dergleichen, die in der Funktionserweiterungskarte enthalten ist, oder eine Einheit führt einen Teil des gesamten Prozesses gemäß den Bestimmen der Programmcodes aus und realisiert Funktionen des obigen Ausführungsbeispiels.
Des weiteren können die Programmcodes in elektronischer Form gewonnen werden, beispielsweise durch Herunterladen des Codes über ein Netzwerk, wie über das Internet. Gemäß einem anderen Aspekt der vorliegenden Erfindung ist ein elektrischer Signalträgerprozessor vorgesehen, der Befehle zum Steuern eines Prozessors realisiert, um das zuvor beschriebene Verfahren auszuführen.
Wie zuvor im Zusammenhang mit der vorliegenden Erfindung beschrieben, kann die Phonemdauer einer Phonemkette so eingestellt werden, daß eine spezifizierte Spracherzeugungszeit erreicht wird. Somit ist es möglich, eine natürliche Phonemdauer zu erzielen, ungeachtet der Länge der Spracherzeugungszeit.
Wie viele weitestgehend unterschiedliche Ausführungsbeispiele der vorliegenden Erfindung ohne Abweichen vom Umfang derselben möglich sind, versteht es sich, daß die Erfindung nicht auf die spezifischen Ausführungsbeispiele beschränkt ist, mit Ausnahme auf die anliegenden Patentansprüche.

Claims

Sprachsynthesegerät, das eine Sprachsynthese gemäß einer eingegebenen Phonemkette ausführt, mit: einem Speichermittel (103), das statistische Daten bezüglich einer Phonemdauer eines jeden Phonems speichert; einem Bestimmungsmittel (101, 102, 103) zum Bestimmen der Spracherzeugungszeit für die eingegebene Phonemkette; einem Einstellmittel (5) zum Einstellen der Phonemdauer entsprechend der Sprachwiedergabezeit eines jeden Phonems, das die Phonemkette aufbaut, basierend auf statistischen Daten eines jeden aus dem Speichermittel erzielten Phonems; und mit einem Erzeugungsmittel, das eine Sprachwellenform durch Verbinden von Phonemen unter Verwendung der Phonemdauer erzeugt; dadurch gekennzeichnet, daß die im Speichermittel gespeicherten statistischen Daten wenigstens Standardabweichungsdaten und Mehrfachregressionsanalysedaten bezüglich einer Phonemdauer eines jeden Phonems enthalten; das Gerät ein Anfangswerterzielungsmittel enthält, um eine geschätzte Dauer des Phonems durch Mehrfachregressionsanalyse unter Verwendung der im Speichermittel gespeicherten Mehrfachregressionsanalysedaten zu erzielen; das Einstellmittel eine Anfangsphonemdauer für jedes die Phonemkette aufbauende Phonem auf der Grundlage der geschätzten Dauer einstellt; und daß das Einstellmittel ein Rechenmittel (101, 102, 103) enthält, das betriebsbereit ist zum Errechnen einer Phonemdauer durch Addieren eines auf den Standardabweichungsdaten vom aus dem Speichermittel erzielten Phonem basierend errechneten Wertes mit der für das Phonem eingestellten Anfangsphonemdauer, wobei die individuellen Phonemdauern bestimmt sind, um die vom Bestimmungsmittel bestimmte Spracherzeugungszeit aufzusummieren.
Sprachanalysiergerät nach Anspruch 1, dessen Einstellmittel ausgestattet ist mit einem ersten Einstellmittel zum Einstellen einer Anfangsdauer innerhalb eines vorbestimmten Zeitbereichs, bestimmt auf der Grundlage der im Speichermittel (103) gespeicherten statistischen Daten in Hinsicht auf jedes die Phonemkette aufbauenden Phonems.
Sprachsynthesegerät nach Anspruch 1, bei dem die im Speichermittel (103) gespeicherten statistischen Daten einen Durchschnittswert, eine Standardabweichung und einen Minimalwert der Phonemdauer eines jeden Phonems enthalten, und wobei das Einstellmittel die Anfangsdauer so einstellt, daß sie in einen bestimmten Zeitbereich fällt, der auf der Grundlage des Durchschnittswertes, der Standardabweichung und dem Minimalwert der Phonemdauer in Hinsicht auf jedes Phonem bestimmt ist.
Sprachsynthesegerät nach Anspruch 3, bei dem das Speichermittel (103) einen Schwellwert speichert, der die Minimalphonemerzeugungsdauer eines jeden Phonems aufzeigt, und wobei das Gerät des weiteren über ein Mittel enthält zum Ersetzen der vom Rechenmittel errechneten Phonemdauer durch den Schwellwert für jedes Phonem, wenn die errechnete Phonemerzeugungszeit kleiner als der Schwellwert ist.
Sprachsynthesegerät nach Anspruch 1, bei dem das Rechenmittel einen Wert als Koeffizient verwendet, der durch Subtrahieren einer Gesamtanfangsphonemdauer aus der Spracherzeugungszeit und durch Teilen des subtrahierten Wertes durch eine Quadratsumme von Standardabweichungen gemäß einem jeden Phonem hervorgeht, und als Phonemdauer einen Wert einsetzt, der durch Addieren eines Produkts vom Koeffizienten mit dem Quadrat der Standardabweichung vom Phonem zur Anfangsphonemdauer hervorgeht.
Sprachsynthesegerät nach Anspruch 1, bei dem das erste Anfangswerterzielungsmittel die geschätzte Dauer als die Anfangsphonemdauer einsetzt, wenn die geschätzte Dauer in einen vorbestimmten Zeitbereich fällt, während das erste Anfangswerterzielungsmittel die Anfangsphonemdauer so einsetzt, daß sie in den vorbestimmten Zeitbereich fällt, wenn die geschätzte Dauer den vorbestimmten Zeitbereich überschreitet.
Sprachsynthesegerät nach Anspruch 1, das des weiteren über ein zweites Anfangswerterzielungsmittel verfügt, um eine geschätzte Dauer auf der Grundlage der Durchschnittszeit zu erhalten, erzielt durch Teilen der Spracherzeugungszeit durch eine Anzahl von die Phonemkette aufbauenden Phonemen für jedes Phonem, und wobei das Einstellmittel in selektiver Weise das erste Anfangswerterzielungsmittel gemäß einer Phonemart verwendet.
Sprachsynthesegerät nach Anspruch 9, bei dem das Speichermittel (103) statistische Daten bezüglich einer Phonemdauer eines jeden Phonems für jede Kategorie auf der Grundlage einer Spracherzeugungsgeschwindigkeit speichert, und wobei das Rechenmittel eine Kategorie der Spracherzeugungsgeschwindigkeit auf der Grundlage der Spracherzeugungszeit und der Phonemkette bestimmt und die Phonemdauer eines jeden Phonems auf der Grundlage statistischer Daten errechnet, die zur vorbestimmten Kategorie sowie zur geschätzten Dauer gehören.
Sprachsynthesegerät nach Anspruch 1, bei dem das Rechenmittel einen subtrahierten Wert errechnet, der erzielt ist durch Subtrahieren der Gesamtanfangsphonemdauer von der Spracherzeugungszeit, und eine Phonemdauer für jedes Phonem errechnet durch Addieren eines auf der Grundlage der Standardabweichungsdaten des Phonems und dem subtrahierten Wert errechneten Wertes.
Sprachsyntheseverfahren zum Ausführen einer Sprachsynthese nach einer eingegebenen Phonemkette, mit den Verfahrensschritten: Bestimmen der Spracherzeugungszeit für die eingegebene Phonemkette in einem vorbestimmten Abschnitt; Einstellen einer Phonemdauer gemäß der Spracherzeugungszeit eines jeden die Phonemdauer aufbauenden Phonems auf der Grundlage statistischer Daten eines jeden Phonems aus der Speichereinheit (55, 56), und Erzeugen einer Sprachwellenform durch Verbinden von Phonemen unter Verwendung der Phonemdauer ((57); dadurch gekennzeichnet, daß die in der Speichereinheit gespeicherten statistischen Daten wenigstens Standardabweichungsdaten und Mehrfachregressionsanalysedaten bezüglich einer Phonemdauer für jedes Phonem enthalten; mit dem weiteren Verfahrensschritt Erzielen einer geschätzten Dauer eines jeden Phonems durch Mehrfachregressionsanalyse unter Verwendung der in der Speichereinheit gespeicherten Mehrfachregressionsanalysedaten; Einstellen einer Anfangsphonemdauer für jedes die Phonemkette aufbauenden Phonems auf der Grundlage der geschätzten Dauer (S103); und Errechnen der Phonemdauer durch Addieren eines Wertes, errechnet auf der Grundlage der Standardabweichungsdaten vom Phonem, erzielt aus der Speichereinheit, und der für das Phonem eingestellten Anfangsphonemdauer, wobei die jeweilige individuelle Phonemdauer durch Aufaddieren der im Bestimmungsschritt bestimmten Spracherzeugungszeit bestimmt wird (S107).
Sprachsyntheseverfahren nach Anspruch 10, bei dem der Einstellschritt weiterhin umfaßt: einen ersten Einstellschritt zum Einstellen der Anfangsphonemdauer innerhalb eines bestimmten Zeitbereichs, bestimmt auf der Grundlage statistischer Daten, die in der Speichereinheit gespeichert sind, in Hinsicht auf jedes die Phonemkette aufbauenden Phonems im vorbestimmten Abschnitt.
Sprachsyntheseverfahren nach Anspruch 10, bei dem die in der Speichereinheit gespeicherten statistischen Daten einen Mittelwert, eine Standardabweichung und einen Minimalwert der Phonemdauer eines jeden Phonems enthalten und bei dem der Einstellschritt (S103) die Anfangsdauer einstellt, damit sie in einen vorbestimmten Bereich fällt, der auf der Grundlage des Durchschnittswertes, der Standardabweichung und des Minimalwertes der Phonemdauer in Hinsicht auf jedes Phonem bestimmt ist.
Sprachsyntheseverfahren nach Anspruch 12, bei dem die Speichereinheit einen Schwellwert speichert, der die minimale Phonemerzeugungsdauer eines jeden Phonems aufzeigt, und wobei das Verfahren des weiteren einen Schritt (S109) zum Ersetzen der im Errechnungsschritt durch den Schwellwert für jedes Phänomen errechneten Phonemdauer enthält, wenn die errechnete Phonemdauerzeit geringer als der Schwellwert ist.
Sprachsyntheseverfahren nach Anspruch 10, bei dem der Rechenschritt (S107) als Koeffizient einen Wert benutzt, der durch Subtrahieren einer Gesamtanfangsphonemdauer von der Spracherzeugungszeit und durch Dividieren des subtrahierten Wertes durch die Quadratsumme der Standardabweichung entsprechend einem jeden Phonem entsteht, und bei dem als Phonemdauer ein durch Addieren eines Produktes vom Koeffizienten mit einem Quadrat der Standardabweichung vom Phonem zur Anfangsphonemdauer erzielter Wert eingesetzt wird.
Sprachsyntheseverfahren nach Anspruch 10, bei dem der Einstellschritt die geschätzte Dauer als Anfangsphonemdauer einsetzt, wenn die geschätzte Dauer in den vorbestimmten Zeitbereich fällt, während wenn die geschätzte Dauer den vorbestimmten Zeitbereich überschreitet, der Einstellschritt die Anfangsphonemdauer so einstellt, daß sie in den vorbestimmten Zeitbereich fällt.
Sprachsyntheseverfahren nach Anspruch 10, das des weiteren einen zweiten Anfangswerterzielungsschritt enthält, um eine geschätzte Dauer auf der Grundlage der Durchschnittszeit, durch Teilen der Spracherzeugungszeit durch die Anzahl von die Phonemkette aufbauenden Phonemen für jedes Phonem erzielt, und der Einstellschritt wendet in selektiver Weise den ersten Anfangswerterzielungsschritt oder den zweiten Anfangserzielungswertschritt gemäß der Phonemart an.
Sprachsyntheseverfahren nach Anspruch 10, bei dem die Speichereinheit die statistischen Daten bezüglich der Phonemdauer eines jeden Phonems für jede Kategorie auf der Grundlage der Spracherzeugungsgeschwindigkeit speichert, und bei dem im Einstellschritt das Bestimmen einer Kategorie der Spracherzeugungsgeschwindigkeit auf der Grundlage der Spracherzeugungszeit und der Phonemkette erfolgt, und das Einstellen der Phonemdauer eines jeden Phonems erfolgt auf der Grundlage zu der bestimmten Kategorie gehörender statistischer Daten sowie der geschätzten Dauer.
Sprachsyntheseverfahren nach Anspruch 10, bei dem der Rechenschritt (S107) einen subtrahierten Wert durch Subtrahieren einer Gesamtanfangsphonemdauer von der Spracherzeugungszeit und eine Phonemerzeugungszeit für jedes Phonem durch Addieren eines auf der Grundlage der Standardabweichungsdaten des Phonems und dem subtrahierten Wert errechneten Wertes errechnet.
Speichermedium, das ein Steuerprogramm zum Anweisen eines Computers speichert, um eine Sprachsynthese entsprechend einer eingegebenen Phonemkette auszuführen, wobei das Programm folgendes umfaßt: einen Code zum Anweisen des Computers, die Spracherzeugungszeit für die eingegebene Phonemkette zu bestimmen; einen Code zum Anweisen des Computers, die Phonemdauer gemäß der Spracherzeugungszeit eines jeden die Phonemkette aufbauenden Phonems auf der Grundlage der statistischen Daten eines jeden aus dem Speichermittel erzielten Phonems einzustellen; und einen Code zum Anweisen des Computers, eine Sprachwellenform durch Verbinden von Phonemen unter Verwendung der Phonemdauer zu erzeugen; dadurch gekennzeichnet, daß die im Speichermittel gespeicherten statistischen Daten wenigstens Standardabweichungsdaten und Mehrfachregressionsanalysedaten bezüglich einer Phänomendauer eines jeden Phänomens enthalten; und daß das Programm des weiteren umfaßt einen Code zum Anweisen des Computers zum Erzielen einer geschätzten Dauer eines jeden Phonems durch Mehrfachregressionsanalyse unter Verwendung der Mehrfachregressionsanalysedaten, die das Speichermittel speichert; einen Code zum Anweisen des Computers, eine Anfangsphonemdauer für jedes die Phonemkette aufbauenden Phonems auf der Grundlage der geschätzten Dauer einzustellen; und einen Code zum Anweisen des Computers, eine Phonemdauer durch Hinzufügen eines Wertes, der auf der Grundlage der aus dem Speichermittel erzielten Standardabweichungsdaten vom Phonem errechnet ist, und der für das Phonem eingestellten Anfangsphonemdauer zu errechnen, wobei die individuellen Phonemdauern bestimmt werden, um so die Spracherzeugungszeit aufzuaddieren, die der Computer als Reaktion auf den Code zum Anweisen des Computers zum Bestimmen der Spracherzeugungszeit für die eingegebene Phonemkette bestimmt.