DE69232112T2

DE69232112T2 - Vorrichtung zur Sprachsynthese

Info

Publication number: DE69232112T2
Application number: DE69232112T
Authority: DE
Inventors: Tatsuro Matsumoto
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1991-11-12
Filing date: 1992-11-12
Publication date: 2002-03-14
Anticipated expiration: 2012-11-13
Also published as: US5940796A; US5673362A; US6098041A; EP0542628A3; EP0542628A2; US5940795A; US5950163A; EP0542628B1; DE69232112D1

Description

Die vorliegende Erfindung bezieht sich auf ein Sprachsynthesesystem, in welchem mehrere Clients und zumindest ein stimm- oder sprachsynthetisierender Server mit einem lokalen Netzwerk (LAN) verbunden sind.

Beschreibung der verwandten Technik

Systeme zum Synthetisieren von Stimme oder Sprache aus Textdaten bei Anforderung eines Client und Übertragen des Ergebnisses zum Client werden populär. Diese Systeme umfassen einen sprachsynthetisierenden Server und mehr als einen Client auf einem LAN. Fig. 1 zeigt die Basiskonfiguration solcher Systeme. Ein Client 1 umfaßt eine Texteingabeeinheit 11, eine Textsendeeinheit 12, eine Wellenform-Empfangseinheit 13 und eine Sprachausgabeeinheit 15. Ein sprachsynthetisierender Server 2 umfaßt eine Textemfangseinheit 21 zum Empfangen von Textdaten, die von der Textsendeeinheit 12 gesendet wurden, eine Aussprachesymbol-Erzeugungseinheit 22, eine Akustikparameter-Erzeugungseinheit 23, eine Wellenform-Erzeugungseinheit 24 und eine Wellenform-Sendeeinheit 26, um an den Client 1 eine Stimm- oder Sprachwellenform zu senden, die durch die Wellenform-Erzeugungseinheit 24 synthetisiert wurde.
Wenn von der Texteingabeeinheit 11 des Client 1 Textdaten angewendet werden, sendet die Textsendeeinheit 12 Textdaten an den sprachsynthetisierenden Server 2. Der sprachsynthetisierende Server 2 empfängt bei der Textempfangseinheit 21 die Textdaten, die von der Textsendeeinheit 12 gesendet wurden, und die Aussprachesymbol-Erzeugungseinheit 22 wandelt die Textdaten in Aussprachesymbol-Ketten um die repräsentieren, wie die Daten tatsächlich ausgesprochen werden. Die Akustikparameter-Erzeugungseinheit 23 wandelt dann die Aussprachesymbol-Ketten in Sprachparameter-in-Zeitreihe um, und die Wellenform-Erzeugungseinheit 24 erzeugt Sprachwellenformen gemäß den Sprachparametern-in-Zeitreihe. Die Wellenform- Sendeeinheit 26 sendet dann die erzeugte Wellenform an den Client 1.
Der Client 1 empfängt die Sprachwellenform bei der Wellenform-Empfangseinheit 13, und die Sprachausgabeeinheit 15 regeneriert die Sprachwellenform als Stimme oder Sprache.
Das oben beschriebene herkömmliche Sprachsynthesesystem weist insofern ein Problem auf, als in einem LAN starken Verkehr herrscht, weil das System Sprachdaten (synthetisierte Sprachwellenformen) zwischen dem Client 1 und dem sprachsynthetisierenden Server 2 direkt überträgt.
Da die herkömmlichen Sprachsynthesesysteme eine Kommunikation zwischen einem Server und einem Client unter Verwendung von Daten eines festen Typs ungeachtet der Ressourcen (Funktionen) des Servers und des Client ausführen, weisen sie ein weiteres Problem insofern auf, als die Ressourcen des Client 1 nicht sonderlich genutzt werden. Das heißt, obgleich der Client 1 die Funktion zum Erzeugen eines Aussprachesymbols unter Verwendung des in Fig. 1 gezeigten Systems hat, sind die von dem Client 1 an den sprachsynthetisierenden Server 2 gesendeten Daten nur Textdaten. Folglich wird die Funktion des Client 1 nicht effizient genutzt.
Der Client 1 kann keine D/A-Umwandlungsfunktion aufweisen, und ein Benutzer solch eines Client 1 kann digitale Daten nicht regenerieren, die von dem sprachsynthetisierenden Server 2 gesendet wurden. Daher haben die herkömmlichen Systeme ein weiteres Problem, daß nur Clients mit der D/A- Umwandlungsfunktion Sprachdaten empfangen können.
In jüngster Zeit wurden auch Wörterbuch-Abfragesysteme populär. Diese Systeme umfassen in dem oben beschriebenen lokalen Netzwerk einen Wörterbuch-Abfrageserver zum Speichern von Wortdaten. Wenn ein Benutzer des Client 1 die Wiedergewinnung oder Abfrage eines bestimmten Wortes anfordert, frägt der Wörterbuch-Abfrageserver die Bedeutung und die phonetischen Symbole des Wortes ab und überträgt die gesamte Information zum Client. Wenn ein Wort abgefragt wird, ist es sehr zweckmäßig, die Bedeutung und die stimmliche Information über Aussprache des Wortes zu erhalten. Keine herkömmlichen Systeme weisen jedoch die Funktion auf.
Gewöhnlich werden auch Listen-Verwaltungssysteme zum Speichern von Listendaten, die von einem Benutzer eingegeben wurden, und zum Informieren des Benutzers über die Daten durch eine Nachricht etc. verwendet, wenn die Listendaten angekommen sind. Solche Systeme sind nützlicher, falls sie den Inhalt der Liste stimmlich ausgeben. Keine herkömmlichen Systeme weisen jedoch solche Funktionen auf.
Aus dem Dokument US-A-4 872 202 ist ein Wortanalysiercomputer bekannt, der Wortausnahmen vor einem weiteren Ausführen oder Ausarbeiten der entsprechenden Sprachdaten zur Übertragung über eine RS232C-Übertragungsleitung detektieren und berücksichtigen kann. Die Worte werden in Form von ASCII-Codes in den Computer eingegeben.
Das Dokument US-A-4 757 497 offenbart ein verteiltes Datenübertragungssystem, das auf Verriegelungsnetzwerken basiert, von denen eines imstande ist, digitalisierte Sprachdaten zu behandeln. Das Schaltsystem ist für geschaltete Telefonübertragungen gedacht, und bei der Ebene des Schalters wird eine Sprachcodierung/Decodierung ausgeführt.
Das Dokument JP-A-02 174 330 offenbart ein Verbarbeitungssystem, wodurch ein Sprachcode- und eine Decodierschaltung ein digitales Sprachsignal in ein analoges Sprachsignal umwandelt.
Schließlich ist in dem Dokument EP-A-0 239 394 ein Sprachsynthesesystem offenbart, welches verschiedene Syntheseparameter dementsprechend zuschreibt, ob die Parameter ersten oder zweiten Sprachdatensätzen entsprechen.
Die erste Aufgabe der vorliegenden Erfindung ist, den Verkehr in einem Netzwerk oder einem LAN zu reduzieren, indem die Menge an Daten, die über das Netzwerk oder das LAN übertragen werden sollen, reduziert wird.
Die zweite Aufgabe der vorliegenden Erfindung besteht darin, die Auslastung eines sprachsynthetisierenden Servers und den Verkehr in einem Netzwerk oder einem LAN zu reduzierens indem die zwischen einem sprachsynthetisierenden Server und einem Client übertragenen Datenarten gemäß ihren Fähigkeiten gesteuert werden.
Die Erfindung betrifft somit ein Sprachsynthesesystem nach Anspruch 1.
Die Erfindung betrifft auch ein Sprachsynthesesystem nach Anspruch 11.
Fig. 1 zeigt die Konfiguration des herkömmlichen Sprachsynthesesystems;
Fig. 2 zeigt das erste Prinzip der vorliegenden Erfindung;
Fig. 3 zeigt das zweite Prinzip der vorliegenden Erfindung;
Fig. 4 zeigt das dritte Prinzip der vorliegenden Erfindung;
Fig. 5 zeigt das vierte Prinzip der vorliegenden Erfindung;
Fig. 6 zeigt ein System mit einem sprachsynthetisierenden Servers einem Client und einem Wörterbuch-Abfrageserver;
Fig. 7 zeigt ein System mit einem sprachsynthetisierenden Server, einem Client und einem Listen-Verwaltungsserver;
Fig. 8 zeigt eine Ausführungsform 1 der vorliegenden Erfindung;
Fig. 9 zeigt die Korrespondenztabelle von Abkürzungen und Ziffern, und wie sie zu lesen sind;
Fig. 10 ist ein Blockdiagramm eines ADM;
Fig. 11 ist ein Blockdiagramm eines ADPCM;
Fig. 12 ist ein Blockdiagramm eines APC;
Fig. 13 ist ein Blockdiagramm eines SBC;
Fig. 14 ist ein Blockdiagramm eines ATC;
Fig. 15 ist ein Blockdiagramm eines PARCOR;
Fig. 16 ist ein Blockdiagramm eines MPC;
Fig. 17 ist ein Blockdiagramm eines VQ;
Fig. 18 zeigt eine Ausführungsform 2 der vorliegenden Erfindung;
Fig. 19 zeigt eine Ausführungsform 3 der vorliegenden Erfindung;
Fig. 20 zeigt eine Ausführungsform 4 der vorliegenden Erfindung;
Fig. 21 ist die Ansicht des Systems mit den Clients in den Ausführungsformen 1 bis 4;
Fig. 22 ist eine Ansicht zum Erläutern einer Ausführungsform 5 der vorliegenden Erfindung;
Fig. 23 zeigt ein Beispiel einer praktischen Konfiguration der Ausführungsform 5;
Fig. 24 ist eine Ansicht eines Systems, wo ein Client 10 keine D/A-Umwandlungsfunktion hat;
Fig. 25 ist eine Ansicht eines Systems, wo ein Client 10a keine D/A-Unwandlungsfunktion hat;
Fig. 26 ist ein System mit einem Wörterbuch-Abfrageclient, einem Wörterbuch-Abfrageserver und einem sprachsynthetisierenden Server;
Fig. 27 ist ein System mit einem Listen-Verwaltungsclient, einem Listen-Verwaltungsserver und einem sprachsynthetisierenden Server.

Bevorzugte Ausführungsformen der Erfindung

Bevorzugte Ausführungsformen der vorliegenden Erfindung werden im folgenden durch Verweisen auf die beigefügten Fig. 2-5, 8-23 beschrieben. Fig. 2 zeigt das erste Prinzip der vorliegenden Erfindung und zeigt die Basiskonfiguration mit einem Client 10 und einem sprachsynthetisierenden Server 20, die mit einem lokalen Netzwerk (LAN) verbunden sind.
Im ersten Prinzip der vorliegenden Erfindung, das in Fig. 2 dargestellt ist, empfängt die Texteingabeeinheit 11 des Client 10 Daten, die verarbeitet werden sollen, um Sprache zu synthetisieren. Eine Wellenform-Decodiereinheit 14 decodiert eine codierte Sprachwellenform, die von dem sprachsynthetisierenden Server 20 gesendet wurde, und die Sprachausgabeeinheit 15 gibt die decodierte Sprachwellenform als Sprache aus.
Die Wellenform-Erzeugungseinheit 24 in dem sprachsynthetiserenden Server 20 erzeugt eine Sprachwellenform gemäß den von dem Client 10 gesendeten Daten. Eine Wellenform-Codiereinheit 25 codiert eine durch die Wellenform-Erzeugungseinheit 24 erzeugte Sprachwellenform.
In einer Ausführungsform gemäß dem ersten Prinzip der vorliegenden Erfindung, das in Fig. 2 dargestellt ist, erzeugt die Wellenform-Erzeugungseinheit 24 in dem sprachsynthetisierenden Server 20 eine Sprachwellenform entsprechend den von dem Client 10 gesendeten Daten, codiert die Sprachwellenform und sendet sie an den Client 10.
Der Client 10 decodiert bei der Decodiereinheit 14 die empfangene Sprachwellenform, wobei die ursprüngliche Sprachwellenform erhalten wird, und gibt sie als Sprache aus der Sprachausgabeeinheit 15 aus.
Da der sprachsynthetisierende Server 20 komprimierte Daten (codierte Sprachwellenform) an das LAN sendet, können die Menge der Übertragungsdaten und der Verkehr in dem LAN reduziert werden.
In dem zweiten Prinzip der vorliegenden Erfindung, das in Fig. 3 dargestellt ist, erzeugt eine Aussprachesymbol- Erzeugungseinheit 16 des Client 10 Aussprachesymbole (Aussprachesymbol-Ketten) gemäß den Textdaten, die in die Texteingabeeinheit 11 eingegeben wurden. Aussprachesymbole beziehen sich auf Symbole zum Darstellen der Aussprache, Betonung, Intonation oder Sprachmelodie etc. für die eingegebenen Textdaten.
Eine Akustikparameter-Erzeugungseinheit 17 erzeugt Akustikparameter (Sprachparameter-in-Zeitreihe).
Eine Datensendeeinheit 110 sendet ein Aussprachesymbol an den sprachsynthetisierenden Server 20, wenn der Client 10 die Texteingabeeinheit 11 und die Aussprachesymbol-Erzeugungseinheit 16 aufweist, und sendet einen Akustikparameter an den sprachsynthetisierenden Server 20, wenn der Client 10 die Texteingabeeinheit 11, die Aussprachesymbol-Erzeugungseinheit 16 und die Akustikparameter-Erzeugungseinheit 17 aufweist. Eine Datenempfangseinheit 120 empfängt eine Sprachwellenform, die von dem sprachsynthetisierenden Server 20 ausgegeben wurde.
Eine Datenempfangseinheit 210 in dem sprachsynthetisierenden Server 20 empfängt Daten, die von dem Client 10 gesendet wurden.
Die Aussprachesymbol-Erzeugungseinheit 22 erzeugt ein Aussprachesymbol gemäß den von der Textempfangseinheit 210 empfangenen Textdaten.
Die Akustikparameter-Erzeugungseinheit 23 erzeugt einen Akustikparameter gemäß dem Aussprachesymbol.
Die Wellenform-Erzeugungseinheit 24 synthetisiert eine Sprachwellenform gemäß dem Akustikparameter.
Eine Datensteuereinheit 270 steuert derart, daß, wenn die Datenempfangseinheit 210 Textdaten empfängt, sie an die Aussprachesymbol-Erzeugungseinheit 22 ausgegeben werden, wenn sie Aussprachesymbole empfängt, sie an die Akustikparameter- Erzeugungseinheit 23 ausgegeben werden, und wenn sie Akustikparameter empfängt, sie an die Wellenform-Erzeugungseinheit 24 ausgegeben werden.
Gemäß dem zweiten Prinzip der vorliegenden Erfindung, das in Fig. 3 dargestellt ist, weist der Client 10 zusätzlich zu der Sprachausgabeeinheit 15, der Datensendeeinheit 110 und der Datenempfangseinheit 120; (i) nur die Texteingabeeinheit 11, (ii) die Texteingabeeinheit 11 und die Aussprachesymbol- Erzeugungseinheit 16 oder (iii) die Texteingabeeinheit 11, die Aussprachesymbol-Erzeugungseinheit 16 und die Akustikparameter-Erzeugungseinheit 17 auf.
Wenn der Client 10 die Konfiguration (i) hat, werden Textdaten von der Datensendeeinheit 110 an den sprachsynthetisierenden Server 20 gesendet. Wenn der Client 10 die Konfuguration (ii) hat, wird ein Aussprachesymbol von der Datensendeeinheit 110 an den sprachsynthetisierenden Server 20 gesendet. Wenn der Client 10 die Konfiguration (iii) hat, wird ein Akustikparameter von der Datensendeeinheit 110 an den sprachsynthetisierenden Server 20 gesendet.
Wenn der sprachsynthetisierende Server 20 Textdaten von dem Client (10) empfängt, gibt er die empfangenen Textdaten an die Aussprachesymbol-Erzeugungseinheit 22, um ein Aussprachesymbol zu erzeugen. Wenn er ein Aussprachesymbol empfängt, gibt er das empfangene Aussprachesymbol an die Akustikparameter-Erzeugungseinheit 23 aus, um einen Akustikparameter zu erzeugen. Wenn er einen Akustikparameter empfängt, gibt er den empfangenen Akustikparameter an die Wellenform-Erzeugungseinheit 24 aus, um eine Sprachwellenform zu synthetisieren.
Zu dieser Zeit sendet der Client 10 in Abhängigkeit von seinen Fähigkeiten Daten an den sprachsynthetisierenden Server 20. Falls der Client 10 die Funktion zum Erzeugen eines Aussprachesymbols oder eines Akustikparameters aufweist, muß daher der sprachsynthetisierende Server 20 kein Aussprachsymbol oder keinen Akustikparameter erzeugen, wodurch die Auslastung des sprachsynthetisierenden Servers 20 reduziert wird.
Gemäß dem dritten Prinzip der vorliegenden Erfindung, das in Fig. 4 dargestellt ist, umfaßt der Client 10 zusätzlich zur Konfiguration des in Fig. 3 gezeigten zweiten Prinzips eine Steuereinheit 130 zum Steuern von Daten.
Gemäß der Anweisung des sprachsynthetisierenden Servers 20 wählt die Datensteuereinheit 130 im Client 10 zwischen einem Senden von Textdaten, eines Aussprachesymbols oder eines Akustikparameters von der Datensendeeinheit 110 zum sprachsynthetisierenden Server 20 aus.
Die Datensteuereinheit 270 des sprachsynthetisierenden Servers 20 steuert derart, daß, wenn die Datenempfangseinheit 210 Textdaten empfängt, sie an die Aussprachesymbol-Erzeugungseinheit 22 ausgegeben werden, wenn sie Aussprachesymbole empfängt, sie an die Akustikparameter-Erzeugungseinheit 23 ausgegeben werden, und, wenn sie Akustikparameter empfängt, sie an die Wellenform-Erzeugungseinheit 24 ausgegeben werden.
In einem Sprachsynthesesystem, in welchem mehrere Clients und zumindest ein sprachsynthetisierender Server mit einem lokalen Netzwerk verbunden sind, weist ein Client gemäß dem ersten Prinzip der vorliegenden Erfindung eine Dateneingabeeinheit zum Empfangen von Daten, eine Wellenform-Synthetisiereinheit zum Decodieren einer codierten Sprachwellenform und eine Sprachausgabeeinheit zum Ausgeben der decodierten Sprachwellenform als Sprache auf.
Der sprachsynthetisierende Server umfaßt eine Wellenform- Erzeugungseinheit zum Erzeugen einer Sprachwellenform gemäß den von dem Client gesendeten Daten und eine Wellenform- Codiereinheit zum Codieren der Sprachwellenform.
Wenn zu verarbeitende Daten von der Dateneingabeeinheit des Client angewendet werden, werden die Daten über ein lokales Netzwerk (LAN) zum sprachsynthetisierenden Server gesendet. Die Wellenform-Erzeugungseinheit in dem sprachsynthetisierenden Server erzeugt eine Sprachwellenform gemäß den Daten, codiert die erzeugte Sprachwellenform und sendet sie an den Client. Der Client decodiert die von dem sprachsynthetisierenden Server empfangene codierte Sprachwellenform und gibt sie als Sprache aus.
Somit reduziert das Senden codierter Sprachwellenformen von einem sprachsynthetisierenden Server an ein LAN die Menge an Übertragungsdaten und den Verkehr in dem LAN.
Ein sprachsynthetisierender Server in einem Sprachsynthesesystem gemäß dem zweiten Prinzip der vorliegenden Erfindung umfaßt auch eine Aussprachesymbol-Erzeugungseinheit zum Erzeugen eines Aussprachesymbols gemäß den von einem Client gesendeten Textdaten, eine Akustikparameter-Erzeugungseinheit zum Erzeugen eines Akustikparameters gemäß einem Aussprachesymbol, eine Wellenform-Erzeugungseinheit zum Synthetisieren einer Sprachwellenform gemäß dem Akustikparameter, eine Datenempfangseinheit zum Empfangen von Daten, eine Datensendeeinheit zum Senden von Daten und eine Datensteuereinheit zum Steuern derart, daß, wenn die Datenempfangseinheit Textdaten empfängt, sie an die Aussprachesymbol-Erzeugungseinheit ausgegeben, wenn sie Aussprachesymbole empfängt, die an die Akustikparameter-Erzeugungseinheit ausgegeben werden, und, wenn sie Akustikparameter empfängt sie an die Wellenform- Erzeugungseinheit ausgegeben werden.
Wenn der sprachsynthetisierende Server Textdaten von dem Client empfängt, erzeugt er Aussprachesymbole gemäß den empfangenen Textdaten. Wenn er Aussprachesymbole empfängt, erzeugt er Akustikparameter gemäß den Aussprachesymbolen. Wenn er Akustikparameter empfängt, erzeugt er Sprachwellenformen gemäß den Akustikparametern. Wenn ein Client die Funktion zum Erzeugen eines Aussprachesymbols oder eines Akustikparameters aufweist, kann somit die Auslastung des sprachsynthetisierenden Servers reduziert werden, weil kein Aussprachesymbol oder kein Akustikparameter erzeugt werden muß.
Im dritten Prinzip der vorliegenden Erfindung, das in Fig. 4 dargestellt ist, umfaßt der Client 10 (i) nur die Texteingabeeinheit 11, (ii) die Texteingabeeinheit 11 und die Aussprachesymbol-Erzeugungseinheit 16 oder (iii) die Texteingabeeinheit 11, die Aussprachesymbol-Erzeugungseinheit 16 und die Akustikparameter-Erzeugungseinheit 17 (siehe Fig. 3).
Wenn die Datensteuereinheit 270 in dem sprachsynthetisierenden Server 20 von dem Client 10 eine Anforderung nach Sprachdaten empfängt, bestimmt sie den Typ von Daten, die von dem Client 10 zum sprachsynthetisierenden Server 20 gesendet werden sollen, gemäß der Auslastung des sprachsynthetisierenden Servers 20, der Auslastung des LAN und den durch den anfordernden Client 10 erzeugten Daten und informiert dann die Datensteuereinheit 130 im Client 10 über den resultierenden Datentyp. Ansonsten informiert die Datensteuereinheit 270 in dem sprachsynthetisierenden Server 20 die Datensteuereinheit 130 in dem Client 10 über die Auslastung des sprachsynthetisierenden Servers 20 und die Auslastung des LAN. Gemäß der Information bestimmt die Datensteuereinheit 130 in dem Client 10 den Typ zu sendender Daten.
Wenn z. B. der sprachsynthetisierende Server 20 mit einer hohen Auslastung belastet ist, weist die Datensteuereinheit 270 in dem sprachsynthetisierenden Server 20 die Datensteuereinheit 130 in dem Client 10 an, die Daten des durch den Client 10 erzeugten Typs zu senden. Die Datensteuereinheit 130 in dem Client 10 weist die Datensendeeinheit 110 an, die durch den sprachsynthetisierenden Server 20 spezifizierten Daten zu senden.
Wenn der Client 10 die oben beschriebene Konfiguration (iii) hat, weist praktisch die Datensteuereinheit 130 des Client 10 die Datensendeeinheit 110 an, ein Aussprachesymbol zu senden. Wenn er die Konfiguration (iii) hat, weist die Datensteuereinheit 130 die Datensendeeinheit 110 an, einen Akustikparameter zu senden.
Wenn der sprachsynthetisierende Server 20 mit einer geringen Auslastung belastet ist, kann im Gegensatz dazu der sprachsynthetisierende Server 20 die Prozesse übernehmen, die von dem Client 10 ausgeführt werden sollen. Daher weist die Datensteuereinheit 270 in dem sprachsynthetisierenden Server 20 die Datensendeeinheit 110 an, die Daten eines niedrigeren Niveaus für den Client 10 zu senden.
Wenn z. B. der sprachsynthetisierende Server 20 mit einer geringen Auslastung belastet ist und eine ausreichende Leistungsfähigkeit aufweist, weist die Datensteuereinheit 270 in dem sprachsynthetisierenden Server 20 die Datensteuereinheit 130 in dem Client 10 an, Textdaten zu senden, selbst wenn der Client 10 die Funktion zum Erzeugen eines Aussprachsymbols hat.
Die Datensteuereinheit 270 in dem sprachsynthetisierenden Server 20 weist die Datensteuereinheit 130 in dem Client 10 an, ein Aussprachesymbol (oder Textdaten) zu senden, selbst wenn der Client 10 die Funktion zum Erzeugen eines Aussprachesymbols und eines Akustikparameters (mit der oben beschriebenen Konfiguration (iii)) hat.
Wie oben beschrieben wurde, kann, wenn der sprachsynthetisierende Server 20 mit einer geringen Auslastung belastet ist, die Auslastung des Client 10 reduziert werden, indem ein Aussprachesymbol oder ein Akustikparameter durch den sprachsynthetisierenden Server 20 für den Client 10 erzeugt wird. Zu dieser Zeit sind die Daten, die von dem Client an den sprachsynthetisierenden Server 20 gesendet wurden, Textdaten mit einem Datenvolumen, das geringer als das von Aussprachesymbolen ist, oder Aussprachsymbole (oder Textdaten) mit einem geringeren Datenvolumen als dem von Akustikparametern, wodurch der Verkehr eines LAN reduziert wird.
Überdies kann der Client 10 gemäß dem dritten Prinzip der vorliegenden Erfindung, das in Fig. 4 dargestellt ist, eine Wellenform-Erzeugungseinheit 18 aufweisen.
Wenn der Client 10, der eine Anforderung nach synthetisierter Sprache ausgibt, die Wellenform-Erzeugungseinheit 18 aufweist, weist die Datensteuereinheit 270 in dem sprachsynthetisierenden Server 20 die Datensendeeinheit 260 an, gemäß der Auslastung des sprachsynthetisierenden Servers 20 und der Auslastung des LAN entweder eine Sprachwellenform oder einen Akustikparameter an den Client 10 zu senden.
Wenn die Datenempfangseinheit 120 einen Akustikparameter empfängt, steuert die Datensteuereinheit 270 in dem Client 10 die Datenempfangseinheit 120, um den Akustikparameter an die Wellenform-Erzeugungseinheit 18 auszugeben. Wenn sie eine synthetisierte Sprachwellenform empfängt, steuert die Datensteuereinheit 270 sie, um die Sprachwellenform an die Sprachausgabeeinheit 15 auszugeben.
Wenn z. B. der sprachsynthetisierende Server 20 mit einer geringen Auslastung belastet ist, führt der sprachsynthetisierende Server 20 alle Prozesse aus, die erforderlich sind, um eine Sprachwellenform zu erzeugen, und die Datensendeeinheit 260 sendet die Sprachwellenform an den Client 10.
Wenn der sprachsynthetisierende Server 20 mit einer hohen Auslastung belastet ist, sendet er einen Akustikparameter an den Client 10, ohne eine Sprachwellenform durch die Wellenform-Erzeugungseinheit 24 zu erzeugen. Falls in einem LAN starker Verkehr herrscht, wird ein Akustikparameter gesendet, der ein geringeres Datenvolumen als das einer Sprachwellenform hat.
Somit verbessert das Auswählen einer Sprachwellenform oder eines Akustikparameters und das Senden dessen an den Client 10 gemäß den Auslastungen des sprachsynthetisierenden Servers 20, des LAN und des Client 10 die Effizienz des Sprachsynthesesystems. Überdies reduziert das Senden eines Akustikparameters, der ein geringeres Datenvolumen als das einer Sprachwellenform hat, auch die Auslastung des LAN.
Gemäß dem vierten Prinzip der vorliegenden Erfindung, das in Fig. 5 dargestellt ist, sind Akustikparameter-Erzeugungsserver 20a und 20b einzeln auf Sprachqualität oder Ausdrucksweise oder Sprache spezialisiert und erzeugen einen Akustikparameter für spezifische Sprachqualität oder Ausdrucksweisen.
Der Client 10 weist die Akustikparameter-Erzeugungsserver 20a und 20b an, einen Akustikparameter für spezifische Sprachqualität oder Ausdrucksweise zu erzeugen.
Ein Wellenform-Server 20c synthetisiert eine Sprachwellenform gemäß dem Akustikparameter, der durch die oben beschriebenen Akustikparameter-Erzeugungsserver 20a und 20b erzeugt wurde.
Gemäß dem fünften Prinzip der vorliegenden Erfindung, das in Fig. 5 dargestellt ist, erzeugt, wenn der Client 10 anweist, einen Akustikparameter einer spezifischen Sprachqualität oder Ausdrucksweise zu erzeugen, der entsprechende Akustikparameter-Server 20a (oder 20b) einen Akustikparameter gemäß den von dem Client 10 gesendeten Textdaten und sendet den Akustikparameter an einen Wellenform-Erzeugungsserver 20c. Der Wellenform-Erzeugungsserver 20c erzeugt die Sprachwellenform gemäß dem empfangenen Akustikparameter und sendet die Sprachwellenform an den Client 10. Der Client 10 gibt dann die Textdaten in der spezifizierten Sprachqualität oder Ausdrucksweise stimmlich aus.
Fig. 6 und 7 zeigen beide Systeme, die durch die Ansprüche nicht abgedeckt sind.
In Fig. 6 umfaßt ein Wörterbuch-Abfrageclient 40 eine Worteingabeeinheit 41, eine Wortsendeeinheit 42, eine Wörterbuchinformation/Wellenform-Empfangseinheit 43, die Sprachausgabeeinheit 15 und eine Wörterbuchinformation-Anzeigeeinheit 45.
Die Worteingabeeinheit 41 empfängt ein Wort, das abgefragt werden soll, und die Wortsendeeinheit 42 sendet das eingegebene Wort an den Wörterbuch-Abfrageserver 50.
Die Wörterbuchinformation/Wellenform-Empfangseinheit 43 empfängt eine Wörterbuchinformation und die Sprachwellenform eines Wortes. Die Wörterbuchinformation-Anzeigeeinheit 45 zeigt die Wörterbuchinformation des Wortes an, die durch die Wörterbuchinformation/Wellenform-Empfangseinheit 43 empfangen wurde, und die Sprachausgabeeinheit 15 gibt die empfangene Sprachwellenform als Sprache aus.
Der Wörterbuch-Abfragesensor 50 umfaßt ein Wort-Wörterbuch 53, eine Wörterbuch-Abfrageeinheit 52, eine Aussprachesymbol-Sendeeinheit 55 und eine Datenübertragungseinheit 57.
Die Wörterbuch-Abfrageeinheit 52 sucht das Wort-Wörterbuch 53 nach der Wörterbuchinformation des Wortes ab, das durch den Wörterbuch-Abfrageclient 40 für eine Abfrage spezifiziert wurde.
Die Aussprachesymbol-Sendeeinheit 55 sendet an den sprachsynthetisierenden Server 20 das Aussprachesymbol in der Wörterbuchinformation, die durch die Wörterbuch-Abfrageeinheit 52 abgefragt wurde.
Die Datenübertragungseinheit 57 empfängt die von dem sprachsynthetisierenden Server 20 empfangene Sprachwellenform und sendet an den Wörterbuch-Abfrageclient 40 die empfangene Sprachwellenform und die Wörterbuchinformation, die durch die Wörterbuch-Abfrageeinheit 52 empfangen wurde.
Der sprachsynthetisierende Server 20 umfaßt eine Aussprachesymbol-Empfangseinheit 220, die Akustikparameter-Erzeugungseinheit 23, die Wellenform-Erzeugungseinheit 24 und die Wellenform-Sendeeinheit 26.
Die Aussprachesymbol-Empfangseinheit 220 empfängt das von dem Wörterbuch-Abfrageserver 50 gesendete Aussprachesymbol. Die Wellenform-Erzeugungseinheit 24 erzeugt eine Sprachwellenform entsprechend dem empfangenen Aussprachesymbol, und die Wellenform-Sendeeinheit 26 sendet die erzeugte Sprachwellenform an den Wörterbuch-Abfrageserver 50.
Gemäß dem in Fig. 6 gezeigten System frägt die Wörterbuch-Abfrageeinheit 52 aus dem Wort-Wörterbuch 53 die Wörterbuchinformation des Wortes ab, das durch den Wörterbuch- Abfrageclient 40 für eine Abfrage spezifiziert wurde, und sendet das Aussprachesymbol in der abgefragten Wörterbuchinformation an den sprachsynthetisierenden Server 20. Der sprachsynthetisierende Server 20 erzeugt eine Sprachwellenform entsprechend dem Aussprachesymbol und sendet die erzeugte Sprachwellenform an den Wörterbuch-Abfrageserver 50.
Der Wörterbuch-Abfrageserver 50 sendet an den Wörterbuch- Abfrageclient 40 die Wörterbuchinformation des Wortes, das durch die Wörterbuch-Abfrageeinheit 52 abgefragt wurde, und die Sprachwellenform, die von dem sprachsynthetisierenden Server 20 empfangen wurde.
Der Wörterbuch-Abfrageclient 40 zeigt die Wörterbuchinformation eines Wortes auf der Wörterbuchinformation-Anzeigeeinheit 45 an und gibt die Aussprache eines Wortes von der Sprachausgabeeinheit 15 stimmlich aus.
Wenn ein Benutzer eine Anforderung nach einer Abfrage eines bestimmten Wortes stellt, wird somit die Bedeutung des Wortes angezeigt, und dessen Aussprache wird stimmlich ausgegeben. Daher kann der Benutzer über die Bedeutung und die Aussprache des Wortes gleichzeitig informiert werden.
Als nächstes umfaßt in dem in Fig. 7 gezeigten System einen Listen-Verwaltungsclient 60 eine Listen/Wellenform- Empfangseinheit 63, eine Sprachausgabeeinheit 15 und eine Listenanzeigeeinheit 62.
Die Listen/Wellenform-Empfangseinheit 63 empfängt eine Listeninformation und eine Sprachwellenform. Die Listenanzeigeeinheit 62 zeigt die Listeninformation an, die von der Listen/Wellenform-Empfangseinheit 63 empfangen wurde, und die Sprachausgabeeinheit 15 gibt als Sprache die empfangene Sprachwellenform aus.
Ein Listen-Verwaltungsserver 70 umfaßt eine Listendatenbank 73, eine Listen-Abfrageeinheit 72 und eine Listen- Sendeeinheit 74.
Die Listendatenbank 73 speichert eine Listeninformation mehrerer Nutzer, und die Listen-Abfrageeinheit 72 frägt von der Listendatenbank 73 die Listeninformation über eine vorbestimmte Bedingung ab. Die Listen-Sendeeinheit 74 sendet die abgefragte Listeninformation an den sprachsynthetisierenden Server 20.
Der sprachsynthetisierende Server 20 umfaßt die Textempfangseinheit 21, die Aussprachesymbol-Erzeugungseinheit 22, die Akustikparameter-Erzeugungseinheit 23, die Wellenform- Erzeugungseinheit 24 und die Wellenform-Sendeeinheit 26.
Die Textempfangseinheit 21 empfängt die von dem Listen- Verwaltungsserver 70 gesendete Listeninformation. Die Wellenform-Erzeugungseinheit 24 erzeugt eine Sprachwellenform entsprechend der empfangenen Listeninformation, und die Wellenform-Sendeeinheit 26 sendet die Sprachwellenform an den Listen-Verwaltungsserver 70 oder an den Listen-Verwaltungsclient 60.
Gemäß dem in Fig. 7 gezeigten System frägt der Listen- Verwaltungsserver 70 eine in der Listendatenbank 73 gespeicherte Listeninformation ab und frägt z. B. die Listeninformation für die gegenwärtige Zeit ab. Die Listeninformation wird dann an den sprachsynthetisierenden Server 20 gesendet. Der sprachsynthetisierende Server 20 erzeugt eine Sprachwellenform entsprechend der im Textdatenformat empfangenen Listeninformation und sendet die Sprachwellenform an den Listen- Verwaltungsserver 70.
Der Listen-Verwaltungsserver 70 sendet an den Listen- Verwaltungsclient 60 die Sprachwellenform zusammen mit der Listeninformation. Der Listen-Verwaltungsclient 60 zeigt die empfangene Listeninformation auf der Listeninformations- Anzeigeeinheit 62 an und gibt aus der Sprachausgabeeinheit 15 die Sprache aus, die über den Inhalt der Liste informiert.
Die Listeninformation wird somit auf einer Anzeigeeinheit etc. angezeigt und stimmlich ausgegeben, wodurch der Benutzer über die Liste ohne Störung informiert wird.
In Fig. 7 wird eine durch den sprachsynthetisierenden Server 20 erzeugte Sprachwellenform durch den Listen- Verwaltungsserver 70 an den Listen-Verwaltungsclient 60 gesendet. Sie kann auch direkt an den Listen-Verwaltungsclient 60 gesendet werden.
Fig. 8 zeigt die Konfiguration des Sprachsynthesesystems einer Ausführungsform 1 der vorliegenden Erfindung. Die Ausführungsform zeigt den Fall, in welchem zumindest ein sprachsynthetisierender Server 20 und mehrere Clients 10 mit einem LAN verbunden sind.
Der Client 10 umfaßt die Texteingabeeinheit 11 zum Empfangen, als Textdaten, einer Nachricht, die verarbeitet werden solle um Sprache zu synthetisieren, die Textsendeeinheit 12, um an den sprachsynthetisierenden Server 20 die in die Texteingabeeinheit 11 eingegebenen Textdaten zu senden, die Wellenform-Empfangseinheit 13 zum Empfangen einer von dem sprachsynthetisierenden Server 20 gesendeten codierten Sprachwellenform, die Wellenform-Decodiereinheit 14 zum Decodieren der empfangenen Sprachwellenform, eine D/A-Umwandlungseinheit 151 zum Umwandeln der decodierten digitalen Sprachdaten in analoge Daten und ein Tiefpaßfilter 152 zum Entfernen von Hochfrequenzkomponenten aus den analogen Daten. Ein Lautsprecher 153 ist mit dem Tiefpaßfilter 152 verbunden.
Der sprachsynthetisierende Server 20 umfaßt die Textempfangseinheit 21 zum Empfangen von Textdaten, die von der Textsendeeinheit 12 in dem Client 10 empfangen wurden, eine Vorverarbeitungseinheit 220 zum Bestimmen, wie Abkürzungen oder Zahlen in den empfangenen Textdaten zu lesen sind, eine Spracxh- oder Ausdrucksweise-Verarbeitungseinheit 221 zum Verweisen auf die Information in einem Wörterbuch 224, um die Information hinsichtlich Morpheme zu analysieren und hinsichtlich der Syntax zu analysieren® und eine phonetische Symbole erzeugende Einheit 222 zum Umwandeln des Analyseergebnisses in phonetische Symbolketten, die anzeigen, wie die Textdaten auszusprechen sind.
Der sprachsynthetisierende Server 20 umfaßt eine prosodische Symbole erzeugende Einheit 223 zum Verweisen auf Rhythmusregeln 225 und Erzeugen eines prosodischen Symbols, das Sprachmelodie und Betonung angibt, gemäß dem von der Ausdrucksweise-Verarbeitungseinheit 221 und der phonetische Symbole erzeugenden Einheit 222 empfangenen Ergebnis, die Akustikparameter-Erzeugungseinheit 23 zum Verweisen auf eine Parameterdatei 231 zum Speichern von Akustikparametern, um Sprachparameter-in-Zeitreihe gemäß den phonetischen Symbolketten und den prosodischen Symbolketten zu erzeugen.
Der sprachsynthetisierende Server 20 umfaßt ferner die Wellenform-Erzeugungseinheit 24 zum Erzeugen einer Sprachwellenform gemäß den Sprachparameter-in-Zeitreihe, die Wellenform-Codiereinheit 25 zum Codieren der erzeugten Sprachwellenform und die Wellenform-Sendeeinheit 26 zum Senden der codierten Sprachwellenform.
Jeder Teil in der Konfiguration wird im folgenden ausführlich beschrieben.

< Vorverarbeitungseinheit>

Die Vorverarbeitungseinheit 220 bestimmt, wie Abkürzungen und Zahlen in Textdaten zu lesen sind. Wenn eine Abkürzung, ein Symbol oder Zahlen in Textdaten gefunden werden, extrahiert die Vorverarbeitungseinheit 220 sie und bestimmt, wie die extrahierten Einzelobjekte zu lesen sind, indem auf die in Fig. 9 gezeigte Korrespondenztabelle Bezug genommen wird.

< Ausdrucksweise-Verarbeitungseinheit>

Die Sprach- oder Ausdrucksweise-Verarbeitungseinheit 221 bezieht sich auf eine Information in dem Wörterbuch 224 und analysiert eingegebene Textdaten hinsichtlich Morpheme und Syntax. Eine "Morpheme-Analyse" ist ein Prozeß, bei dem eingegebene Textdaten in die minimalen Einheiten geteilt werden, die einen Teil der Textdaten bilden und noch eine Bedeutung haben (d. h. Morpheme), und der Sprachteil, das Lesen und die Betonung der Textdaten bestimmt werden. Eine "Syntax-Analyse" ist ein Prozeß, bei dem eine Einheit analysiert wird, die gemäß einem Ergebnis einer Morpheme-Analyse eine grammatikalische Bedeutung hat, um den eingegebenen Textdaten eine natürliche Sprachmelodie zuzuweisen.
Die phonetische Symbole erzeugende Einheit 222 wandelt Textdaten in phonetische Symbolketten um, die angeben, wie die Textdaten ausgesprochen werden. Eine "phonetische Symbolkette" ist eine Symbolkette, die die Aussprache eines Wortes repräsentiert, und eine Kette entspricht einem japanischen Zeichen oder einem Zeichen als phonetischem Symbol, das in Abhängigkeit von der Stelle des Zeichens in den Textdaten geteilt ist.

< Prosodische Symbole erzeugende Einheit>

Die prosodische Symbole erzeugende Einheit 223 erzeugt ein prosodisches Symbol, das Sprachmelodie und Betonung von Textdaten angibt, indem auf die Rhythmusregeln 225 verwiesen wird, und gemäß Analyseergebnissen von der Ausdrucksweise- Verarbeitungseinheit 221 und phonetischen Symbolen, die durch die phonetische Symbole erzeugende Einheit 222 erzeugt wurden.
Die Rhythmusregeln 225 sind die Regeln zum Anwenden, gemäß der Syntaxinformation, die von der Ausdrucksweise- Verarbeitungseinheit 221 erhalten wurde, eines Pausesymbols bei einer semantischen Abgrenzung und eines Symbols zum Steuern eines zweiten Anstiegs in der Sprachmelodie. Außerdem regulieren die Regeln die Änderungen in der Betonungsstelle, die durch die Kombination eines Wortes und eines Hilfswortes erzeugt werden, und die Kombination von Worten. Aussprachesymbole bestehen aus phonetischen Symbolen und prosodischen Symbolen.
Als nächstes verweist die Akustikparameter-Erzeugungseinheit 23 auf die Parameterdatei 231, um Sprachparameter-in- Zeitreihe gemäß phonetischen Symbolketten und prosodischen Symbolketten zu erzeugen.
Ein Akustikparameter wird erhalten, indem tatsächliche Sprachdaten zu jeder einzelnen Verbundeinheit (z. B. eine phonetische oder eine Silbe) komprimiert werden. PARCOR (LPC), LPS, Formant etc. sind Beispiele von Akustikparametern, die von jedem einzelnen Datenkompressionsverfahren abhängen (abhängig von jedem Modell eines sprachsynthetisierenden Prozesses).
Im Fall von Formant (Resonanzfrequenz eines Sprachweges) wird z. B. ein Digitalfilter, das durch Modellieren einer Sprachweg-Übertragungsfunktion erhalten wird, konfiguriert, indem eine Formant-Frequenz und ein Formant-Band gemäß phonetischen Symbolketten spezifiziert werden, und wird gemäß Sprachquellensignalen betrieben, die durch prosodische Symbolketten erzeugt wurden. So werden Sprachwellenformen erzeugt.
Die Wellenform-Erzeugungseinheit 24 erzeugt eine Sprachwellenform gemäß den Sprachparametern-in-Zeitreihe, und die Wellenform-Codiereinheit 25 komprimiert die Daten in der erzeugten Sprachwellenform. Codierverfahren wie z. B. ADM, ADPCM, ADC, SBC, ATC, PARCORM, MPC, VQ etc. werden als Verfahren zum Komprimieren von Daten verwendet.
Die oben beschriebenen Datenkomprimierverfahren, die von der Akustikparameter-Erzeugungseinheit 23 und der Wellenform- Erzeugungseinheit 24 verwendet werden, werden im folgenden erläutert. "ADM" ist eine Abkürzung für "adative Deltamodulation". Es ist das einfachste Verfahren, um einen Prädiktionscode zu erhalten, in welchem die Differenz zwischen einem Eingangssignal und einem Prädiktionswert durch 1 Bit codiert wird (1 Pegel jeweils für eine positive und eine negative Differenz). Da ADM nur zwei Quantisierungsniveaus pro Abtastwert zuläßt, wird die Differenz codiert, wobei die Differenz zwischen benachbarten Abtastungen minimiert wird, indem eine hohe Abtastfrequenz eines Eingangssignals verwendet wird. Um eine adaptive Quantisierung auszuführen, muß die Schrittgröße in dem Bereich kleiner sein, in dem die Amplitude der Differenz eine kleine Variation anzeigt, während sie in dem Bereich groß sein muß, in dem die Amplitude eine große Variation angibt. Fig. 10 zeigt die Konfiguration des ADM- Codierverfahrens.
"ADPCM" ist eine Abkürzung für "Adaptive Differentielle Pulscodemodulation". In ADPCM wird das gegenwärtige Eingangssignal durch das frühere Eingangssignal vorhergesagt, und die Differenz zwischen den früheren und den gegenwärtigen Eingangssignalen wird quantisiert und codiert. Da eine große Änderung im Pegel eines Eigangssignals ein großes Quantisierungsrauschen bewirkt, wird eine adaptive Quantisierung ausgeführt, indem die Quantisierungsschrittgröße gesteuert wird. Das Prädiktionsverfahren kann entweder ein festes Prädiktionsverfahren seine in welchem eine Prädiktionseinheit einen festen Prädiktionskoeffizienten aufweist, oder ein adaptives Prädiktionsverfahren, in welchem ein Prädikationskoeffizient derart bestimmt ist, daß ein vorhergesagter Fehler zwischen den gegenwärtigen und früheren Eingangssignalen minimiert werden kann. Das adaptive Prädiktionsverfahren erfordert einen Algorithmus, der komplizierter als der des festen Prädiktionsverfahrens ist. Das letztgenannte liefert jedoch Codiercharakteristiken höherer Qualität als diejenigen des erstgenannten. Fig. 11 zeigt die Konfiguration des ADPCM-Codierverfahrens.
"APC" ist eine Abkürzung für "Adaptive Prädiktive Codierung", bei der ein Prädiktionskoeffizient erhalten wird, indem ein Eingangssignal in Blockeinheiten empfangen und durch lineare Prädiktion analysiert wird. Ein Prädiktionssignal wird gemäß dem Prädiktionskoeffizienten erzeugt, die Differenz zwischen dem Prädiktionssignal und dem Eingangssignal wird quantisiert und codiert, und der Prädiktionskoeffizient und die Quantisierungsschrittgröße werden als zusätzliche Informationen übertragen. Im Gegensatz zu ADM und ADPCM, bei denen Daten seriell vorhergesagt werden, führt das APC- Codierverfahren eine lineare Prädiktion durch, indem ein optimaler Prädiktionskoeffizient für eine Abtastung des gesamten Blockes erhalten wird. Daher erhält es einen großen Wert einer Prädiktionsverstärkung, und die Codierqualität wird sehr verbessert. Fig. 12 zeigt die Konfiguration von APC.
"SBC" ist eine Abkürzung für "Subbandcodierung", bei der ein Sprachsignal in mehrere Frequenzbänder geteilt wird, jedes der Bandsignale bei der Nyquist-Geschwindigkeit dezimiert und in ein Basisbandsignal umgewandelt und dann gemäß dem ADPCM etc. codiert wird. Fig. 13 zeigt die Konfiguration der SBC. In einem auf jedem Band durchgeführten Codierprozeß kann die gesamte Sprachqualität verbessert werden, indem eine große Anzahl Quantisierungsbits einem Band zugewiesen wird, wo Sprachenergien konzentriert sind. In diesem Verfahren wird überdies ein Quantisierungsrauschen nur in geteilten Bändern erzeugt, und dieses beeinflußt kaum andere Bänder. Die SBC wird durchgeführt, indem Bänder halbiert werden, und gewöhnlich von einem QMF (Quadratur-Spiegelfilter) zum Auslöschen von Umbruchkomponenten begleitet wird.
"ATC" ist eine Abkürzung für "Adaptive Transformationscodierung". In diesem Verfahren sind ungefähr 20 ms, bei denen Sprache normalerweise ausgegeben wird, als ein Block (Rahmen) definiert, und Werte, die durch orthogonales Umwandeln von Sprachwellenformsignalen in dem Block zur Frequenzdomäne erhalten werden, werden codiert. In einem Decodierprozeß werden Sprachwellenformsignale in einem Block regeneriert, indem eine inverse orthogonale Transformation an den Werten des Frequenzbereichs durchgeführt wird. Das ATC-Verfahren wird normalerweise ausgeführt, indem eine diskrete Cosinustransformation (DCT) für eine orthogonale Transformation übernommen wird, um eine adaptive Bitzuweisung durchzuführen. Gemäß dem ATC-Codierverfahren kann das Hörvermögen von Menschen einfach mit einer Frequenzanalyse zugeordnet werden und Quantisierungsrauschen in der Frequenzdomäne einfach gesteuert werden. Fig. 14 zeigt die Basiskonfiguration.
"PARCOR" ist eine Abkürzung für "Partielle Autokorrelation". Die menschliche Stimme wird erzeugt, indem ein Stimm- oder Sprachquellensignal, das durch die Vibration der Stimmbänder und einen willkürlichen Atemstrom erzeugt wird, der durch ein Kontrollieren der Mundöffnung erzeugt wird, in ein Sprachsignal mit einer spezifischen Spektralverteilung umgewandelt, das durch die Resonanz des Stimmweges, Mundes und der Nase bestimmt ist. Basierend darauf wurde ein Sprachanalysier- und Synthetisierverfahren eingerichtet, indem eine erzeugte Stimm- oder Sprachquelleninformation und Spektralverteilungsinformation extrahiert (analysiert) werden und indem ein Sprachsignal unter Verwendung dieser Parameter wiederhergestellt (synthetisiert) wird. Wie in Fig. 15 gezeigt ist, kann Stimme synthetisiert werden, indem ein Projektionsfilter durch einen Pulsgenerator angesteuert wird, um die Vibration von Stimmbändern zu simulieren, falls es ein stimmlicher Ton ist, und durch einen Weißrauschengenerator, um ein Signal eines willkürlichen Atemstroms zu simulieren, falls es ein geatmeter Ton ist.
In diesem Verfahren wird ein PARCOR-Koeffizient als Spektralinformation anstelle eines Prädiktionskoeffizienten verwendet. Ein PARCOR-Koeffizient hat eine ausgezeichnete Übertragungseffizienz und sichert die Stabilität eines Prädiktionsfilters gegen einen Quantisierungsfehler, der erzeugt wird, wenn Parameter codiert werden. Eine Sprachquelleninformation wird aus dem Prädiktionsrestsignal extrahiert, das erhalten wird, indem ein Sprachsignal an ein inverses Filter (ein Filter mit inversen Charakteristiken zu einem Prädiktionsfilter) angelegt wird. Praktisch wird der Pulszyklus (Abstand) aus dem Abtastintervall mit dem maximalen Korrelationskoeffizienten des Restsignals erhalten. Sprach/Atembestimmung wird unter Verwendung der Werte des Korrelationskoeffizienten und des primären PARCOR-Koeffizienten vorgenommen. Ein PARCOR-Koeffizient, ein Abstandszyklus, eine Sprach/Atemtonbestimmung und eine Restleistungsinformation werden pro Rahmenzyklus (ungefähr 20 ms) als codierte Information quantisiert und übertragen.
Ein später entwickeltes LSP-Verfahren nutzt einen LSP (Linsenspektralpaar)-Koeffizienten anstelle eines PARCOR- Koeffizienten und ist insofern sehr verbessert, als eine Sprachspektralinformation einfach extrahiert und eine hohe Datenkompressionsrate erhalten werden können, wenn die Parameter codiert werden.
"MPC" ist eine Abkürzung für "Mehrpulscodierung". In diesem Verfahren wird mit einer linearen Prädiktions- (LPC)- Analyse und einem Synthesesystem (VOCODER) eine Sprachquelle nicht mit Pulsen und Rauschen modelliert, sondern wird durch eine Mehrzahl von Pulsen ohne Rücksicht darauf dargestellt, ob sie ein gesprochener oder geatmeter Ton ist, und ein LPC- Synthesefilter wird angesteuert. Der wichtige Punkt beim Codieren von Daten gemäß dem MPC-Verfahren ist, wie die Amplituden eine Mehrzahl von Pulsen und die Zeitpositionen optimiert werden. Fig. 16 zeigt das Verfahren, das auf dem A-d- S-(Analyse-durch-Synthese)-Prinzip basiert. Zuerst werden Sprachsignale als Block (Rahmen) mit einer Länge von etwa 20 ms abgerufen, und eine Spektraleinhüllende wird gemäß der linearen Prädiktionsanalyse für den Block geschätzt. Als nächstes werden mehrere Pulse einer Sprachquelle für die Sprachsignale im Rahmen bestimmt. Falls die Anzahl von Pulsen bestimmt ist werden in der Praxis die mehreren Pulse durch ein LPC-Synthetisierfilter für die geschätzte Spektraleinhüllende in synthetisierte Sprache umgewandelt. Der Fehler zwischen dem synthetisierten und dem tatsächlichen ursprünglichen Sprachsignal wird durch Hör-Charakteristiken berechnet und gewichtet. Danach werden die neuen Amplituden und Zeitpositionen der Pulse so bestimmt, daß der mittlere quadratische Fehler minimiert werden kann.
"VQ" ist eine Abkürzung für "Vektorquantisierung". Es ist ein Quantisierverfahren zum Darstellen einer Gruppe von Werten (Vektor) durch ein Symbol, ohne eine Wellenform oder einen Parameter der Spektraleinhüllenden für jeden Abtastwert unter Verwendung eines Wellenform-Codiersystems und eines Analysesynthesesystems zu quantisieren. Zuerst wurde das Vektorquantisierverfahren als ein äußerst effizientes Verfahren zum Quantisieren von LPC-Parametern vorgeschlagen. Dann wurde es auf die Quantisierung von Wellenformen angewendet. In dem Codierprozeß gemäß der in Fig. 17 gezeigten Vektorquantisierung werden abgetastete Wellenformen in einem bestimmten Zeitrahmen abgefragt, und das Wellenformmuster in dem Rahmen wird durch ein Symbol dargestellt. Verschiedene Wellenformmuster werden daher durch ein Lustering-Verfahren und zugeordnete Symbole vorbereitet. Ein Codebuch weist eine Korrespondenztabelle von Symbolen und Mustern auf. Ein eingegebenes Muster wird mit jedem Muster in dem Codebuch für eine bestimmte Zeitperiode verglichen (Musterabgleich). Das Symbol der Wellenform mit der größten Ähnlichkeit repräsentiert dann die Wellenform der Zeitperiode.
In Fig. 8 wird als nächstes der Sprachsynthetisierprozeß der Ausführungsform von Fig. 1 unten erläutert. Wenn Textdaten von einem Benutzer von der Texteingabeeinheit 11 in den Client 10 eingegeben werden, werden die eingegebenen Textdaten von der Textsendeeinheit 12 an den sprachsynthetisierenden Server 20 gesendet.
In dem sprachsynthetisierenden Server 20 empfängt die Textempfangseinheit 21 die Textdaten, und die Vorverarbeitungseinheit 220 bestimmt, wie die Abkürzungen oder Zahlen in den Textdaten zu lesen sind. Die Ausdrucksweise-Verarbeitungseinheit 221 verweist dann auf die Information in dem Wörterbuch 224, um die Morpheme und die Syntax der Textdaten zu analysieren. Die phonetische Symbole erzeugende Einheit 222 wandelt die Textdaten in phonetische Symbolketten um, die angeben, wie sie ausgesprochen werden. Die prosodische Symbole erzeugende Einheit 223 erzeugt prosodische Symbolketten, die eine Sprachmelodie und Betonung der Textdaten gemäß den Ergebnissen angeben, die durch die Ausdrucksweise- Verarbeitungseinheit 221 und die phonetische Symbole erzeugende Einheit 222 erhalten wurden.
Als nächstes verweist die Akustikparameter-Erzeugungseinheit 23 auf die Parameterdatei 231, um Sprachparameter-in- Zeitreihe gemäß den Aussprache-Symbolketten und den prosodischen Symbolketten zu erzeugen. Die Wellenform-Erzeugungseinheit 24 erzeugt Sprachwellenformen gemäß den Akustikparametern-in-Zeitreihe. Die Wellenform-Codiereinheit 25 komprimiert die Daten in den erzeugten Sprachwellenformen. Die Wellenform-Sendeeinheit 26 sendet die komprimierten Daten der synthetisierten Wellenform an die Wellenform-Empfangseinheit 13 in dem Client 10.
In dem Client 10 empfängt wie Wellenform-Empfangseinheit 13 die komprimierten Daten der Wellenformen von dem Server 20, und die Wellenform-Decodiereinheit 14 decodiert die codierten Sprachwellenformen. Die D/A-Umwandlungseinheit 151 wandelt digitale Sprachwellenformen in analoge Sprachwellenformen um. Die analogen Sprachwellenformen werden dann von dem Lautsprecher 153 über das Tiefpaßfilter 152 abgegeben.

< Ausführungsformen 2 und 3>

Fig. 15 zeigt die Konfiguration des Systems in der Ausführungsform 2 der vorliegenden Erfindung, in welcher der Client 10 die Funktion zum Erzeugen von Aussprachesymbolen hat. Fig. 19 zeigt die Konfiguration des Systems in der Ausführungsform 3 der vorliegenden Erfindung, in welcher der Client 10 die Funktion zum Erzeugen von Akustikparametern hat.
Der Client 10 der in Fig. 18 gezeigten Ausführungsform 2 umfaßt die Texteingabeeinheit 11, die Aussprachesymbol- Erzeugungseinheit 16, die Aussprachesymbol-Sendeeinheit 100 als die Datensendeeinheit 110, die Wellenform-Empfangseinheit 13 als die Datenempfangseinheit 120, die Wellenform-Decodiereinheit 14 und die Sprachausgabeeinheit 15.
Der Client 10 in der in Fig. 19 gezeigten Ausführungsform 3 umfaßt die Texteingabeeinheit 11, die Aussprachesymbol-Erzeugungseinheit 16, die Akustikparameter-Erzeugungseinheit 17, die Akkustikparameter-Sendeeinheit 101 als die Datensendeeinheit 110, die Wellenform-Empfangseinheit 13 als die Datenempfangseinheit 120, die Wellenform-Decodiereinheit 14 und die Sprachausgabeeinheit 15.
In jeder Ausführungsform umfaßt der sprachsynthetisierende Server 20 die Datenempfangseinheit 210, die Aussprachesymbol-Erzeugungseinheit 22, die Akustikparameter-Erzeugungseinheit 23, die Wellenform-Erzeugungseinheit 24, die Wellenform-Codiereinheit 25, die Datensendeeinheit 260 und die Datensteuereinheit 270.
Die Datensteuereinheit 270 in dem sprachsynthetisierenden Server 20 bestimmt den Typ von Daten, die durch die Datenempfangseinheit 210 empfangen werden, und steuert die Datenempfangseinheit 210 und die Datensendeeinheit 260 gemäß der LAN- Auslastungsinformation (Verkehrsinformation) und der Auslastungsinformation ihrer eigenen CPU. Die Datensteuereinheit 270 informiert die Datensteuereinheit in dem Client 10 (in den Figuren nicht dargestellt) über den Typ der zu sendenden Daten.
Das heißt, die Datensteuereinheit 270 bestimmt den Typ von Daten, die durch die Datenempfangseinheit 210 empfangen werden, und gibt sie selektiv an die Aussprachesymbol- Erzeugungseinheit 22, die Akustikparameter-Erzeugungseinheit 23 oder die Wellenform-Erzeugungseinheit 24 aus.
Die Operationen gemäß den Ausführungsformen 2 und 3 werden im folgenden beschrieben.
In Fig. 18 wandelt, wenn ein Benutzer Textdaten in die Texteingabeeinheit 11 in dem Client 10 eingibt, die Aussprachesymbol-Erzeugungseinheit 16 sie in Aussprachesymbol-Ketten um, die angeben, wie die Textdaten auszusprechen sind. Die Aussprachesymbol-Sendeeinheit 100 sendet dann die Aussprachesymbol-Ketten an den sprachsynthetisierenden Server 20.
Wenn die Datenempfangseinheit 210 in dem sprachsynthetisierenden Server 20 Daten (Aussprachesymbol-Ketten) von dem Client 10 empfängt, bestimmt die Datensteuereinheit 270 den Typ der Daten® die durch Datenempfangseinheit 210 empfangen werden, und steuert, um die Daten an die entsprechende Schaltung auszugeben. Zu dieser Zeit sendet der Client 10 Aussprachesymbol-Ketten als Übertragungsdaten, und die Datensteuereinheit 270 gibt die Aussprachesymbol-Ketten an die Akustikparameter-Erzeugungseinheit 23 aus.
Die phonetische Parameter erzeugende Einheit 23 wandelt die Aussprachesymbol-Ketten, die durch die Datenempfangseinheit 210 empfangen wurden, in Sprachparameter-in-Zeitreihe um, und die Wellenform-Erzeugungseinheit 24 erzeugt Sprachwellenformen gemäß den Akustikparametern-in-Zeitreihe. Die Wellenform-Codiereinheit 25 codiert dann die Daten der erzeugten Sprachwellenformen und komprimiert sie, und die Datensendeeinheit 26 sendet die codierte Sprachwellenform an den Client 10.
Die Wellenform-Empfangseinheit 13 in dem Client 10 empfängt die codierte Sprachwellenform von dem sprachsynthetisierenden Server 20, und die Wellenform-Decodiereinheit 14 decodiert die codierten Sprachwellenformen. Die Sprachausgabeeinheit 15 gibt dann das Ergebnis als Sprache aus.

< Ausführungsform 3>

Wenn ein Benutzer Textdaten in die Texteingabeeinheit 11 in dem Client 10 eingibt, wandelt in Fig. 19 die Aussprachesymbol-Erzeugungseinheit 16 die Daten in Aussprachesymbol- Ketten um, die angeben, wie die Textdaten ausgesprochen werden. Die Akustikparameter-Erzeugungseinheit 17 wandelt dann die Aussprachesymbol-Ketten in Sprachparameter-in-Zeitreihe um, und die Akustikparameter-Sendeeinheit 101 sendet die Akustikparameter an den sprachsynthetisierenden Server 20.
Der sprachsynthetisierende Server 20 empfängt bei der Datenempfangseinheit 210 die Daten (Akustikparameter-in- Zeitreihe) von dem Client 10, und die Datensteuerreinheit 270 bestimmt den Typ der empfangenen Daten (Akustikparameter) und steuert, um die Daten an die entsprechende Schaltung auszugeben. Zu dieser Zeit sendet der Client 10 Akustikparameter-in- Zeitreihe als Übertragungsdaten, und sie werden an die Wellenform-Erzeugungseinheit 24 gesendet.
Die Wellenform-Erzeugungseinheit 24 erzeugt Sprachwellenformen gemäß den Sprachparameter-in-Zeitreihe, und die Wellenform-Codiereinheit 25 codiert und komprimiert die Daten der erzeugten Wellenformen. Die Datensendeeinheit 260 sendet dann die codierten Sprachwellenformen an den Client 10.
Der Client 10 empfängt bei der Wellenform-Empfangseinheit 13 die codierten Sprachwellenformen von dem sprachsynthetisierenden Server 20, und die Wellenform-Decodiereinheit 14 decodiert die codierten Sprachwellenformen. Die Sprachausgabeeinheit 15 gibt dann die decodierten Sprachwellenformen als Sprache aus.
In den oben beschriebenen Ausführungsformen 2 und 3 führt der sprachsynthetisierende Server 20 die Erzeugung akustischer Parameter und nachfolgende Prozesse aus, wenn die Clients ihm Aussprachesymbole senden, während er die Erzeugung einer Sprachwellenform und nachfolgende Prozesse ausführt, wenn die Clients ihm Akustikparameter senden, wodurch die Auslastung des sprachsynthetisierenden Servers 20 reduziert wird.
Der Client 10 ist wie in dem sprachsynthetisierenden Server 20 mit der Datensteuereinheit 130 (Fig. 4) versehen, obgleich sie in Fig. 18 oder 19 nicht dargestellt ist, und die Datensteuereinheit 270 in dem sprachsynthetisierenden Server 20 informiert die Datensteuereinheit 130 in dem Client 10 über den Typ der zu sendenden Daten gemäß der Auslastung des LAN und der Auslastung des sprachsynthetisierenden Servers 20.
Wenn z. B. der sprachsynthetisierende Server 20 mit einer hohen Auslastung belastet ist, ist es wünschenswert, daß der Client 10 mehr Prozesse übernimmt. Daher weist die Datensteuereinheit 270 in dem sprachsynthetisierenden Server 20 die Datensteuereinheit 130 in dem Client 10 an, Daten des durch den Client 10 erzeugten Typs zu senden.
Falls der sprachsynthetisierende Server 20 mit einer geringen Auslastung belastet ist, können die von dem Client 10 durchgeführten Prozesse von dem sprachsynthetisierenden Server 20 übernommen werden. Selbst wenn der Client 10 beispielsweise die Funktion zum Erzeugen von Aussprachesymbolen hat, wird daher die Datensteuereinheit 130 in dem Client 10 angewiesen, Textdaten zu senden. Selbst wenn der Client 10 beispielsweise die Funktion zum Erzeugen von Akustikparametern hat, wird gleichfalls die Datensteuereinheit 130 in dem Client 10 angewiesen, Textdaten oder Aussprachesymbole zu senden. Die Auslastung des Client 10 kann somit reduziert werden.
Zu dieser Zeit sind die von dem Client 10 an das LAN ausgegebenen Daten Textdaten mit einem geringeren Datenvolumen als dem von Aussprachesymbolen oder Textdaten oder Aussprachesymbole mit einem Datenvolumen, das geringer als das von Akustikparametern ist. Folglich kann der Verkehr im LAN sehr reduziert werden.
Wie oben beschrieben wurde, können die Funktionen zwischen dem Client 10 und dem sprachsynthetisierenden Server 20 geteilt werden. Jedoch ist man nicht auf eine Anweisung von der Datensteuereinheit 270 in dem sprachsynthetisierenden Server 20 an die Datensteuereinheit 130 in dem Client 10 beschränkt. Die Datensteuereinheit 130 in dem Client 10 kann z. B. mit der Datensteuereinheit 270 in dem sprachsynthetisierenden Server 20 kommunizieren, um eine CPU-Auslastungsinformation und eine LAN-Auslastungsinformation zu empfangen, und gemäß der Information den Typ der Daten zu bestimmen, die durch die Datensteuereinheit 130 im Client 10 gesendet werden sollen.

< Ausführungsform 4>

Fig. 20 zeigt die Konfiguration des Systems in der Ausführungsform 4 der vorliegenden Erfindung, in welchem der Client 10 eine Wellenform-Erzeugungseinheit 18 aufweist.
Der in Fig. 20 gezeigte Client 10 umfaßt die Texteingabeeinheit 11, die Aussprachesymbol-Erzeugungseinheit 16, eine Aussprachesymbol-Sendeeinheit 100 als die Datensendeeinheit 110, eine Akustikparameter-Empfangseinheit 102 als die Datenempfangseinheit 120, die Wellenform-Erzeugungseinheit 18 und die Sprachausgabeeinheit 15.
Wenn der Benutzer Textdaten in die Texteingabeeinheit 11 eingibt, wandelt in Fig. 20 die Aussprachesymbol-Erzeugungseinheit 16 sie in Aussprachesymbol-Ketten um, die angeben, wie die Textdaten ausgesprochen werden, und die Aussprachesymbol-Sendeeinheit 100 sendet die Aussprachesymbol-Ketten an den sprachsynthetisierenden Server 20.
Der sprachsynthetisierende Server 20 empfängt bei der Datenempfangseinheit 210 die Daten (Aussprachesymbol-Ketten), die durch den Client 10 gesendet wurden, und die Datensteuereinheit 270 bestimmt den Typ der empfangenen Daten. In diesem Fall sind die empfangenen Daten Aussprachesymbol-Ketten. Die Datenempfangseinheit 210 sendet daher die empfangenen phonetischen Ketten an die Akustikparameter-Erzeugungseinheit 23 gemäß der Anweisung der Datensteuereinheit 270. Die Akustikparameter-Erzeugungseinheit 23 wandelt dann die Aussprachesymbol-Ketten in die Sprachparameter-in-Zeitreihe um.
Wenn der sprachsynthetisierende Server 20 Sprachdaten an den Client 10 sendet, bestimmt die Datensteuereinheit 270 den Typ der Daten, die gesendet werden sollen, gemäß der Auslastung des LAN, der Auslastung ihrer CPU und dem Typ der Daten, die durch den empfangenden Client 10 erzeugt wurden. In diesem Fall umfaßt der empfangende Client 10 die Wellenform- Erzeugungseinheit 18. Die Datensteuereinheit 270 sendet daher an den Client 10 die Sprachparameter-in-Zeitreihe, die durch die Akustikparameter-Erzeugungseinheit 23 erzeugt wurden, anstelle von Sprachwellenformen, wenn der sprachsynthetisierende Server 20 mit einer hohen Auslastung belastet ist, während sie die Wellenform-Erzeugungseinheit 24 anweist, Sprachwellenformen zu erzeugen und sie an den Client 10 zu senden, wenn der sprachsynthetisierende Server 20 mit einer geringen Auslastung belastet ist.
Die Akustikparameter-Empfangseinheit 102 in dem Client 10 empfängt die Sprachparameter-in-Zeitreihe von dem sprachsynthetisierenden Server 20, und die Wellenform-Erzeugungseinheit 18 erzeugt eine Sprachwellenform gemäß den Sprachparametern-in-Zeitreihe. Die Sprachausgabeeinheit 15 gibt dann die Sprachwellenformen aus. Wenn der sprachsynthetisierende Server 20 die Sprachwellenformen sendet, werden die durch die Akustikparameter-Empfangseinheit 102 empfangenen Sprachwellenformen an die Sprachausgabeeinheit 15 ausgegeben.
Der Typ der Daten, die durch die Akustikparameter- Empfangseinheit 102 empfangen wurden, kann durch die Akustikparameter-Empfangseinheit 102 bestimmt werden. Ansonsten kann er durch die Datensteuereinheit 130 (Fig. 4) bestimmt werden, die in dem Client 10 vorgesehen ist, so daß die empfangenen Daten selektiv an die Wellenform-Erzeugungseinheit 18 oder die Sprachausgabeeinheit 15 ausgegeben werden.
Falls der Client 10 die Funktion zum Erzeugen von Wellenformen hat, kann in der oben beschriebenen Ausführungsform der sprachsynthetisierende Server 20 Sprachparameter-in- Zeitreihe ohne Erzeugen von Sprachwellenformen an den Client 10 senden. Daher kann die Auslastung des sprachsynthetisierenden Servers 20 reduziert werden. Überdies sind in diesem Fall die von dem sprachsynthetisierenden Server 20 an das LAN ausgegebenen Daten Sprachparameter-in-Zeitreihe mit einem geringeren Datenvolumen als dem von Sprachwellenformen. Folglich kann der Verkehr im LAN sehr reduziert werden.
Fig. 21 zeigt die Konfiguration des Sprachsynthesesystems mit dem Client 10 und dem sprachsynthetisierenden Server 20 in den oben beschriebenen Ausführungsformen 1 bis 4.
Der Betrieb des Systems wird für beide Fälle beschrieben, in denen der sprachsynthetisierende Server 20 mit einer hohen Auslastung und einer geringen Auslastung belastet ist.
Wenn der Server 20 mit einer hohen Auslastung belastet ist, ist es wünschenswert, daß die durch den sprachsynthetisierenden Server 20 durchgeführten Prozesse soweit wie möglich mit dem Client 10 geteilt werden. Daher weist die Datensteuereinheit 270 in dem sprachsynthetisierenden Server 20 die Datensteuereinheiten in den (in den Figuren nicht dargestellten) Clients 10 an, Daten des Typs senden, die von jedem von ihnen erzeugt werden.
Wenn ein Client 10 Daten an den sprachsynthetisierenden Server 20 sendet, sendet dementsprechend ein Client 10 mit der Funktion zum Erzeugen von Textdaten die Textdaten an den sprachsynthetisierenden Server 20, sendet ein Client 10 mit der Funktion zum Erzeugen von Aussprachesymbolen die Aussprachesymbol-Ketten an den sprachsynthetisierenden Server 20, und ein Client 10 mit der Funktion zum Erzeugen von Akustikparametern sendet die Sprachparameter-in-Zeitreihe an den sprachsynthetisierenden Server 20.
Wenn der sprachsynthetisierende Server 20 Daten an den Client 10 sendet, erzeugt er keine Sprachwellenformen, sondern sendet Sprachparameter-in-Zeitreihe an den entsprechenden Client 10, um ihn Sprachwellenformen erzeugen zu lassen, falls der Client 10 die Funktion zum Erzeugen von Wellenformen hat und der sprachsynthetisierende Server 20 mit einer hohen Auslastung belastet ist.
Falls der sprachsynthetisierende Server 20 mit einer hohen Auslastung wie oben beschrieben belastet ist, kann seine Auslastung so reduziert werden, indem man den Client 10 die Prozesse zum Erzeugen von Aussprachesymbolen, Akustikparametern oder Sprachwellenformen übernehmen läßt.
Im Gegensatz dazu kann, falls der sprachsynthetisierende Server 20 mit einer geringeren Auslastung belastet ist, der sprachsynthetisierende Server 20 viele Prozesse übernehmen. Der sprachsynthetisierende Server 20 weist daher den Client 10 ans Textdaten oder Aussprachesymbole zu senden, selbst wenn der Client 10 die Funktion zum Erzeugen von Aussprachesymbolen oder Akustikparametern hat. Überdies erzeugt der sprachsynthetisierende Server 20 Sprachwellenformen und sendet sie an den Client 10, selbst wenn der Client 10 die Funktion zum Erzeugen von Wellenformen hat.
Die Auslastung des Client 10 kann somit reduziert werden. In diesem Fall sendet der Client 10 an cien sprachsynthetisierenden Server 20 solche Daten wie Textdaten mit einem geringeren Datenvolumen als dem von Aussprachesymbolen, Aussprachesymbole oder Textdaten mit einem Datenvolumen, das geringer als das von Akustikparametern ist. So kann ein starker Verkehr in einem LAN erfolgreich reduziert werden.
Gemäß den oben beschriebenen Ausführungsformen können die von dem sprachsynthetisierenden Server 20 durchzuführenden Prozesse basierend auf den Fähigkeiten des Client 10 variabel sein, oder die zwischen dem Server und dem Client aufgeteilten Prozesse können gemäß der Verkehrsbedingung eines LAN und der Auslastung der CPU des sprachsynthetisierenden Servers 20 gesteuert werden. Die Leistungsfähigkeit des gesamten Systems kann somit sehr verbessert werden.

< Ausführungsform 5>

Fig. 22 zeigt die Konzepte der Ausführungsform 5 der vorliegenden Erfindung. Die Ausführungsform umfaßt Akustikparameter-Server 20a zum Spezialisieren in jeder Sprachqualität oder Ausdrucksweise, Akustikparameter-Server 20b und gemeinsame Akustikparameter-Server 20c. Fig. 23 zeigt ein Beispiel einer praktischen Konfiguration des Client 10 und der in Fig. 23 gezeigten Akustikparameter-Server 20a, 20b und 20c.
Das in Fig. 22 gezeigte Sprachsynthesesystem ist mit Akustikparameter-Servern 20a und 20b zum Spezialisieren in jeder Sprachqualität (von Männern, Frauen, Kindern, etc.) oder in jeder Ausdrucksweise oder Sprache versehen. Der Client 10 spezifiziert einen Akustikparameter-Erzeugungsserver 20a oder 20b oder gibt eine Anforderung nach synthetisierter Sprache an einen Akustikparameter-Erzeugungsserver 20a oder 20b aus, welcher auch immer in Abhängigkeit von Textdaten ausgewählt ist, und erzeugt Sprachparameter-in-Zeitreihe.
Der Akustikparameter-Erzeugungsserver 20a oder 20b überträgt die erzeugten Sprachparameter-in-Zeitreihe an einen Wellenform-Erzeugungsserver 20c. Der Wellenform-Erzeugungsserver 20c erzeugt Sprachwellenformen gemäß den von einem Akustikparameter-Erzeugungsserver 20a oder 20b gesendeten Sprachparameter-in-Zeitreihe und überträgt die Sprachwellenformen zum Client 10, der die Anforderung nach synthetisierter Sprache ausgab. Der Client 10 empfängt dann die Sprachwellenformen und regeneriert die Sprachwellenformen als Sprache.
Das heißt, die in die Texteingabeeinheit 11 im Client 10, dargestellt in Fig. 23, eingegebenen Textdaten werden an die Textempfangseinheit 21 in dem Akustikparameter-Erzeugungsserver 20a (oder 20b) gesendet.
Die Aussprachesymbol-Erzeugungseinheit 22 in dem entsprechenden Akustikparameter-Erzeugungsserver 20a (oder 20b) erzeugt Aussprachesymbol-Ketten gemäß den empfangenen Textdaten, und die Akustikparameter-Erzeugungseinheit 23 erzeugt Sprachparameter-in-Zeitreihe gemäß den Aussprachesymbol- Ketten. Die Sprachparameter-in-Zeitreihe, die durch die Akustikparameter-Erzeugungseinheit 23 erzeugt wurden, werden von der Akustikparameter-Sendeeinheit 310 an den Wellenform-Erzeugungsserver 20c gesendet.
Der Wellenform-Server 20c erzeugt dann Sprachwellenformen gemäß den Sprachparameter-in-Zeitreihe, und die Sprachwellenformen werden an den Client 10 gesendet.
In der vorliegenden Ausführungsform ermöglicht eine Mehrzahl von Akustikparameter-Erzeugungsservern 20a und 20b, die vorgesehen sind, um in jeweils Sprachqualität oder Ausdrucksweise zu spezialisieren, daß Textdaten in verschiedenen Sprachqualitäten und Sprachen und Ausdrucksweisen stimmlich ausgegeben werden.
Die in den Fig. 24-27 veranschaulichten Systeme werden durch die Ansprüche nicht abgedeckt.
Fig. 24 zeigt einen Fall, in dem der Client 10 keine D/A-Umwandlungsfunktion hat, so daß die gemäß Textdaten synthetisierte Sprache von einer bestimmten Telefoneinheit ausgegeben wird.
Ein Benutzer des Client 10 ohne D/A-Umwandlungsfunktion gibt in die Texteingabeeinheit 11 Textdaten ein, die verarbeitet werden sollen, um Sprache zu synthetisieren, und spezifiziert über eine Ziel spezifizierende Einheit 140 eine Telefoneinheit zum Ausgeben der aus den Textdaten synthetisierten Sprache. Der Client 10 sendet von der Datensendeeinheit 110 an den mit einem LAN verbundenen sprachsynthetisierenden Server 20 die Textdaten, die durch den Benutzer eingegeben wurden, und die Telefonnummerdaten der spezifizierten Telefoneinheit.
Wenn der sprachsynthetisierende Server 20 Textdaten und Telefonnummerdaten (z. B. 123-4567) empfängt, erzeugt er Sprachwellenformen gemäß den Textdaten und erzeugt mittels des Tongenerators 31 den Wählton der spezifizierten Telefonnummer, um die entsprechende Telefoneinheit anzurufen. Wenn die Leitung verbunden ist, werden die durch die Textdaten erzeugten digitalen Sprachwellenformen durch den D/A-Wandler 32 in ein analoges Sprachsignal umgewandelt, um es über die Telefonleitung zu senden.
In dem in Fig. 24 veranschaulichten System kann ein Benutzer des Client 10 eine Telefoneinheit in der Nähe veranlassen, synthetisierte Sprache auszugeben, und den Inhalt der Textdaten hören, selbst wenn der Client 10 keine D/A- Umwandlungsfunktion aufweist.
Fig. 25 zeigt einen Fall, in dem der Client 10 ohne eine D/A-Umwandlungsfunktion veranlaßt, daß die gemäß den Textdaten synthetisierte Sprache von einem anderen Client mit einer D/A-Umwandlungsfunktion ausgegeben wird.
Ein Benutzer des Client 10a ohne eine D/A-Umwandlungsfunktion gibt in die Texteingabeeinheit Textdaten ein, die verarbeitet werden sollen, um die Sprache zu synthetisieren, und spezifiziert einen Client 10b zum Ausgeben der synthetisierten Sprache. Der Client 10a sendet an den mit einem LAN verbundenen sprachsynthetisierenden Server 20 die Textdaten, die durch den Benutzer eingegeben wurden, und die Adreßdaten (z. B. 100.100.10.2) eines als Ziel spezifizierten Client 10b.
Wenn der sprachsynthetisierende Server 20 von einem Client 10a Textdaten und Adreßdaten zum Spezifizieren eines bestimmten Client 10b empfängt, erzeugt er die Sprachwellenformen entsprechend den Textdaten. Der sprachsynthetisierende Server 20 sendet dann die erzeugten Sprachwellenformen an den Client 10b der spezifizierten Adresse. Der Client 10b regeneriert Sprache aus den empfangenen Sprachwellenformen.
In dem in Fig. 25 veranschaulichten System kann ein Benutzer des Client 10a ohne eine D/A-Funktion über einen anderen Client 10b synthetisierte Sprache hören.
Fig. 26a zeigt eine Konfiguration eines Client und eines Servers, worin der Wörterbuch-Abfrageclient 40, der Wörterbuch-Abfrageserver 50 und der sprachsynthetisierende Server 20 mit einem LAN verbunden sind, die Aussprache eines durch den Wörterbuch-Abfrageserver 50 abgefragten Wortes verarbeitet wird, um durch den sprachsynthetisierenden Server 20 Sprache zu synthetisieren, die Wörterbuchinformation des durch den Wörterbuch-Abfrageclient 40 abgefragten Wortes angezeigt wird und die Aussprache des Wortes stimmlich ausgegeben wird.
In Fig. 26 umfaßt der Wörterbuch-Abfrageclient 40 die Worteingabeeinheit 41 zum Eingeben eines abzufragenden Wortes, die Wortsendeeinheit 42 zum Senden des eingegebenen Wortes an den Wörterbuch-Abfrageserver 50, die Wellenform- Empfangseinheit 13 zum Empfangen von Sprachwellenformdaten, die Wörterbuchinformations-Empfangseinheit 44 zum Empfangen der abgefragten Wortdaten, die Wörterbuchinformations- Anzeigeeinheit 45 zum Anzeigen der durch die Wörterbuchinformations-Empfangseinheit 44 empfangenen Wörterbuchinformation, die Wellenform-Decodiereinheit 14 zum Decodieren der codierten Wellenformdaten, die durch die Wellenform-Empfangseinheit 43 empfangen wurden, die D/A-Umwandlungseinheit 151 zum Umwandeln der decodierten digitalen Wellenformdaten in analoge Sprachwellenformen, das Tiefpaßfilter 152 zum Entfernen der Hochfrequenzkomponente in den analogen Sprachwellenformen und den Lautsprecher 153 zum stimmlichen Ausgeben der analogen Sprachwellenformen, welche durch das Tiefpaßfilter 152 durchgelassen wurden.
Der Wörterbuch-Abfrageserver 50 umfaßt die Wortempfangseinheit 51 zum Empfangen eines abzufragenden Wortes, das von dem Wörterbuch-Abfrageclient 40 gesendet wurde, die Wörterbuch-Abfrageeinheit 52 zum Abfragen der Wörterbuchinformation, die die Bedeutung eines aus dem Wörterbuch 53 abzufragenden Wortes enthält, und der Aussprachesymbole, die die Aussprache des Wortes etc. repräsentieren, die Aussprachesymbol- Sendeinheit 55 zum Senden, an den sprachsynthetisierenden Server 20, des durch die Wörterbuch-Abfrageeinheit 52 abgefragten Aussprachesymbols, die Wörterbuchinformations- Sendeeinheit 54 zum Senden, an den Wörterbuchinformations- Client 40, der Wörterbuchinformation, die durch die Wörterbuch-Abfrageeinheit 52 abgefragt wurde, und eine Wellenformempfangs/Sendeeinheit 56 zum Empfangen von Wellenformdaten von einem sprachsynthetisierenden Server 20 und Senden der Wellenformdaten an den Wörterbuch-Abfrageclient 40.
Die Konfiguration des sprachsynthetisierenden Servers 20 ist grundsätzlich die gleiche wie die der vorhergehenden Ausführungsformen. Der Server weist hier überdies die Aussprachesymbol-Empfangseinheit 220 zum Empfangen, als Datenempfangseinheits des von dem Wörterbuch-Abfrageserver 50 gesendeten Aussprachesymbols.
Als nächstes wird im folgenden der Betrieb des in Fig. 26 gezeigten Systems beschrieben. Wenn ein Benutzer in die Worteingabeeinheit 41 ein abzufragendes Wort eingibt, wird das eingegebene Wort von der Wortübertragungseinheit 42 an den Wörterbuch-Abfrageserver 50 gesendet.
In dem Wörterbuch-Abfrageserver 50 frägt die Wortabfrageeinheit 52 aus dem Wort-Wörterbuch 53 Wortdaten ab, die durch die Wortempfangseinheit 51 empfangen wurden, gibt an die Wörterbuchinformations-Sendeeinheit 54 die Wörterbuchinformation aus, die die Bedeutung von Worten in den abgefragten Daten angibt, und gibt an die Aussprachesymbol-Sendeeinheit 55 die Aussprachesymbol-Ketten aus, die die Aussprache der Wörter angeben. Die phonetische Symbole sendende Einheit 55 sendet eine phonetische Symbolkette an den sprachsynthetisierenden Server 20.
In dem sprachsynthetisierenden Server 20 erzeugt, wenn die Aussprachesymbol-Empfangseinheit 220 Aussprachesymbol- Ketten von dem Wörterbuch-Abfrageserver 50 empfängt, die Akustikparameter-Erzeugungseinheit 22 Sprachparameter-in- Zeitreihe gemäß den Aussprachesymbol-Ketten, und die Wellenform-Erzeugungseinheit 24 erzeugt Sprachwellenformen gemäß den erzeugten Sprachparametern-in-Zeitreihe. Die Wellenform- Codiereinheit 25 codiert dann die Sprachwellenformen, und die Wellenform-Sendeeinheit 26 sendet die codierten Wellenformdaten an den Wörterbuch-Abfrageserver 50. Die Sprachwellenformen werden durch ein bekanntes Wellenform-Codierverfahren wie z. B. ADPCM etc. komprimiert.
Wenn die Wellenformempfangs/Sendeeinheit 56 Wellenformdaten von dem sprachsynthetisierenden Server 20 empfängt, weist der Wörterbuch-Abfrageserver 50 die Wörterbuchinformations-Sendeeinheit 54 an, Wörterbuchinformationen synchron mit der Übertragung der Wellenformdaten zu senden.
In dem Wörterbuch-Abfrageclient 40 decodiert, wenn die Wellenform-Empfangseinheit 13 Wellenformdaten von dem Wellenform-Abfrageserver 50 empfängt, die Wellenform-Decodiereinheit 14 die codierten Wellenformdaten, und die D/A- Umwandlungseinheit 151 wandelt die digitalen Wellenformdaten in die analogen Sprachwellenformen um. Die durch die D/A- Umwandlungseinheit 151 umgewandelten analogen Sprachwellenformen werden als die Aussprache des Wortes über das Tiefpaßfilter 152 an den Lautsprecher 153 stimmlich ausgegeben. Die Wörterbuchinformation des Wortes, die durch die Wörterbuchinformations-Empfangseinheit 44 empfangen wurde, wird gleichzeitig auf der Wörterbuchinformations-Anzeigeeinheit 45 angezeigt.
Die durch den sprachsynthetisierenden Server 20 erzeugten Sprachwellenformen werden über den Wörterbuch-Abfrageserver 50 an den Wörterbuch-Abfrageclient 40 gesendet, so daß die durch den Wörterbuch-Abfrageserver 50 abgefragte Wörterbuchinformation und die durch den sprachsynthetisierenden Server 20 synthetisierte Sprache gleichzeitig einem Benutzer präsentiert werden können. Außerdem ist der Wörterbuch- Abfrageserver 50 mit einem Wörterbuchinformations-Puffer und einem Wellenformdaten-Puffer (in Fig. 26 nicht dargestellt) versehene um die Wörterbuchinformation abgefragter Worte und Wellenformdaten vorübergehend zu speichern. Bei dieser Konfiguration muß, wenn irgendeines dieser Worte wieder abgefragt werden soll, das Wort nicht abgefragt, noch verarbeitet werden, um die Sprache zu synthetisieren. Daher kann das Abfrageergebnis einem Benutzer in kurzer Zeit präsentiert werden.
In dem in Fig. 26 veranschaulichten System wird die Aussprache eines Wortes, dessen Abfrage angefordert wurde, zusammen mit der Wörterbuchinformation des Wortes ausgegeben. Daher kann ein Benutzer einfach sowohl die Bedeutung als auch die Aussprache des Wortes leicht und exakt erhalten. Außerdem müssen in diesem System von Fig. 26, da der sprachsynthetisierende Server 20 Sprache gemäß dem Aussprachesymbol jedes in dem Wörterbuch 53 gespeicherten Wortes synthetisiert, Sprachdaten nicht·für jedes Wort in dem Wörterbuch 53 in dem Wörterbuch-Abfrageserver 50 gespeichert werden. Folglich kann die Kapazität der Speichereinheit zum Speichern der zum Synthetisieren von Sprache notwendigen Daten minimiert werden.
Ein Wort oder eine Phrase oder ein Satz, das oder die oder der aus mehreren Worten besteht, können stimmlich ausgegeben werden.
Als nächstes zeigt Fig. 27 ein System, welches einen Benutzer über die Listeninformation stimmlich informiert, die durch den Listen-Verwaltungsserver 70 verwaltet wird. In der folgenden Beschreibung sind den Teilen, die in den vorhergehenden Ausführungsformen oder Beispielen ebenfalls verwendet wurden, die dort zugewiesenen Zeichen zugewiesen.
In dem Listen-Verwaltungsserver 70 steuert die Steuereinheit 71 die Listen-Abfrageeinheit 72 zu vorbestimmten Zeitintervallen, um die Listeninformation abzufragen, die in der Listen-Datenbank 73 registriert ist, um zu prüfen, ob die der gegenwärtigen Zeit entsprechende Listeninformation registriert worden ist oder nicht. Falls Ja, wird die Listeninformation von der Listen-Sendeeinheit 74 an den sprachsynthetisierenden Server 20 gesendet.
Wenn die Textempfangseinheit 21 die Listeninformation (Textdaten) von dem Listen-Verwaltungsserver 70 empfängt, erzeugt im sprachsynthetisierenden Server 20 die Aussprachesymbol-Erzeugungseinheit 22 Aussprachesymbol-Ketten gemäß den empfangenen Textdaten, und die Akustikparameter-Erzeugungseinheit 23 erzeugt Sprachparameter-in-Zeitreihe gemäß den Aussprachesymbol-Ketten. Die Wellenform-Erzeugungseinheit 24 erzeugt dann Sprachwellenformen gemäß den Sprachparameternin-Zeitreihe, und die Wellenform-Codiereinheit 25 codiert die Sprachwellenformen und gibt sie an die Wellenform-Sendeeinheit 26 aus. Die Wellenform-Sendeeinheit 26 sendet dann die codierten Wellenformdaten an den Listen-Verwaltungsserver 70.
In dem Listen-Verwaltungsserver 70 werden, wenn die Wellenformempfangs/Sendeeinheit 75 Wellenformdaten von dem sprachsynthetisierenden Server 20 empfängt, die Wellenformdaten zusammen mit der Listeninformation synchron mit der Listen-Sendeeinheit 74 an den Listen-Verwaltungsclient 60 gesendet.
In der Listen-Verwaltungseinheit 60 zeigt, wenn die Listen-Empfangseinheit 61 Textdaten von dem Listen-Verwaltungsserver 70 empfängt, die Listen-Anzeigeeinheit 62 die Textdaten an. Gleichzeitig werden die Wellenformen, die den Inhalt der durch die Wellenform-Empfangseinheit 13 empfangenen Liste angeben, durch die Wellenform-Decodiereinheit 14 decodiert und durch die D/A-Umwandlungseinheit 151 D/A-umgewandelt und über den Lautsprecher 153 stimmlich ausgegeben.
Wenn es nicht notwendig ist, Informationen anzuzeigen und die Information synchron wie in der Listen-Verwaltung stimmlich auszugeben, werden Sprachwellenformdaten direkt ohne den Listen-Verwaltungsserver 70 an den Listen-Verwaltungsclient 60 gesendet.
In dem System von Fig. 27 kann eine Listeninformation als Stimm- oder Sprachinformation sowie Zeicheninformation ausgegeben werden. Daher werden Benutzer über Listen exakter informiert.
Gemäß der vorliegenden Erfindung können das Volumen an ein LAN übertragenen Daten und ein starker Verkehr in dem LAN sehr reduziert werden, indem codierte Sprachwellenformen von einem sprachsynthetisierenden Server gesendet und die codierten Sprachwellenformen durch einen Client decodiert werden.
Falls ein Client die Funktion zum Erzeugen von Aussprachesymbolen oder Akustikparametern hat, kann die Auslastung eines sprachsynthetisierenden Servers reduziert werden, indem an den Client die Daten des Typs gesendet werden, der durch ihn erzeugt wird, und die Daten durch einen sprachsynthetisierenden Server empfangen und verarbeitet werden. Außerdem können Auslastungen zwischen einem Client und einem sprachsynthetisierenden Server geeignet aufgeteilt werden, und die Effizienz des gesamten Systems kann sehr verbessert werden, indem der Typ von Daten, die von einem Client an einen sprachsynthetisierenden Server gesendet werden sollen, gemäß der Auslastung eines LAN, der Auslastung eines sprachsynthetisierenden Servers etc. geändert werden oder indem der Typ von Daten, die von dem sprachsynthetisierenden Server an den Client gesendet werden, geändert wird.
Ferner kann ein Nutzer eines Client ohne eine D/A- Umwandlungsfunktion synthetisierte Sprache erhalten, indem die durch einen sprachsynthetisierenden Server erzeugten Sprachwellenformen an einen anderen Client mit einer D/A- Umwandlungsfunktion oder an eine spezifizierte Telefoneinheit gesendet werden.
Außerdem kann die Aussprache eines abgefragten Wortes einfach und exakt mitgeteilt werden, indem die Aussprache des Wortes zusammen mit der Wörterbuchinformation des Wortes stimmlich ausgegeben wird. Der Inhalt einer Liste kann überdies einem Benutzer ohne Störung mitgeteilt werden, indem die Listeninformation stimmlich ausgegeben wird.

Claims

1. Sprachsynthesesystem, aufweisend:

eine Mehrzahl von Clients (10) zum Ausgeben einer Anforderung nach synthetisierter Sprache, zumindest einer der Clients (10) aufweisend:

Texteingabemittel (11) zum Eingeben von Textdaten, die stimmlich ausgegeben werden sollen;

Aussprachesymbol-Erzeugungsmittel (16) zum Erzeugen von Aussprachesymbolen gemäß Textdaten, die in das Texteingabemittel (11) eingegeben wurden;

Datensendemittel (110) zum Senden der Textdaten oder Aussprachesymbole, die verarbeitet werden sollen, um Sprache zu synthetisieren;

Datenempfangsmittel (120) zum Empfangen von Daten, und

Sprachausgabemittel (15) zum Ausgeben synthetisierter Sprache gemäß den empfangenen Daten, und

einen sprachsynthetisierenden Server (20) zum Erzeugen von synthetisierter Sprache gemäß Daten, die von den Clients (10) gesendet wurden® aufweisend:

Datenempfangsmittel (210) zum Empfangen von Textdaten oder Aussprachesymbolen, die von den Clients (10) gesendet wurden;

Aussprachesymbol-Erzeugungsmittel (22) zum Erzeugen von Aussprachesymbolen gemäß Textdaten, die durch das Datenempfangsmittel (210) empfangen wurden,

Akustikparameter-Erzeugungsmittel (23) zum Erzeugen von Akustikparametern gemäß den Aussprachesymbolen,

Wellenform-Erzeugungsmittel (24) zum Erzeugen von Sprachwellenformen gemäß den Akustikparametern,

Datensteuermittel (270) zum Steuern, so daß bei Empfang von Textdaten das Datenempfangsmittel (210) die Daten an das Aussprachesymbol-Erzeugungsmittel (22) ausgibt und bei Empfang von Aussprachesymbolen die Aussprachesymbole an das Akustikparameter-Erzeugungsmittel (23) ausgibt, und

Datensendemittel (260) zum Senden von Daten an die Clients (10);

welche Clients (10) und welcher sprachsynthetisierende Server (20) mit einem Netzwerk verbunden sind.

2. Sprachsynthesesystem nach Anspruch 1, worin jeder der Clients (10) ferner ein Akustikparameter- Erzeugungsmittel (17) aufweist, um Akustikparameter gemäß Aussprachesymbolen zu erzeugen, die durch das Aussprachesymbol-Erzeugungsmittel (16) erzeugt wurden,

das Datensteuermittel (270) in dem sprachsynthetisierenden Server (20) so steuert, daß bei Empfang von Textdaten das Datenempfangsmittel (210) sie an das Aussprachesymbol- Erzeugungsmittel (22) ausgibt, bei Empfang von Aussprachesymbolen sie an das Akustikparameter-Erzeugungsmittel (23) ausgibt und bei Empfang von Akustikparametern sie an das Wellenform-Erzeugungsmittel (24) ausgibt.

3. Sprachsynthesesystem nach Anspruch 1 oder 2, worin der Client (10) ferner ein Wellenform-Erzeugungsmittel (18) aufweist, um Sprachwellenformen gemäß Akustikparametern zu erzeugen, die durch das Datenempfangsmittel (120) empfangen wurden,

das Datensteuermittel (270) in dem sprachsynthetisierenden Server (20) so steuert, daß das Datensendemittel (260) Akustikparameter oder Sprachwellenformen in Abhängigkeit von zumindest der Auslastung des Client sendet, wenn der Client (10), der eine Anforderung nach synthetisierter Sprache ausgibt, das Wellenform-Erzeugungsmittel (18) aufweist.

4. Sprachsynthesesystem nach Anspruch 2, worin der Client (10) ferner ein Datensteuermittel (130) aufweist um so zu steuern, daß das Datensendemittel (110) Textdaten, Aussprachesymbole oder Akustikparameter gemäß der Anweisung des Datensteuermittels (270) in dem sprachsynthetisierenden Server (20) sendet.

5. Sprachsynthesesystem nach Anspruch 2, worin der Client (10) ferner ein Datensteuermittel (130) aufweist, um so zu steuern, daß das Datensendemittel (110) Textdaten, Aussprachesymbole oder Akustikparameter gemäß der Auslastungsinformation des sprachsynthetisierenden Servers (20) sendet, die von dem Datensteuermittel (270) in dem sprachsynthetisierenden Server (20) empfangen wurde.

6. Sprachsynthesesystem nach Anspruch 3, worin der Client (10) ferner ein Datensteuermittel (130) aufweist, um so zu steuern, daß bei Empfang von Akustikparametern das Datenempfangsmittel (120) sie an das Wellenform- Erzeugungsmittel (18) ausgibt und bei Empfang von Sprachwellenformen sie an das Sprachausgabemittel (15) ausgibt.

7. Sprachsynthesesystem nach einem der Ansprüche 1 bis 6, worin

in zumindest einem der Clients (10) das Datensendemittel (110) zum Senden codierter Sprachwellenformen dient, die verarbeitet werden sollen, um die Sprache zu synthetiseren, und der zumindest einen Client aufweist:

Wellenform-Decodiermittel (14) zum Decodieren codierter Sprachwellenformen, die durch das Datenempfangsmittel (120) empfangen wurden,

das Sprachausgabemittel (15), das die decodierten Wellenformen ausgibt, und

der sprachsynthetisierende Server (20) zum Erzeugen von Sprachwellenformen gemäß von den Clients (10) gesendeten Daten aufweist:

Wellenform-Codiermittel (25) zum Codieren von Sprachwellenformen, die durch das Wellenform-Erzeugungsmittel (24) erzeugt wurden,

das Datensendemittel (260), das an den Client (10) die codierten Sprachwellenformen sendet.

8. Sprachanalysesystem nach einem der Ansprüche 1 bis 7, wobei der Client und der sprachsynthetisierende Server (20) mit einem lokalen Netzwerk (LAN) verbunden sind.

9. Sprachsynthesesystem nach einem der Ansprüche 1 bis 8, ferner aufweisend:

eine Mehrzahl von Akustikparameter-Erzeugungsservern (20a und 20b), die sich in einem Element der Sprachqualitäten und Ausdrucksweise umfassenden Gruppe spezialisieren und gemäß von dem Client (10) empfangenen Daten Akustikparameter gemäß der speziellen Sprachqualität oder Ausdrucksweise erzeugen, die jedem Sprachparameter-Erzeugungsserver zugeordnet ist, und erzeugte Akustikparameter senden, und

einen Wellenform-Erzeugunggsserver (20c) zum Erzeugen von Sprachwellenformen gemäß Akustikparametern, die von den Akustikparameter-Erzeugungsservern (20a und 20b) empfangen wurden.

10. Sprachsynthesesystem nach Anspruch 9, worin der Client (10) umfaßt:

Wellenformempfangsmittel (13) zum Empfangen von Sprachwellenformen,

Wellenform-Decodiermittel (14) zum Decodieren codierter Sprachwellenformen, die von dem Wellenform-Empfangsmittel (13) empfangen wurden, und

jeder der Akustikparameter-Erzeugungsserver (20a und 20b) aufweist:

Akustikparameter-Sendemittel (310) zum Senden der Akustikparameter an den Wellenform-Erzeugungsserver (20c), und der Wellenform-Erzeugungsserver (20c) aufweist:

Akustikparameter-Empfangsmittel (320) zum Empfangen von Akustikparametern von den Akustikparameter-Servern (20a und 20b)

Wellenform-Codiermittel (25) zum Codieren der Sprachwellenformen und

Wellenform-Sendemittel (26) zum Senden der codierten Sprachwellenformen an den Client (10).

11. Sprachsynthesesystem, aufweisend:

einen Client (10) zum Eingeben von Textdaten, die verarbeitet werden sollen, um Sprache zu synthetisieren,

eine Mehrzahl von Akustikparameter-Erzeugungsservern (20a und 20b), wobei jeder Server in einem Element der Sprachqualitäten und Ausdrucksweisen aufweisenden Gruppe spezialisiert ist, um gemäß von dem Client (10) empfangenen Daten Akustikparameter gemäß der speziellen Sprachqualität oder Ausdrucksweise zu erzeugen, die jedem Sprachparameter- Erzeugungsserver zugeordnet ist, und um erzeugte Akustikparameter zu senden, und

Wellenform-Erzeugungsserver (20c) zum Erzeugen von Sprachwellenformen gemäß den Akustikparametern, die von den Akustikparameter-Erzeugungsservern (20a und 20b) empfangen wurden.

12. Sprachsynthesesystem nach Anspruch 11, worin der Client (10) aufweist:

Texteingabemittel (11) zum Erzeugen von Textdaten, die verarbeitet werden sollen, um Sprache zu synthetisieren,

Textsendemittel (12) zum Senden der Textdaten,

Wellenform-Empfangsmittel (13) zum Empfangen von Sprachwellenformen,

Wellenform-Decodiermittel (14) zum Decodieren codierter Sprachwellenformen, die durch das Wellenform-Empfangsmittel (13) empfangen wurden, und

Sprachausgabemittel (15) zum Ausgeben der Sprachwellenformen als Sprache

jeder der Akustikparameter-Server (20a und 20b) aufweist:

Textempfangsmittel (21) zum Empfangen von Textdaten von dem Client (10)

Aussprachesymbol-Erzeugungsmittel (22) zum Erzeugen von Aussprachesymbolen gemäß den Textdaten,

Akustikparameter-Erzeugungsmittel (23) zum Erzeugen von Akustikparametern gemäß den Aussprachesymbolen und

Akustikparameter-Sendemittel (310) zum Senden der Akustikparameter an den Wellenform-Erzeugungsserver (20c) und der Wellenform-Erzeugungsserver (20c) aufweist:

Akustikparameter-Empfangsmittel (320) zum Empfangen von Akustikparametern von dem Akustikparameter-Server (20a und 20b),

Wellenform-Erzeugungsmittel (24) zum Erzeugen von Sprachwellenformen gemäß dem Akustikparameter,

Wellenform-Codiermittel (25) zum Codieren der Sprachwellenformen, und