DE3019823C2

DE3019823C2 -

Info

Publication number: DE3019823C2
Application number: DE3019823A
Authority: DE
Inventors: Keith A. Plano Tex. Us Blanton; George R. Richardson Tex. Us Doddington
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1979-05-29
Filing date: 1980-05-23
Publication date: 1989-06-15
Also published as: JPH0160840B2; GB2050125A; DE3019823A1; US4304965A; FR2458121B1; GB2050125B; FR2458121A1; JPS55161300A

Description

Die Erfindung bezieht sich auf einen Datenumsetzer gemäß dem Oberbegriff des Patentanspruchs 1 sowie eine Sprachsyntheseschaltung gemäß dem Oberbegriff des Patentanspruchs 12 mit einem solchen Datenumsetzer.

Es ist bei Sprachsyntheseschaltungen üblich, die menschlichen Sprachbildungsorgane durch Synthese mittels eines Digitalfilters nachzubilden, wobei zur Steuerung der Kennlinien des Digitalfilters Sprachinformationskoeffizienten benutzt werden. Beispiele dafür finden sich in den US-Patentschriften 39 75 587 und 40 58 676. Die Verwendung solcher Koeffizienten als Filtersteuersignale erlaubt eine ziemlich genaue Sprachsynthese, wobei die erforderlichen Bitraten typischerweise bei 2400 bis 5000 Bits pro Sekunde liegen. Eine von der Firma Texas Instruments Incorporated, Dallas, Texas, hergestellte integrierte Schaltung zeigte kürzlich, daß Sprache durch Synthese unter Verwendung von Sprachinformationskoeffizientendaten gebildet werden kann, deren Rate 1200 Bits pro Sekunden beträgt. Diese integrierte Schaltung ist in der DE-OS 29 17 161 beschrieben. Sprachinformationskoeffizientendaten können mit Hilfe einer umfangreichen mathematischen Analyse gewisser Formantfrequenzen und Formantbandbreiten der menschlichen Sprache abgeleitet werden. Die erforderliche Analyse ist jedoch zeitraubend, und sie ist für die Echtzeitberechnung ohne Anwendung eines hochqualifizierten Computersystems ungeeignet. Obgleich Formantfrequenzdaten eigentlich einen größeren Sprachinformationsinhalt als Sprachinformationskoeffizientendaten aufweisen, war die Unfähigkeit, Formantfrequenzdaten auf Echtzeitbasis in Koeffizientendaten umzusetzen, ein Hindernis auf dem Weg zu mit niedriger Bitrate arbeitenden Sprachsynthesesystemen, in denen Formantfrequenzdaten benutzt werden.

Der Erfindung liegt die Aufgabe zugrunde, einen Datenumsetzer der eingangs angegebenen Art zu schaffen, der eine mit niedriger Bitrate arbeitende Sprachsyntheseschaltung ermöglicht, in der bei der Sprachsynthese von Formantfrequenzdaten Gebrauch gemacht wird.

Erfindungsgemäß wird diese Aufgabe bezüglich des Datenumsetzers mit den im kennzeichnenden Teil des Patentanspruchs 1 und bezüglich der Sprachsyntheseschaltung mit den im kennzeichnenden Teil des Patentanspruchs 12 angegebenen Merkmalen gelöst. Die Anwendung der Taylor-Reihenentwicklung bei der Umsetzung der Formantfrequenzdaten ergibt Sprachinformationskoeffizienten, die die synthetische Bildung von Sprache mit hoher Qualität ermöglichen.

Vorteilhafte Weiterbildungen der Erfindung sind in den Unteransprüchen gekennzeichnet.

Die Erfindung wird nun anhand der Zeichnung beispielshalber erläutert. Es zeigt

Fig. 1a und 1b ein Blockschaltbild der Hauptbaugruppen des Datenumsetzers und

Fig. 2 eine Musterbitfolge, die bei dem Datenumsetzer angewendet wird.

In der DE-OS 29 17 161 ist eine Sprachsynthesevorrichtung beschrieben, in der von einem neuartigen Digitalfilter Gebrauch gemacht wird. Eine Ausführungsform dieses Digitalfilters kann ein zehnstufiges, mit zwei Multiplizierern ausgestattetes Gitterfilter in einer Stufe verwirklichen. In dieser Ausführungsform wird die Sprachsynthese mit Hilfe von zehn Reflexionskoeffizienten erzielt, die wahlweise die Kennlinien des Filters so steuern, daß die akustischen Eigenschaften der menschlichen Stimmbildungsorgane nachgebildet werden. Diese Reflexionskoeffizienten werden aus einer umfangreichen Analyse der menschlichen Sprache abgeleitet, wobei zur synthetischen Erzeugung der menschlichen Sprache in dieser Anordnung typischerweise eine mittlere Bitrate von 1200 Bits pro Sekunde erforderlich ist. Formantfrequenzdaten, die von sich aus mehr Sprachinformation enthalten, können unter Anwendung des hier zu beschreibenden Datenumsetzers in die zuvor genannten Reflexionskoeffizienten umgesetzt werden, und bei einer Datenrate von beispielsweise nur 300 Bits pro Sekunde kann eine synthetische Sprache mit hoher Qualität erzeugt werden.

Theoretische Grundlagen der Wirkungsweise

Wie zuvor erläutert wurde, ist das bisher angewendete Verfahren zum Umsetzen von Formantmittenfrequenz und Formantbandbreiten in Reflexionskoeffizienten ein komplizierter und zeitraubender Prozeß, der normalerweise für eine Echtzeitsynthese unter Verwendung einer monolithischen Halbleitervorrichtung oder auch bei Verwendung eines Computers mittlerer Größe nicht geeignet ist. Der Algorithmus zum Umsetzen der Koeffizienten der Voraussagegleichung in Reflexionskoeffizienten erfordert beispielsweise 140 Ganzzahladditionen, 65 reelle Additionen, 65 reelle Multiplikationen und 55 reelle Divisionen bei einem System zehnter Ordnung. Wenn eine Echtzeitsynthese durchgeführt werden soll, muß daher eine wesentlich einfachere Transformation verfügbar sein.

Bei der Anwendung eines Systems mit vier Formanten hat sich gezeigt, daß eine qualitativ hochwertige synthetische Sprache erzeugt werden kann, wenn den Formantbandbreiten und der Mittenfrequenz des vierten Formanten feste Werte zugeordnet werden.

In dieser Ausführungsform werden die Nennbandbreiten folgendermaßen gewählt: B 1=75 Hz, B 2=50 Hz, B 3=100 Hz und B 4=100 Hz. Wenn ein wesentlich kleinerer Wert als einer der oben angegebenen Werte benutzt wird (mehr als 30% kleiner), ist die synthetisch gebildete Sprache verschwommen. Vermutlich ist dies darauf zurückzuführen, daß die Impulsantwort unnatürlich lang für die menschliche Sprache ist. Wenn ein wesentlich größerer Wert als einer der oben angegebenen Werte angewendet wird, klingt die synthetisch gebildete Sprache dumpf, da der Formant nicht scharf definiert ist. Diese Werte sind in brauchbarer Übereinstimmung mit den mittleren Werten B 1=80 Hz, B 2=80 Hz und B 3=100 Hz, die in dem Aufsatz von Gunnar Fant in "On Predictability of Formant levels and Spectrum Envelopes from Formant Frequencies" für Roman Jakobson, Morton & Co., 1956, angegeben sind. Aufgrund von Untersuchungen an Spektrogrammen einer Anzahl von Testsätzen und Testwörtern wurde der vierten Formantmittenfrequenz der Wert 3300 Hz zugeordnet. Die 7738-Intensität des vierten Formanten ist in der synthetisch gebildeten Sprache sehr schwach, da die ersten drei Formanten das Absenken der Filterfrequenzantwort auf 36 dB pro Oktave für Frequenzen bewirken, die größer als der dritte Formant sind. Wenn also der der Formantmittenfrequenz F 4 zugewiesene Wert zu groß ist, wird der vierte Formant vollständig eliminiert, und wenn der der Formantmittenfrequenz F 4 zugewiesene Wert innerhalb des Bereichs der möglichen Werte für die Frequenz F 3 liegt, kann eine unnatürliche Resonanz auftreten. Bei Anwendung der erwähnten festen Werte hängt jeder Reflexionskoeffizient Ki von den ersten drei Formantmittenfrequenzen F 1, F 2 und F 3 ab. Bei Anwendung einer Taylor-Reihenentwicklung ist es möglich, die Gleichung (1) angenähert gleich der Gleichung (2) auszudrücken, wobei Ki für F 1 = F 10, F 2 = F 20 und F 3 = F 30 bekannt ist.

Wenn Ki für eine geeignete Anzahl von Werten der Frequenzen F 1, F 2 und F 3 bekannt ist, kann zur Annäherung von Ki für unbekannte Frequenzwerte F 1, F 2 und F 3 eine lineare Interpolation angewendet werden. Zur Verhinderung instabiler Filterkoeffizienten werden die unter Anwendung dieses Verfahrens gefundenen Absolutwerte von Ki auf Werte begrenzt, die kleiner als 1 sind.

Außerdem können die partiellen Ableitungen ∂f/∂ zur Minimalisierung der während der Synthese tatsächlich durchgeführten Berechnungen vorausberechnet und in einer Tabelle abgespeichert werden.

Wirkungsweise

In den Fig. 1a und 1b sind in einem Blockschaltbild die Hauptbestandteile einer Ausführungsform des Datenumsetzers dargestellt. In der dargestellten Ausführungsform wird eine Folge codierter Daten mit 300 Bits pro Sekunde aus einem Festspeicher 12 einem Eingangsregister 100, einer Nachschlagetabelle 101 und einem LPC4-Register 102 zugeführt. Jeder Datenfolge gehen gewisse Abstandsparameter oder N-Zahlen voraus. Diese Abstandsparameter sind codierte Digitalzahlen, die anzeigen, wie viele Rahmen in der Folge enthalten sind und mit welcher Rahmenrate jeder spezielle Parameter während der Folge aktualisiert wird. In der beschriebenen Ausführungsform ist es vorzugsweise wirksamer, nur diejenigen Parameter zu übertragen, die sich während eines gegebenen Sprachbereichs der Folge wesentlich geändert haben. Experimente haben gezeigt, daß qualitativ hochwertige Sprache synthetisch erzeugt werden kann, wenn die Abstandsparameter typischerweise acht Datenrahmen entsprechen und üblicherweise im Bereich von fünf bis zehn Rahmen liegen. Ein zusätzlicher codierter Faktor kennzeichnet die Folge als stimmhafte oder stimmlose Sprache. Eine Musterbitfolge ist in Fig. 2 dargestellt.

Stimmlose Sprache

Während einer stimmlosen Sprache macht die Sprachsynthesevorrichtung gemäß der DE-OS 29 17 161 von Reflexionskoeffizienten K 1 bis K 4 Gebrauch. Da stimmlose Sprache nicht aus Formantfrequenzdaten, sondern nur aus einem breiten Sprektrum mit weißem Rauschen besteht, genügen diese vier Reflexionskoeffizienten zur Synthese stimmloser Sprache. Wenn der hier zu beschreibende Datenumsetzer einen stimmlosen Sprachrahmen feststellt, empfängt das LPC4-Register 102 die Reflexionskoeffizienten K 1 bis K 4, und er gibt diese Reflexionskoeffizienten direkt ohne Umsetzung in einen FIFO-Puffer 116 ein. Diese Koeffizienten werden dann in eine für die Sprachsynthesevorrichtung gemäß der DE-OS 29 17 161 brauchbare Form mittels des Codierers 117 codiert und zusammen mit Tonhöhen- und Energieparametern in die Sprachsynthesevorrichtung eingegeben.

Stimmhafte Sprache

Während stimmhafter Sprachrahmen decodiert die Nachschlagetabelle 101 die Abstandsparameter N, und sie gibt die Abstandsparameter in eine Vergleichszelle 104 ein. Die Vergleichszelle 104 wird von einem Rahmenzähler 105 getaktet, und bei der Erzeugung jedes Rahmens prüft sie, ob der bestimmte Rahmen ein Rahmen ist, in dem ein Parameter aktualisiert wird; außerdem stellt sie fest, welcher Parameter aktualisiert wird. Die Aktualisierungsleitung steuert den Zähler 105, der dem Eingangsregister 100 erlaubt, den codierten Wert eines gegebenen, sich ändernden Parameters einzugeben. Die Nachschlagetabelle 103 decodiert die Ausgangssignale des Eingangsregisters 100, und sie liefert Istwerte für Tonhöhen-, Energie- und Formantdaten an ein Interpolationsregister 106. Diese Anfangswerte für die Tonhöhe, die Energie und die Formantfrequenz werden als Zielwerte gespeichert, und der gesamte Vorgang wird dann wiederholt. Wenn einmal zwei aufeinanderfolgende Werte jedes Parameters im Interpolationsregister 106 vorhanden sind, führt der Interpolator 107 eine übliche Interpolationsberechnung zur Erzeugung eines konstanten Stroms aus Sprachparametern mit der gewünschten Folgefrequenz durch. Der Interpolator 107 empfängt als Eingangssignale auch die Abstandsparameter N aus der Vergleichszelle 104. Dies ist deshalb der Fall, weil in der beschriebenen Ausführungsform vorzugsweise gewisse Parameter häufiger als andere Parameter aktualisiert werden. Die Abstandsparameter sind daher notwendige Eingangsgrößen, damit bestimmt werden kann, wieviele Interpolationsvorgänge zwischen jeweils zwei aufeinanderfolgenden Werten eines gegebenen Parameters notwendig sind, um einen konstanten, regelmäßigen Strom aller Sprachparameter zu erzeugen. Tonhöhen- und Energiefaktoren werden vom Interpolator 107 abgegeben und in den FIFO-Puffer 116 eingegeben, damit die Verarbeitung der interpolierten Formantfrequenzdaten in Reflexionskoeffizienten abgewartet wird.

Umsetzung der Formantfrequenzdaten

Ein Festspeicher 108 speichert eine Auswahl von Werten für gewisse vorbestimmte Formantmittenfrequenzen. Ein Komparator 109 übernimmt die erste Formantmittenfrequenz und führt eine vollständige Iteration durch den Festspeicher 108 durch, damit die beste Übereinstimmung mit den verfügbaren gespeicherten Werten für diesen Formanten gefunden wird. Der gewählte Wert wird zu einer Register- und Codiereinheit 111 ausgegeben, und der Fehlerwert, also die Differenz zwischen den tatsächlichen Werten des ersten Formanten und dem gespeicherten besten Übereinstimmungswert, wird zu einem Multiplizierer 114 ausgegeben. Dieser Vorgang wird für den zweiten und den dritten Formanten wiederholt. Experimente haben gezeigt, daß nur drei mögliche Werte für die ersten zwei Formantmittenfrequenzen und zwei Werte für die dritte Formantmittenfrequenz bei Abspeicherung im Festspeicher 108 unter Anwendung der hier zu beschreibenden Anordnung synthetische Sprache mit annehmbarer Qualität erzeugen können. Die Register- und Codiereinheit 111 liefert nach Eingeben aller drei Formantmittenfrequenzen eine codierte Darstellung der bestimmten Kombination an die Decodier- und Festspeichereinheit 113, wobei diese Kombination als partielle Adresse für den Speicherplatz der vorberechneten Werte von fi, ∂fi/∂F 1, ∂fi/∂F 2 und ∂fi/∂F 3 im Festspeicher 113 wirkt. Diese Werte sind der umgesetzte Reflexionskoeffizient für jeden der am besten übereinstimmenden Formanten und seine partiellen Ableitungen. Ein K-Zähler 112 liefert den Rest der Adresse für den Festspeicher 113 durch Iteration durch die gewünschten Reflexionskoeffizientenzahlen K 1 bis K 8. Die in der DE-OS 29 17 161 beschriebene Ausführungsform der Sprachsynthesevorrichtung macht von zehn Reflexionskoeffizienten K 1 bis K 10 Gebrauch; es hat sich jedoch gezeigt, daß feste Werte für die Koeffizienten K 9 und K 10 die Qualität der mittels der Sprachsynthesevorrichtung nach der DE-OS 29 17 161 erzeugten Sprache nicht beeinträchtigt, wenn sie im Zusammenhang mit der hier zu beschreibenden Anordnung verwendet wird. Für jede der achtzehn möglichen Kombinationen aus Formantmittenfrequenzen (3 × 3 × 2) werden also acht Reflexionskoeffizienten benutzt; da für jeden Reflexionskoeffizienten (fi, ∂fi/∂F 1, ∂fi/∂F 2, ∂fi/∂F 3) vier Werte gespeichert sind, muß der Festspeicher 113 nur 576 Bytes (18 × 8 × 4) speichern können. Da jeder Reflexionskoeffizient oder "K-Wert" für die laufende Kombination aus Formantfrequenzen im Festspeicher 113 adressiert wird, werden die Werte für f 1, ∂fi/∂F 1, ∂fi/∂F 2 und ∂fi/∂F 3 zum Multiplizierer 114 ausgegeben. Der Multiplizierer 114 multipliziert jede der partiellen Ableitungen mit dem entsprechenden Fehlersignal aus dem Komparator 109, und ein serieller Addierer 115 summiert das Produkt dieser Multiplikationen. Das Ausgangssignal des seriellen Addierers 115 ist daher die Lösung der Gleichung (2). Die Wirkung des Multiplizierers 114 und des seriellen Addierers 115 setzt somit die bekannten Reflexionskoeffizienten und die Fehlersignale in entsprechende Reflexionskoeffizienten um, die den eingegebenen Formantfrequenzen entsprechen. Jeder Wert von Ki für i = 1 bis i = 8 wird berechnet und in den FIFO-Puffer 116 eingegeben. Wenn ein ganzer Datenrahmen in den FIFO-Puffer 116 eingegeben ist, wird er vom Codierer 117 in das von der Synthesevorrichtung gemäß der DE-OS 29 17 161 benötigte Format codiert.

Andere Ausführungsformen

Der Datenumsetzer wurde hier zwar im Zusammenhang mit der Sprachsynthesevorrichtung gemäß der DE-OS 29 17 161 beschrieben, doch ist für den Fachmann erkennbar, daß eine Echtzeit-Umsetzungsschaltung zum Umsetzen von Formantmittenfrequenzdaten in Sprachsynthese-Steuerinformationen in jeder beliebigen Sprachsynthesevorrichtung angewendet werden kann, die unter Verwendung solcher Filtersteuerkoeffizienten arbeitet. Eine einfache Modifikation der Schaltung des Codierers 117 macht den Datenumsetzer für Systeme brauchbar, die mit Autokorrelationskoeffizienten oder mit partiellen Autokorrelationskoeffizienten zusätzlich zu dem hier beschriebenen System mit quantisierten Reflexionskoeffizienten arbeiten.

Claims

1. Datenumsetzer für eine Sprachsyntheseanordnung, die ein von Sprachinformationskoeffizienten gesteuertes Digitalfilter enthält, mit einer Eingangsvorrichtung, die durch Analyse der menschlichen Sprache erhaltene Formantfrequenzdaten empfängt, einer an die Eingangsvorrichtung angeschlossenen digitalen Umsetzerschaltung zum Verarbeiten der Formantfrequenzdaten in eine für die Verwendung in der Sprachsyntheseanordnung geeignete Form, und einer an die digitale Umsetzerschaltung angeschlossene Ausgangsvorrichtung, die die verarbeitete Form der Formantfrequenzdaten an das Digitalfilter abgibt, dadurch gekennzeichnet, daß die digitale Umsetzerschaltung (Fig. 1b; 108 bis 115) die Formantfrequenzdaten durch Anwendung einer Taylor-Reihenentwicklung in Sprachinformationskoeffizienten in Echtzeit umsetzt und diese an das Digitalfilter abgibt.

2. Datenumsetzer nach Anspruch 1, wobei durch Analyse der menschlichen Sprache erhaltene Formantfrequenzgruppen in Sprachinformationskoeffizienten als digitale Filtersteuerdaten umzusetzen sind, dadurch gekennzeichnet, daß die Eingangsvorrichtung mehrere Eingangsgruppen aus Formantfrequenzen empfängt, daß die digitale Umsetzerschaltung eine Speichervorrichtung (108) zum Speichern vorbestimmter Modellgruppen aus Formantfrequenz enthält, daß an die Eingangsvorrichtung und an die Speichervorrichtung (108) eine Vergleichsvorrichtung (109) angeschlossen ist, die eine ausgewählte Modellgruppe aus Formantfrequenzen bestimmt, die an eine der von der Eingangsvorrichtung empfangenen Eingangsgruppen aus Formantfrequenzen am besten angenähert ist, daß an die Vergleichsvorrichtung (109) eine Transformationsvorrichtung (111, 112, 113) angeschlossen ist, die die ausgewählte Modellgruppe aus Formantfrequenzen in die Modellgruppe aus Digitalfilter-Steuerdaten transformiert, und daß an die Transformationsvorrichtung (111, 112, 113) eine Korrekturvorrichtung (114, 115) angeschlossen ist, die die Modellgruppe aus Digitalfilter-Steuerdaten zur Erzeugung einer Gruppe korrigierter Digitalfilter-Steuerdaten korrigiert, die der Eingangsgruppe aus Formantfrequenzen zugeordnet ist.

3. Datenumsetzer nach Anspruch 2, dadurch gekennzeichnet, daß die digitale Umsetzerschaltung (Fig. 1b; 108 bis 115) einen Fehlersignalgenerator enthält, der an die Eingangsvorrichtung und an die Vergleichsvorrichtung (109) angeschlossen ist und ein Fehlersignal erzeugt, das die Differenz zwischen der ausgewählten Gruppe der Modellgruppen aus Formantfrequenzen und der Eingangsgruppe aus Formantfrequenzen angibt, wobei die Korrekturvorrichtung (114, 115), die an die Transformationsvorrichtung (111, 112, 113) angeschlossen ist, auch mit dem Fehlersignalgenerator verbunden ist, damit die Modellgruppe aus Digitalfilter-Steuerdaten in Abhängigkeit von dem Fehlersignal bei der Bildung der Gruppe korrigierter Digitalfilter-Steuerdaten korrigiert wird.

4. Datenumsetzer nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß die digitale Umsetzerschaltung (Fig. 1b; 108 bis 115) eine Interpolationsvorrichtung (Fig. 1a; 106, 107) enthält, die mit der Eingangsvorrichtung verbunden ist und aufeinanderfolgende Gruppen aus Formantfrequenzen empfängt, damit ein interpoliertes Ausgangssignal aus Formantfrequenz-Sprachparametern als interpolierte Gruppen von Formantfrequenzdaten erhalten werden, daß die Vergleichsvorrichtung (109) mit der Interpolationsvorrichtung (Fig. 1a; 106, 107) so verbunden ist, daß die ausgewählte Gruppe der Modellgruppen aus Formantfrequenzen aus der Speichervorrichtung (108) als diejenige Gruppe bestimmt wird, die an eine der interpolierten Gruppen aus Formantfrequenzdaten, die von der Vergleichsvorrichtung untersucht wird, am besten angenähert ist, und daß mit der Vergleichsvorrichtung (109) eine weitere Speichervorrichtung (Fig. 1b; 111) verbunden ist, die mehrere interpolierte Gruppen aus Formantfrequenzdaten nacheinander speichert, damit eine bestimmte Kombination mehrerer Formantfrequenzen erzeugt wird.

5. Datenumsetzer nach Anspruch 4, dadurch gekennzeichnet, daß die digitale Umsetzerschaltung (Fig. 1b; 108 bis 115) einen Zähler (112) enthält, daß die Transformationsvorrichtung (118, 112, 113) mit der weiteren Speichervorrichtung (111) und dem Zähler (112) verbunden ist und jeweils Teiladressen empfängt, die insgesamt ausgewählte vorher bestimmte Werte von Transformationsfunktionen adressieren, die darin gespeichert sind, und daß mit der Transformationsspeichervorrichtung (113) ein Rechenwerk (114, 115) verbunden ist, das die ausgewählten vorherbestimmten Werte von Transformationsfunktionen als Ausgangssignale als das Ausgangssignal verarbeiten, das in Digitalfilter-Steuerdaten entsprechend der Eingangsgruppe aus Formantfrequenzen umgesetzt wird.

6. Datenumsetzer nach einem der Ansprüche 3 bis 5, dadurch gekennzeichnet, daß die Korrekturvorrichtung eine Multipliziereinheit (114) und eine serielle Addiereinheit (115) enthält, die die Modellgruppe aus Digitalfilter-Steuerdaten in Abhängigkeit von dem Fehlersignal korrigieren.

7. Datenumsetzer nach einem der Ansprüche 2 bis 6, dadurch gekennzeichnet, daß die Transformationsvorrichtung ein Festspeicher (113) ist, der in ausgewählter Weise von einer Zahl adressiert wird, die die ausgewählte Modellgruppe aus Formantfrequenzen repräsentiert.

8. Datenumsetzer nach einem der Ansprüche 2 bis 7, dadurch gekennzeichnet, daß die Modellgruppen aus Formantfrequenzen aus wenigstens zwei verschiedenen Mittelfrequenzen für jeden der ersten drei Formanten der menschlichen Sprache bestehen.

9. Datenumsetzer nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Gruppe korrigierter Sprachinformationskoeffizienten aus quantisierten Reflexionskoeffizienten besteht.

10. Datenumsetzer nach Anspruch 1, dadurch gekennzeichnet, daß die Formantfrequenzdaten die Mittenfrequenzen der ersten drei Formanten der menschlichen Sprache sind.

11. Datenumsetzer nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß er als monolithische Halbleiterschaltung integrierbar ist.

12. Sprachsyntheseschaltung mit einem Datenumsetzer nach einem der Ansprüche 1 bis 11, einer Speichervorrichtung zum Speichern ausgewählter, durch Analyse der menschlichen Sprache erhaltener Formantfrequenzdaten, einer Sprachsynthesevorrichtung, die ein Digitalfilter zur Erzeugung eines die menschliche Sprache repräsentierenden Analogsignals am Filterausgang in Abhängigkeit von der Eingabe digitaler Sprachdaten in das Filter enthält, und einer Tonerzeugungsvorrichtung mit einem Wandler zum Umsetzen des die menschliche Sprache repräsentierenden Analogsignals in ein hörbares Signal, dadurch gekennzeichnet, daß der Datenumsetzer (108 bis 115) mit der Speichervorrichtung (102, 106) verbunden ist, damit die Formantfrequenzdaten in Sprachinformationskoeffizienten in Echtzeit umgesetzt werden, und daß die Sprachsynthesevorrichtung (118) ein die menschliche Sprache repräsentierendes Analogsignal am Ausgang des Digitalfilters in Abhängigkeit von den Sprachinformationskoeffizienten erzeugt.

13. Sprachsyntheseschaltung nach Anspruch 12, dadurch gekennzeichnet, daß in der Speichervorrichtung (102, 106) durch Analyse der menschliche Sprache erhaltene Daten für stimmhafte und stimmlose Sprache gespeichert sind, die ausgewählte Formantfrequenzdaten und Sprachinformationskoeffizienten repräsentieren, und daß die Sprachsynthesevorrichtung (118) ein die menschliche Sprache repräsentierendes Analogsignal am Ausgang des Digitalfilters in Abhängigkeit von den dem Digitalfilter über die Speichervorrichtung (102) zugeführten, Daten für stimmlose Sprache repräsentierenden Sprachinformationskoeffizienten erzeugt, wobei die Sprachinformationskoeffizienten dem Digitalfilter über den Datenumsetzer (108 bis 115) zugeführt werden, wie sie von Formantfrequenzdaten, die Daten für stimmhafte Sprache repräsentieren, abgeleitet werden.