DE3006339C2

DE3006339C2 - Sprachsyntesizer

Info

Publication number: DE3006339C2
Application number: DE3006339A
Authority: DE
Inventors: Tetsuo Nara Iwase; Segeaki Nara Masuzawa; Hiroshi Miyazaki; Shinya Yamatokoriyama Nara Shibata
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1979-02-20
Filing date: 1980-02-20
Publication date: 1986-08-07
Also published as: DE3006339A1; US4716591A; JPS55111995A

Description

- zwischen der Rekonstruktionsschaltung (101 -118) und der Ausgangsschaltung (125 bis 128) eine Störgeräuschunterdrückungsschaltung (119) vorhanden ist, mit

- einem ersten PufTerregister (120, Z), dem ein Signal von der Rekonstruktionsschaltung zugeführt wird,

- einem zweiten Pufferregister (121, T), das hinter das erste Pufferregister geschaltet ist,

- einer Rechenstufe (122) zum Errechnen von Zwischenwerten ((Z + T)/2) der Werte des ersten und des zweiten Pufferregister:»,

- einem Rechenergebnisregister (123, U), dessen Eingang mit dem A usgang der Rechenstufe (122) verbunden ist und

- einem Wählgatter (124, G), das abwechselnd die Inhalte des zweiten Pufferregisters und des Rechenergebnisregisters mit einer Abtastfrequenz (S_r) an die Ausgangsschaltung gibt.

Die Erfindung betrifft einen Sprachsynthesizer mit einer Rekonstruktionsschaltung zum Rekonstruieren von Worten aus digital gespeicherter Wortinformation und einer Ausgangsschaltung mit einem Digital/Analog-Wandler und einem Lautsprecher.

Ein derartiger Sprachsynthesizer ist bereits aus der DE-OS 25 19 483, insbesondere Fig. 5, bekannt. Dieser bekannte Sprachsynthesizer besitzt jedoch keine Störgeräuschunterdrückungsschaltung.

Eine Störgeräuschunterdrückungsschaltung zur Unterdrückung von Quantisiergeräuschen bei Sprachsynthesizern ist dagegen aus dem Buch von James L. Flanagan, »Speech Analysis Synthesis and Perception«, 2. Auflage, Berlin, Heidelberg, New York, 1972, Springer-Verlag, Seiten 401 bis 405, bekannt. In der dort beschriebenen Schaltung wird ein Signal mit Hilfe eines Abtastsignals vorgegebener Höhe abgetastet. Je kleiner die Abtasthöhe (step size) ist, desto besser ist die Störgeräuschunterdrückung.

Ein weiterer Sprachsynthesizer ist aus der amerikanischen Zeitschrift »Electronics«, August 31,1978, Seiten 109 bis 116 bekannt. Insbesondere auf Seite 109, linke Spalte, ist beschrieben, daß der Sprachsynthesizer Festwertspeicher und Prozessorschaltungen aufweist und von der Kompressionstechnik Gebrauch macht, die als LPC-Technik (Linear Predictive Coding) bekannt ist.

Ausgehend von dem eingangs genannten Stand der Technik liegt der Erfindung die Aufgabe zugrunde, einen Sprachsynthesizer mit einer Störgeräuschunterdrückungsschaltung zur Unterdrückung von Störgeräuschen aufgrund von Quantisierungs- und Filtereffekten zu schaffen, deren Eingangssignal zur Störgeräuschunterdrückung nicht durch ein zusätzliches Abtastsignal abgetastet zu werden braucht.

Die Lösung der gestellten Aufgabe besteht darin, daß zwischen der Rekonstruktionsschaltung und der Ausgangsschaltung (des Sprachsynthesizers) eine Störgeräuschunterdrückungsschaltung vorhanden ist, mit einem ersten Pufferregister, dem ein Signal von der Rekonstruktionsschaltung zugeführt wird, einem zweiten Pufferregister, das hinter das erste Pufferregister geschaltet ist, einer Rechenstufe zum Errechnen von Zwischenwerten der Werte des ersten und des zweiten PufTerregisters, einem Rechenergebnisregister, dessen Eingang mit dem Ausgang der Rechenstufe verbunden ist, und einem Wählgatter, das abwechselnd die Inhalte des zweiten Puflerregisters und des Rechenergebnisregisters mit einer Abtastfrequenz (Sß an die Ausgangsschaltung gibt.

Der Sprachsynthesizer eignet sich für viele Anwendungen, beispielsweise zur akustischen Angabe der Ergebnisse eines elektronischen Rechners, dessen Bediener sich auf andere Arbeit konzentrieren kann, oder für solche Fälle, bei denen Instrumente schwierig ablesbar sind. So kann der Synthesizer beispielsweise einem Fahrer die Fahrgeschwindigkeit mitteilen, einem Techniker die Spannung an einem bestimmten Schaltungspunkt nennen, den Bediener einer Präzisions-Werkzeugmaschine mit Informationen beliefern u. dgl. Er eignet sich auch als Ersatz für die visuelle Ablesung elektronischer Uhren oder zur Übermittlung von Sprachnachrichten unter bestimmten Umständen. Ferner könnte der Synthesizer im Fahrzeug über das Fahren mit angezogener Handbremse oder nicht-angelegtem Gurt informieren, oder die Verständigung zwischen Computer und Mensch erleichtern oder als Interface zwischen Bediener und Mechanismen wie Drucktastentelefonen, Fahrstühlen, Geschirrspülern u. dgl. dienen.

Nachstehend wird ein die Merkmale der Erfindung aufweisendes Ausführungsbeispiel unter Bezugnahme auf" eine Zeichnung näher erläutert. Es zeigen:

Fig. 1 ein vereinfachtes Blockschaltbild eines Sprachsynhesizers,

F i g. 2 eine grafische Darstellung des Frequenzvcrlaufs analoger elektrischer Signale, die das Wort »nana« (die Zahl »sieben« auf japanisch) repräsentieren,

Fig. 3 einen Wellenzug eines Grundlautes »«ι«,

Fig. 4 einen Wellenzug .V|-a₍, unter Einbeziehung variabler Faktoren bezüglich des Grundlautes,

Fig. 5 ein weiter unterteiltes Blockschaltbild des Sprachsynthesizers nach Fig. 1,

Fig. 6 ein Flußdiagramm zum Betriebsablauf der Einrichtung nach Fig. 5,

Fig. 7 bis 10 Abwandlungen der Einrichtung nach Fig. S, und

Fig. Ii grafische Darstellungen verschisdener quantisierter Signale innerhalb der Einrichtung nach Fig. 5.

Das nachstehend beschriebene Ausfuhrungsbeispiel eines Sprachsynthesizers ist gemäß Fig. 1 grob in sieben Blöcke unterteilt, und zwar in einen Zentralprozessor CPU 1 zur sequentiellen Steuerung des gesamten Systems nach gewählten Befehlen, einen Festspeicher ROM 1 (= Read Only Memory) in einem Block 2 zur Speicherung von Phonemen oder Lauten bzw. Lautfolgen in Digitalform und zur Wiedergabe nachstehend beschriebener grundlegender Ton wellenzüge, und in einen dritten Block 3 mit einem Festspeicher ROM 2 zum Speichern einer weiter unteo als »Kompressionsbefehls-Information« bezeichneten Digitalinformation zur Durchführung verschiedener Anpassungsoperat'onen wie Veränderung der Tonhöhenintervalle, Amplitudenänderungen, Wiederholung von Tonhöhenintervallen und Änderung der Zeitachse. Eine als Block 4 bezeichnete Wiedergabestufe bildet aufgrund der in Block 3 erfolgten Anpassung ensprechende digital synthetisierte Wellenzüge, ein Pufferspeicher in Block 5 dient der vorübergehenden Speicherung und ein Übertrager in Block 6 dient zur Übertragung der synhetisierten Wellenzüge unter Abschwächung von Verzerrungen und quantisiertem Rauschen durch Filtereffekte. Ein Digital/Analogwandler 7 im letzten Block setzt die digital synthetisierten Wellenzüge in entsprechende analoge Wellenzüge um.

Der Zentral prozessor CPU 1 gibt eine Reihe von Befehlen für zu erzeugende sprachliche Nachrichten vor, die in ausgewählte Adressen des Festspeicher.- ROM 2 in Block 3 gelangen, um daraus gewünschte Kompressionsbefehis-lnformation abzurufen, welche es ermöglicht, die der Reihe nach oder selektiv aus dem ROM 1 und der Wiedergabestufe 4 abgerufenen Phoneme oder Laute der zuvor erwähnten Veränderungsoperationen an den Grundlauten zu unterziehen, welche aus den abgerufenen Phonemen besehen.

Bei dem Sprachsynthesizer existiert der Steuerspeicher ROM 2 unabhängig von dem Speicher ROM 1 zur Speicherung der Laute, welche die Wellenzüge der Grundlaute bilden. Mit anderen Worten: Im Steuerspeicher ROM 2 sind verschiedene Kontrollinformationen gespeichert, welche den Tonhöhenintervallen, Amplituden und der Anzahl von Wiederholungen entsprechen. Es ist erwünscht, daß die Phoneme mit jeweils einer mögliehst kleinen Anzahl von Bits gespeichert werden.

Nachstehend werden die im Speicher gespeicherten Phoneme, die Informationsstruktur der einzelnen Phoneme und die verschiedenen Anpassungsoperationen beschrieben.

In Fig. 2 ist grafisch der Frequenzverlauf des analogen elektrischen Signals für die hörbare Wiedergabe des Wortes »nana« (die Zahl »sieben« auf japanisch) in Abhängigkeit von der Zeit und mit ersten bis dritten Formantfrequenzen als Parameter aufgetragen. Es besteht die Möglichkeit zur Gewinnung eines dynamischen Sprachspektrums durch Fourier-Umsetzung der Original-Sprachinformation mittels eines bekannten Spektrum-Analysators. Die ursprüngliche Toninformation wird durch die Intensität der entsprechenden Frequenzen des Originaltones wiedergegeben. Es gibt bestimmte Formant-Frequenzen mit entsprechenden Rahmen (Tonhöhen) der resultierenden Original-Toninformation. Wie eingangs erwähnt, bildet die Erzeugung der richtigen Formant-Frequenzen der Phoneme die wichtigste Voraussetzung für eine intelligente akustische Synthese.

In Fig. 2 sind die erste, zweite und dritte Formant-Frequenz des Original-Sprachwortes »nana« aufgetragen, welches insgesamt in 48 Rahmen b\-b_w unterteilt ist. Die an die entsprechenden Rahmen 61-648 angenäherte Frequenz, welche das Original-Sprachwort repräsentiert, kann als Kette von elf Phonemdaten O₁-O_n definiert werden. Die erste Formant-Frequenz entspricht den verbundenen Daten a\ -a₂ bzw. dem Phonem »n« von etwa 200-300 Hz, und die zweite Formant-Frequenz beträgt etwa 400-500 Hz. Die erste, zweite und dritte Formant-Frequenz für das Phonem »a« betragen 600-700 Hz, 1200 Hz und 2600-2700 Hz. Ähnliche Phonemdaten für U]-O_n können wie nachstehend ersetzt werden:

a₂ a_}

a_h a₇ a₈

a_]0 a_u

45

O4 a$

a$ 03

Das Original-Sprachwort »nana« kann fünf Grundphonemdaten α,, a₂, 03, a_A und a₅ umfassen. Die das Original-Sprachwort repräsentierenden Rahmen b\-b_w lassen sich folgendermaßen schreiben:

50

Original-Sprach wortrahmen

Phonemdaten

Ersatz-Phonemdaten

Modifizierte Original-Sprachwortdaten

60

'An
bn

Ol 04

as

ai

a₄ as

X\ ~ Xf,

Jf? ~ Jfio

Jf 13 ~ Jf27

Ol

Fortsetzung	[a]	Phonemdaten	30	06	339	Modifizierte Original- Sprachwortdaten
Original- Sprachwort rahmen		a₉ βιι			Ersatz-Phonemdaten	•X40 "* ^47*
			a_s

Mit anderen Worten: Das Original-Sprachwort »nana« ist im Speicher ROM 1 in Form einer Folge von fünf Phonemen α\-α$ gespeichert. Die gespeicherten Inhalte der Phonemwellenzuginformation sind von Nutzen, wenn komprimierte Sprache einfach durch Speichern gewählter Abschnitte der Wellenzuginformation synthetisiert wird. Die modifizierten Original-Sprachwortrahmen x_t -x_4i werden durch Wiederholung der Phonemdaten und durch sachgemäße Anpaßoperationen erstellt. Beispielsweise können modifizierte Original-Sprachwortrahmen durch Veränderung des Phonems, des Tonhöhenintervalls, der Amplitude, des Zeitachsen-Modifizierfaktors u. dgl. hergestellt werden.

Die Original-Sprachwortrahmen x\-x^ können beispielsweise folgendermaßen geschrieben werden:

je, at F (a_u pi, S₁, I₁) X₆-F (β|, p₆, s₆, t₆)

Diese Formel ist eine Näherungsgleichung, weil Pegel und Tonhöhe genormt sind. In dieser Formel sind ρ das Tonhöhenintervall, s der Amplitudenfaktor und / der Zeitachsen-Modifizierfaktor. Diese Variablen befinden sich als Kompressionsbefehls-Information im Festspeicher ROM 2 abgespeichert.

Fig. 3 enthält den Wellenzug für einen Grundlaut »a₂« und Fig. 4 ein Beispiel für Wellenzüge X₁-O₆, bei denen die Varianten wie p, s und t gegenüber dem Grundlaut-Wellenzug a_{ berücksichtigt sind. Der Phonem-Wellenzug O₁ ist eine Funktion der Zeit und läßt sich durch den Amplitudenfaktor cr„ modifizieren, sofern y_t -y_b und α, die nachstehenden Bedingungen erfüllen. Aus diesem Grund kann ein synthetischer Wellenzug in Form eines Vielfachen des Phonem-Wellenzuges erzeugt werden.

y₆ =

Darin ist cc„ der im Speicher ROM 1 gespeicherte Amplitudenfaktor.

Wie bereits erwähnt, können die komprimierten synthetischen Wellenzüge durch Anpaßoperationen wie Veränderung des Tonhöhenintervalls, Veränderung der Amplitude und Veränderung des Zeitacnsen-Modifizierfaktors erzeugt werden.
Der in Fig. 5 als Blockschaltbild dargestellte Sprachsynthesizer enthält wieder die Baugruppen CPU, ROM 1 und ROM 2 aus F i g. 1. Ein Adreßzähler ADC 1102 gewährt Zugriff zu einer gewünschten Adresse im Speicher ROM 2 103 abhängig von Sprachwort-Ausgangsbefehlen aus dem Zentralprozessor CPU 101. Ein Pufferregister BUFF 104 speichert aus dem Speicher ROM 1 104 zugegangene Information zeitweilig. In Abt. f befinden sich das Ende der Informationskette und das Zugriffsende kennzeichnende Daten, und in Abt. r die Anzahl der Wiederholungen der Tonhöhenintervalle. Die von Menschen oder Musikinstrumenten abgegebenen Töne bestehen im allgemeinen aus Wiederholungen der gleichen Wellenzüge. Töne gleicher Höhe von Musikinstrumenten haben die gleiche Wellenform, und bei den Tonfrequenzen treten die Schwingungen pro Sekunde zur gleichen Zeit auf. Zwar weist die menschliche Sprache ähnliche Wiederholungen von Wellenzügen auf, jedoch verändern sich nicht nur die Frequenzen der Schwingungen, sondern auch die Wellenformen bei gesprochenen Wörtern. Jedoch können wiederholte Wellenformen als gleiche Wellenform betrachtet werden, nur für eine sehr kurze Dauer. Der Kompressionsfaktor η steht durch Eingabe einer η entsprechenden Information im Speicher ROM 2 zur Verfügung. Der Pufferspeicher 104 speichert ferner Amplitudeninformation s. Eine gewünschte synthetische Wellenform einer festgelegten Mehrfachbeziehung wird bereitgestellt durch Multiplizieren der in Fig. 3 und 4 dargestellten Grundlaut-Wellenzüge mit einem bestimmten Amplitudenfaktor, d dient als zeitweilige Information beim sequentiellen oder selektiven Aufrufen der Phoneme aus dem Speicher ROM 1. Die gewählte Information wird durch einen Dekodierer DC] in die führende Adresse dekodiert und in einen anderen Adreßzähler ADC 2 111 eingegeben. Die Information ρ in bezug auf das Tonhöhen- bzw. Schwingungsinterval! wird durch einen Dekodierer DC₂109 in eine tatsächliche Tonhöhenlänge verwandelt und in einen mit 113 bezeichneten Zähler CT 2 eingegeben. Ein X-Register 107 speichert die Amplitudeninformation s, mit welcher die Inhalte eines Y-Registers 117 multipliziert werden, welches seinerseits die Phoneme enthält, die mittels einer Multiplizierstufe 1 118 vom Speicher ROM 1 eingeschoben wurden.

Ein Flip-Flop 105 erkennt die /-Information im vorübergehend speichernden Pufferspeicher 104 und teilt dem Zentralprozessor CPU 101 das Ergebnis mit. Bei / = 1 wird der Zentralprozessor CPU durch Setzen des Flip-Flops 105 darüber informiert, daß diese Information das Ende der Adreß-Operation bedeutet. Ein Zähler

CT 1 106 zählt die Anzahl der Wiederholungen a, und eine Entscheidungsschaltung J 1 110 erkennt, daß der Zählerinhalt des Zählers CT 1 Null ist. In ähnlicher Weise erkennen Entscheidungsschaltungen J 2 und J 3, mit 115 und 116 bezeichnet, wenn die Zähler CT 2 113 und CT 3 114 auf Null sind. Der Zähler CT 3 nimmt die Anzahl N von Daten auf, welche die Sprachwellenzüge bilden. Zur Unterdrückung von Störgeräuschen durch Filtereffekte ist der Ausgang der Multiplizierschaltung 118 mit einer Störgeräuschunterdrückungsschaltung 119 verbunden, die eine Rechenstufe 122 zur Errechnung von Zwischenwerten zwischen Pufferregistern Z, T und U

sowie Register Z und T enthält und insbesondere errechnet. Dieses Ergebnis wird dann in das

U-Register 123 eingegeben. Ein Wählgatter G 124 taktet abwechselnd die Inhalte der U- und T-Register mit einer Abtastfrequenz S_f aus. Hierzu näheres weiter unten. Der Ausgang dieses Wählgatters G 124 wird über V- und W-Register 125 und 126 mittels eines Digital/Analogwandlers in einen Analog-Wellenzug umgewandelt und durch eine Ausgangsschaltung 128 als Tonsignal abgegeben.

Die Arbeitsweise der Schaltung von Fig. 5 wird nachstehend anhand des Flußdiagramms von Fi g. 6 erläutert: Bei Abgabe des Wellenzug-Ausgangsbefehls durch den Zentralprozessor CPU 101 (Schritt n,) werden die entsprechenden Register und Flip-Flops mit ihren Ausgangswerten geiaden und die Anfangsadresse zur Auswahl der Ausgangsinformation in den Adreßzähler 102 eingegeben (Schritt n₂ und n₃). Diese Adresse bietet Zugriff zum Speicher ROM 2 und veranlaßt das Eingeben verschiedener Kompressionsbefehlsinformationen (Schritt n₄) in das zeitweilig speichernde Pufferregister 104. Die Information r in bezug auf die Zahl der Wiederholungen wird aus dem Pufferregister 104 in den Zähler CT, (n₅) und die Amplitudeninformation s in das X-Register 107 («,,) geschoben. Die Information d bezüglich der Phoneme im ROM 1 wird in die führende Adresse von ROM 1 mittels Dekodierer 108 dekodiert und in Schritt n-, in den Adreßzähler ADC 2 gegeben. Die Schwingungsinformation ρ wird in eine tatsächliche Schwingungslänge mittels des Dekodierers DC 2 verwandelt und in den Zähler CT 2 gegeben. Die Anzahl N der Daten, welche die Grundtonwellenform wiedergeben, wird vom Speicher ROM 1 in den Zähler CT 3 (n_g) geschoben. Diese Anzahl η der Daten ist variabel. Jetzt ist der Adreßzähier ADC 2 für einen Zugriff zum Speicher ROM 1 zum Speichern der Phoneme bereit; der Ausgang desselben wird in das Y-Register 117 (n₉) überführt. Die Multiplizierstufe 118 multipliziert die Inhalte des Y-Registers mit der im X-Register 107 gespeicherten Amplitudeninformation und überführt die Ergebnisse über die Störgeräuschunterdrückungsschaltung 119 (n₁₂) in das V-Register 125. Die Übertragung der Inhalte des V-Registers in das W-Register 126 erfolgt im Takt der Abtastfrequenz S_f(n_]}). Die Inhalte des W-Registers werden durch den D/A-Wandler 127 in einen analogen Wellenzug umgewandelt und über die Ausgangsschaltung 128(fl|₄) nach außen abgegeben. Danach werden die Zähler CT 2 und CT 3 synchron mit der Abtastfrequenz S_f reduziert, und sofern diese Zähler nicht auf Null sind (ihren Nullzustand überwachen die Entscheidungsschaltungen J 2 und J 3), zählt der Adreßzähler ADC 2 von n_]5-/?|₉ weiter, um Zugriff zum Speicher ROM 1 (n₉) zu gewähren und in zuvor beschriebener Weise einen Wellenzug zu erzeugen. Durch Wiederholung der beschriebenen Schritte wird eine Kette von Wellenzügen erzeugt.

Stellt der Zähler CT 2 den Wert Null (n,₆) fest, dann wird der Zähler CT 1 heruntergezählt (n_?0). Solange die Inhalte des Zählers CT 1 gemäß Feststellung der Entscheidungsschaltung J 1 nicht gleich Null sind, werden die Adreßzähler ADC 2 sowie CT 2 und CT 3 wie beschrieben geladen, um in der Schrittfolge von n₇-n₁₄ Wellenzüge zu liefern. Stellt jedoch die Entscheidungsschaltung J 3 vor der Entscheidungsschaltung J 2 den Null-Wert fest, dann erhält der Adreßzähler ADC 2 keinen Aufwärtszählbefehl mehr. Der Adreßzähler ADC 2 liefert die gleichen Adressen weiter, bis die Entscheidungsschaltung J 2 im Zähler CT 2 den Wert Null feststellt. Folglich erhält das Register W den gleichen Wert zur Erzeugung eines Analog-Wellenzuges über den D/A-Wandler 127 und damit auch die Ausgangsschaltung 128. Dieser Vorgang läuft solange, bis die Entscheidungsschaltung J 1 den Inhalt Null beim Zähler CT 1 feststellt. Ist dies der Fall (n_2]), wird beim Pufferregister 104 der nächste Ausgangszustand gesetzt, falls nicht das Flip-Flop 105 gesetzt ist («22)· Mit diesem Inhalt des Flip-Flops 105 wird der Zentral prozessor CPU über das Ende der Adreß-Operation («23) informiert.

Die Schaltung von F i g. 5 läßt sich in unterschiedlicher Weise abwandeln. Zum Beispiel kann auf die Dekodierer DC 1 und DC 2 in Fi g. 5 verzichtet werden. Statt dessen kann die Übertragung der führenden Adresse und des Adreßumfangs aus dem Speicher ROM 2 und die Übertragung der Information d und ρ in den Adreßzähler ADC 2 und Zähler CT 2 vom Pufferregister 104 direkt erfolgen.

Der Speicher ROM 2 103 sollte eine große Datenkapazität haben. Beispielsweise liegt bei Männern die Schwingungsfrequenz in einem Bereich zwischen 60 und 200 Hz. Bei einer Abtastung mit 10 kHz hat der Ausgang maximal 167 Abfragewerte und benötigt daher 8 Bits zur Festlegung. Vorausgesetzt, daß mittels der Quantisierungstechnik 32 mögliche Werte der Schwingungsfrequenz erhalten werden, so genügen zur Repräsentation 5 Bits, 3 Bits können durch Kompressionsbefehle gespart werden.

I η F i g. 5 werden die Enddaten nach Abgabe der N-Ausgänge in das Y-Register 117 eingegeben, wenn CT 2 > CT 3 ist. Bei der abgewandelten Ausführung in Fig. 7 gelangt der Wert 0 in die Multiplizierstufe 129 nachdem Setzen von J 3. Mit anderen Worten: Die aus den Phonemen aus dem ROM 1 bestehenden Grund-Tonwellenzüge sind in der Tonhöhe festgelegt, jedoch in der Schwingungsfrequenz durch Zugabe von Daten mit einem gegebenen Bias-Pegel variabel. Auf diese Weise wird Speicherkapazität gespart und das Kompressionsverhältnis 60 \

erhöht. t

In F i g. 8 kann ein Eingang J 3 in ein Tor 129' der Multiplizierstufe 118 eingegeben werden. Die Amplitudeninformation s kann entweder gemäß F i g. 5 linear oder gemäß Fi g. 9 nicht-linear kontrolliert werden. Im letzteren Fall werden die Inhalte des X-Registers 107 durch den Dekodierer DC 3 130 ausgewertet und in das Pufferregisler 2 131 eingegeben, danach durch die Multiplizierstufe 118 multipliziert. Ist beispielsweise i = 3 und m = 7, 65 |

dann werden die Ergebnisse von Fig. 10 erhalten, worin (1,44) π bei η = 1-15 ist. *

Die quantisierende Störunterdrückungsschaltung (119) arbeitet folgendermaßen: Im Y-Register (117) sind beispielsweise 4 Bits, und in dem die Amplitudeninformation s enthaltenden X-Register 107 3 Bits gespeichert.

In diesem Fall sollte das von der Multiplizierstufe 118 errechnete Ergebnis mehrals4 Bits enthalten. Die möglichen Datenebenen im Y-Register 117 sind 16 (2⁴) und die möglichen Vielfachen der Daten im X-Register sind 8 (2³). Es gibt somit 16x8 = 128 mögliche Ausgangspegel der Multiplizierstufe 118, das erfordert 7 (2⁷ = 128) Bits. Die von der Multiplizierstufe 118 errechneten Resultate sind länger als die Anzahl der Bits des Y-Registers s 117. Dadurch ist es möglich, die Grundtonwellenformen im Speicher ROM 1 in Gestalt einer minimalen Länge von quantisierenden Bits zu speichern, die dann durch die Amplitudeninformation kontrolliert werden. Dabei werden ebenfalls Verzerrungen und Quantisier-Geräusche reduziert. Die Störgeräuschunterdrückungsschaltung (119) in Fig. 5 enthält Pufferregister Z 120, T 121 und U 123. Die

Schaltung 122 errechnet aus den Inhalten von Z und T—— und aktiviert synchron zur Abtastfrequenz ein Tor

124, damit das V-Register 125 abwechselnd die Inhalte der Register U und T erhält.

F i g. 11 zeigt die Quantisierpegel als Funktion der Abtastzeit. Werden Daten gemäß F i g. 11 (a) in Sequenz von der Multiplizierstufe 118 gewonnen, dann gibt das V-Register 125 in Sequenz Ausgänge gemäß Fig. 11 (c) ab.

Die Digital/Analog-Umwandlung erfolgt zwischen den Abtastzeitpunkten /,, t₂ Zwischen /₀ und t_{ wird ein

Quantisierpegel-Durchschnittswert erstellt, und somit liefert das U-Register 123 die in Fig. 11 (b) dargestellten Daten, um abwechselnd Daten gemäß Fig. 11 (a) und 11 (b) für das V-Register 125 auszuwählen, dessen Ausgang Fi g. 11 (c) zeigt. Die resultierenden quantisierten Daten setzt der D/A-Wandler 127 in einen Analog-Wellenzug um. Dieser Wellenzug wird in der Ausgangsschaltung 128 geglättet. Dabei sind die durch Quantisierungseffekte entstandenen Störgeräusche unterdrückt.

Hierzu 5 Blatt Zeichnungen

Claims

Patentanspruch:

Sprachsynthesizer mit

- einer Rekonstruktionsschaltung (101-118) zum Rekonstruieren von Worten aus digital gespeicherter Wortinformation und
- einer Ausgangsschaltung (125 bis 128) mit einem Digital/Analog-Wandler (127) und einem Lautsprecher,

dadurch gekennzeichnet, daß