DE3006339C2 - Sprachsyntesizer - Google Patents

Sprachsyntesizer

Info

Publication number
DE3006339C2
DE3006339C2 DE3006339A DE3006339A DE3006339C2 DE 3006339 C2 DE3006339 C2 DE 3006339C2 DE 3006339 A DE3006339 A DE 3006339A DE 3006339 A DE3006339 A DE 3006339A DE 3006339 C2 DE3006339 C2 DE 3006339C2
Authority
DE
Germany
Prior art keywords
register
information
circuit
data
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE3006339A
Other languages
English (en)
Other versions
DE3006339A1 (de
Inventor
Tetsuo Nara Iwase
Segeaki Nara Masuzawa
Hiroshi Miyazaki
Shinya Yamatokoriyama Nara Shibata
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of DE3006339A1 publication Critical patent/DE3006339A1/de
Application granted granted Critical
Publication of DE3006339C2 publication Critical patent/DE3006339C2/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

- zwischen der Rekonstruktionsschaltung (101 -118) und der Ausgangsschaltung (125 bis 128) eine Störgeräuschunterdrückungsschaltung (119) vorhanden ist, mit
- einem ersten PufTerregister (120, Z), dem ein Signal von der Rekonstruktionsschaltung zugeführt wird,
- einem zweiten Pufferregister (121, T), das hinter das erste Pufferregister geschaltet ist,
- einer Rechenstufe (122) zum Errechnen von Zwischenwerten ((Z + T)/2) der Werte des ersten und des zweiten Pufferregister:»,
- einem Rechenergebnisregister (123, U), dessen Eingang mit dem A usgang der Rechenstufe (122) verbunden ist und
- einem Wählgatter (124, G), das abwechselnd die Inhalte des zweiten Pufferregisters und des Rechenergebnisregisters mit einer Abtastfrequenz (Sr) an die Ausgangsschaltung gibt.
Die Erfindung betrifft einen Sprachsynthesizer mit einer Rekonstruktionsschaltung zum Rekonstruieren von Worten aus digital gespeicherter Wortinformation und einer Ausgangsschaltung mit einem Digital/Analog-Wandler und einem Lautsprecher.
Ein derartiger Sprachsynthesizer ist bereits aus der DE-OS 25 19 483, insbesondere Fig. 5, bekannt. Dieser bekannte Sprachsynthesizer besitzt jedoch keine Störgeräuschunterdrückungsschaltung.
Eine Störgeräuschunterdrückungsschaltung zur Unterdrückung von Quantisiergeräuschen bei Sprachsynthesizern ist dagegen aus dem Buch von James L. Flanagan, »Speech Analysis Synthesis and Perception«, 2. Auflage, Berlin, Heidelberg, New York, 1972, Springer-Verlag, Seiten 401 bis 405, bekannt. In der dort beschriebenen Schaltung wird ein Signal mit Hilfe eines Abtastsignals vorgegebener Höhe abgetastet. Je kleiner die Abtasthöhe (step size) ist, desto besser ist die Störgeräuschunterdrückung.
Ein weiterer Sprachsynthesizer ist aus der amerikanischen Zeitschrift »Electronics«, August 31,1978, Seiten 109 bis 116 bekannt. Insbesondere auf Seite 109, linke Spalte, ist beschrieben, daß der Sprachsynthesizer Festwertspeicher und Prozessorschaltungen aufweist und von der Kompressionstechnik Gebrauch macht, die als LPC-Technik (Linear Predictive Coding) bekannt ist.
Ausgehend von dem eingangs genannten Stand der Technik liegt der Erfindung die Aufgabe zugrunde, einen Sprachsynthesizer mit einer Störgeräuschunterdrückungsschaltung zur Unterdrückung von Störgeräuschen aufgrund von Quantisierungs- und Filtereffekten zu schaffen, deren Eingangssignal zur Störgeräuschunterdrückung nicht durch ein zusätzliches Abtastsignal abgetastet zu werden braucht.
Die Lösung der gestellten Aufgabe besteht darin, daß zwischen der Rekonstruktionsschaltung und der Ausgangsschaltung (des Sprachsynthesizers) eine Störgeräuschunterdrückungsschaltung vorhanden ist, mit einem ersten Pufferregister, dem ein Signal von der Rekonstruktionsschaltung zugeführt wird, einem zweiten Pufferregister, das hinter das erste Pufferregister geschaltet ist, einer Rechenstufe zum Errechnen von Zwischenwerten der Werte des ersten und des zweiten PufTerregisters, einem Rechenergebnisregister, dessen Eingang mit dem Ausgang der Rechenstufe verbunden ist, und einem Wählgatter, das abwechselnd die Inhalte des zweiten Puflerregisters und des Rechenergebnisregisters mit einer Abtastfrequenz (Sß an die Ausgangsschaltung gibt.
Der Sprachsynthesizer eignet sich für viele Anwendungen, beispielsweise zur akustischen Angabe der Ergebnisse eines elektronischen Rechners, dessen Bediener sich auf andere Arbeit konzentrieren kann, oder für solche Fälle, bei denen Instrumente schwierig ablesbar sind. So kann der Synthesizer beispielsweise einem Fahrer die Fahrgeschwindigkeit mitteilen, einem Techniker die Spannung an einem bestimmten Schaltungspunkt nennen, den Bediener einer Präzisions-Werkzeugmaschine mit Informationen beliefern u. dgl. Er eignet sich auch als Ersatz für die visuelle Ablesung elektronischer Uhren oder zur Übermittlung von Sprachnachrichten unter bestimmten Umständen. Ferner könnte der Synthesizer im Fahrzeug über das Fahren mit angezogener Handbremse oder nicht-angelegtem Gurt informieren, oder die Verständigung zwischen Computer und Mensch erleichtern oder als Interface zwischen Bediener und Mechanismen wie Drucktastentelefonen, Fahrstühlen, Geschirrspülern u. dgl. dienen.
Nachstehend wird ein die Merkmale der Erfindung aufweisendes Ausführungsbeispiel unter Bezugnahme auf" eine Zeichnung näher erläutert. Es zeigen:
Fig. 1 ein vereinfachtes Blockschaltbild eines Sprachsynhesizers,
F i g. 2 eine grafische Darstellung des Frequenzvcrlaufs analoger elektrischer Signale, die das Wort »nana« (die Zahl »sieben« auf japanisch) repräsentieren,
Fig. 3 einen Wellenzug eines Grundlautes »«ι«,
Fig. 4 einen Wellenzug .V|-a(, unter Einbeziehung variabler Faktoren bezüglich des Grundlautes,
Fig. 5 ein weiter unterteiltes Blockschaltbild des Sprachsynthesizers nach Fig. 1,
Fig. 6 ein Flußdiagramm zum Betriebsablauf der Einrichtung nach Fig. 5,
Fig. 7 bis 10 Abwandlungen der Einrichtung nach Fig. S, und
Fig. Ii grafische Darstellungen verschisdener quantisierter Signale innerhalb der Einrichtung nach Fig. 5.
Das nachstehend beschriebene Ausfuhrungsbeispiel eines Sprachsynthesizers ist gemäß Fig. 1 grob in sieben Blöcke unterteilt, und zwar in einen Zentralprozessor CPU 1 zur sequentiellen Steuerung des gesamten Systems nach gewählten Befehlen, einen Festspeicher ROM 1 (= Read Only Memory) in einem Block 2 zur Speicherung von Phonemen oder Lauten bzw. Lautfolgen in Digitalform und zur Wiedergabe nachstehend beschriebener grundlegender Ton wellenzüge, und in einen dritten Block 3 mit einem Festspeicher ROM 2 zum Speichern einer weiter unteo als »Kompressionsbefehls-Information« bezeichneten Digitalinformation zur Durchführung verschiedener Anpassungsoperat'onen wie Veränderung der Tonhöhenintervalle, Amplitudenänderungen, Wiederholung von Tonhöhenintervallen und Änderung der Zeitachse. Eine als Block 4 bezeichnete Wiedergabestufe bildet aufgrund der in Block 3 erfolgten Anpassung ensprechende digital synthetisierte Wellenzüge, ein Pufferspeicher in Block 5 dient der vorübergehenden Speicherung und ein Übertrager in Block 6 dient zur Übertragung der synhetisierten Wellenzüge unter Abschwächung von Verzerrungen und quantisiertem Rauschen durch Filtereffekte. Ein Digital/Analogwandler 7 im letzten Block setzt die digital synthetisierten Wellenzüge in entsprechende analoge Wellenzüge um.
Der Zentral prozessor CPU 1 gibt eine Reihe von Befehlen für zu erzeugende sprachliche Nachrichten vor, die in ausgewählte Adressen des Festspeicher.- ROM 2 in Block 3 gelangen, um daraus gewünschte Kompressionsbefehis-lnformation abzurufen, welche es ermöglicht, die der Reihe nach oder selektiv aus dem ROM 1 und der Wiedergabestufe 4 abgerufenen Phoneme oder Laute der zuvor erwähnten Veränderungsoperationen an den Grundlauten zu unterziehen, welche aus den abgerufenen Phonemen besehen.
Bei dem Sprachsynthesizer existiert der Steuerspeicher ROM 2 unabhängig von dem Speicher ROM 1 zur Speicherung der Laute, welche die Wellenzüge der Grundlaute bilden. Mit anderen Worten: Im Steuerspeicher ROM 2 sind verschiedene Kontrollinformationen gespeichert, welche den Tonhöhenintervallen, Amplituden und der Anzahl von Wiederholungen entsprechen. Es ist erwünscht, daß die Phoneme mit jeweils einer mögliehst kleinen Anzahl von Bits gespeichert werden.
Nachstehend werden die im Speicher gespeicherten Phoneme, die Informationsstruktur der einzelnen Phoneme und die verschiedenen Anpassungsoperationen beschrieben.
In Fig. 2 ist grafisch der Frequenzverlauf des analogen elektrischen Signals für die hörbare Wiedergabe des Wortes »nana« (die Zahl »sieben« auf japanisch) in Abhängigkeit von der Zeit und mit ersten bis dritten Formantfrequenzen als Parameter aufgetragen. Es besteht die Möglichkeit zur Gewinnung eines dynamischen Sprachspektrums durch Fourier-Umsetzung der Original-Sprachinformation mittels eines bekannten Spektrum-Analysators. Die ursprüngliche Toninformation wird durch die Intensität der entsprechenden Frequenzen des Originaltones wiedergegeben. Es gibt bestimmte Formant-Frequenzen mit entsprechenden Rahmen (Tonhöhen) der resultierenden Original-Toninformation. Wie eingangs erwähnt, bildet die Erzeugung der richtigen Formant-Frequenzen der Phoneme die wichtigste Voraussetzung für eine intelligente akustische Synthese.
In Fig. 2 sind die erste, zweite und dritte Formant-Frequenz des Original-Sprachwortes »nana« aufgetragen, welches insgesamt in 48 Rahmen b\-bw unterteilt ist. Die an die entsprechenden Rahmen 61-648 angenäherte Frequenz, welche das Original-Sprachwort repräsentiert, kann als Kette von elf Phonemdaten O1-On definiert werden. Die erste Formant-Frequenz entspricht den verbundenen Daten a\ -a2 bzw. dem Phonem »n« von etwa 200-300 Hz, und die zweite Formant-Frequenz beträgt etwa 400-500 Hz. Die erste, zweite und dritte Formant-Frequenz für das Phonem »a« betragen 600-700 Hz, 1200 Hz und 2600-2700 Hz. Ähnliche Phonemdaten für U]-On können wie nachstehend ersetzt werden:
a2 a}
ah a7 a8
a]0 au
45
O4 a$
a$ 03
Das Original-Sprachwort »nana« kann fünf Grundphonemdaten α,, a2, 03, aA und a5 umfassen. Die das Original-Sprachwort repräsentierenden Rahmen b\-bw lassen sich folgendermaßen schreiben:
50
Original-Sprach wortrahmen
Phonemdaten
Ersatz-Phonemdaten
Modifizierte Original-Sprachwortdaten
60
'An
bn
Ol 04
as
ai
a4 as
X\ ~ Xf,
Jf? ~ Jfio
Jf 13 ~ Jf27
Ol
Fortsetzung [a] Phonemdaten 30 06 339 Modifizierte Original-
Sprachwortdaten
Original-
Sprachwort rahmen
a9
βιι
Ersatz-Phonemdaten •X40 **"* ^*47
as
Mit anderen Worten: Das Original-Sprachwort »nana« ist im Speicher ROM 1 in Form einer Folge von fünf Phonemen α\-α$ gespeichert. Die gespeicherten Inhalte der Phonemwellenzuginformation sind von Nutzen, wenn komprimierte Sprache einfach durch Speichern gewählter Abschnitte der Wellenzuginformation synthetisiert wird. Die modifizierten Original-Sprachwortrahmen xt -x4i werden durch Wiederholung der Phonemdaten und durch sachgemäße Anpaßoperationen erstellt. Beispielsweise können modifizierte Original-Sprachwortrahmen durch Veränderung des Phonems, des Tonhöhenintervalls, der Amplitude, des Zeitachsen-Modifizierfaktors u. dgl. hergestellt werden.
Die Original-Sprachwortrahmen x\-x^ können beispielsweise folgendermaßen geschrieben werden:
je, at F (au pi, S1, I1) X6-F (β|, p6, s6, t6)
Diese Formel ist eine Näherungsgleichung, weil Pegel und Tonhöhe genormt sind. In dieser Formel sind ρ das Tonhöhenintervall, s der Amplitudenfaktor und / der Zeitachsen-Modifizierfaktor. Diese Variablen befinden sich als Kompressionsbefehls-Information im Festspeicher ROM 2 abgespeichert.
Fig. 3 enthält den Wellenzug für einen Grundlaut »a2« und Fig. 4 ein Beispiel für Wellenzüge X1-O6, bei denen die Varianten wie p, s und t gegenüber dem Grundlaut-Wellenzug a{ berücksichtigt sind. Der Phonem-Wellenzug O1 ist eine Funktion der Zeit und läßt sich durch den Amplitudenfaktor cr„ modifizieren, sofern yt -yb und α, die nachstehenden Bedingungen erfüllen. Aus diesem Grund kann ein synthetischer Wellenzug in Form eines Vielfachen des Phonem-Wellenzuges erzeugt werden.
y6 =
Darin ist cc„ der im Speicher ROM 1 gespeicherte Amplitudenfaktor.
Wie bereits erwähnt, können die komprimierten synthetischen Wellenzüge durch Anpaßoperationen wie Veränderung des Tonhöhenintervalls, Veränderung der Amplitude und Veränderung des Zeitacnsen-Modifizierfaktors erzeugt werden.
Der in Fig. 5 als Blockschaltbild dargestellte Sprachsynthesizer enthält wieder die Baugruppen CPU, ROM 1 und ROM 2 aus F i g. 1. Ein Adreßzähler ADC 1102 gewährt Zugriff zu einer gewünschten Adresse im Speicher ROM 2 103 abhängig von Sprachwort-Ausgangsbefehlen aus dem Zentralprozessor CPU 101. Ein Pufferregister BUFF 104 speichert aus dem Speicher ROM 1 104 zugegangene Information zeitweilig. In Abt. f befinden sich das Ende der Informationskette und das Zugriffsende kennzeichnende Daten, und in Abt. r die Anzahl der Wiederholungen der Tonhöhenintervalle. Die von Menschen oder Musikinstrumenten abgegebenen Töne bestehen im allgemeinen aus Wiederholungen der gleichen Wellenzüge. Töne gleicher Höhe von Musikinstrumenten haben die gleiche Wellenform, und bei den Tonfrequenzen treten die Schwingungen pro Sekunde zur gleichen Zeit auf. Zwar weist die menschliche Sprache ähnliche Wiederholungen von Wellenzügen auf, jedoch verändern sich nicht nur die Frequenzen der Schwingungen, sondern auch die Wellenformen bei gesprochenen Wörtern. Jedoch können wiederholte Wellenformen als gleiche Wellenform betrachtet werden, nur für eine sehr kurze Dauer. Der Kompressionsfaktor η steht durch Eingabe einer η entsprechenden Information im Speicher ROM 2 zur Verfügung. Der Pufferspeicher 104 speichert ferner Amplitudeninformation s. Eine gewünschte synthetische Wellenform einer festgelegten Mehrfachbeziehung wird bereitgestellt durch Multiplizieren der in Fig. 3 und 4 dargestellten Grundlaut-Wellenzüge mit einem bestimmten Amplitudenfaktor, d dient als zeitweilige Information beim sequentiellen oder selektiven Aufrufen der Phoneme aus dem Speicher ROM 1. Die gewählte Information wird durch einen Dekodierer DC] in die führende Adresse dekodiert und in einen anderen Adreßzähler ADC 2 111 eingegeben. Die Information ρ in bezug auf das Tonhöhen- bzw. Schwingungsinterval! wird durch einen Dekodierer DC2109 in eine tatsächliche Tonhöhenlänge verwandelt und in einen mit 113 bezeichneten Zähler CT 2 eingegeben. Ein X-Register 107 speichert die Amplitudeninformation s, mit welcher die Inhalte eines Y-Registers 117 multipliziert werden, welches seinerseits die Phoneme enthält, die mittels einer Multiplizierstufe 1 118 vom Speicher ROM 1 eingeschoben wurden.
Ein Flip-Flop 105 erkennt die /-Information im vorübergehend speichernden Pufferspeicher 104 und teilt dem Zentralprozessor CPU 101 das Ergebnis mit. Bei / = 1 wird der Zentralprozessor CPU durch Setzen des Flip-Flops 105 darüber informiert, daß diese Information das Ende der Adreß-Operation bedeutet. Ein Zähler
CT 1 106 zählt die Anzahl der Wiederholungen a, und eine Entscheidungsschaltung J 1 110 erkennt, daß der Zählerinhalt des Zählers CT 1 Null ist. In ähnlicher Weise erkennen Entscheidungsschaltungen J 2 und J 3, mit 115 und 116 bezeichnet, wenn die Zähler CT 2 113 und CT 3 114 auf Null sind. Der Zähler CT 3 nimmt die Anzahl N von Daten auf, welche die Sprachwellenzüge bilden. Zur Unterdrückung von Störgeräuschen durch Filtereffekte ist der Ausgang der Multiplizierschaltung 118 mit einer Störgeräuschunterdrückungsschaltung 119 verbunden, die eine Rechenstufe 122 zur Errechnung von Zwischenwerten zwischen Pufferregistern Z, T und U
sowie Register Z und T enthält und insbesondere errechnet. Dieses Ergebnis wird dann in das
U-Register 123 eingegeben. Ein Wählgatter G 124 taktet abwechselnd die Inhalte der U- und T-Register mit einer Abtastfrequenz Sf aus. Hierzu näheres weiter unten. Der Ausgang dieses Wählgatters G 124 wird über V- und W-Register 125 und 126 mittels eines Digital/Analogwandlers in einen Analog-Wellenzug umgewandelt und durch eine Ausgangsschaltung 128 als Tonsignal abgegeben.
Die Arbeitsweise der Schaltung von Fig. 5 wird nachstehend anhand des Flußdiagramms von Fi g. 6 erläutert: Bei Abgabe des Wellenzug-Ausgangsbefehls durch den Zentralprozessor CPU 101 (Schritt n,) werden die entsprechenden Register und Flip-Flops mit ihren Ausgangswerten geiaden und die Anfangsadresse zur Auswahl der Ausgangsinformation in den Adreßzähler 102 eingegeben (Schritt n2 und n3). Diese Adresse bietet Zugriff zum Speicher ROM 2 und veranlaßt das Eingeben verschiedener Kompressionsbefehlsinformationen (Schritt n4) in das zeitweilig speichernde Pufferregister 104. Die Information r in bezug auf die Zahl der Wiederholungen wird aus dem Pufferregister 104 in den Zähler CT, (n5) und die Amplitudeninformation s in das X-Register 107 («,,) geschoben. Die Information d bezüglich der Phoneme im ROM 1 wird in die führende Adresse von ROM 1 mittels Dekodierer 108 dekodiert und in Schritt n-, in den Adreßzähler ADC 2 gegeben. Die Schwingungsinformation ρ wird in eine tatsächliche Schwingungslänge mittels des Dekodierers DC 2 verwandelt und in den Zähler CT 2 gegeben. Die Anzahl N der Daten, welche die Grundtonwellenform wiedergeben, wird vom Speicher ROM 1 in den Zähler CT 3 (ng) geschoben. Diese Anzahl η der Daten ist variabel. Jetzt ist der Adreßzähier ADC 2 für einen Zugriff zum Speicher ROM 1 zum Speichern der Phoneme bereit; der Ausgang desselben wird in das Y-Register 117 (n9) überführt. Die Multiplizierstufe 118 multipliziert die Inhalte des Y-Registers mit der im X-Register 107 gespeicherten Amplitudeninformation und überführt die Ergebnisse über die Störgeräuschunterdrückungsschaltung 119 (n12) in das V-Register 125. Die Übertragung der Inhalte des V-Registers in das W-Register 126 erfolgt im Takt der Abtastfrequenz Sf(n]}). Die Inhalte des W-Registers werden durch den D/A-Wandler 127 in einen analogen Wellenzug umgewandelt und über die Ausgangsschaltung 128(fl|4) nach außen abgegeben. Danach werden die Zähler CT 2 und CT 3 synchron mit der Abtastfrequenz Sf reduziert, und sofern diese Zähler nicht auf Null sind (ihren Nullzustand überwachen die Entscheidungsschaltungen J 2 und J 3), zählt der Adreßzähler ADC 2 von n]5-/?|9 weiter, um Zugriff zum Speicher ROM 1 (n9) zu gewähren und in zuvor beschriebener Weise einen Wellenzug zu erzeugen. Durch Wiederholung der beschriebenen Schritte wird eine Kette von Wellenzügen erzeugt.
Stellt der Zähler CT 2 den Wert Null (n,6) fest, dann wird der Zähler CT 1 heruntergezählt (n?0). Solange die Inhalte des Zählers CT 1 gemäß Feststellung der Entscheidungsschaltung J 1 nicht gleich Null sind, werden die Adreßzähler ADC 2 sowie CT 2 und CT 3 wie beschrieben geladen, um in der Schrittfolge von n7-n14 Wellenzüge zu liefern. Stellt jedoch die Entscheidungsschaltung J 3 vor der Entscheidungsschaltung J 2 den Null-Wert fest, dann erhält der Adreßzähler ADC 2 keinen Aufwärtszählbefehl mehr. Der Adreßzähler ADC 2 liefert die gleichen Adressen weiter, bis die Entscheidungsschaltung J 2 im Zähler CT 2 den Wert Null feststellt. Folglich erhält das Register W den gleichen Wert zur Erzeugung eines Analog-Wellenzuges über den D/A-Wandler 127 und damit auch die Ausgangsschaltung 128. Dieser Vorgang läuft solange, bis die Entscheidungsschaltung J 1 den Inhalt Null beim Zähler CT 1 feststellt. Ist dies der Fall (n2]), wird beim Pufferregister 104 der nächste Ausgangszustand gesetzt, falls nicht das Flip-Flop 105 gesetzt ist («22)· Mit diesem Inhalt des Flip-Flops 105 wird der Zentral prozessor CPU über das Ende der Adreß-Operation («23) informiert.
Die Schaltung von F i g. 5 läßt sich in unterschiedlicher Weise abwandeln. Zum Beispiel kann auf die Dekodierer DC 1 und DC 2 in Fi g. 5 verzichtet werden. Statt dessen kann die Übertragung der führenden Adresse und des Adreßumfangs aus dem Speicher ROM 2 und die Übertragung der Information d und ρ in den Adreßzähler ADC 2 und Zähler CT 2 vom Pufferregister 104 direkt erfolgen.
Der Speicher ROM 2 103 sollte eine große Datenkapazität haben. Beispielsweise liegt bei Männern die Schwingungsfrequenz in einem Bereich zwischen 60 und 200 Hz. Bei einer Abtastung mit 10 kHz hat der Ausgang maximal 167 Abfragewerte und benötigt daher 8 Bits zur Festlegung. Vorausgesetzt, daß mittels der Quantisierungstechnik 32 mögliche Werte der Schwingungsfrequenz erhalten werden, so genügen zur Repräsentation 5 Bits, 3 Bits können durch Kompressionsbefehle gespart werden.
I η F i g. 5 werden die Enddaten nach Abgabe der N-Ausgänge in das Y-Register 117 eingegeben, wenn CT 2 > CT 3 ist. Bei der abgewandelten Ausführung in Fig. 7 gelangt der Wert 0 in die Multiplizierstufe 129 nachdem Setzen von J 3. Mit anderen Worten: Die aus den Phonemen aus dem ROM 1 bestehenden Grund-Tonwellenzüge sind in der Tonhöhe festgelegt, jedoch in der Schwingungsfrequenz durch Zugabe von Daten mit einem gegebenen Bias-Pegel variabel. Auf diese Weise wird Speicherkapazität gespart und das Kompressionsverhältnis 60 \
erhöht. t
In F i g. 8 kann ein Eingang J 3 in ein Tor 129' der Multiplizierstufe 118 eingegeben werden. Die Amplitudeninformation s kann entweder gemäß F i g. 5 linear oder gemäß Fi g. 9 nicht-linear kontrolliert werden. Im letzteren Fall werden die Inhalte des X-Registers 107 durch den Dekodierer DC 3 130 ausgewertet und in das Pufferregisler 2 131 eingegeben, danach durch die Multiplizierstufe 118 multipliziert. Ist beispielsweise i = 3 und m = 7, 65 |
dann werden die Ergebnisse von Fig. 10 erhalten, worin (1,44) π bei η = 1-15 ist. *
Die quantisierende Störunterdrückungsschaltung (119) arbeitet folgendermaßen: Im Y-Register (117) sind beispielsweise 4 Bits, und in dem die Amplitudeninformation s enthaltenden X-Register 107 3 Bits gespeichert.
In diesem Fall sollte das von der Multiplizierstufe 118 errechnete Ergebnis mehrals4 Bits enthalten. Die möglichen Datenebenen im Y-Register 117 sind 16 (24) und die möglichen Vielfachen der Daten im X-Register sind 8 (23). Es gibt somit 16x8 = 128 mögliche Ausgangspegel der Multiplizierstufe 118, das erfordert 7 (27 = 128) Bits. Die von der Multiplizierstufe 118 errechneten Resultate sind länger als die Anzahl der Bits des Y-Registers s 117. Dadurch ist es möglich, die Grundtonwellenformen im Speicher ROM 1 in Gestalt einer minimalen Länge von quantisierenden Bits zu speichern, die dann durch die Amplitudeninformation kontrolliert werden. Dabei werden ebenfalls Verzerrungen und Quantisier-Geräusche reduziert. Die Störgeräuschunterdrückungsschaltung (119) in Fig. 5 enthält Pufferregister Z 120, T 121 und U 123. Die
Schaltung 122 errechnet aus den Inhalten von Z und T—— und aktiviert synchron zur Abtastfrequenz ein Tor
124, damit das V-Register 125 abwechselnd die Inhalte der Register U und T erhält.
F i g. 11 zeigt die Quantisierpegel als Funktion der Abtastzeit. Werden Daten gemäß F i g. 11 (a) in Sequenz von der Multiplizierstufe 118 gewonnen, dann gibt das V-Register 125 in Sequenz Ausgänge gemäß Fig. 11 (c) ab.
Die Digital/Analog-Umwandlung erfolgt zwischen den Abtastzeitpunkten /,, t2 Zwischen /0 und t{ wird ein
Quantisierpegel-Durchschnittswert erstellt, und somit liefert das U-Register 123 die in Fig. 11 (b) dargestellten Daten, um abwechselnd Daten gemäß Fig. 11 (a) und 11 (b) für das V-Register 125 auszuwählen, dessen Ausgang Fi g. 11 (c) zeigt. Die resultierenden quantisierten Daten setzt der D/A-Wandler 127 in einen Analog-Wellenzug um. Dieser Wellenzug wird in der Ausgangsschaltung 128 geglättet. Dabei sind die durch Quantisierungseffekte entstandenen Störgeräusche unterdrückt.
Hierzu 5 Blatt Zeichnungen

Claims (1)

  1. Patentanspruch:
    Sprachsynthesizer mit
    - einer Rekonstruktionsschaltung (101-118) zum Rekonstruieren von Worten aus digital gespeicherter Wortinformation und
    - einer Ausgangsschaltung (125 bis 128) mit einem Digital/Analog-Wandler (127) und einem Lautsprecher,
    dadurch gekennzeichnet, daß
DE3006339A 1979-02-20 1980-02-20 Sprachsyntesizer Expired DE3006339C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1930979A JPS55111995A (en) 1979-02-20 1979-02-20 Method and device for voice synthesis

Publications (2)

Publication Number Publication Date
DE3006339A1 DE3006339A1 (de) 1980-08-21
DE3006339C2 true DE3006339C2 (de) 1986-08-07

Family

ID=11995810

Family Applications (1)

Application Number Title Priority Date Filing Date
DE3006339A Expired DE3006339C2 (de) 1979-02-20 1980-02-20 Sprachsyntesizer

Country Status (3)

Country Link
US (1) US4716591A (de)
JP (1) JPS55111995A (de)
DE (1) DE3006339C2 (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56168698A (en) * 1980-05-29 1981-12-24 Suwa Seikosha Kk Voice synthesizer
JPS5758198A (en) * 1980-09-25 1982-04-07 Suwa Seikosha Kk Voice synthesizer
JPS5767999A (en) * 1980-10-16 1982-04-24 Suwa Seikosha Kk Voide synthesizer
JPS5774795A (en) * 1980-10-28 1982-05-11 Suwa Seikosha Kk Voice synthesizer
US4449231A (en) * 1981-09-25 1984-05-15 Northern Telecom Limited Test signal generator for simulated speech
US4625286A (en) * 1982-05-03 1986-11-25 Texas Instruments Incorporated Time encoding of LPC roots
JPS6021098A (ja) * 1983-07-15 1985-02-02 沖電気工業株式会社 音声合成方法
JPS6022195A (ja) * 1983-07-18 1985-02-04 沖電気工業株式会社 音声合成方法
US4829473A (en) * 1986-07-18 1989-05-09 Commodore-Amiga, Inc. Peripheral control circuitry for personal computer
JP3361066B2 (ja) 1998-11-30 2003-01-07 松下電器産業株式会社 音声合成方法および装置
DE19860133C2 (de) * 1998-12-17 2001-11-22 Cortologic Ag Verfahren und Vorrichtung zur Sprachkompression
ATE353503T1 (de) * 2001-04-24 2007-02-15 Nokia Corp Verfahren zum ändern der grösse eines zitlerpuffers zur zeitausrichtung, kommunikationssystem, empfängerseite und transcoder
JP6507579B2 (ja) * 2014-11-10 2019-05-08 ヤマハ株式会社 音声合成方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3588353A (en) * 1968-02-26 1971-06-28 Rca Corp Speech synthesizer utilizing timewise truncation of adjacent phonemes to provide smooth formant transition
US3641496A (en) * 1969-06-23 1972-02-08 Phonplex Corp Electronic voice annunciating system having binary data converted into audio representations
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
JPS5138526B2 (de) * 1971-09-17 1976-10-22
US3982070A (en) * 1974-06-05 1976-09-21 Bell Telephone Laboratories, Incorporated Phase vocoder speech synthesis system
JPS5737079B2 (de) * 1974-11-20 1982-08-07
US4076958A (en) * 1976-09-13 1978-02-28 E-Systems, Inc. Signal synthesizer spectrum contour scaler
US4163120A (en) * 1978-04-06 1979-07-31 Bell Telephone Laboratories, Incorporated Voice synthesizer

Also Published As

Publication number Publication date
US4716591A (en) 1987-12-29
JPS55111995A (en) 1980-08-29
DE3006339A1 (de) 1980-08-21

Similar Documents

Publication Publication Date Title
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE68919637T2 (de) Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen.
DE69028072T2 (de) Verfahren und Einrichtung zur Sprachsynthese
DE3006339C2 (de) Sprachsyntesizer
DE3853916T2 (de) Digitaler-sprachkodierer mit verbesserter vertoranregungsquelle.
DE4492048C2 (de) Vektorquantisierungs-Verfahren
DE69013738T2 (de) Einrichtung zur Sprachcodierung.
DE69832358T2 (de) Verfahren zur Sprachkodierung und -dekodierung
DE2551632C2 (de) Verfahren zum Zusammensetzen von Sprachnachrichten
DD143970A1 (de) Verfahren und anordnung zur synthese von sprache
EP1184839A2 (de) Graphem-Phonem-Konvertierung
DE2115258A1 (de) Sprachsynthese durch Verkettung von in Formant Form codierten Wortern
DE2229149A1 (de) Verfahren zur Übertragung von Sprache
DE3688749T2 (de) Verfahren und vorrichtung zur sprachsynthese ohne informationen über die stimme oder hinsichtlich stimmhöhe.
DE69720861T2 (de) Verfahren zur Tonsynthese
DE9006717U1 (de) Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe von Sprachsignalen
DE69033510T3 (de) Numerischer sprachcodierer mit verbesserter langzeitvorhersage durch subabtastauflösung
DE2622423B2 (de) Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form
DE3019823C2 (de)
DE69014680T2 (de) Einrichtung zur Stimmensynthese.
DE3228757A1 (de) Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen
DE1811040C3 (de) Anordnung zum Synthetisieren von Sprachsignalen
EP0058130B1 (de) Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens
DE3101590C2 (de) Anordnung zum Erzeugen eines Sprachsignals
DE2649540A1 (de) Verfahren und anordnung zur sprachsynthese

Legal Events

Date Code Title Description
OAP Request for examination filed
OD Request for examination
D2 Grant after examination
8363 Opposition against the patent
8365 Fully valid after opposition proceedings
8328 Change in the person/name/address of the agent

Free format text: PATENTANWAELTE MUELLER & HOFFMANN, 81667 MUENCHEN