DE3006339C2 - Sprachsyntesizer - Google Patents
SprachsyntesizerInfo
- Publication number
- DE3006339C2 DE3006339C2 DE3006339A DE3006339A DE3006339C2 DE 3006339 C2 DE3006339 C2 DE 3006339C2 DE 3006339 A DE3006339 A DE 3006339A DE 3006339 A DE3006339 A DE 3006339A DE 3006339 C2 DE3006339 C2 DE 3006339C2
- Authority
- DE
- Germany
- Prior art keywords
- register
- information
- circuit
- data
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000015572 biosynthetic process Effects 0.000 abstract description 3
- 238000003786 synthesis reaction Methods 0.000 abstract description 3
- 101100087530 Caenorhabditis elegans rom-1 gene Proteins 0.000 description 16
- 101100305983 Mus musculus Rom1 gene Proteins 0.000 description 16
- 239000011295 pitch Substances 0.000 description 13
- 230000001629 suppression Effects 0.000 description 11
- 238000005070 sampling Methods 0.000 description 9
- 101710096660 Probable acetoacetate decarboxylase 2 Proteins 0.000 description 8
- 230000006835 compression Effects 0.000 description 8
- 238000007906 compression Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000013139 quantization Methods 0.000 description 7
- 230000010355 oscillation Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000000034 method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 108091022873 acetoacetate decarboxylase Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrophonic Musical Instruments (AREA)
Description
- zwischen der Rekonstruktionsschaltung (101 -118) und der Ausgangsschaltung (125 bis 128) eine Störgeräuschunterdrückungsschaltung
(119) vorhanden ist, mit
- einem ersten PufTerregister (120, Z), dem ein Signal von der Rekonstruktionsschaltung zugeführt
wird,
- einem zweiten Pufferregister (121, T), das hinter das erste Pufferregister geschaltet ist,
- einer Rechenstufe (122) zum Errechnen von Zwischenwerten ((Z + T)/2) der Werte des ersten und des
zweiten Pufferregister:»,
- einem Rechenergebnisregister (123, U), dessen Eingang mit dem A usgang der Rechenstufe (122) verbunden
ist und
- einem Wählgatter (124, G), das abwechselnd die Inhalte des zweiten Pufferregisters und des
Rechenergebnisregisters mit einer Abtastfrequenz (Sr) an die Ausgangsschaltung gibt.
Die Erfindung betrifft einen Sprachsynthesizer mit einer Rekonstruktionsschaltung zum Rekonstruieren von
Worten aus digital gespeicherter Wortinformation und einer Ausgangsschaltung mit einem Digital/Analog-Wandler
und einem Lautsprecher.
Ein derartiger Sprachsynthesizer ist bereits aus der DE-OS 25 19 483, insbesondere Fig. 5, bekannt. Dieser
bekannte Sprachsynthesizer besitzt jedoch keine Störgeräuschunterdrückungsschaltung.
Eine Störgeräuschunterdrückungsschaltung zur Unterdrückung von Quantisiergeräuschen bei Sprachsynthesizern
ist dagegen aus dem Buch von James L. Flanagan, »Speech Analysis Synthesis and Perception«, 2. Auflage,
Berlin, Heidelberg, New York, 1972, Springer-Verlag, Seiten 401 bis 405, bekannt. In der dort beschriebenen
Schaltung wird ein Signal mit Hilfe eines Abtastsignals vorgegebener Höhe abgetastet. Je kleiner die
Abtasthöhe (step size) ist, desto besser ist die Störgeräuschunterdrückung.
Ein weiterer Sprachsynthesizer ist aus der amerikanischen Zeitschrift »Electronics«, August 31,1978, Seiten
109 bis 116 bekannt. Insbesondere auf Seite 109, linke Spalte, ist beschrieben, daß der Sprachsynthesizer Festwertspeicher
und Prozessorschaltungen aufweist und von der Kompressionstechnik Gebrauch macht, die als
LPC-Technik (Linear Predictive Coding) bekannt ist.
Ausgehend von dem eingangs genannten Stand der Technik liegt der Erfindung die Aufgabe zugrunde, einen
Sprachsynthesizer mit einer Störgeräuschunterdrückungsschaltung zur Unterdrückung von Störgeräuschen aufgrund
von Quantisierungs- und Filtereffekten zu schaffen, deren Eingangssignal zur Störgeräuschunterdrückung
nicht durch ein zusätzliches Abtastsignal abgetastet zu werden braucht.
Die Lösung der gestellten Aufgabe besteht darin, daß zwischen der Rekonstruktionsschaltung und der Ausgangsschaltung
(des Sprachsynthesizers) eine Störgeräuschunterdrückungsschaltung vorhanden ist, mit einem
ersten Pufferregister, dem ein Signal von der Rekonstruktionsschaltung zugeführt wird, einem zweiten Pufferregister,
das hinter das erste Pufferregister geschaltet ist, einer Rechenstufe zum Errechnen von Zwischenwerten
der Werte des ersten und des zweiten PufTerregisters, einem Rechenergebnisregister, dessen Eingang mit dem
Ausgang der Rechenstufe verbunden ist, und einem Wählgatter, das abwechselnd die Inhalte des zweiten Puflerregisters
und des Rechenergebnisregisters mit einer Abtastfrequenz (Sß an die Ausgangsschaltung gibt.
Der Sprachsynthesizer eignet sich für viele Anwendungen, beispielsweise zur akustischen Angabe der Ergebnisse
eines elektronischen Rechners, dessen Bediener sich auf andere Arbeit konzentrieren kann, oder für solche
Fälle, bei denen Instrumente schwierig ablesbar sind. So kann der Synthesizer beispielsweise einem Fahrer die
Fahrgeschwindigkeit mitteilen, einem Techniker die Spannung an einem bestimmten Schaltungspunkt nennen,
den Bediener einer Präzisions-Werkzeugmaschine mit Informationen beliefern u. dgl. Er eignet sich auch als
Ersatz für die visuelle Ablesung elektronischer Uhren oder zur Übermittlung von Sprachnachrichten unter
bestimmten Umständen. Ferner könnte der Synthesizer im Fahrzeug über das Fahren mit angezogener Handbremse
oder nicht-angelegtem Gurt informieren, oder die Verständigung zwischen Computer und Mensch
erleichtern oder als Interface zwischen Bediener und Mechanismen wie Drucktastentelefonen, Fahrstühlen,
Geschirrspülern u. dgl. dienen.
Nachstehend wird ein die Merkmale der Erfindung aufweisendes Ausführungsbeispiel unter Bezugnahme auf"
eine Zeichnung näher erläutert. Es zeigen:
Fig. 1 ein vereinfachtes Blockschaltbild eines Sprachsynhesizers,
F i g. 2 eine grafische Darstellung des Frequenzvcrlaufs analoger elektrischer Signale, die das Wort »nana« (die
Zahl »sieben« auf japanisch) repräsentieren,
Fig. 3 einen Wellenzug eines Grundlautes »«ι«,
Fig. 4 einen Wellenzug .V|-a(, unter Einbeziehung variabler Faktoren bezüglich des Grundlautes,
Fig. 5 ein weiter unterteiltes Blockschaltbild des Sprachsynthesizers nach Fig. 1,
Fig. 6 ein Flußdiagramm zum Betriebsablauf der Einrichtung nach Fig. 5,
Fig. 7 bis 10 Abwandlungen der Einrichtung nach Fig. S, und
Fig. Ii grafische Darstellungen verschisdener quantisierter Signale innerhalb der Einrichtung nach Fig. 5.
Das nachstehend beschriebene Ausfuhrungsbeispiel eines Sprachsynthesizers ist gemäß Fig. 1 grob in sieben
Blöcke unterteilt, und zwar in einen Zentralprozessor CPU 1 zur sequentiellen Steuerung des gesamten Systems
nach gewählten Befehlen, einen Festspeicher ROM 1 (= Read Only Memory) in einem Block 2 zur Speicherung
von Phonemen oder Lauten bzw. Lautfolgen in Digitalform und zur Wiedergabe nachstehend beschriebener
grundlegender Ton wellenzüge, und in einen dritten Block 3 mit einem Festspeicher ROM 2 zum Speichern einer
weiter unteo als »Kompressionsbefehls-Information« bezeichneten Digitalinformation zur Durchführung verschiedener
Anpassungsoperat'onen wie Veränderung der Tonhöhenintervalle, Amplitudenänderungen, Wiederholung
von Tonhöhenintervallen und Änderung der Zeitachse. Eine als Block 4 bezeichnete Wiedergabestufe
bildet aufgrund der in Block 3 erfolgten Anpassung ensprechende digital synthetisierte Wellenzüge, ein
Pufferspeicher in Block 5 dient der vorübergehenden Speicherung und ein Übertrager in Block 6 dient zur Übertragung
der synhetisierten Wellenzüge unter Abschwächung von Verzerrungen und quantisiertem Rauschen
durch Filtereffekte. Ein Digital/Analogwandler 7 im letzten Block setzt die digital synthetisierten Wellenzüge in
entsprechende analoge Wellenzüge um.
Der Zentral prozessor CPU 1 gibt eine Reihe von Befehlen für zu erzeugende sprachliche Nachrichten vor, die
in ausgewählte Adressen des Festspeicher.- ROM 2 in Block 3 gelangen, um daraus gewünschte Kompressionsbefehis-lnformation
abzurufen, welche es ermöglicht, die der Reihe nach oder selektiv aus dem ROM 1 und der
Wiedergabestufe 4 abgerufenen Phoneme oder Laute der zuvor erwähnten Veränderungsoperationen an den
Grundlauten zu unterziehen, welche aus den abgerufenen Phonemen besehen.
Bei dem Sprachsynthesizer existiert der Steuerspeicher ROM 2 unabhängig von dem Speicher ROM 1 zur
Speicherung der Laute, welche die Wellenzüge der Grundlaute bilden. Mit anderen Worten: Im Steuerspeicher
ROM 2 sind verschiedene Kontrollinformationen gespeichert, welche den Tonhöhenintervallen, Amplituden
und der Anzahl von Wiederholungen entsprechen. Es ist erwünscht, daß die Phoneme mit jeweils einer mögliehst
kleinen Anzahl von Bits gespeichert werden.
Nachstehend werden die im Speicher gespeicherten Phoneme, die Informationsstruktur der einzelnen Phoneme
und die verschiedenen Anpassungsoperationen beschrieben.
In Fig. 2 ist grafisch der Frequenzverlauf des analogen elektrischen Signals für die hörbare Wiedergabe des
Wortes »nana« (die Zahl »sieben« auf japanisch) in Abhängigkeit von der Zeit und mit ersten bis dritten Formantfrequenzen
als Parameter aufgetragen. Es besteht die Möglichkeit zur Gewinnung eines dynamischen
Sprachspektrums durch Fourier-Umsetzung der Original-Sprachinformation mittels eines bekannten Spektrum-Analysators.
Die ursprüngliche Toninformation wird durch die Intensität der entsprechenden Frequenzen
des Originaltones wiedergegeben. Es gibt bestimmte Formant-Frequenzen mit entsprechenden Rahmen (Tonhöhen)
der resultierenden Original-Toninformation. Wie eingangs erwähnt, bildet die Erzeugung der richtigen
Formant-Frequenzen der Phoneme die wichtigste Voraussetzung für eine intelligente akustische Synthese.
In Fig. 2 sind die erste, zweite und dritte Formant-Frequenz des Original-Sprachwortes »nana« aufgetragen,
welches insgesamt in 48 Rahmen b\-bw unterteilt ist. Die an die entsprechenden Rahmen 61-648 angenäherte
Frequenz, welche das Original-Sprachwort repräsentiert, kann als Kette von elf Phonemdaten O1-On definiert
werden. Die erste Formant-Frequenz entspricht den verbundenen Daten a\ -a2 bzw. dem Phonem »n« von etwa
200-300 Hz, und die zweite Formant-Frequenz beträgt etwa 400-500 Hz. Die erste, zweite und dritte Formant-Frequenz
für das Phonem »a« betragen 600-700 Hz, 1200 Hz und 2600-2700 Hz. Ähnliche Phonemdaten für
U]-On können wie nachstehend ersetzt werden:
a2 a}
ah a7 a8
a]0 au
45
O4 a$
a$ 03
Das Original-Sprachwort »nana« kann fünf Grundphonemdaten α,, a2, 03, aA und a5 umfassen. Die das Original-Sprachwort
repräsentierenden Rahmen b\-bw lassen sich folgendermaßen schreiben:
50
Original-Sprach wortrahmen
Phonemdaten
Ersatz-Phonemdaten
Modifizierte Original-Sprachwortdaten
60
'An
bn
bn
Ol
04
as
ai
a4
as
X\ ~ Xf,
Jf? ~ Jfio
Jf 13 ~ Jf27
Ol
Fortsetzung | [a] | Phonemdaten | 30 | 06 | 339 | Modifizierte Original- Sprachwortdaten |
Original- Sprachwort rahmen |
a9
βιι |
Ersatz-Phonemdaten | •X40 **"* ^*47 | |||
as | ||||||
Mit anderen Worten: Das Original-Sprachwort »nana« ist im Speicher ROM 1 in Form einer Folge von fünf
Phonemen α\-α$ gespeichert. Die gespeicherten Inhalte der Phonemwellenzuginformation sind von Nutzen,
wenn komprimierte Sprache einfach durch Speichern gewählter Abschnitte der Wellenzuginformation synthetisiert
wird. Die modifizierten Original-Sprachwortrahmen xt -x4i werden durch Wiederholung der Phonemdaten
und durch sachgemäße Anpaßoperationen erstellt. Beispielsweise können modifizierte Original-Sprachwortrahmen
durch Veränderung des Phonems, des Tonhöhenintervalls, der Amplitude, des Zeitachsen-Modifizierfaktors
u. dgl. hergestellt werden.
Die Original-Sprachwortrahmen x\-x^ können beispielsweise folgendermaßen geschrieben werden:
je, at F (au pi, S1, I1)
X6-F (β|, p6, s6, t6)
Diese Formel ist eine Näherungsgleichung, weil Pegel und Tonhöhe genormt sind. In dieser Formel sind ρ das
Tonhöhenintervall, s der Amplitudenfaktor und / der Zeitachsen-Modifizierfaktor. Diese Variablen befinden
sich als Kompressionsbefehls-Information im Festspeicher ROM 2 abgespeichert.
Fig. 3 enthält den Wellenzug für einen Grundlaut »a2« und Fig. 4 ein Beispiel für Wellenzüge X1-O6, bei
denen die Varianten wie p, s und t gegenüber dem Grundlaut-Wellenzug a{ berücksichtigt sind. Der Phonem-Wellenzug
O1 ist eine Funktion der Zeit und läßt sich durch den Amplitudenfaktor cr„ modifizieren, sofern yt -yb
und α, die nachstehenden Bedingungen erfüllen. Aus diesem Grund kann ein synthetischer Wellenzug in Form
eines Vielfachen des Phonem-Wellenzuges erzeugt werden.
y6 =
Darin ist cc„ der im Speicher ROM 1 gespeicherte Amplitudenfaktor.
Wie bereits erwähnt, können die komprimierten synthetischen Wellenzüge durch Anpaßoperationen wie Veränderung
des Tonhöhenintervalls, Veränderung der Amplitude und Veränderung des Zeitacnsen-Modifizierfaktors
erzeugt werden.
Der in Fig. 5 als Blockschaltbild dargestellte Sprachsynthesizer enthält wieder die Baugruppen CPU, ROM 1 und ROM 2 aus F i g. 1. Ein Adreßzähler ADC 1102 gewährt Zugriff zu einer gewünschten Adresse im Speicher ROM 2 103 abhängig von Sprachwort-Ausgangsbefehlen aus dem Zentralprozessor CPU 101. Ein Pufferregister BUFF 104 speichert aus dem Speicher ROM 1 104 zugegangene Information zeitweilig. In Abt. f befinden sich das Ende der Informationskette und das Zugriffsende kennzeichnende Daten, und in Abt. r die Anzahl der Wiederholungen der Tonhöhenintervalle. Die von Menschen oder Musikinstrumenten abgegebenen Töne bestehen im allgemeinen aus Wiederholungen der gleichen Wellenzüge. Töne gleicher Höhe von Musikinstrumenten haben die gleiche Wellenform, und bei den Tonfrequenzen treten die Schwingungen pro Sekunde zur gleichen Zeit auf. Zwar weist die menschliche Sprache ähnliche Wiederholungen von Wellenzügen auf, jedoch verändern sich nicht nur die Frequenzen der Schwingungen, sondern auch die Wellenformen bei gesprochenen Wörtern. Jedoch können wiederholte Wellenformen als gleiche Wellenform betrachtet werden, nur für eine sehr kurze Dauer. Der Kompressionsfaktor η steht durch Eingabe einer η entsprechenden Information im Speicher ROM 2 zur Verfügung. Der Pufferspeicher 104 speichert ferner Amplitudeninformation s. Eine gewünschte synthetische Wellenform einer festgelegten Mehrfachbeziehung wird bereitgestellt durch Multiplizieren der in Fig. 3 und 4 dargestellten Grundlaut-Wellenzüge mit einem bestimmten Amplitudenfaktor, d dient als zeitweilige Information beim sequentiellen oder selektiven Aufrufen der Phoneme aus dem Speicher ROM 1. Die gewählte Information wird durch einen Dekodierer DC] in die führende Adresse dekodiert und in einen anderen Adreßzähler ADC 2 111 eingegeben. Die Information ρ in bezug auf das Tonhöhen- bzw. Schwingungsinterval! wird durch einen Dekodierer DC2109 in eine tatsächliche Tonhöhenlänge verwandelt und in einen mit 113 bezeichneten Zähler CT 2 eingegeben. Ein X-Register 107 speichert die Amplitudeninformation s, mit welcher die Inhalte eines Y-Registers 117 multipliziert werden, welches seinerseits die Phoneme enthält, die mittels einer Multiplizierstufe 1 118 vom Speicher ROM 1 eingeschoben wurden.
Der in Fig. 5 als Blockschaltbild dargestellte Sprachsynthesizer enthält wieder die Baugruppen CPU, ROM 1 und ROM 2 aus F i g. 1. Ein Adreßzähler ADC 1102 gewährt Zugriff zu einer gewünschten Adresse im Speicher ROM 2 103 abhängig von Sprachwort-Ausgangsbefehlen aus dem Zentralprozessor CPU 101. Ein Pufferregister BUFF 104 speichert aus dem Speicher ROM 1 104 zugegangene Information zeitweilig. In Abt. f befinden sich das Ende der Informationskette und das Zugriffsende kennzeichnende Daten, und in Abt. r die Anzahl der Wiederholungen der Tonhöhenintervalle. Die von Menschen oder Musikinstrumenten abgegebenen Töne bestehen im allgemeinen aus Wiederholungen der gleichen Wellenzüge. Töne gleicher Höhe von Musikinstrumenten haben die gleiche Wellenform, und bei den Tonfrequenzen treten die Schwingungen pro Sekunde zur gleichen Zeit auf. Zwar weist die menschliche Sprache ähnliche Wiederholungen von Wellenzügen auf, jedoch verändern sich nicht nur die Frequenzen der Schwingungen, sondern auch die Wellenformen bei gesprochenen Wörtern. Jedoch können wiederholte Wellenformen als gleiche Wellenform betrachtet werden, nur für eine sehr kurze Dauer. Der Kompressionsfaktor η steht durch Eingabe einer η entsprechenden Information im Speicher ROM 2 zur Verfügung. Der Pufferspeicher 104 speichert ferner Amplitudeninformation s. Eine gewünschte synthetische Wellenform einer festgelegten Mehrfachbeziehung wird bereitgestellt durch Multiplizieren der in Fig. 3 und 4 dargestellten Grundlaut-Wellenzüge mit einem bestimmten Amplitudenfaktor, d dient als zeitweilige Information beim sequentiellen oder selektiven Aufrufen der Phoneme aus dem Speicher ROM 1. Die gewählte Information wird durch einen Dekodierer DC] in die führende Adresse dekodiert und in einen anderen Adreßzähler ADC 2 111 eingegeben. Die Information ρ in bezug auf das Tonhöhen- bzw. Schwingungsinterval! wird durch einen Dekodierer DC2109 in eine tatsächliche Tonhöhenlänge verwandelt und in einen mit 113 bezeichneten Zähler CT 2 eingegeben. Ein X-Register 107 speichert die Amplitudeninformation s, mit welcher die Inhalte eines Y-Registers 117 multipliziert werden, welches seinerseits die Phoneme enthält, die mittels einer Multiplizierstufe 1 118 vom Speicher ROM 1 eingeschoben wurden.
Ein Flip-Flop 105 erkennt die /-Information im vorübergehend speichernden Pufferspeicher 104 und teilt
dem Zentralprozessor CPU 101 das Ergebnis mit. Bei / = 1 wird der Zentralprozessor CPU durch Setzen des
Flip-Flops 105 darüber informiert, daß diese Information das Ende der Adreß-Operation bedeutet. Ein Zähler
CT 1 106 zählt die Anzahl der Wiederholungen a, und eine Entscheidungsschaltung J 1 110 erkennt, daß der
Zählerinhalt des Zählers CT 1 Null ist. In ähnlicher Weise erkennen Entscheidungsschaltungen J 2 und J 3, mit
115 und 116 bezeichnet, wenn die Zähler CT 2 113 und CT 3 114 auf Null sind. Der Zähler CT 3 nimmt die
Anzahl N von Daten auf, welche die Sprachwellenzüge bilden. Zur Unterdrückung von Störgeräuschen durch
Filtereffekte ist der Ausgang der Multiplizierschaltung 118 mit einer Störgeräuschunterdrückungsschaltung 119
verbunden, die eine Rechenstufe 122 zur Errechnung von Zwischenwerten zwischen Pufferregistern Z, T und U
sowie Register Z und T enthält und insbesondere errechnet. Dieses Ergebnis wird dann in das
U-Register 123 eingegeben. Ein Wählgatter G 124 taktet abwechselnd die Inhalte der U- und T-Register mit
einer Abtastfrequenz Sf aus. Hierzu näheres weiter unten. Der Ausgang dieses Wählgatters G 124 wird über V-
und W-Register 125 und 126 mittels eines Digital/Analogwandlers in einen Analog-Wellenzug umgewandelt
und durch eine Ausgangsschaltung 128 als Tonsignal abgegeben.
Die Arbeitsweise der Schaltung von Fig. 5 wird nachstehend anhand des Flußdiagramms von Fi g. 6 erläutert:
Bei Abgabe des Wellenzug-Ausgangsbefehls durch den Zentralprozessor CPU 101 (Schritt n,) werden die entsprechenden
Register und Flip-Flops mit ihren Ausgangswerten geiaden und die Anfangsadresse zur Auswahl
der Ausgangsinformation in den Adreßzähler 102 eingegeben (Schritt n2 und n3). Diese Adresse bietet Zugriff
zum Speicher ROM 2 und veranlaßt das Eingeben verschiedener Kompressionsbefehlsinformationen
(Schritt n4) in das zeitweilig speichernde Pufferregister 104. Die Information r in bezug auf die Zahl der Wiederholungen
wird aus dem Pufferregister 104 in den Zähler CT, (n5) und die Amplitudeninformation s in das
X-Register 107 («,,) geschoben. Die Information d bezüglich der Phoneme im ROM 1 wird in die führende
Adresse von ROM 1 mittels Dekodierer 108 dekodiert und in Schritt n-, in den Adreßzähler ADC 2 gegeben. Die
Schwingungsinformation ρ wird in eine tatsächliche Schwingungslänge mittels des Dekodierers DC 2 verwandelt
und in den Zähler CT 2 gegeben. Die Anzahl N der Daten, welche die Grundtonwellenform wiedergeben,
wird vom Speicher ROM 1 in den Zähler CT 3 (ng) geschoben. Diese Anzahl η der Daten ist variabel. Jetzt ist der
Adreßzähier ADC 2 für einen Zugriff zum Speicher ROM 1 zum Speichern der Phoneme bereit; der Ausgang
desselben wird in das Y-Register 117 (n9) überführt. Die Multiplizierstufe 118 multipliziert die Inhalte des
Y-Registers mit der im X-Register 107 gespeicherten Amplitudeninformation und überführt die Ergebnisse über
die Störgeräuschunterdrückungsschaltung 119 (n12) in das V-Register 125. Die Übertragung der Inhalte des
V-Registers in das W-Register 126 erfolgt im Takt der Abtastfrequenz Sf(n]}). Die Inhalte des W-Registers werden
durch den D/A-Wandler 127 in einen analogen Wellenzug umgewandelt und über die Ausgangsschaltung
128(fl|4) nach außen abgegeben. Danach werden die Zähler CT 2 und CT 3 synchron mit der Abtastfrequenz Sf
reduziert, und sofern diese Zähler nicht auf Null sind (ihren Nullzustand überwachen die Entscheidungsschaltungen
J 2 und J 3), zählt der Adreßzähler ADC 2 von n]5-/?|9 weiter, um Zugriff zum Speicher ROM 1 (n9) zu
gewähren und in zuvor beschriebener Weise einen Wellenzug zu erzeugen. Durch Wiederholung der beschriebenen
Schritte wird eine Kette von Wellenzügen erzeugt.
Stellt der Zähler CT 2 den Wert Null (n,6) fest, dann wird der Zähler CT 1 heruntergezählt (n?0). Solange die
Inhalte des Zählers CT 1 gemäß Feststellung der Entscheidungsschaltung J 1 nicht gleich Null sind, werden die
Adreßzähler ADC 2 sowie CT 2 und CT 3 wie beschrieben geladen, um in der Schrittfolge von n7-n14 Wellenzüge
zu liefern. Stellt jedoch die Entscheidungsschaltung J 3 vor der Entscheidungsschaltung J 2 den Null-Wert
fest, dann erhält der Adreßzähler ADC 2 keinen Aufwärtszählbefehl mehr. Der Adreßzähler ADC 2 liefert die
gleichen Adressen weiter, bis die Entscheidungsschaltung J 2 im Zähler CT 2 den Wert Null feststellt. Folglich
erhält das Register W den gleichen Wert zur Erzeugung eines Analog-Wellenzuges über den D/A-Wandler 127
und damit auch die Ausgangsschaltung 128. Dieser Vorgang läuft solange, bis die Entscheidungsschaltung J 1
den Inhalt Null beim Zähler CT 1 feststellt. Ist dies der Fall (n2]), wird beim Pufferregister 104 der nächste Ausgangszustand
gesetzt, falls nicht das Flip-Flop 105 gesetzt ist («22)· Mit diesem Inhalt des Flip-Flops 105 wird der
Zentral prozessor CPU über das Ende der Adreß-Operation («23) informiert.
Die Schaltung von F i g. 5 läßt sich in unterschiedlicher Weise abwandeln. Zum Beispiel kann auf die Dekodierer
DC 1 und DC 2 in Fi g. 5 verzichtet werden. Statt dessen kann die Übertragung der führenden Adresse und
des Adreßumfangs aus dem Speicher ROM 2 und die Übertragung der Information d und ρ in den Adreßzähler
ADC 2 und Zähler CT 2 vom Pufferregister 104 direkt erfolgen.
Der Speicher ROM 2 103 sollte eine große Datenkapazität haben. Beispielsweise liegt bei Männern die
Schwingungsfrequenz in einem Bereich zwischen 60 und 200 Hz. Bei einer Abtastung mit 10 kHz hat der Ausgang
maximal 167 Abfragewerte und benötigt daher 8 Bits zur Festlegung. Vorausgesetzt, daß mittels der Quantisierungstechnik
32 mögliche Werte der Schwingungsfrequenz erhalten werden, so genügen zur Repräsentation
5 Bits, 3 Bits können durch Kompressionsbefehle gespart werden.
I η F i g. 5 werden die Enddaten nach Abgabe der N-Ausgänge in das Y-Register 117 eingegeben, wenn CT 2
> CT 3 ist. Bei der abgewandelten Ausführung in Fig. 7 gelangt der Wert 0 in die Multiplizierstufe 129 nachdem
Setzen von J 3. Mit anderen Worten: Die aus den Phonemen aus dem ROM 1 bestehenden Grund-Tonwellenzüge
sind in der Tonhöhe festgelegt, jedoch in der Schwingungsfrequenz durch Zugabe von Daten mit einem
gegebenen Bias-Pegel variabel. Auf diese Weise wird Speicherkapazität gespart und das Kompressionsverhältnis 60 \
erhöht. t
In F i g. 8 kann ein Eingang J 3 in ein Tor 129' der Multiplizierstufe 118 eingegeben werden. Die Amplitudeninformation
s kann entweder gemäß F i g. 5 linear oder gemäß Fi g. 9 nicht-linear kontrolliert werden. Im letzteren
Fall werden die Inhalte des X-Registers 107 durch den Dekodierer DC 3 130 ausgewertet und in das Pufferregisler
2 131 eingegeben, danach durch die Multiplizierstufe 118 multipliziert. Ist beispielsweise i = 3 und m = 7, 65 |
dann werden die Ergebnisse von Fig. 10 erhalten, worin (1,44) π bei η = 1-15 ist. *
Die quantisierende Störunterdrückungsschaltung (119) arbeitet folgendermaßen: Im Y-Register (117) sind
beispielsweise 4 Bits, und in dem die Amplitudeninformation s enthaltenden X-Register 107 3 Bits gespeichert.
In diesem Fall sollte das von der Multiplizierstufe 118 errechnete Ergebnis mehrals4 Bits enthalten. Die möglichen
Datenebenen im Y-Register 117 sind 16 (24) und die möglichen Vielfachen der Daten im X-Register sind
8 (23). Es gibt somit 16x8 = 128 mögliche Ausgangspegel der Multiplizierstufe 118, das erfordert 7 (27 = 128)
Bits. Die von der Multiplizierstufe 118 errechneten Resultate sind länger als die Anzahl der Bits des Y-Registers
s 117. Dadurch ist es möglich, die Grundtonwellenformen im Speicher ROM 1 in Gestalt einer minimalen Länge
von quantisierenden Bits zu speichern, die dann durch die Amplitudeninformation kontrolliert werden. Dabei
werden ebenfalls Verzerrungen und Quantisier-Geräusche reduziert. Die Störgeräuschunterdrückungsschaltung (119) in Fig. 5 enthält Pufferregister Z 120, T 121 und U 123. Die
Schaltung 122 errechnet aus den Inhalten von Z und T—— und aktiviert synchron zur Abtastfrequenz ein Tor
124, damit das V-Register 125 abwechselnd die Inhalte der Register U und T erhält.
F i g. 11 zeigt die Quantisierpegel als Funktion der Abtastzeit. Werden Daten gemäß F i g. 11 (a) in Sequenz von
der Multiplizierstufe 118 gewonnen, dann gibt das V-Register 125 in Sequenz Ausgänge gemäß Fig. 11 (c) ab.
Die Digital/Analog-Umwandlung erfolgt zwischen den Abtastzeitpunkten /,, t2 Zwischen /0 und t{ wird ein
Quantisierpegel-Durchschnittswert erstellt, und somit liefert das U-Register 123 die in Fig. 11 (b) dargestellten
Daten, um abwechselnd Daten gemäß Fig. 11 (a) und 11 (b) für das V-Register 125 auszuwählen, dessen Ausgang
Fi g. 11 (c) zeigt. Die resultierenden quantisierten Daten setzt der D/A-Wandler 127 in einen Analog-Wellenzug
um. Dieser Wellenzug wird in der Ausgangsschaltung 128 geglättet. Dabei sind die durch Quantisierungseffekte
entstandenen Störgeräusche unterdrückt.
Hierzu 5 Blatt Zeichnungen
Claims (1)
- Patentanspruch:Sprachsynthesizer mit- einer Rekonstruktionsschaltung (101-118) zum Rekonstruieren von Worten aus digital gespeicherter Wortinformation und
- einer Ausgangsschaltung (125 bis 128) mit einem Digital/Analog-Wandler (127) und einem Lautsprecher,dadurch gekennzeichnet, daß
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1930979A JPS55111995A (en) | 1979-02-20 | 1979-02-20 | Method and device for voice synthesis |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3006339A1 DE3006339A1 (de) | 1980-08-21 |
DE3006339C2 true DE3006339C2 (de) | 1986-08-07 |
Family
ID=11995810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3006339A Expired DE3006339C2 (de) | 1979-02-20 | 1980-02-20 | Sprachsyntesizer |
Country Status (3)
Country | Link |
---|---|
US (1) | US4716591A (de) |
JP (1) | JPS55111995A (de) |
DE (1) | DE3006339C2 (de) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56168698A (en) * | 1980-05-29 | 1981-12-24 | Suwa Seikosha Kk | Voice synthesizer |
JPS5758198A (en) * | 1980-09-25 | 1982-04-07 | Suwa Seikosha Kk | Voice synthesizer |
JPS5767999A (en) * | 1980-10-16 | 1982-04-24 | Suwa Seikosha Kk | Voide synthesizer |
JPS5774795A (en) * | 1980-10-28 | 1982-05-11 | Suwa Seikosha Kk | Voice synthesizer |
US4449231A (en) * | 1981-09-25 | 1984-05-15 | Northern Telecom Limited | Test signal generator for simulated speech |
US4625286A (en) * | 1982-05-03 | 1986-11-25 | Texas Instruments Incorporated | Time encoding of LPC roots |
JPS6021098A (ja) * | 1983-07-15 | 1985-02-02 | 沖電気工業株式会社 | 音声合成方法 |
JPS6022195A (ja) * | 1983-07-18 | 1985-02-04 | 沖電気工業株式会社 | 音声合成方法 |
US4829473A (en) * | 1986-07-18 | 1989-05-09 | Commodore-Amiga, Inc. | Peripheral control circuitry for personal computer |
JP3361066B2 (ja) | 1998-11-30 | 2003-01-07 | 松下電器産業株式会社 | 音声合成方法および装置 |
DE19860133C2 (de) * | 1998-12-17 | 2001-11-22 | Cortologic Ag | Verfahren und Vorrichtung zur Sprachkompression |
ATE353503T1 (de) * | 2001-04-24 | 2007-02-15 | Nokia Corp | Verfahren zum ändern der grösse eines zitlerpuffers zur zeitausrichtung, kommunikationssystem, empfängerseite und transcoder |
JP6507579B2 (ja) * | 2014-11-10 | 2019-05-08 | ヤマハ株式会社 | 音声合成方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3588353A (en) * | 1968-02-26 | 1971-06-28 | Rca Corp | Speech synthesizer utilizing timewise truncation of adjacent phonemes to provide smooth formant transition |
US3641496A (en) * | 1969-06-23 | 1972-02-08 | Phonplex Corp | Electronic voice annunciating system having binary data converted into audio representations |
US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
JPS5138526B2 (de) * | 1971-09-17 | 1976-10-22 | ||
US3982070A (en) * | 1974-06-05 | 1976-09-21 | Bell Telephone Laboratories, Incorporated | Phase vocoder speech synthesis system |
JPS5737079B2 (de) * | 1974-11-20 | 1982-08-07 | ||
US4076958A (en) * | 1976-09-13 | 1978-02-28 | E-Systems, Inc. | Signal synthesizer spectrum contour scaler |
US4163120A (en) * | 1978-04-06 | 1979-07-31 | Bell Telephone Laboratories, Incorporated | Voice synthesizer |
-
1979
- 1979-02-20 JP JP1930979A patent/JPS55111995A/ja active Pending
-
1980
- 1980-02-20 DE DE3006339A patent/DE3006339C2/de not_active Expired
-
1985
- 1985-11-08 US US06/795,760 patent/US4716591A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US4716591A (en) | 1987-12-29 |
JPS55111995A (en) | 1980-08-29 |
DE3006339A1 (de) | 1980-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
DE68919637T2 (de) | Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen. | |
DE69028072T2 (de) | Verfahren und Einrichtung zur Sprachsynthese | |
DE3006339C2 (de) | Sprachsyntesizer | |
DE3853916T2 (de) | Digitaler-sprachkodierer mit verbesserter vertoranregungsquelle. | |
DE4492048C2 (de) | Vektorquantisierungs-Verfahren | |
DE69013738T2 (de) | Einrichtung zur Sprachcodierung. | |
DE69832358T2 (de) | Verfahren zur Sprachkodierung und -dekodierung | |
DE2551632C2 (de) | Verfahren zum Zusammensetzen von Sprachnachrichten | |
DD143970A1 (de) | Verfahren und anordnung zur synthese von sprache | |
EP1184839A2 (de) | Graphem-Phonem-Konvertierung | |
DE2115258A1 (de) | Sprachsynthese durch Verkettung von in Formant Form codierten Wortern | |
DE2229149A1 (de) | Verfahren zur Übertragung von Sprache | |
DE3688749T2 (de) | Verfahren und vorrichtung zur sprachsynthese ohne informationen über die stimme oder hinsichtlich stimmhöhe. | |
DE69720861T2 (de) | Verfahren zur Tonsynthese | |
DE9006717U1 (de) | Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe von Sprachsignalen | |
DE69033510T3 (de) | Numerischer sprachcodierer mit verbesserter langzeitvorhersage durch subabtastauflösung | |
DE2622423B2 (de) | Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form | |
DE3019823C2 (de) | ||
DE69014680T2 (de) | Einrichtung zur Stimmensynthese. | |
DE3228757A1 (de) | Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen | |
DE1811040C3 (de) | Anordnung zum Synthetisieren von Sprachsignalen | |
EP0058130B1 (de) | Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens | |
DE3101590C2 (de) | Anordnung zum Erzeugen eines Sprachsignals | |
DE2649540A1 (de) | Verfahren und anordnung zur sprachsynthese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OAP | Request for examination filed | ||
OD | Request for examination | ||
D2 | Grant after examination | ||
8363 | Opposition against the patent | ||
8365 | Fully valid after opposition proceedings | ||
8328 | Change in the person/name/address of the agent |
Free format text: PATENTANWAELTE MUELLER & HOFFMANN, 81667 MUENCHEN |