DE2209548C3 - Elektrische Sprachsynthetisatorschaltung - Google Patents
Elektrische SprachsynthetisatorschaltungInfo
- Publication number
- DE2209548C3 DE2209548C3 DE19722209548 DE2209548A DE2209548C3 DE 2209548 C3 DE2209548 C3 DE 2209548C3 DE 19722209548 DE19722209548 DE 19722209548 DE 2209548 A DE2209548 A DE 2209548A DE 2209548 C3 DE2209548 C3 DE 2209548C3
- Authority
- DE
- Germany
- Prior art keywords
- control
- output
- generator
- circuit according
- filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000006870 function Effects 0.000 claims abstract description 28
- 239000011159 matrix material Substances 0.000 claims abstract description 18
- 239000003990 capacitor Substances 0.000 claims description 24
- 238000009499 grossing Methods 0.000 claims 2
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000005284 excitation Effects 0.000 abstract 5
- 210000003928 nasal cavity Anatomy 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 11
- 230000007704 transition Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 8
- 230000001755 vocal effect Effects 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000009977 dual effect Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- VIKNJXKGJWUCNN-XGXHKTLJSA-N norethisterone Chemical compound O=C1CC[C@@H]2[C@H]3CC[C@](C)([C@](CC4)(O)C#C)[C@@H]4[C@@H]3CCC2=C1 VIKNJXKGJWUCNN-XGXHKTLJSA-N 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
Description
Die Erfindung betrifft eine elektrische Sprachsynthetisatorschaltung
laut Oberbegriff des Patentanspruchs 1. Es sind bereits verschiedene Schaltungen zur Erzeugung
von akustischen Effekten bekanntgeworden, die der menschlichen Stimme ähneln, insbesondere in zwei
grundsätzlich verschiedenen Kategorien. Die erste Kategorie umfaßt Schaltungen zum Aufzeichnen und Speichern
von Wörtern und Phrasen derart, daß diese wieder abgerufen werden können, um daraus Sätze zu konstruieren.
Diese Schaltungen könnte man eher als Encyklopädien, denn als Sprachsynthetisatorschaltungen bezeichnen,
zitiert in US-PS 33 19 002; sie haben im allgemeinen wegen der hohen Anforderungen hinsichtlich
der Speicherung und des Abrufes eines umfangreichen Vokabulars nur eine begrenzte Anwendbarkeit. Die andere
Kategorie umfaßt solche Schaltungen, die Sprachelemente, normalerweise auf phonetischer Basis, synthetisieren,
wobei diese phonetischen Elemente dann zu Wörtern zusammengesetzt werden, und zwar entsprechend
eingegebenen Befehlssignalen. Schaltungen dieser Art sind in »IEEE spectrum« Oktober 1970, Seiten
28-30 sowie in der US-PS 33 19 002 beschrieben. Da es in praktisch allen Sprachen wesentlich weniger Phoneme
als Wörter gibt, ist diese Lösung vom Standpunkt der Verkleinerung der Datenspeicherung und der An-Forderungen
an den Abruf vorzuziehen, wobei dennoch eine umfangreiche Variation der Sprachdarstellung beibehalten
wird. Die bekannten Phonemgeneratoren sind jedoch im allgemeinen recht kompliziert, anscheinend
infolge der verherrschenden Ansicht, daß die Sprache am besten durch eine volle elektronische Analogie des
menschlichen Sprachtraktes synthesiert wird. Diese Vorstellung führt zu einem Synthetisator mit einer großen
Anzahl gesteuerter Bauelemente; das wiederum macht die Programmiereinrichtung zur Steuerung der
Elemente entsprechend den Eingangsbefehlen außerordentlich kompliziert.
Eine ausführliche Beschreibung eines solchen Synthetisators enthält auch der Aufsatz »Speech Synthesis by
Rule« von Holmes, Mattingly und Shearme auf den Seiten
127 bis 143 von »Language and Speech«, Vol. 7, 1964. Er beschreibt Verfahren zur Synthese verschiedener
Phonemarten und ihrer Übergange unter Verwendung von Rechnerprogrammen und elektronischen
Schaltungen. Dabei wird für jedes Phonem unterschieden zwischen einem Anfangsübergang, einem stetigen
Zustand und einem Endübergang, so daß zur Erzeugung dieser unterschiedlichen Elemente sowie der dazu erforderlichen
Steuersignale ein hoher schaltungstechnischer Aufwand anfällt. Dieses Konzept der Unterteilung der
t>5 darzustellenden Sprache in unterschiedliche Zustände
steht aber im Gegensat/, zu den tatsächlichen Eigenschaften
der menschlichen Sprache, die keine derartigen diskreten Zustände, sondern einen fließenden Übergang
von einem Phonem zum nächstfolgenden erkennen läßt.
Der Erfindung liegt die Aufgabe zugrunde, die menschliche Sprache auf andere Art und mit einfacheren
Mitteln so zu synthetisieren, daß d"ie phonetischen Elemente glatt ineinanderfließen.
Diese Aufgabe wird erfindungsgemäß laut kennzeichnendem Teil des Patentanspruches 1 gelöst.
Weitere Fortbildungen der Erfindung ergeben sich aus den echten Unteransprüchen für die Patentschutz
nur in Ve'hindung mit Patentanspruch 1 begehrt wird.
Die Erfindung wird nachstehend an Hand von Ausführungsbeispielen unter Bezugnahme auf die Figuren
näher erläutert. Es Eeigt
F i g. 1 ein Blockschaltbild der Sprachsynthetisatorschaltung:
F i g. 2 ein Energiefrequenzspektrum eines beispielsweise dargestellten Phonems;
F ι g. 3 ein Diagramm eines Ausgangssignals;
Fig.4 ein Schaltbild eines Widerstar.Js-Netzwerkes
nebst Tongenerator;
F i g. 5 ein Schaltbild eines Rauschgenerators;
F i g. ό ein Schaltbild eines Exponentialgenerators;
F i g. 7 einen Teil der Schaltung in F i g. 1 mit einem Rauschverstärker;
F i g. 8 ein Schaltbild eines abstimmbaren Resonanzfilters:
F i g. 9 ein Schaltbild eines Resonanzfilters mit fester Resonanzfrequenz;
Fig. 10 ein Schaltbild eines Tiefpaßfilters;
F i g. 11 ein Schaltbild eines Widerstands-Netzwerkes
mit fünf Eingängen und
F i g. 12 ein Schaltbild des Zeitgeberteils.
Eine Sprachsynthetisatorschaltung 10 gemäß Fig. 1 umfaßt einen Eingangsteil 12, der auf acht-bit-Digitalbefehle
(Eingangssteuerbefehle) anspricht, um Analogsteuersignale in 37 Einzelkombinationen zu erzeugen,
von denen jede die Amplituden-Resonanz- und Zeitkoordinaten der akustischen Sprachelemente wiedergeben,
die im nachfolgenden im allgemeinen als Phoneme bezeichnet werden und die durch die Sprachsynthetisatorschaltung
10 erzeugt werden sollen. Die Sprachsynthetisatorschaltung 10 umfaßt ferner einen Tongenerator
!4 zur Erzeugung einer stimmhaften Grundphonemquantität (Tonsignal) und einen Rauschgenerator 16 zur
Erzeugung einer stimmlosen Grundphonemquantität. Die stimmhaften und stimmlosen Grundphonemquantitäten
der Generatoren 14 und 16 werden moduliert und in Resonanz gebracht, und zwar in einem Steuerteil 18,
der durch die Analogsteuersignale des Eingangsteils 12 gesteuert wird. Der Einzelausgang des Steuerteils 18 ist
mit einem Ausgangsteil 20 zur Verstärkung und Wiedergabe verbunden. Die P^nemerzeugungsgeschwindigkeit
und die Zeitcharaktei .stiken werden durch einen
Zeitgeber 22 gesteuert, üer Steuersignale vom Eingangsteil 12 empfängt.
Der Tongenerator 14, der noch im einzelnen unter Bezugnahme auf Fig.4 beschrieben wird, erzeugt periodische
Ausgangssignale mit einer Grundfrequenz, die sich der typischen menschlichen Stimme annähen. Der
Tongenerator 14 erzeugt sowohl eine gerundete Sägezahnwellenform
als auch eine oberwellenreiche Impulswellenform, wobei diese beiden Wellenformen bei derselben
Frequenz auftreten. Die Frequenzsteuerung für die Modulation und für die Tonhöhensteuerung erfolgt
über eine Steuerleitung 24, die ein Analogsteucrsignal vom Eingangsteil 12 weiterleitet. Die impulsartige periodische
Komponenete, die die stimmhafte Quantität (Tonsignal) des Tongeneralors 14 wiedergibt, ist mit
dem Eingang des Tonverstärkers 26 veränderlicher Verstärkung verbunden. Der Verstärkungsgrad wird durch
ein Steuersignal über eine Steuerleitung 28 bestimmt. Die Sägezahnkomponente ist mit dem Eingang des
zweiten Tonverstärkers 27 verbunden, der über eine Leitung 29 gesteuert wird
In ähnlicher Weise ist der Ausgang des Rauschgenerators 16, eines Breitband-Gauß-Tongenerators, der
noch im einzelnen unter Bezugnahme auf Fig.5 beschrieben wird, mit einem Rauschverstärker 30 verbunden,
der ebenfalls als Verstärker mit veränderlicher Verstärkung ausgelegt ist. Der Verstärkungsgrad wird vom
Rauschgenerator 16 aus über drei getrennte Steuersignale die an Steuerleitungen 32, 34 bzw. 36 anliegen,
gesteuert. Die stimmlose Phonemquantität (Rauschsignal) des Rauschgenerators 16 wird ferner über eine
Leitung 38 an den Eingang des Tonverstärkers 26 angelegt, wo sie mit der Impulswellenform der stimmhaften
Grundphonemquantität kombiniert bzw. überlagert wird, die durch den Tongenerator 14 erzeugt wird, bevor
sie eventuell im Tonverstärker 26 moduliert wird. Jedes stimmhafte Phonem, das durch die Sprachsynthetisatorschaltung
10 erzeugt wird, enthält also eine Geräuschkomponente, um das Entweichen des Atems zu
simulieren, bzw. eine stimmlose Geräuschkomponente, wie sie in allen stimmhaften Phonemquantitäten der
menschlichen Sprache vorhanden ist.
Vom Ausgang des Tonverstärkers 26 führt eine Leitung 40 zu den Eingängen einpoliger abstimmbarer Resonanzfilter
42,44 und 46. Diese Filter 42,44 und 46 sind jeweils durch Analogsteuersignale abstimmbar, die über
Steuerleitungen 48, 50 bzw. 52 angelegt werden, um die angelegten Wellenformen in den gewählten Frequenzen
zu erzeugen. Im Gegensatz zu den bekannten Bandfiltern
zeigt das einpolige anstimmbare Resonanzfilter, das hier verwendet wird, eine Verstellbarkeit über fast
den gesamten Frequenzbereich sowie eine hohe spezifische Durchlässigkeit in einem bestimmten Frequenzbereich.
Für Zwecke, auf die noch eingegangen wird, ist das Filter 42 zum Schwingen über einen unteren Frequenzbereich
hinweg abstimmbar, der etwa zwischen 100 und 1000 Hz liegt. Das zweite Filter 44 ist in einem
mittleren Frequenzband abstimmbar, das von etwa 500 bis 3000 Hz reicht, während das dritte Filter 46 in einem
hohen Frequenzband abstimmbar ist das von etwa 1000 bis 4000 Hz reicht. Gemäß Fig. 1 wird der Ausgang des
Verstärkers 26, der die stimmhafte Phonemquantität führt, an alle drei Filter 42,44 und 46 angelegt, da stimmhafte
Phonembestandteile im allgemeinen in allen Frequenzbereichen erscheinen, die in der menschlichen
Sprache vorhanden sind. Der Ausgang des Verstärkers 30 wird über die Leitung 54 nur an die Eingänge der
Filter 44 und 46 gelegt, da die stimmlose Phonemquantität im allgemeinen nur im mittleren und oberen Frequenzbereich
der menschlichen Sprache erscheint.
Im Steuerteil 18 ist der Ausgang des Filters 42 direkt
rnii einer Ausgangsklemme 68 verbunden. Der Ausgang des Filters 44 ist jedoch mit einem Ausgangsverstärker
60 zur Amplitudenmodulation seines gemeinsamen Ausganges, entsprechend der Größe des Signals an einer
Steuerleitung 62, verbunden. Schließlich ist der Ausgang des Filters 46 mit einem Ausgangsverstärker 64
zur Amplitudenmodulation seines gemeinsamen Ausgangssignals, entsprechend der Größe des Signals an
einer Steuerlcitung 66, verbunden. Es können also bis zu drei Resonanz-Pole, die jeweils in der Frequenz einstellbar
und in der Amplitude regulierbar sind, durch den Steuerteil 18 der Schaltung 10 erzeugt werden, um Pho-
neine entstehen zu lassen, die sowohl stimmhafte und
stimmlose Komponenten, als auch Kombinationen derselben aufweisen. Die Ausgänge des Ausgangstonverstärkers
60 und des Ausgangsrauschverstärkers 64 sind mit der Ausgangsklemme 68 verbunden, von der die
Eingangsleitung zu einem Ausgangsteil 20 abgeht. Der Ausgangsteil 20 besteht aus einem einpoligen Resonanzfilter
69, das die Nasalresonanz des menschlichen Stimmtraktes synthetisiert. Der Frequenzpol des Filters
69 tritt bei etwa 4000 Hz auf und kann fixiert werden. Demgemäß ist keine Steuerleitung vom Eingangsteil 12
vorgesehen. Ein Ausgang 70 des Filters 69 liegt an einer Ausgangsstufe, die normalerweise einen Breitbandverstärker
und einen Lautsprecher 72 umfaßt.
Im Eingangsteil 12 werden parallel-binäre acht-bit-Eingangssteuerbefehie
parallel an Eingänge 74 eines Schieberegisters 76 angelegt, das unter der Steuerung
des Zeitgebers 22 steht. Die acht-bit-Eingangssteuerbefehle werden ohne Schwierigkeiten durch einen »Computer«
oder eine andere Büromaschine erzeugt, beispielweise durch eine Maschine mit einer phonetischen
Tastatur und einer Dioden-Verschlüsselungsmatrix. Das Achtbitsystem wird gewählt, um für eine ausreichende
Informationskapazität für 60 oder mehr Phonembefehle zu sorgen, obgleich normalerweise nur 37 elementare
akustische Effekte angesetzt werden müssen, um eine menschliche Sprache guter Qualität zu erzeugen. Zwei
der Bits, die paralle vom Schieberegister 76 zu dem Zeitpunkt transferiert werden, zu dem ein Phonem erzeugt
werden soll, werden an ein Widerstandsnetzwerk 78 angelegt, das binär ausgewogene Widerstände aufweist,
um eine variable Amplitudenanalogstufenfunktion zu erzeugen, die die Modulation bzw. den Grundfrequenzausgang
des Tongenerators t4 steuert. Der Ausgang des Widerstandsnetzwerkes 78 erscheint an
der Steuerleitung 24, die mit dem Tongenerator 14 verbunden ist. Die Modulationssteuerung braucht nicht
aufwendig zu sein, denn vier Grundwerte der Frequenz reichen unter normalen Umständen aus. Die anderen
sechs Bit jedes Acht-Bit-Wortes, die aus dem Schieberegister
76 in Parallelform herausgehen, werden an eine Speichermatrix 80 angelegt, die unverwechselbare
Kombinationen von Signalen an den 32 Ausgangsleitungen erzeugt. Die Speichermatrix 80 kann eine Diodenmatrix
mit Verbindungsstiften an festen Stellen sein, um jedes Sechs-Bit-Eingangssignal in eine unverwechselbare
Ausgangssignalkombination umzusetzen, die bis zu 32 Einzelbits aufweist. Alternativ kann man mit einer
Magnetkernmatrix arbeiten, wobei die Verdrahtung einer solchen Matrix fixiert ist, so daß keine Informations-Schreibfunktion
durchgeführt werden kann; eine Sechs-Bit-Eingangskombination erzeugt aiso 32-bit-Ausgangskombinationen.
Diese Lösung dürfte einem veränderlichen Speicher vorzuziehen sein; ein veränderlicher
Speicher kann jedoch eingesetzt werden, wenn ein »Computer« benutzt werden kann. Wenn eine solche
Kapazität nicht zur Verfügung steht, dann die Speichermatrix 80 in Einsteckform hergestellt sein, so daß man
sie herausnehmen und durch eine andere Matrix eines etwas anderen Aufbaus ersetzen kann, um damit dem
System die Möglichkeit zu geben, verschiedene Sprachen, Geschlechter, Akzente usw. wiederzugeben.
Die 32-DigitaIsignalausgangsleitungen der Speichermatrix
80 sind in verschiedenen Kombinationen mit einer Vielzahl von Widerstandsnetzwerken 82a bis 82j
verbunden, die die digitalen (binären) Eingangssignale in Analogstufenfunktionen entsprechender Größe umwandeln.
Die Anzahl der Digitaleingänge zu jedem der Widerstandsnetzwerke 82a bis 82./ zeigt die Exponenttalrelation
zu der Anzahl von Analogamplitudenvariationen an, die in der Ausgangswellenform zur Verfügung
stehen. Ein Widerstandsnetzwerk ist in F i g. 11 dargestellt.
Bei dem Eingangsteil 12 der Sprachsyntheiisatorschaltong
10 sind die Analogstufenfunktionsausgänge der Widerstandsnetzwerke 826 bis 82y einzeln mit Tiefpaßfiltern
84a bis 84Λ verbunden, wobei jedes Filter eine endliche Ansprechzeit in der Größenordnung von 70
Millisekunden hat, um damit die abrupten Amplitudenschwankungen zwischen den Analogstufen auszugleichen
und relativ glatte Übergänge und sich langsam ändernde Amplituden zu den verschiedenen Einrichtungen
des Steuerteils zu schicken, die durch die Analogsteuersignaie gesteuert werden. Der Ausgang des Filters
84a wird über die Leitung 28 dem Tonverstärkers 26 zur Amplitudensteuerung der stimmhaften Phonemquantität
in Vermischung mit einem Teil der stimmlosen Phonemquantität zugeführt. Der Ausgang des Filters
846 wird über die Leitung 36 als eines der drei Steuersignale dem Rauschverstärker 30 zur Amplitudensteuerung
der stimmlosen Phonemquantität zugeführt. Der Ausgang des Filters 84c wird über die Leitung 29 als
eine sich langsam ändernde Analogfunktion dem Verstärker 27 zur Amplitudensteuerung der stimmhaften
Phonemquantität, die an die Anschlußklemme 68 angelegt wird, zugeführt. Der Ausgang des Filters 84c/ wird
über die Leitung 52 dem dritten abstimmbaren Resonanzfilter 46 zugeführt, um die Lage des Frequenzpols
im hohen Frequenzbereich festzulegen. Der Ausgang des Filters 84e wird dem abstimmbaren Resonanzfilter
44 über die Leitung 50 zugeführt, um die Lage des Frequenzpojs im mittleren Frequenzbereich zu bestimmen.
Der Ausgang des Filters 84/wird über die Leitung 48 dem Steueranschluß des abstimmbaren Resonanzfilters
42 zugeführt, um den Frequenzpol der stimmhaften Phonemquantität im unteren Frequenzbereich festzulegen.
Der Ausgang des Filters 84g- wird dem Steuereingang des Ausgangsrauschverstärkers 64 über die Steuerleitung
66 zugeführt, um die Amplitudenmodulation des Verbundsignals vom Filter 46 festzulegen. Der Ausgang
des Filters 84Λ wird über die Steuerleitung 62 dem Ausgangstonverstärker 60 zugeführt, um die Amplitude
des Verbundsignals im mittleren Frequenzbereich zu steuern.
Der Ausgang des Widerstandsnetzwerkes 82a wird nicht an ein Tiefpaßfilter angelegt, sondern an einen
Exponentialgenerator 86, dessen Schaltung in Fig. 6 dargestellt ist, und zwar um Verschlußlautphoneme zu
erzeugen. Der Ausgang des Exponentialgenerators 86 wird über die Steuerieiiung 34 ais der zweite der drei
Eingänge dem Rauschverstärker 30 für die Amplitudenmodulation stimmloser Phonemquantitäten zugeführt.
Der Ausgang des Widerstandsnetzwerkes 82/wird über die Steuerleitung 88 direkt dem Zeitgeber 22 zugeführt.
Schließlich steuert die Speichermatrix 80 noch einen Zerhacker 92, der an den dritten Eingang des Rauschverstärkers
30 angeschlossen ist. Das Steuersignal zum Zerhacker 92 wird über die Leitung 90 vom Ausgang
des Filters 84c zugeführt, so daß es immer dann vorhanden ist, wenn ein stimmhaftes Phonem erzeugt wird. Das
Signal schaltet den Zerhacker 92 ein, um die stimmlose Phonemquantilät zu modulieren, die an den Ausgangsverstärker
30 angelegt wird. Die Modulation bzw. das Steuersignal wird dem Rauschverstärker 30 über die
Leitung 32 zugeführt. Die Amplitudenmodulation hat Rechteckform zwischen der vollen Amplitude und Null
und erfolgt mil einer Frequenz, die niedrig im Vergleich
/iir minieren Frequenz, der stimmlosen Signalkomponcnte
ist. Die Frequenzsteuerung des Zerhackers 92 wird vom Tongenerator 14 abgeleitet, der für die stimmhafte
Phonemquantität über die Leitung % sorgt. Das Ergebnis ist, daß die stimmlose Komponente vom Verbundphonemen
mit der Grundfrequenz moduliert wird. Der Zerhacker 92 wird damit während des Phonemintervalls
aktiviert, das den Ausgang des Rauschverstärkers 30 während jedes stimmhaften Zyklus periodisch
auf Null abfallen läßt. Verbundphoneme, für die der Zerhacker 92 effektiv ist, umfassen im Englischen das
»th«, wie im englischen Wort »then«, den Buchstaben »s«, der beispielsweise im englischen Wort »leisure« als
»sch« ausgesprochen wird, ferner im Englischen die Buchstaben »v«, »j« und »z«. Phoneme, die nur stimmlose
Komponenten haben, also jene, in denen der Zerhakker 92 nicht in Funktion tritt, sind im Englischen: »s«,
»ch«, »sh«. »f«, »th« wie um englischen Wort »thin« und »h«. Der Zerhacker 92 bleibt zwar während stimmhafter
Phoneme eingeschaltet, hat aber keinen Effekt, da die Steuerung vom Tiefpaßfilter 84£>
die anderen übersteuert und den Rauschverstärker 30 ausgeschaltet hält.
Im Zeitgeber 22 ist die Steuerleitung 88 vom Widerstandsnetzwerk
82ymit der Zeitsteuerschaltung 98 verbunden,
die ihrerseits mit dem Taktgenerator 100 verbunden ist. Der Taktgenerator 100 ist mit dem Wechseleingang
des Schieberegisters 76 verbunden, um die Intervalle zwischen der Transferierung von 8 Bit-Wörtern
vom Register 76 zur Speichermatrix 80 zu steuern. Die Zeitintervalle für die verschiedenen Phoneme variieren
zwischen JO und 150 Millisekunden, wobei das Intervall
bzw. die Dauer jedes Phonems durch das Eingangswort bestimmt wird, das vom Register 76 zum Speicher 80
transferiert wird. Mit anderen Worten, jedes Phonem setzt seine eigene Zeitdauer durch die Zeitsteuerschaltung
98. Die Zeitsteuerschaltung kann aus bekannten Einrichtungen bestehen, um die zeitlich abgestimmte
Erzeugung von Signalimpulsen zu bewirken. Eine geeignete Form wird nachstehend beschrieben. Ein »Eingangsdaten«-Befehlsansch!uß
102 ist am Taktgenerator 100 vorgesehen, um ihn in Funktion zu setzen, während Daten in das Schieberegister 76 eingegeben werden.
In der Arbeitsweise der in F i g. 1 gezeigten Sprachsynthetisatorschaltung
10 werden die Phoneme, die zum Synthetisieren eines Wortes oder einer Gruppe von
Wörtern erforderlich sind, in das Wechselregister 76 in 8-Bit-Wörtern eingegeben und in Richtung auf die
8-Bit-ParaIleltransferposition im Register 76 mittels des
Taktgenerators 100 verschoben. Die phonetische Konstruktion von Wörtern ist allgemein bekannt und wird
hier nicht vollständig wiederholt. Die acht Bit, die jedes Phonem bilden, umfassen zwei Modulationsbits, die dem
Widerstandsnetzwerk 78 in digitaler Form eingegeben werden. Das Netzwerk 78 wandelt die Digitalsignale in
eine Analogstufenfunktion um, die über die Leitung 24 an den Tongenerator 14 angelegt wird. Demgemäß wird
der Tongenerator 14 ständig in Funktion gesetzt, um die stimmhafte Phonemquantität dem Rauschverstärker 36
zuzuleiten, auch wenn diese Quantität nur tatsächlich eingesetzt wird, um diejenigen akustischen Effekte entstehen
zu lassen, die stimmhafte Komponenten haben. Die anderen sechs Bits bestimmen die Digitalbefehlssignale.
die an die Widerstandsnetzwerke 82a bis 82v angelegt
werden, also die Analogfunktionsausgänge, die an den Exponentialgenerator 86 angelegt werden, ferner
die Tiefpaßfilter 84a bis 84Λ und die Zeitsteuerschaltung 98. Die im Englischen stimmlosen Phoneme »s«,
»sh«, »f«, »th« (wie in dem englischen Wort »thin«) und »h« sind durch ein Fehlen von Signalen entweder vom
Zerhacker 92 oder vom Exponentialgenerator 86 angezeigt. Im allgemeinen werden die genannten Phoneme
durch die Signale gesteuert, die an der Leitung 36 erscheinen, in der Zuleitung zum Rauschverstärker 30.
Darüber hinaus werden die abstimmbaren Resonanzfilter 42,44 und 46 mit Signalen während stimmloser Phoneme
im Funktion gesetzt, um die Resonanz-Qualität
ίο des Stimmtraktes während des Entstehens solcher Phoneme
zu simulieren. Die für die englische Sprache genannten Phoneme »th« (wie in dem englischen Wort
»the«), »s« (wie im englischen Wort »leisure«), »v«, »j« und »ζ« umfassen alle sowohl stimmhafte als auch
stimmlose Phoneme, wobei die stimmlosen Phoneme im wesentlichen eine Lautkomponente sind, die im menschlichen
Stimmtrakt durch Luft entsteht, die turbulent durch eine Verengung des Stimmtraktes streicht. Dies
geschieht gleichzeitig mit einer Druckwelle von den Stimmbändern; das wird in der Sprachsynthetisatorschaltung
10 durch eine Modulation der stimmhaften Grundphonemquantität des Tongenerators 14 simuliert.
Für alle diese Phoneme wird der Zerhacker 92 mittels eines Signals im Form einer Spannung an der Leitung 90
aktiviert. Das Signal wird über die Leitung 32 dem Rauschverstärker 30 zugeführt, um die stimmlose Komponente
mit der Frequenz der stimmhaften Komponente in der Amplitude zu modulieren.
Für Verschlußlautphoneme wird der Exponentialgenerator 86 durch einen von vier Analogsignalwerten in
Funktion gesetzt, die von dem Widerstandsnetzwerk 82a kommen. Diese Verschlußlautphoneme umfassen
im Englischen stimmhafte Phoneme wie »b«, »d« und »g«, sowie stimmlose Phoneme »k«, »ch«, »p« und »t«.
Alle diese Phoneme schließen bei der Erzeugung durch den menschlichen Stimmtrakt den Aufbau eines Drucks
hinter einer Verengung im Stimmtrakt ein, dem unmittelbar danach eine Druckfreigabe folgt, um eine exponentiell
ausklingende Gaußsche Funktion entstehen zu lassen. Diese Funktion wird aus der Sprachsynthetisatorschaltung
10 durch den Exponentialgenerator 86 herausgetragen, der zunächst die Übertragung des Phonems
durch den Rauschverstärker 30 während der Zeit verzögert, während der eine Kondensatorladung aufgebaut
wird: dann wird der Kondensator sofort durch einen Widerstand entladen, um eine ausklingende Analogamplitudenmodulation
über den Rauschverstärker 30 entstehen zu lassen. Diese Modulation wird natürlich in
die stimmlose Gaußsche Lautkomponente eingearbeitet, die vom Rauschgenerator 16 erzeugt wird.
In Fig. 2 ist eine Frequenzleistungsspektrumanalyse
für das Phonem »u« gezeigt und dabei die Arbeitsweise der drei abstimmbaren Resonanzfilter 42, 44 und 46
während der Phonembildung dargestellt. Es ist zu sehen, daß die Wellenform 104, die das Frequenzleistungsspektrum
des angekündigten Phonems wiedergibt, einen ersten Pol »A« bzw. eine Resonanzspitze bei 650 Hz aufweist,
wobei dieser Pol durch das Resonanzfilter 42 und innerhalb seines Bereiches begründet wird. Ein zweiter
Pol »B« liegt bei etwa 1120Hz und wird durch das
Resonanzfilter 44 festgelegt. Ein dritter Pol »C« liegt bei
2100 Hz und wird durch das Resonanzfilter 46 festgelegt. Eine vierte Resonanz »D« wesentlich niedrigerer
Leistung liegt bei etwa 4000 Hz und stellt den Resonanz-Beitrag des einpoligen, fest eingestellten Resonanzfilters
69 dar, d. h. die nasale Resonanzsynthese. Es versteht sich, daß jedes Phonem ein Frequenzleistungsspektrum
zeigt, das ähnlich dem Phonem-Leistungs-
Frequenzspektrum 104 in Fig. 2 in grafischer Form
wiedergegeben werden kann. Nicht alle Phoneme zeigen allerdings drei Hauptpole der Wellenform 104, vielmehr
zeigt jedes Phonem andere Werte der Lage der Polfrequenzen und der relativen Amplituden, so daß
jedes Phonem unverwechselbar durch die speziellen Signale festgelegt ist, die über die Steuerleitungcn 48, 50
und 52 an die Filter 42, 44 bzw. 46 anzulegen sind. Die Abstimmbereiche für die Filter 42,44 und 46 überlappen
sich notwendigerweise, insofern, als manche Phoneme Pole zeigen, von denen zwei innerhalb des Bereiches
eines Filters liegen können.
In Fig. 3 ist eine typische Analogstufenfunktion 106
in einer Art gezeigt, wie sie durch die Widerstandsnetzwerke 82a bis 82/ gemäß Fig. 1 erzeugt werden kann.
Der eingezeichnete glatte Verlauf 108 stellt die geglättete und verzögerte Version der Analogfunktion dar, die
dadurch entsteht, daß diese Funktion 106 durch die Tiefpaßfilter 84 geleitet wird. Da die Ansprechzeit der Filter
84 in der Größenordnung von 70 Millisekunden liegt, während manche Phoneme eine Dauer von nur 30 Millisekunden
haben, gibt es Phoneme, für die das genau vorgeschriebene Ansprechen in der Sprachsynthetisatorschaltung
10 in F i g. 1 niemals voll erreicht wird. Das wiederum führt dazu, daß die realistische Qualität der
Arbeitsweise der Sprachsynthetisatorschaltung 10 verbessert wird, indem aufeinanderfolgende Phoneme in
gleicher Weise miteinander vermischt werden, wie der menschliche Stimmtrakt normalerweise arbeitet. Die
Phonemintervalle sind also um die Filteransprechzeiten herum in gewisser Weise zu zentrieren. Wenn dann die
Sprachgeschwindigkeit variiert wird, beispielsweise durch eine proportionale Verkürzung oder Verlängerung
aller Phonemintervalle, kann eine entsprechende Variation in den Tiefpaßfiltern 84 erforderlich werden,
um die Verständlichkeit zu bewahren.
In Fig.4 sind Einzelheiten eines Widerstandsnetzwerkes
78 und eines Generators 14 für stimmhafte Phoneme gezeigt. Das Widerstandsnetzwerk 78 besteht aus
Dioden 110 und 112, die Gleichströme von der Speichermatrix
80 durch summierende Widerstände 114 und 116
zu einem Eingangswiderstand 118 fließen lassen. Ein Kondensator 120 glättet die Stromübergänge aus. Der
Strom durch den Widerstand 118 lädt einen Kondensator 122, bis die Schwellenspannung des Doppelbasis-Transistors
124 erreicht ist. Wenn das geschieht ist der Transistor 124 durch den Weg von der Gleichspannung
B+ über den Widerstand 126 zur Erde leitend, um den Kondensator 122 zu entladen, und einen Spannungsimpuls
am Widerstand 126 entstehen zu lassen. Dieser Zyklus wiederholt sich periodisch, und der Impulsausgang
wird an den Tonverstärker 26 angelegt. Am Kondensator 122 entsteht eine Sägezahnspannung, die über einen
Kondensator 125 zu einem Verstärker 127 hoher Impedanz geführt wird. Der Ausgang des Verstärkers 127
wird an einen Widerstand 128 und einen Kondensator 130 angelegt, wodurch alle höheren Frequenzen entfernt
werden. Der Ausgangswiderstand 132 legt die im gewissen Sinne abgerundete Sägezahnspannung an den
Tonverstärker 27. Die Impulskomponente der periodischen Wellenform, die am Widerstand 126 in der in
F i g. 4 gezeigten Schaltung erzeugt wird, umfaßt ein breites Frequenzspektrum der in F i g. 1 schwingenden
Energie. Die niederfrequente Komponente, die durch den Verstärker 127 und die angeschlossenen Bauelemente
erzeugt wird, geht zum Tonverstärker 27 und wird mit der Impuiskomponente am Anschluß 68 wieder
kombiniert, um den Sprachausgang natürlich klingen zu lassen. Der Strom von der Speichermatrix 80, der über
die Dioden 110 und 112 geleitet wird, steuert die Frequenz
des Doppelbasis-Oszillator-Transistors 124 und damit die Tonhöhe bzw. Modulation der stimmhaften
Phonemquantität, die durch den Tongenerator 14 erzeugt wird, wie es in F i g. 4 dargestellt ist.
In F i g. 5 ist eine Schaltung des Rauschgenerator* 16
für die Erzeugung stimmloser Phonemquantitiitcn schemalisch
dargestellt. Die Rauschdiode 138 ist emgegengesetzt über ihre Zusammenbruchspannung hinaus vorgespannt,
und zwar durch positive und negative Spannungen B+ und B—, die durch die Diode 138 und der
den Strom begrenzende Widerstand 140 angeordnet sind, der den Stromfluß begrenzt. Es entsteht eine sehr
starke Rauschkomponente, die durch den Kondensator 142 und einen Widerstand 144 an den Eingang eines
Operationsverstärkers 146 angelegt wird, der einen variablen ohmschen Rückkopplungsweg 148 aufweist. Der
Ausgangsanschluß ist natürlich mit dem Eingang der Verstärker 26 und 30 verbunden, wie in F i g. 1 gezeigt.
In F i g. 6 ist eine Schaltung des Exponentialgenenerators
86 der in F i g. I gezeigen Sprachsynthetisatorschaltung 10 schematisch dargestellt. Der Eingang des Exponentialgenerators
86 ist mit einem Widerstandsnetzwerk 82a verbunden und weist einen Impulsverzögerungsschaltkreis
152 auf, beispielweise einen normalen Univibrator. Am Ausgang des Imp'ilsverzögerungsschaltkreises
152 steht ein Digitalimpuls, der durch den Kondensator 154 und die isolierende Diode 156 gekoppelt
ist. Der ÄC-Exponentialschaltkrcis wird durch den Widerstand 148 gebildet, der zwischen den Kondensator
154 und Erde gelegt ist. Der Ausgang des Exponentialgenerators 86 in F i g. 6 ist zur Steuerung des Rauschverstärkers
30 an diesen angeschlossen, um dessen Ausgangsspannung mit einer exponential ausklingenden
Umhüllung zu modulieren. Wie vorstehend erwähnt, wird dieses Signal zur Bildung aller Verschlußlautphoneme
verwendet.
In F i g. 7 sind Einzelheiten der Verbindung zwischen
den Steuereinrichtungen, die die Signale an den Leitungen 32, 34 und 36 erzeugen, und dem Rauschverstärker
30 gezeigt, der dadurch gesteuert wird. Wie vorstehend erwähnt, handelt es sich bei dem Rauschverstarker 30
im wesentlichen um einen Verstärker mit veränderlieher
Verstärkung, dessen Eingang an den Rauschgenerator 16 angeschlossen ist, während der Ausgang gemäß
F i g. 7 zu den abstimmbaren Resonanzfiltern 44 und 46 führt. Die Steuersignale an den Eingangsleitungen 32
und 34 sind abrupt und in ihrem Wesen genau festgelegt, während das Steuersignal an der Leitung 36, das vom
Tiefpaßfilter Mb kommt, normalerweise glatt und nur langsam veränderlich ist. Der Zerhacker 92 umfaßt die
Diode 160 und einen Reihenwiderstand 164, der mit der Steuerelektrode eines n-p-n-Transistors 166 verbunden
ist. Die Sägezahnwellenform, die an dem Anschlußpunkt erscheint, der die gemeinsame Verbindung zwischen
den Kondensatoren 122 und 125 und dem Widerstand 118 in Fig.4 bildet, wird über den Widerstand 168 an
die Steuerelektrode eines zweiten n-p-n-Transistors 170 angelegt Die Kollektor-Emitter-Strecken der Transistoren
160 und 170 sind in Reihe zwischen den Eingang des Rauschverstärkers 30 und Masse geschaltet Die
Transistoren wirken also als Digitalschalter, wobei ihre Kollektorstromkrcisc in Reihe geschaltet sind. Wenn
der Transistor 166 durch die Speichermatrix 80 über die Diode 160 eingeschaltet wird, zerhackt der Transistor
170 die Steuerspannung am Widerstand 172 und damit den Ausgang des Rauschverstärkers 30. Das simuliert
eine Amplitudenmodulation stimmloser Komponenten in stimmhaften Phonemen. Der Exponcntialgenerator
ist ebenfalls mit dem Rauschverstärker 30 durch einen Steuerwiderstand 172 und die Diode 174 verbunden.
Das Tiefpaßfilter Mb ist in entsprechender Weise mit
dem Rauschverstärker durch eine Diode 176 und den Steuerwiderstand 172 verbunden. Die Steuerlcitungen
34 und 36 zu den Dioden 174 und 176 sind entsprechend der Numerierung der in Fig. 1 gezeigten Schaltkreise
gezeichnet.
In F i g. 8 ist die Schaltung eines typischen einpoligen abstimmbaren Resonanzfilters 42 gezeigt. Diese Filterschaltung
kann auch für die Filter 44 und 46 in F i g. 1 verwendet werden. Als Beispiele sind summierende Widerstände
178 und 180 gezeigt, die die stimmhaften und stimmlosen Phonemquantitäten zum Resonanz-Stromkreis
kombinieren, zu dem die Induktivität 181. der Kondensator
182 und ein Verstärker 184 gehören. Der Verstärker 184 wird durch das Steuersignal gesteuert, das
über Leitung 48 angelegt wird. Das dem Verstärker 184 zugeleitete Steuersignal ändert seinen Verstärkungsgrad und damit die wirksame Kapazität des Kondensators
182 und damit wiederum die Resonanzfrequenz des Filters 142 in dem in Fig.8 gezeigten Schaltkreis. Die
Widerstände 178 und 180 begrenzen die Güte des Filters 42, um es dem mechanischen Resonanzfilter im
Stimmtrakt anzupassen.
In F i g. 9 ist eine Schaltung des fest eingestellten Resonanzfilters
68 gezeigt, die die Reihenschaltung eines Widerstandes 186, einer Induktivität 188 und eines Widerstandes
190 darstellt, wobei ein Nebenschluß-Kondensator 192 den Punkt zwischen Induktivität 188 und
dem Widerstand 190 mit Masse verbindet. Ein Widerstand 194 ist parallel zur Reihenschaltung des Widerstandes
186, der Induktivität 188 und des Widerstandes 190 geschaltet, um einen Teil der Eingangsspannung
dem Ausgang zuzugeben.Wie vorstehend erwähnt, führt das Filter 86 eine vierte feste Resonanz in die
Ausgangswellenform ein.
Fi g. 10 zeigt die Schaltung eines Tiefpaßfilters 84, um
die Übergänge zwischen den Werten der Analogstufenfunktionen zu glätten, die durch die Widerstandsnetzwerke
erzeugt werden. Das Filter 84 ist ein Pi-Filter, das einen Eingangs- und einen Ausgangsanschluß 1% bzw.
198 aufweist, die durch eine Reiheninduktivität 200 verbunden sind. Die beiden Enden der Induktivität 200 sind
durch den Kondensator 202 und den Kondensator 204 mit Masse verbunden. Die Kondensatoren 202 und 204
und die Induktivität 200 sind so gewählt, daß ein glatter 70-Millisekunden-Übergang am Ausgang bei Anlegen
einer Stufenfunktion am Eingang erzeugt wird.
Fig. 11 zeigt die Schaltung eines Netzwerkes mit 5 Widerständen. Es sind 5 Eingangsanschlüsse 206a bis
206c1 vorgesehen, um die Digitalsignale an binär bewertete Widerstände 208a bis 208e anzulegen. Alle Widerstände
sind in einem Anschluß 210 zusammengefaßt, der den Analogausgang für das Netzwerk bildet. Das Widerstandsnetzwerk
stellt einen Digital-Analogwandler dar, durch den gleiche digitale Spannungssignale in eine
analoge Stufenfunktion umgewandelt werden, wobei der Amplitudenwert der Stufenfunktion durch die Auswahl
der erzeugten Eingänge und durch die Größen der Widerstände 208 bestimmt wird. Wie vorstehend erwähnt,
sind die Widerstände in binärer Ordnung bewertet, zum Beispiel 200 0hm, 100 Ohm, 50 Ohm, 25 0hm
und 12,5 Ohm, um eine Anzahl selektierbarer Arnplitudenstufen entstehen zu lassen. Es versteht sich, daß die
Bewertungsfolgen auch in anderer als in binärer Form eingesetzt werden können. Darüber hinaus versteht es
sich, daß auch andere Arten von Netzwerken mit mehr oder weniger Widerständen verwendet werden können.
In F i g. 12 ist eine Schaltung für den Zeitgeber 22 in
Fig. 1 gezeigt. Das Widerstandsnetzwerk 82/ enthält
Widerstände 212, 214 und 216, die jeweils in Reihe mit Dioden 218,220 und 222 verbunden sind. Die Kathodenanschlüsse
der Dioden sind in einem gemeinsamen Punkt 224 zusammengefaßt, der mit dem Eingang des
Doppelbasis-Transistors 226 verbunden ist. Ein Nebenschluß-Kondensator 228 wird durch die Spannung am
Sammelpunkt 224 aufgeladen bzw. durch den Widerstand 230 entladen, wenn der Transistor 226 leitet. Die
positive Spanungsquelle B+ ist mit dem gegenüberliegenden primären Anschluß des Transistors 226 durch
einen Widerstand 232 verbunden. Man kann also verschiedene Ladegeschwindigkeiten für den Kondensator
228, entsprechend den Werten der Widerstände 212, 214, 216, wählen. Wenn die Ladung am Kondensator
228 den Schwellenwert des Doppelbasis-Transistors 226 erreicht, entlädt sich der Kondensator 228 über den Widerstand
230 und liefert eine Ausgangsspannung an den Taktgenerator 100, der das Schieberegister 76 schrittweise
weiterbewegt. Jeder Digitalbefehl umfaßt ein Bit bzw. eine Gruppe von Bits, das bzw. die das Zeitintervall
bestimmt, während das Sechs-Bit-Digitalwort der Nurlese-Speichermatrix
80 präsentiert wird.
Die folgenden Werte'sind als Beispiele angegeben, um das Maß der Amplitudenmodulation und der Resonanzfrequenz-Positionierung
für die Erzeugung von Frequenzleistungsspektren anzuzeigen, die den angegebenen Phonemen entsprechen.
Phonemparameter (aus der englischen Sprache)
Phonem | Filter | Amplitude | Filter | Amplitude | Filter | Amplitude | Amplitude | Zeit |
(42) | (26) | (44) | (60) | (46) | (64) | (27) | Milli | |
sekunden ' | ||||||||
E | 350 | 2,0 | 2200 | 2,0 | 2700 | 5,0 | 3,0 | 170 |
R | 480 | 4.0 | 1300 | 2,0 | Ί580 | 3.0 | 3,0 | 120 |
U | 630 | 3,0 | 1160 | 1.5 | 2700 | 1.5 | 3,0 | 140 |
A | 520 | 3,0 | 2200 | 2.0 | 2700 | 5.0 | 3.0 | 140 |
L | 480 | 4,0 | 1000 | 0,6 | 2800 | 04 | 3.0 | 140 |
Pause | 480 | 0,0 | 1700 | 0,0 | 2550 | 0.0 | 0.0 | 30 |
N | 420 | 0,8 | 1950 | 03 | 2700 | 0.5 | 14 | 100 |
O | 520 | 3,0 | 900 | 1,0 | 2500 | 1.0 | 3,0 | 120 |
M | 350 | 0,6 | 900 | 0,1 | 2550 | 0,5 | 14 | 120 |
O | 800 | 4,0 | 1160 | 24 | 2700 | 1.5 | 3.0 | 170 |
E | 630 | 2,5 | 1950 | 13 | 2800 | 3,0 | 3,0 | 170 |
U | 420 | 3,0 | 960 | 1,5 | 2700 | 0,6 | 3,0 | 170 |
A | 730 | 2,5 | 1950 | 13 | 2700 | 2,5 | 3,0 | 170 S |
I | 480 | 4,0 | 1950 | 1,5 | 2700 | 3,0 | 3.0 | 170 j |
B | 200 | 0,0 | 730 | 0,0 | 2200 | 0,0 | 14 | 100 ! |
AW | 730 | 3,0 | 960 | 5,0 | 2700 | 2,5 | 3,0 | 140 |
W | 350 | 3,5 | 730 | 3,0 | 2700 | 1.0 | 14 | 100 |
Y | 350 | 14 | 2200 | 1,5 | 2700 | 4,0 | 3,0 | 140 |
D | 200 | 0,6 | 1950 | 0,0 | 3300 | 0,0 | 14 | 50 |
G | 260 | 0,8 | 1950 | 0,0 | 2550 | 0,0 | 14 | 50 |
OO | 480 | 6,0 | 960 | 4,0 | 2700 | 1,5 | 3,0 | 170 |
NG | 380 | 1,0 | 2200 | 3,0 | 2200 | 0,4 | 14 | 170 |
S | 420 | 0,0 | 1700 | 0,0 | 3700 | 0,7*) | 0,0 | 100 |
H | 550 | 0,0 | 1700 | 03·) | 2550 | 0.2*) | 0,0 | 75 |
SH | 380 | 0,0 | 1950 | 0,5·) | 2550 | 1.5*) | 0,0 | 120 |
F | 480 | 0,0 | 1160 | 0,0 | 2700 | 0,2*) | 0,0 | 140 |
TH | 420 | 0,0 | 1950 | 0.2*) | 3300 | 0,4*) | 0,0 | 100 |
V | 480 | 0,0 | 1160 | 0,0 | 2/00 | 0,6*) | 14 | 75 |
Z | 420 | 0,0 | 1700 | 0,0 | 3700 | 0,4*) | 14 | 100 |
Raum | 480 | 0,0 | 1700 | 0,0 | 2550 | 0,0 | 0,0 | 60 |
I | 380 | 0,0 | 1950 | 0,3·) | 2700 | 1,5*) | 14 | 75 |
TH | 420 | 0,0 | 1950 | 0,2·) | 2800 | 0,6*) | 14 | 75 |
T | 480 | 0,0 | 1950 | 0,1*) | 3300 | 0,4·) | 0,0 | 140 |
K | 350 | 0,0 | 1950 | 0,0 | 2700 | 0.4*) | 0,0 | 140 |
P | 420 | 0,0 | 1300 | 0,1*) | 2700 | 0.2*) | 0.0 | 140 |
CH | 480 | 0,0 | 2200 | 0,3*) | 2700 | 1,5* j | 0,0 | 140 |
I | 520 | 3,0 | 1800 | 14 | 2700 | 3,0 | 0,0 | 50 |
*)"■ Stimmlose Komponente.
Zusammenfassend synthetisiert die hier beschriebene Schaltung die menschliche Sprache durch Simulieren
ihrer akustischen Effekte: d. h. sie erzeugt Folgen elementarer akustischer Effekte durch Definition der Parameter
dieser Effekte, d. h. der Resonanzfrequenz, der Amplitude, des Zeitenintervalls und der Wellenform.
Die Schaltung realisiert nicht immer die vollen Werte der elementaren Parameter, die vorstehend angegeben
sind, abgesehen natürlich von der Zeitdauer, sondern
nähert sich solchen Werten innerhalb dei· spezifizierten
Zeitintervalle nur an, um damit die langsam und glatt wechselnden dynamischen Bedingungen dtr menschlichen
Sprache zu simulieren, weil sie absichtlich träge analoge Ansprechcharakteristiken hat. Die Befehle können
damit als Koordinaten elementarer akustischer Effekte betrachtet werden, wobei die Koordinaten selten
genau realisiert werden, sondern vielfach lediglich innerhalb des spezifizierten Phonemzeitintervalls angenähert
werden.
Hierzu 3 Blatt Zeichnungen
Claims (1)
1. Elektrische Sprachsynthetisatorschaltung (10) mit einem digital eingegebene Eingangssteuerbefehle
empfangenden Eingangsteil (12), der eine Spei-
chereatrix (8G) enthält, dt sinsn dsn Eingangsteil
(12) steuernden Zeitgeber (22), mit einem an den Eingangsteil (12) angeschlossenen Steuerteil (18),
der einen Tongenerator (14) und einen Rauschgegenerator (16) sowie diesen nachgeschaltet abstimmbare
Resonanzfilter (42, 44, 46) und Ton- und Rauschverstärker (26, 27, 30, 60, 64) umfaßt, mit einem
Ausgangsteil (20), der einen Lautsprecher (72) zur akustischen Wiedergabe der synthetisierten
Laute besitzt, mit an die Speichermatrix (80) des Eingangsteils (12) angeschlossenen und die von dieser
abgegebenen digitalen Signalkombinationen in Analog-Stufenfunktionen umwandelnden Digital-Analog-Umformern
(82a-82y^und mit an diese angeschlossenen
und die Analog-Stufenfunktionen in stetige Analog-Funktionen umformenden Glättungsschaltungen,
deren Ausgangssignale zur Steuerung des Tongenerators (14), der Verstärker (26, 27, 30,
60,64) und abstimmbaren Resonanzfilter (42,44,46)
des Steuerteils (!8) dienen (Steuersignale), dadurch gekennzeichnet, daß die Eingangssteuerbefehle zur Adressierung der Speichermatrix
(80) verwendet werden und daß als Glättungsschaltungen Tiefpaßfilter (84a—84Λ) vorgesehen sind, die
so dimensioniert sind, daß die aufeinander folgenden, in dem Steuerteil (18) erzeugten Phoneme möglichst
glatt ineinander übergehen.
2. Schaltung nach Anspruch 1, dadurch gekennzeichnet,
daß die Speichermatrix (80) eine Nurlese-Speichermatrix (ROM) ist.
3. Schaltung nach Anspruch 1 undt2, dadurch gekennzeichnet,
daß die Digital/Analog-Umformer Widerstandsnetzwerke (82a—&2j) sind.
4. Schaltung nach Anspruch 1 bis 3, dadurch gekennzeichnet, daß der Rauschgenerator (16) ein
breitbandiger Generator mit Gaußscher Verteilung ist.
5. Schaltung nach Anspruch 1 bis 4, dadurch gekennzeichnet, daß der Eingangsteil (12) einen Zerhacker
(92) umfaßt.
6. Schaltung nach Anspruch 1 bis 5, dadurch gekennzeichnet, daß der Ausgang des Rauschgenerators
(16) mit dem Ausgang des Tongenerators (14) derart kombiniert ist, daß jeder stimmhaften Phonemquantität
ein nicht modulierter Teil der stimmlosen Phonemquantität zugesetzt wird.
7. Schaltung nach Anspruch 1 bis 6, dadurch gekennzeichnet, daß mindestens drei abstimmbare Resonanzfilter
(42,44, 46) vorhanden sind, deren jedes so durch die Steuersignale abstimmbar ist, daß sein
Durchlaßbereich innerhalb eines vorbestimmten Frequenzbandes liegt und folglich jedes der erzeugten
Phoneme eine Resoninzhüllkurve hat, die mindestens drei getrennte Amplitudenpole aufweist.
8. Schaltung nach Anspruch 7, dadurch gekennzeichnet, daß jedes der abstimmbaren Resonanzfilter
(42, 44, 46) so angeschlossen ist, daß es ein anderes Steuersignal vom Eingangsteil (12) empfängt.
9 Schaltung nach Anspruch 1 bis 8, gekennzeichnet
durch einen Exponentialgenerator (86), der zwischen den r.ingangstcil (12) und den Steuerteil (18)
zum Synthetisieren von Verschlußlautphonemen ge-
schaltet ist.
10. Schaltung nach Anspruch 7, dadurch gekennzeichnet,
daß die Durchlaßbereichc der drei Resonanzfiiter (42,44,46) zwischen etwa 100 bis 1000 Hz
bzw. 500 bis 3000 Hz bzw. 1000 bis 4000 Hz liegen.
1 i. Schaltung nach Anspruch 7 bis 10, dadurch gekennzeichnet, daß jedes der abstimmbaren Resonanzfilter
(42,44,46) einen Kondensator und Mittel zur Variation der Spannung an diesem Kondensator
zur Abstimmung des betreffenden Filters umfaßt.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11947371A | 1971-03-01 | 1971-03-01 |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2209548A1 DE2209548A1 (de) | 1972-10-19 |
DE2209548B2 DE2209548B2 (de) | 1979-06-28 |
DE2209548C3 true DE2209548C3 (de) | 1984-11-08 |
Family
ID=22384598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19722209548 Expired DE2209548C3 (de) | 1971-03-01 | 1972-02-29 | Elektrische Sprachsynthetisatorschaltung |
Country Status (5)
Country | Link |
---|---|
JP (1) | JPS5416167B1 (de) |
CA (1) | CA1005913A (de) |
DE (1) | DE2209548C3 (de) |
FR (1) | FR2127875A5 (de) |
GB (1) | GB1387321A (de) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4128737A (en) * | 1976-08-16 | 1978-12-05 | Federal Screw Works | Voice synthesizer |
IT1083533B (it) * | 1977-06-20 | 1985-05-21 | Cselt Centro Studi Lab Telecom | Procedimento e dispositivo per la generazione di un segnale tipo voce per l'effettuazione di misure oggettive delle prestazioni di apparecchiature facenti parte di sistemi di trasmissione di segnali vocali |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3319002A (en) * | 1963-05-24 | 1967-05-09 | Clerk Joseph L De | Electronic formant speech synthesizer |
-
1972
- 1972-02-03 CA CA133,911A patent/CA1005913A/en not_active Expired
- 1972-02-15 GB GB696672A patent/GB1387321A/en not_active Expired
- 1972-02-29 FR FR7206926A patent/FR2127875A5/fr not_active Expired
- 1972-02-29 DE DE19722209548 patent/DE2209548C3/de not_active Expired
- 1972-03-01 JP JP2142072A patent/JPS5416167B1/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
FR2127875A5 (de) | 1972-10-13 |
GB1387321A (en) | 1975-03-12 |
CA1005913A (en) | 1977-02-22 |
DE2209548A1 (de) | 1972-10-19 |
JPS5416167B1 (de) | 1979-06-20 |
DE2209548B2 (de) | 1979-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2115258A1 (de) | Sprachsynthese durch Verkettung von in Formant Form codierten Wortern | |
DE2108599A1 (de) | Gerat zur hörbaren Wiedergabe eines Kardiogramms | |
DE2920298A1 (de) | Binaere interpolatorschaltung fuer ein elektronisches musikinstrument | |
DE2840596A1 (de) | Sprachsynthesizer | |
DE2736082A1 (de) | Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer) | |
DE2530380A1 (de) | Sprachsynthetisatorsystem | |
DE2526457C3 (de) | Elektronisches Musikinstrument | |
DE2937256C2 (de) | Elektronisches Musikinstrument | |
US3836717A (en) | Speech synthesizer responsive to a digital command input | |
EP1105867A1 (de) | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten | |
DE2727349A1 (de) | Einrichtung zum erzeugen eines klangsignales fuer ein elektronisches musikinstrument | |
DE2429871C3 (de) | Verfahren zum Erzeugen von elektrischen Klangsignalen entsprechend Klängen bestimmter Klanghöhe jedoch unterschiedlicher Lautstärkewerte | |
DE2209548C3 (de) | Elektrische Sprachsynthetisatorschaltung | |
DE2430321C3 (de) | Einrichtung zur Erzeugung von Tonsignalen | |
DE2051589A1 (de) | Anordnung zur Synthese eines Signals | |
DE1903623C3 (de) | Elektrischer Sprach-Synthetisator | |
DE3101590A1 (de) | Verfahren und anordnung zum erzeugen eines sprachsignals | |
DE2657039A1 (de) | Schaltungsanordnung zum nachahmen der klangcharakteristik von zungen-orgelpfeifen | |
DE2515524C3 (de) | Einrichtung zum elektronischen Erzeugen von Klangsignalen | |
CH572258A5 (de) | ||
DE2904426A1 (de) | Analog-sprach-codierer und decodierer | |
EP0094681B1 (de) | Schaltungsanordnung zur elektronischen Sprachsynthese | |
DE4102078C2 (de) | Toneffektgerät zur Erzeugung von Nachhalleffekten | |
DE3904425A1 (de) | Verfahren und vorrichtung zur klangaufbereitung | |
DE3126163C2 (de) | Schaltungsanordnung zur amplitudenkontrollierten Erzeugung eines akustischen Signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8281 | Inventor (new situation) |
Free format text: GAGNON, RICHARD T., BIRMINGHAM, MICH., US |
|
AG | Has addition no. |
Ref country code: DE Ref document number: 2530380 Format of ref document f/p: P |
|
C3 | Grant after two publication steps (3rd publication) | ||
8339 | Ceased/non-payment of the annual fee | ||
8380 | Miscellaneous part iii |
Free format text: SPALTE 1, ZEILE 7 DER PATENTSCHRIFT MUSS RICHTIG LAUTEN: "CHERMATRIX (80) ENTHAELT, MIT EINEM DEN EINGANGS-." |