DE2209548C3 - Elektrische Sprachsynthetisatorschaltung - Google Patents

Elektrische Sprachsynthetisatorschaltung

Info

Publication number
DE2209548C3
DE2209548C3 DE19722209548 DE2209548A DE2209548C3 DE 2209548 C3 DE2209548 C3 DE 2209548C3 DE 19722209548 DE19722209548 DE 19722209548 DE 2209548 A DE2209548 A DE 2209548A DE 2209548 C3 DE2209548 C3 DE 2209548C3
Authority
DE
Germany
Prior art keywords
control
output
generator
circuit according
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE19722209548
Other languages
English (en)
Other versions
DE2209548A1 (de
DE2209548B2 (de
Inventor
Richard T. Birmingham Mich. Gagnon
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SCITRONIX CORP BIRMINGHAM MICH US
Original Assignee
SCITRONIX CORP BIRMINGHAM MICH US
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SCITRONIX CORP BIRMINGHAM MICH US filed Critical SCITRONIX CORP BIRMINGHAM MICH US
Publication of DE2209548A1 publication Critical patent/DE2209548A1/de
Publication of DE2209548B2 publication Critical patent/DE2209548B2/de
Application granted granted Critical
Publication of DE2209548C3 publication Critical patent/DE2209548C3/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

Die Erfindung betrifft eine elektrische Sprachsynthetisatorschaltung laut Oberbegriff des Patentanspruchs 1. Es sind bereits verschiedene Schaltungen zur Erzeugung von akustischen Effekten bekanntgeworden, die der menschlichen Stimme ähneln, insbesondere in zwei grundsätzlich verschiedenen Kategorien. Die erste Kategorie umfaßt Schaltungen zum Aufzeichnen und Speichern von Wörtern und Phrasen derart, daß diese wieder abgerufen werden können, um daraus Sätze zu konstruieren. Diese Schaltungen könnte man eher als Encyklopädien, denn als Sprachsynthetisatorschaltungen bezeichnen, zitiert in US-PS 33 19 002; sie haben im allgemeinen wegen der hohen Anforderungen hinsichtlich der Speicherung und des Abrufes eines umfangreichen Vokabulars nur eine begrenzte Anwendbarkeit. Die andere Kategorie umfaßt solche Schaltungen, die Sprachelemente, normalerweise auf phonetischer Basis, synthetisieren, wobei diese phonetischen Elemente dann zu Wörtern zusammengesetzt werden, und zwar entsprechend eingegebenen Befehlssignalen. Schaltungen dieser Art sind in »IEEE spectrum« Oktober 1970, Seiten 28-30 sowie in der US-PS 33 19 002 beschrieben. Da es in praktisch allen Sprachen wesentlich weniger Phoneme als Wörter gibt, ist diese Lösung vom Standpunkt der Verkleinerung der Datenspeicherung und der An-Forderungen an den Abruf vorzuziehen, wobei dennoch eine umfangreiche Variation der Sprachdarstellung beibehalten wird. Die bekannten Phonemgeneratoren sind jedoch im allgemeinen recht kompliziert, anscheinend infolge der verherrschenden Ansicht, daß die Sprache am besten durch eine volle elektronische Analogie des menschlichen Sprachtraktes synthesiert wird. Diese Vorstellung führt zu einem Synthetisator mit einer großen Anzahl gesteuerter Bauelemente; das wiederum macht die Programmiereinrichtung zur Steuerung der Elemente entsprechend den Eingangsbefehlen außerordentlich kompliziert.
Eine ausführliche Beschreibung eines solchen Synthetisators enthält auch der Aufsatz »Speech Synthesis by Rule« von Holmes, Mattingly und Shearme auf den Seiten 127 bis 143 von »Language and Speech«, Vol. 7, 1964. Er beschreibt Verfahren zur Synthese verschiedener Phonemarten und ihrer Übergange unter Verwendung von Rechnerprogrammen und elektronischen Schaltungen. Dabei wird für jedes Phonem unterschieden zwischen einem Anfangsübergang, einem stetigen Zustand und einem Endübergang, so daß zur Erzeugung dieser unterschiedlichen Elemente sowie der dazu erforderlichen Steuersignale ein hoher schaltungstechnischer Aufwand anfällt. Dieses Konzept der Unterteilung der
t>5 darzustellenden Sprache in unterschiedliche Zustände steht aber im Gegensat/, zu den tatsächlichen Eigenschaften der menschlichen Sprache, die keine derartigen diskreten Zustände, sondern einen fließenden Übergang
von einem Phonem zum nächstfolgenden erkennen läßt.
Der Erfindung liegt die Aufgabe zugrunde, die menschliche Sprache auf andere Art und mit einfacheren Mitteln so zu synthetisieren, daß d"ie phonetischen Elemente glatt ineinanderfließen.
Diese Aufgabe wird erfindungsgemäß laut kennzeichnendem Teil des Patentanspruches 1 gelöst.
Weitere Fortbildungen der Erfindung ergeben sich aus den echten Unteransprüchen für die Patentschutz nur in Ve'hindung mit Patentanspruch 1 begehrt wird.
Die Erfindung wird nachstehend an Hand von Ausführungsbeispielen unter Bezugnahme auf die Figuren näher erläutert. Es Eeigt
F i g. 1 ein Blockschaltbild der Sprachsynthetisatorschaltung:
F i g. 2 ein Energiefrequenzspektrum eines beispielsweise dargestellten Phonems;
F ι g. 3 ein Diagramm eines Ausgangssignals;
Fig.4 ein Schaltbild eines Widerstar.Js-Netzwerkes nebst Tongenerator;
F i g. 5 ein Schaltbild eines Rauschgenerators;
F i g. ό ein Schaltbild eines Exponentialgenerators;
F i g. 7 einen Teil der Schaltung in F i g. 1 mit einem Rauschverstärker;
F i g. 8 ein Schaltbild eines abstimmbaren Resonanzfilters:
F i g. 9 ein Schaltbild eines Resonanzfilters mit fester Resonanzfrequenz;
Fig. 10 ein Schaltbild eines Tiefpaßfilters;
F i g. 11 ein Schaltbild eines Widerstands-Netzwerkes mit fünf Eingängen und
F i g. 12 ein Schaltbild des Zeitgeberteils.
Eine Sprachsynthetisatorschaltung 10 gemäß Fig. 1 umfaßt einen Eingangsteil 12, der auf acht-bit-Digitalbefehle (Eingangssteuerbefehle) anspricht, um Analogsteuersignale in 37 Einzelkombinationen zu erzeugen, von denen jede die Amplituden-Resonanz- und Zeitkoordinaten der akustischen Sprachelemente wiedergeben, die im nachfolgenden im allgemeinen als Phoneme bezeichnet werden und die durch die Sprachsynthetisatorschaltung 10 erzeugt werden sollen. Die Sprachsynthetisatorschaltung 10 umfaßt ferner einen Tongenerator !4 zur Erzeugung einer stimmhaften Grundphonemquantität (Tonsignal) und einen Rauschgenerator 16 zur Erzeugung einer stimmlosen Grundphonemquantität. Die stimmhaften und stimmlosen Grundphonemquantitäten der Generatoren 14 und 16 werden moduliert und in Resonanz gebracht, und zwar in einem Steuerteil 18, der durch die Analogsteuersignale des Eingangsteils 12 gesteuert wird. Der Einzelausgang des Steuerteils 18 ist mit einem Ausgangsteil 20 zur Verstärkung und Wiedergabe verbunden. Die P^nemerzeugungsgeschwindigkeit und die Zeitcharaktei .stiken werden durch einen Zeitgeber 22 gesteuert, üer Steuersignale vom Eingangsteil 12 empfängt.
Der Tongenerator 14, der noch im einzelnen unter Bezugnahme auf Fig.4 beschrieben wird, erzeugt periodische Ausgangssignale mit einer Grundfrequenz, die sich der typischen menschlichen Stimme annähen. Der Tongenerator 14 erzeugt sowohl eine gerundete Sägezahnwellenform als auch eine oberwellenreiche Impulswellenform, wobei diese beiden Wellenformen bei derselben Frequenz auftreten. Die Frequenzsteuerung für die Modulation und für die Tonhöhensteuerung erfolgt über eine Steuerleitung 24, die ein Analogsteucrsignal vom Eingangsteil 12 weiterleitet. Die impulsartige periodische Komponenete, die die stimmhafte Quantität (Tonsignal) des Tongeneralors 14 wiedergibt, ist mit dem Eingang des Tonverstärkers 26 veränderlicher Verstärkung verbunden. Der Verstärkungsgrad wird durch ein Steuersignal über eine Steuerleitung 28 bestimmt. Die Sägezahnkomponente ist mit dem Eingang des zweiten Tonverstärkers 27 verbunden, der über eine Leitung 29 gesteuert wird
In ähnlicher Weise ist der Ausgang des Rauschgenerators 16, eines Breitband-Gauß-Tongenerators, der noch im einzelnen unter Bezugnahme auf Fig.5 beschrieben wird, mit einem Rauschverstärker 30 verbunden, der ebenfalls als Verstärker mit veränderlicher Verstärkung ausgelegt ist. Der Verstärkungsgrad wird vom Rauschgenerator 16 aus über drei getrennte Steuersignale die an Steuerleitungen 32, 34 bzw. 36 anliegen, gesteuert. Die stimmlose Phonemquantität (Rauschsignal) des Rauschgenerators 16 wird ferner über eine Leitung 38 an den Eingang des Tonverstärkers 26 angelegt, wo sie mit der Impulswellenform der stimmhaften Grundphonemquantität kombiniert bzw. überlagert wird, die durch den Tongenerator 14 erzeugt wird, bevor sie eventuell im Tonverstärker 26 moduliert wird. Jedes stimmhafte Phonem, das durch die Sprachsynthetisatorschaltung 10 erzeugt wird, enthält also eine Geräuschkomponente, um das Entweichen des Atems zu simulieren, bzw. eine stimmlose Geräuschkomponente, wie sie in allen stimmhaften Phonemquantitäten der menschlichen Sprache vorhanden ist.
Vom Ausgang des Tonverstärkers 26 führt eine Leitung 40 zu den Eingängen einpoliger abstimmbarer Resonanzfilter 42,44 und 46. Diese Filter 42,44 und 46 sind jeweils durch Analogsteuersignale abstimmbar, die über Steuerleitungen 48, 50 bzw. 52 angelegt werden, um die angelegten Wellenformen in den gewählten Frequenzen zu erzeugen. Im Gegensatz zu den bekannten Bandfiltern zeigt das einpolige anstimmbare Resonanzfilter, das hier verwendet wird, eine Verstellbarkeit über fast den gesamten Frequenzbereich sowie eine hohe spezifische Durchlässigkeit in einem bestimmten Frequenzbereich. Für Zwecke, auf die noch eingegangen wird, ist das Filter 42 zum Schwingen über einen unteren Frequenzbereich hinweg abstimmbar, der etwa zwischen 100 und 1000 Hz liegt. Das zweite Filter 44 ist in einem mittleren Frequenzband abstimmbar, das von etwa 500 bis 3000 Hz reicht, während das dritte Filter 46 in einem hohen Frequenzband abstimmbar ist das von etwa 1000 bis 4000 Hz reicht. Gemäß Fig. 1 wird der Ausgang des Verstärkers 26, der die stimmhafte Phonemquantität führt, an alle drei Filter 42,44 und 46 angelegt, da stimmhafte Phonembestandteile im allgemeinen in allen Frequenzbereichen erscheinen, die in der menschlichen Sprache vorhanden sind. Der Ausgang des Verstärkers 30 wird über die Leitung 54 nur an die Eingänge der Filter 44 und 46 gelegt, da die stimmlose Phonemquantität im allgemeinen nur im mittleren und oberen Frequenzbereich der menschlichen Sprache erscheint.
Im Steuerteil 18 ist der Ausgang des Filters 42 direkt rnii einer Ausgangsklemme 68 verbunden. Der Ausgang des Filters 44 ist jedoch mit einem Ausgangsverstärker 60 zur Amplitudenmodulation seines gemeinsamen Ausganges, entsprechend der Größe des Signals an einer Steuerleitung 62, verbunden. Schließlich ist der Ausgang des Filters 46 mit einem Ausgangsverstärker 64 zur Amplitudenmodulation seines gemeinsamen Ausgangssignals, entsprechend der Größe des Signals an einer Steuerlcitung 66, verbunden. Es können also bis zu drei Resonanz-Pole, die jeweils in der Frequenz einstellbar und in der Amplitude regulierbar sind, durch den Steuerteil 18 der Schaltung 10 erzeugt werden, um Pho-
neine entstehen zu lassen, die sowohl stimmhafte und stimmlose Komponenten, als auch Kombinationen derselben aufweisen. Die Ausgänge des Ausgangstonverstärkers 60 und des Ausgangsrauschverstärkers 64 sind mit der Ausgangsklemme 68 verbunden, von der die Eingangsleitung zu einem Ausgangsteil 20 abgeht. Der Ausgangsteil 20 besteht aus einem einpoligen Resonanzfilter 69, das die Nasalresonanz des menschlichen Stimmtraktes synthetisiert. Der Frequenzpol des Filters 69 tritt bei etwa 4000 Hz auf und kann fixiert werden. Demgemäß ist keine Steuerleitung vom Eingangsteil 12 vorgesehen. Ein Ausgang 70 des Filters 69 liegt an einer Ausgangsstufe, die normalerweise einen Breitbandverstärker und einen Lautsprecher 72 umfaßt.
Im Eingangsteil 12 werden parallel-binäre acht-bit-Eingangssteuerbefehie parallel an Eingänge 74 eines Schieberegisters 76 angelegt, das unter der Steuerung des Zeitgebers 22 steht. Die acht-bit-Eingangssteuerbefehle werden ohne Schwierigkeiten durch einen »Computer« oder eine andere Büromaschine erzeugt, beispielweise durch eine Maschine mit einer phonetischen Tastatur und einer Dioden-Verschlüsselungsmatrix. Das Achtbitsystem wird gewählt, um für eine ausreichende Informationskapazität für 60 oder mehr Phonembefehle zu sorgen, obgleich normalerweise nur 37 elementare akustische Effekte angesetzt werden müssen, um eine menschliche Sprache guter Qualität zu erzeugen. Zwei der Bits, die paralle vom Schieberegister 76 zu dem Zeitpunkt transferiert werden, zu dem ein Phonem erzeugt werden soll, werden an ein Widerstandsnetzwerk 78 angelegt, das binär ausgewogene Widerstände aufweist, um eine variable Amplitudenanalogstufenfunktion zu erzeugen, die die Modulation bzw. den Grundfrequenzausgang des Tongenerators t4 steuert. Der Ausgang des Widerstandsnetzwerkes 78 erscheint an der Steuerleitung 24, die mit dem Tongenerator 14 verbunden ist. Die Modulationssteuerung braucht nicht aufwendig zu sein, denn vier Grundwerte der Frequenz reichen unter normalen Umständen aus. Die anderen sechs Bit jedes Acht-Bit-Wortes, die aus dem Schieberegister 76 in Parallelform herausgehen, werden an eine Speichermatrix 80 angelegt, die unverwechselbare Kombinationen von Signalen an den 32 Ausgangsleitungen erzeugt. Die Speichermatrix 80 kann eine Diodenmatrix mit Verbindungsstiften an festen Stellen sein, um jedes Sechs-Bit-Eingangssignal in eine unverwechselbare Ausgangssignalkombination umzusetzen, die bis zu 32 Einzelbits aufweist. Alternativ kann man mit einer Magnetkernmatrix arbeiten, wobei die Verdrahtung einer solchen Matrix fixiert ist, so daß keine Informations-Schreibfunktion durchgeführt werden kann; eine Sechs-Bit-Eingangskombination erzeugt aiso 32-bit-Ausgangskombinationen. Diese Lösung dürfte einem veränderlichen Speicher vorzuziehen sein; ein veränderlicher Speicher kann jedoch eingesetzt werden, wenn ein »Computer« benutzt werden kann. Wenn eine solche Kapazität nicht zur Verfügung steht, dann die Speichermatrix 80 in Einsteckform hergestellt sein, so daß man sie herausnehmen und durch eine andere Matrix eines etwas anderen Aufbaus ersetzen kann, um damit dem System die Möglichkeit zu geben, verschiedene Sprachen, Geschlechter, Akzente usw. wiederzugeben.
Die 32-DigitaIsignalausgangsleitungen der Speichermatrix 80 sind in verschiedenen Kombinationen mit einer Vielzahl von Widerstandsnetzwerken 82a bis 82j verbunden, die die digitalen (binären) Eingangssignale in Analogstufenfunktionen entsprechender Größe umwandeln. Die Anzahl der Digitaleingänge zu jedem der Widerstandsnetzwerke 82a bis 82./ zeigt die Exponenttalrelation zu der Anzahl von Analogamplitudenvariationen an, die in der Ausgangswellenform zur Verfügung stehen. Ein Widerstandsnetzwerk ist in F i g. 11 dargestellt.
Bei dem Eingangsteil 12 der Sprachsyntheiisatorschaltong 10 sind die Analogstufenfunktionsausgänge der Widerstandsnetzwerke 826 bis 82y einzeln mit Tiefpaßfiltern 84a bis 84Λ verbunden, wobei jedes Filter eine endliche Ansprechzeit in der Größenordnung von 70 Millisekunden hat, um damit die abrupten Amplitudenschwankungen zwischen den Analogstufen auszugleichen und relativ glatte Übergänge und sich langsam ändernde Amplituden zu den verschiedenen Einrichtungen des Steuerteils zu schicken, die durch die Analogsteuersignaie gesteuert werden. Der Ausgang des Filters 84a wird über die Leitung 28 dem Tonverstärkers 26 zur Amplitudensteuerung der stimmhaften Phonemquantität in Vermischung mit einem Teil der stimmlosen Phonemquantität zugeführt. Der Ausgang des Filters 846 wird über die Leitung 36 als eines der drei Steuersignale dem Rauschverstärker 30 zur Amplitudensteuerung der stimmlosen Phonemquantität zugeführt. Der Ausgang des Filters 84c wird über die Leitung 29 als eine sich langsam ändernde Analogfunktion dem Verstärker 27 zur Amplitudensteuerung der stimmhaften Phonemquantität, die an die Anschlußklemme 68 angelegt wird, zugeführt. Der Ausgang des Filters 84c/ wird über die Leitung 52 dem dritten abstimmbaren Resonanzfilter 46 zugeführt, um die Lage des Frequenzpols im hohen Frequenzbereich festzulegen. Der Ausgang des Filters 84e wird dem abstimmbaren Resonanzfilter 44 über die Leitung 50 zugeführt, um die Lage des Frequenzpojs im mittleren Frequenzbereich zu bestimmen. Der Ausgang des Filters 84/wird über die Leitung 48 dem Steueranschluß des abstimmbaren Resonanzfilters 42 zugeführt, um den Frequenzpol der stimmhaften Phonemquantität im unteren Frequenzbereich festzulegen. Der Ausgang des Filters 84g- wird dem Steuereingang des Ausgangsrauschverstärkers 64 über die Steuerleitung 66 zugeführt, um die Amplitudenmodulation des Verbundsignals vom Filter 46 festzulegen. Der Ausgang des Filters 84Λ wird über die Steuerleitung 62 dem Ausgangstonverstärker 60 zugeführt, um die Amplitude des Verbundsignals im mittleren Frequenzbereich zu steuern.
Der Ausgang des Widerstandsnetzwerkes 82a wird nicht an ein Tiefpaßfilter angelegt, sondern an einen Exponentialgenerator 86, dessen Schaltung in Fig. 6 dargestellt ist, und zwar um Verschlußlautphoneme zu erzeugen. Der Ausgang des Exponentialgenerators 86 wird über die Steuerieiiung 34 ais der zweite der drei Eingänge dem Rauschverstärker 30 für die Amplitudenmodulation stimmloser Phonemquantitäten zugeführt. Der Ausgang des Widerstandsnetzwerkes 82/wird über die Steuerleitung 88 direkt dem Zeitgeber 22 zugeführt.
Schließlich steuert die Speichermatrix 80 noch einen Zerhacker 92, der an den dritten Eingang des Rauschverstärkers 30 angeschlossen ist. Das Steuersignal zum Zerhacker 92 wird über die Leitung 90 vom Ausgang des Filters 84c zugeführt, so daß es immer dann vorhanden ist, wenn ein stimmhaftes Phonem erzeugt wird. Das Signal schaltet den Zerhacker 92 ein, um die stimmlose Phonemquantilät zu modulieren, die an den Ausgangsverstärker 30 angelegt wird. Die Modulation bzw. das Steuersignal wird dem Rauschverstärker 30 über die Leitung 32 zugeführt. Die Amplitudenmodulation hat Rechteckform zwischen der vollen Amplitude und Null
und erfolgt mil einer Frequenz, die niedrig im Vergleich /iir minieren Frequenz, der stimmlosen Signalkomponcnte ist. Die Frequenzsteuerung des Zerhackers 92 wird vom Tongenerator 14 abgeleitet, der für die stimmhafte Phonemquantität über die Leitung % sorgt. Das Ergebnis ist, daß die stimmlose Komponente vom Verbundphonemen mit der Grundfrequenz moduliert wird. Der Zerhacker 92 wird damit während des Phonemintervalls aktiviert, das den Ausgang des Rauschverstärkers 30 während jedes stimmhaften Zyklus periodisch auf Null abfallen läßt. Verbundphoneme, für die der Zerhacker 92 effektiv ist, umfassen im Englischen das »th«, wie im englischen Wort »then«, den Buchstaben »s«, der beispielsweise im englischen Wort »leisure« als »sch« ausgesprochen wird, ferner im Englischen die Buchstaben »v«, »j« und »z«. Phoneme, die nur stimmlose Komponenten haben, also jene, in denen der Zerhakker 92 nicht in Funktion tritt, sind im Englischen: »s«, »ch«, »sh«. »f«, »th« wie um englischen Wort »thin« und »h«. Der Zerhacker 92 bleibt zwar während stimmhafter Phoneme eingeschaltet, hat aber keinen Effekt, da die Steuerung vom Tiefpaßfilter 84£> die anderen übersteuert und den Rauschverstärker 30 ausgeschaltet hält.
Im Zeitgeber 22 ist die Steuerleitung 88 vom Widerstandsnetzwerk 82ymit der Zeitsteuerschaltung 98 verbunden, die ihrerseits mit dem Taktgenerator 100 verbunden ist. Der Taktgenerator 100 ist mit dem Wechseleingang des Schieberegisters 76 verbunden, um die Intervalle zwischen der Transferierung von 8 Bit-Wörtern vom Register 76 zur Speichermatrix 80 zu steuern. Die Zeitintervalle für die verschiedenen Phoneme variieren zwischen JO und 150 Millisekunden, wobei das Intervall bzw. die Dauer jedes Phonems durch das Eingangswort bestimmt wird, das vom Register 76 zum Speicher 80 transferiert wird. Mit anderen Worten, jedes Phonem setzt seine eigene Zeitdauer durch die Zeitsteuerschaltung 98. Die Zeitsteuerschaltung kann aus bekannten Einrichtungen bestehen, um die zeitlich abgestimmte Erzeugung von Signalimpulsen zu bewirken. Eine geeignete Form wird nachstehend beschrieben. Ein »Eingangsdaten«-Befehlsansch!uß 102 ist am Taktgenerator 100 vorgesehen, um ihn in Funktion zu setzen, während Daten in das Schieberegister 76 eingegeben werden.
In der Arbeitsweise der in F i g. 1 gezeigten Sprachsynthetisatorschaltung 10 werden die Phoneme, die zum Synthetisieren eines Wortes oder einer Gruppe von Wörtern erforderlich sind, in das Wechselregister 76 in 8-Bit-Wörtern eingegeben und in Richtung auf die 8-Bit-ParaIleltransferposition im Register 76 mittels des Taktgenerators 100 verschoben. Die phonetische Konstruktion von Wörtern ist allgemein bekannt und wird hier nicht vollständig wiederholt. Die acht Bit, die jedes Phonem bilden, umfassen zwei Modulationsbits, die dem Widerstandsnetzwerk 78 in digitaler Form eingegeben werden. Das Netzwerk 78 wandelt die Digitalsignale in eine Analogstufenfunktion um, die über die Leitung 24 an den Tongenerator 14 angelegt wird. Demgemäß wird der Tongenerator 14 ständig in Funktion gesetzt, um die stimmhafte Phonemquantität dem Rauschverstärker 36 zuzuleiten, auch wenn diese Quantität nur tatsächlich eingesetzt wird, um diejenigen akustischen Effekte entstehen zu lassen, die stimmhafte Komponenten haben. Die anderen sechs Bits bestimmen die Digitalbefehlssignale. die an die Widerstandsnetzwerke 82a bis 82v angelegt werden, also die Analogfunktionsausgänge, die an den Exponentialgenerator 86 angelegt werden, ferner die Tiefpaßfilter 84a bis 84Λ und die Zeitsteuerschaltung 98. Die im Englischen stimmlosen Phoneme »s«, »sh«, »f«, »th« (wie in dem englischen Wort »thin«) und »h« sind durch ein Fehlen von Signalen entweder vom Zerhacker 92 oder vom Exponentialgenerator 86 angezeigt. Im allgemeinen werden die genannten Phoneme durch die Signale gesteuert, die an der Leitung 36 erscheinen, in der Zuleitung zum Rauschverstärker 30. Darüber hinaus werden die abstimmbaren Resonanzfilter 42,44 und 46 mit Signalen während stimmloser Phoneme im Funktion gesetzt, um die Resonanz-Qualität
ίο des Stimmtraktes während des Entstehens solcher Phoneme zu simulieren. Die für die englische Sprache genannten Phoneme »th« (wie in dem englischen Wort »the«), »s« (wie im englischen Wort »leisure«), »v«, »j« und »ζ« umfassen alle sowohl stimmhafte als auch stimmlose Phoneme, wobei die stimmlosen Phoneme im wesentlichen eine Lautkomponente sind, die im menschlichen Stimmtrakt durch Luft entsteht, die turbulent durch eine Verengung des Stimmtraktes streicht. Dies geschieht gleichzeitig mit einer Druckwelle von den Stimmbändern; das wird in der Sprachsynthetisatorschaltung 10 durch eine Modulation der stimmhaften Grundphonemquantität des Tongenerators 14 simuliert. Für alle diese Phoneme wird der Zerhacker 92 mittels eines Signals im Form einer Spannung an der Leitung 90 aktiviert. Das Signal wird über die Leitung 32 dem Rauschverstärker 30 zugeführt, um die stimmlose Komponente mit der Frequenz der stimmhaften Komponente in der Amplitude zu modulieren.
Für Verschlußlautphoneme wird der Exponentialgenerator 86 durch einen von vier Analogsignalwerten in Funktion gesetzt, die von dem Widerstandsnetzwerk 82a kommen. Diese Verschlußlautphoneme umfassen im Englischen stimmhafte Phoneme wie »b«, »d« und »g«, sowie stimmlose Phoneme »k«, »ch«, »p« und »t«.
Alle diese Phoneme schließen bei der Erzeugung durch den menschlichen Stimmtrakt den Aufbau eines Drucks hinter einer Verengung im Stimmtrakt ein, dem unmittelbar danach eine Druckfreigabe folgt, um eine exponentiell ausklingende Gaußsche Funktion entstehen zu lassen. Diese Funktion wird aus der Sprachsynthetisatorschaltung 10 durch den Exponentialgenerator 86 herausgetragen, der zunächst die Übertragung des Phonems durch den Rauschverstärker 30 während der Zeit verzögert, während der eine Kondensatorladung aufgebaut wird: dann wird der Kondensator sofort durch einen Widerstand entladen, um eine ausklingende Analogamplitudenmodulation über den Rauschverstärker 30 entstehen zu lassen. Diese Modulation wird natürlich in die stimmlose Gaußsche Lautkomponente eingearbeitet, die vom Rauschgenerator 16 erzeugt wird.
In Fig. 2 ist eine Frequenzleistungsspektrumanalyse für das Phonem »u« gezeigt und dabei die Arbeitsweise der drei abstimmbaren Resonanzfilter 42, 44 und 46 während der Phonembildung dargestellt. Es ist zu sehen, daß die Wellenform 104, die das Frequenzleistungsspektrum des angekündigten Phonems wiedergibt, einen ersten Pol »A« bzw. eine Resonanzspitze bei 650 Hz aufweist, wobei dieser Pol durch das Resonanzfilter 42 und innerhalb seines Bereiches begründet wird. Ein zweiter Pol »B« liegt bei etwa 1120Hz und wird durch das Resonanzfilter 44 festgelegt. Ein dritter Pol »C« liegt bei 2100 Hz und wird durch das Resonanzfilter 46 festgelegt. Eine vierte Resonanz »D« wesentlich niedrigerer Leistung liegt bei etwa 4000 Hz und stellt den Resonanz-Beitrag des einpoligen, fest eingestellten Resonanzfilters 69 dar, d. h. die nasale Resonanzsynthese. Es versteht sich, daß jedes Phonem ein Frequenzleistungsspektrum zeigt, das ähnlich dem Phonem-Leistungs-
Frequenzspektrum 104 in Fig. 2 in grafischer Form wiedergegeben werden kann. Nicht alle Phoneme zeigen allerdings drei Hauptpole der Wellenform 104, vielmehr zeigt jedes Phonem andere Werte der Lage der Polfrequenzen und der relativen Amplituden, so daß jedes Phonem unverwechselbar durch die speziellen Signale festgelegt ist, die über die Steuerleitungcn 48, 50 und 52 an die Filter 42, 44 bzw. 46 anzulegen sind. Die Abstimmbereiche für die Filter 42,44 und 46 überlappen sich notwendigerweise, insofern, als manche Phoneme Pole zeigen, von denen zwei innerhalb des Bereiches eines Filters liegen können.
In Fig. 3 ist eine typische Analogstufenfunktion 106 in einer Art gezeigt, wie sie durch die Widerstandsnetzwerke 82a bis 82/ gemäß Fig. 1 erzeugt werden kann. Der eingezeichnete glatte Verlauf 108 stellt die geglättete und verzögerte Version der Analogfunktion dar, die dadurch entsteht, daß diese Funktion 106 durch die Tiefpaßfilter 84 geleitet wird. Da die Ansprechzeit der Filter 84 in der Größenordnung von 70 Millisekunden liegt, während manche Phoneme eine Dauer von nur 30 Millisekunden haben, gibt es Phoneme, für die das genau vorgeschriebene Ansprechen in der Sprachsynthetisatorschaltung 10 in F i g. 1 niemals voll erreicht wird. Das wiederum führt dazu, daß die realistische Qualität der Arbeitsweise der Sprachsynthetisatorschaltung 10 verbessert wird, indem aufeinanderfolgende Phoneme in gleicher Weise miteinander vermischt werden, wie der menschliche Stimmtrakt normalerweise arbeitet. Die Phonemintervalle sind also um die Filteransprechzeiten herum in gewisser Weise zu zentrieren. Wenn dann die Sprachgeschwindigkeit variiert wird, beispielsweise durch eine proportionale Verkürzung oder Verlängerung aller Phonemintervalle, kann eine entsprechende Variation in den Tiefpaßfiltern 84 erforderlich werden, um die Verständlichkeit zu bewahren.
In Fig.4 sind Einzelheiten eines Widerstandsnetzwerkes 78 und eines Generators 14 für stimmhafte Phoneme gezeigt. Das Widerstandsnetzwerk 78 besteht aus Dioden 110 und 112, die Gleichströme von der Speichermatrix 80 durch summierende Widerstände 114 und 116 zu einem Eingangswiderstand 118 fließen lassen. Ein Kondensator 120 glättet die Stromübergänge aus. Der Strom durch den Widerstand 118 lädt einen Kondensator 122, bis die Schwellenspannung des Doppelbasis-Transistors 124 erreicht ist. Wenn das geschieht ist der Transistor 124 durch den Weg von der Gleichspannung B+ über den Widerstand 126 zur Erde leitend, um den Kondensator 122 zu entladen, und einen Spannungsimpuls am Widerstand 126 entstehen zu lassen. Dieser Zyklus wiederholt sich periodisch, und der Impulsausgang wird an den Tonverstärker 26 angelegt. Am Kondensator 122 entsteht eine Sägezahnspannung, die über einen Kondensator 125 zu einem Verstärker 127 hoher Impedanz geführt wird. Der Ausgang des Verstärkers 127 wird an einen Widerstand 128 und einen Kondensator 130 angelegt, wodurch alle höheren Frequenzen entfernt werden. Der Ausgangswiderstand 132 legt die im gewissen Sinne abgerundete Sägezahnspannung an den Tonverstärker 27. Die Impulskomponente der periodischen Wellenform, die am Widerstand 126 in der in F i g. 4 gezeigten Schaltung erzeugt wird, umfaßt ein breites Frequenzspektrum der in F i g. 1 schwingenden Energie. Die niederfrequente Komponente, die durch den Verstärker 127 und die angeschlossenen Bauelemente erzeugt wird, geht zum Tonverstärker 27 und wird mit der Impuiskomponente am Anschluß 68 wieder kombiniert, um den Sprachausgang natürlich klingen zu lassen. Der Strom von der Speichermatrix 80, der über die Dioden 110 und 112 geleitet wird, steuert die Frequenz des Doppelbasis-Oszillator-Transistors 124 und damit die Tonhöhe bzw. Modulation der stimmhaften Phonemquantität, die durch den Tongenerator 14 erzeugt wird, wie es in F i g. 4 dargestellt ist.
In F i g. 5 ist eine Schaltung des Rauschgenerator* 16 für die Erzeugung stimmloser Phonemquantitiitcn schemalisch dargestellt. Die Rauschdiode 138 ist emgegengesetzt über ihre Zusammenbruchspannung hinaus vorgespannt, und zwar durch positive und negative Spannungen B+ und B—, die durch die Diode 138 und der den Strom begrenzende Widerstand 140 angeordnet sind, der den Stromfluß begrenzt. Es entsteht eine sehr starke Rauschkomponente, die durch den Kondensator 142 und einen Widerstand 144 an den Eingang eines Operationsverstärkers 146 angelegt wird, der einen variablen ohmschen Rückkopplungsweg 148 aufweist. Der Ausgangsanschluß ist natürlich mit dem Eingang der Verstärker 26 und 30 verbunden, wie in F i g. 1 gezeigt.
In F i g. 6 ist eine Schaltung des Exponentialgenenerators 86 der in F i g. I gezeigen Sprachsynthetisatorschaltung 10 schematisch dargestellt. Der Eingang des Exponentialgenerators 86 ist mit einem Widerstandsnetzwerk 82a verbunden und weist einen Impulsverzögerungsschaltkreis 152 auf, beispielweise einen normalen Univibrator. Am Ausgang des Imp'ilsverzögerungsschaltkreises 152 steht ein Digitalimpuls, der durch den Kondensator 154 und die isolierende Diode 156 gekoppelt ist. Der ÄC-Exponentialschaltkrcis wird durch den Widerstand 148 gebildet, der zwischen den Kondensator 154 und Erde gelegt ist. Der Ausgang des Exponentialgenerators 86 in F i g. 6 ist zur Steuerung des Rauschverstärkers 30 an diesen angeschlossen, um dessen Ausgangsspannung mit einer exponential ausklingenden Umhüllung zu modulieren. Wie vorstehend erwähnt, wird dieses Signal zur Bildung aller Verschlußlautphoneme verwendet.
In F i g. 7 sind Einzelheiten der Verbindung zwischen den Steuereinrichtungen, die die Signale an den Leitungen 32, 34 und 36 erzeugen, und dem Rauschverstärker 30 gezeigt, der dadurch gesteuert wird. Wie vorstehend erwähnt, handelt es sich bei dem Rauschverstarker 30 im wesentlichen um einen Verstärker mit veränderlieher Verstärkung, dessen Eingang an den Rauschgenerator 16 angeschlossen ist, während der Ausgang gemäß F i g. 7 zu den abstimmbaren Resonanzfiltern 44 und 46 führt. Die Steuersignale an den Eingangsleitungen 32 und 34 sind abrupt und in ihrem Wesen genau festgelegt, während das Steuersignal an der Leitung 36, das vom Tiefpaßfilter Mb kommt, normalerweise glatt und nur langsam veränderlich ist. Der Zerhacker 92 umfaßt die Diode 160 und einen Reihenwiderstand 164, der mit der Steuerelektrode eines n-p-n-Transistors 166 verbunden ist. Die Sägezahnwellenform, die an dem Anschlußpunkt erscheint, der die gemeinsame Verbindung zwischen den Kondensatoren 122 und 125 und dem Widerstand 118 in Fig.4 bildet, wird über den Widerstand 168 an die Steuerelektrode eines zweiten n-p-n-Transistors 170 angelegt Die Kollektor-Emitter-Strecken der Transistoren 160 und 170 sind in Reihe zwischen den Eingang des Rauschverstärkers 30 und Masse geschaltet Die Transistoren wirken also als Digitalschalter, wobei ihre Kollektorstromkrcisc in Reihe geschaltet sind. Wenn der Transistor 166 durch die Speichermatrix 80 über die Diode 160 eingeschaltet wird, zerhackt der Transistor 170 die Steuerspannung am Widerstand 172 und damit den Ausgang des Rauschverstärkers 30. Das simuliert
eine Amplitudenmodulation stimmloser Komponenten in stimmhaften Phonemen. Der Exponcntialgenerator ist ebenfalls mit dem Rauschverstärker 30 durch einen Steuerwiderstand 172 und die Diode 174 verbunden. Das Tiefpaßfilter Mb ist in entsprechender Weise mit dem Rauschverstärker durch eine Diode 176 und den Steuerwiderstand 172 verbunden. Die Steuerlcitungen 34 und 36 zu den Dioden 174 und 176 sind entsprechend der Numerierung der in Fig. 1 gezeigten Schaltkreise gezeichnet.
In F i g. 8 ist die Schaltung eines typischen einpoligen abstimmbaren Resonanzfilters 42 gezeigt. Diese Filterschaltung kann auch für die Filter 44 und 46 in F i g. 1 verwendet werden. Als Beispiele sind summierende Widerstände 178 und 180 gezeigt, die die stimmhaften und stimmlosen Phonemquantitäten zum Resonanz-Stromkreis kombinieren, zu dem die Induktivität 181. der Kondensator 182 und ein Verstärker 184 gehören. Der Verstärker 184 wird durch das Steuersignal gesteuert, das über Leitung 48 angelegt wird. Das dem Verstärker 184 zugeleitete Steuersignal ändert seinen Verstärkungsgrad und damit die wirksame Kapazität des Kondensators 182 und damit wiederum die Resonanzfrequenz des Filters 142 in dem in Fig.8 gezeigten Schaltkreis. Die Widerstände 178 und 180 begrenzen die Güte des Filters 42, um es dem mechanischen Resonanzfilter im Stimmtrakt anzupassen.
In F i g. 9 ist eine Schaltung des fest eingestellten Resonanzfilters 68 gezeigt, die die Reihenschaltung eines Widerstandes 186, einer Induktivität 188 und eines Widerstandes 190 darstellt, wobei ein Nebenschluß-Kondensator 192 den Punkt zwischen Induktivität 188 und dem Widerstand 190 mit Masse verbindet. Ein Widerstand 194 ist parallel zur Reihenschaltung des Widerstandes 186, der Induktivität 188 und des Widerstandes 190 geschaltet, um einen Teil der Eingangsspannung dem Ausgang zuzugeben.Wie vorstehend erwähnt, führt das Filter 86 eine vierte feste Resonanz in die Ausgangswellenform ein.
Fi g. 10 zeigt die Schaltung eines Tiefpaßfilters 84, um die Übergänge zwischen den Werten der Analogstufenfunktionen zu glätten, die durch die Widerstandsnetzwerke erzeugt werden. Das Filter 84 ist ein Pi-Filter, das einen Eingangs- und einen Ausgangsanschluß 1% bzw. 198 aufweist, die durch eine Reiheninduktivität 200 verbunden sind. Die beiden Enden der Induktivität 200 sind durch den Kondensator 202 und den Kondensator 204 mit Masse verbunden. Die Kondensatoren 202 und 204 und die Induktivität 200 sind so gewählt, daß ein glatter 70-Millisekunden-Übergang am Ausgang bei Anlegen einer Stufenfunktion am Eingang erzeugt wird.
Fig. 11 zeigt die Schaltung eines Netzwerkes mit 5 Widerständen. Es sind 5 Eingangsanschlüsse 206a bis 206c1 vorgesehen, um die Digitalsignale an binär bewertete Widerstände 208a bis 208e anzulegen. Alle Widerstände sind in einem Anschluß 210 zusammengefaßt, der den Analogausgang für das Netzwerk bildet. Das Widerstandsnetzwerk stellt einen Digital-Analogwandler dar, durch den gleiche digitale Spannungssignale in eine analoge Stufenfunktion umgewandelt werden, wobei der Amplitudenwert der Stufenfunktion durch die Auswahl der erzeugten Eingänge und durch die Größen der Widerstände 208 bestimmt wird. Wie vorstehend erwähnt, sind die Widerstände in binärer Ordnung bewertet, zum Beispiel 200 0hm, 100 Ohm, 50 Ohm, 25 0hm und 12,5 Ohm, um eine Anzahl selektierbarer Arnplitudenstufen entstehen zu lassen. Es versteht sich, daß die Bewertungsfolgen auch in anderer als in binärer Form eingesetzt werden können. Darüber hinaus versteht es sich, daß auch andere Arten von Netzwerken mit mehr oder weniger Widerständen verwendet werden können.
In F i g. 12 ist eine Schaltung für den Zeitgeber 22 in
Fig. 1 gezeigt. Das Widerstandsnetzwerk 82/ enthält Widerstände 212, 214 und 216, die jeweils in Reihe mit Dioden 218,220 und 222 verbunden sind. Die Kathodenanschlüsse der Dioden sind in einem gemeinsamen Punkt 224 zusammengefaßt, der mit dem Eingang des Doppelbasis-Transistors 226 verbunden ist. Ein Nebenschluß-Kondensator 228 wird durch die Spannung am Sammelpunkt 224 aufgeladen bzw. durch den Widerstand 230 entladen, wenn der Transistor 226 leitet. Die positive Spanungsquelle B+ ist mit dem gegenüberliegenden primären Anschluß des Transistors 226 durch einen Widerstand 232 verbunden. Man kann also verschiedene Ladegeschwindigkeiten für den Kondensator 228, entsprechend den Werten der Widerstände 212, 214, 216, wählen. Wenn die Ladung am Kondensator 228 den Schwellenwert des Doppelbasis-Transistors 226 erreicht, entlädt sich der Kondensator 228 über den Widerstand 230 und liefert eine Ausgangsspannung an den Taktgenerator 100, der das Schieberegister 76 schrittweise weiterbewegt. Jeder Digitalbefehl umfaßt ein Bit bzw. eine Gruppe von Bits, das bzw. die das Zeitintervall bestimmt, während das Sechs-Bit-Digitalwort der Nurlese-Speichermatrix 80 präsentiert wird.
Die folgenden Werte'sind als Beispiele angegeben, um das Maß der Amplitudenmodulation und der Resonanzfrequenz-Positionierung für die Erzeugung von Frequenzleistungsspektren anzuzeigen, die den angegebenen Phonemen entsprechen.
Phonemparameter (aus der englischen Sprache)
Phonem Filter Amplitude Filter Amplitude Filter Amplitude Amplitude Zeit
(42) (26) (44) (60) (46) (64) (27) Milli
sekunden '
E 350 2,0 2200 2,0 2700 5,0 3,0 170
R 480 4.0 1300 2,0 Ί580 3.0 3,0 120
U 630 3,0 1160 1.5 2700 1.5 3,0 140
A 520 3,0 2200 2.0 2700 5.0 3.0 140
L 480 4,0 1000 0,6 2800 04 3.0 140
Pause 480 0,0 1700 0,0 2550 0.0 0.0 30
N 420 0,8 1950 03 2700 0.5 14 100
O 520 3,0 900 1,0 2500 1.0 3,0 120
M 350 0,6 900 0,1 2550 0,5 14 120
O 800 4,0 1160 24 2700 1.5 3.0 170
E 630 2,5 1950 13 2800 3,0 3,0 170
U 420 3,0 960 1,5 2700 0,6 3,0 170
A 730 2,5 1950 13 2700 2,5 3,0 170 S
I 480 4,0 1950 1,5 2700 3,0 3.0 170 j
B 200 0,0 730 0,0 2200 0,0 14 100 !
AW 730 3,0 960 5,0 2700 2,5 3,0 140
W 350 3,5 730 3,0 2700 1.0 14 100
Y 350 14 2200 1,5 2700 4,0 3,0 140
D 200 0,6 1950 0,0 3300 0,0 14 50
G 260 0,8 1950 0,0 2550 0,0 14 50
OO 480 6,0 960 4,0 2700 1,5 3,0 170
NG 380 1,0 2200 3,0 2200 0,4 14 170
S 420 0,0 1700 0,0 3700 0,7*) 0,0 100
H 550 0,0 1700 03·) 2550 0.2*) 0,0 75
SH 380 0,0 1950 0,5·) 2550 1.5*) 0,0 120
F 480 0,0 1160 0,0 2700 0,2*) 0,0 140
TH 420 0,0 1950 0.2*) 3300 0,4*) 0,0 100
V 480 0,0 1160 0,0 2/00 0,6*) 14 75
Z 420 0,0 1700 0,0 3700 0,4*) 14 100
Raum 480 0,0 1700 0,0 2550 0,0 0,0 60
I 380 0,0 1950 0,3·) 2700 1,5*) 14 75
TH 420 0,0 1950 0,2·) 2800 0,6*) 14 75
T 480 0,0 1950 0,1*) 3300 0,4·) 0,0 140
K 350 0,0 1950 0,0 2700 0.4*) 0,0 140
P 420 0,0 1300 0,1*) 2700 0.2*) 0.0 140
CH 480 0,0 2200 0,3*) 2700 1,5* j 0,0 140
I 520 3,0 1800 14 2700 3,0 0,0 50
*)"■ Stimmlose Komponente.
Zusammenfassend synthetisiert die hier beschriebene Schaltung die menschliche Sprache durch Simulieren ihrer akustischen Effekte: d. h. sie erzeugt Folgen elementarer akustischer Effekte durch Definition der Parameter dieser Effekte, d. h. der Resonanzfrequenz, der Amplitude, des Zeitenintervalls und der Wellenform. Die Schaltung realisiert nicht immer die vollen Werte der elementaren Parameter, die vorstehend angegeben sind, abgesehen natürlich von der Zeitdauer, sondern
nähert sich solchen Werten innerhalb dei· spezifizierten Zeitintervalle nur an, um damit die langsam und glatt wechselnden dynamischen Bedingungen dtr menschlichen Sprache zu simulieren, weil sie absichtlich träge analoge Ansprechcharakteristiken hat. Die Befehle können damit als Koordinaten elementarer akustischer Effekte betrachtet werden, wobei die Koordinaten selten genau realisiert werden, sondern vielfach lediglich innerhalb des spezifizierten Phonemzeitintervalls angenähert werden.
Hierzu 3 Blatt Zeichnungen

Claims (1)

22 09 543 Patentansprüche:
1. Elektrische Sprachsynthetisatorschaltung (10) mit einem digital eingegebene Eingangssteuerbefehle empfangenden Eingangsteil (12), der eine Spei-
chereatrix (8G) enthält, dt sinsn dsn Eingangsteil (12) steuernden Zeitgeber (22), mit einem an den Eingangsteil (12) angeschlossenen Steuerteil (18), der einen Tongenerator (14) und einen Rauschgegenerator (16) sowie diesen nachgeschaltet abstimmbare Resonanzfilter (42, 44, 46) und Ton- und Rauschverstärker (26, 27, 30, 60, 64) umfaßt, mit einem Ausgangsteil (20), der einen Lautsprecher (72) zur akustischen Wiedergabe der synthetisierten Laute besitzt, mit an die Speichermatrix (80) des Eingangsteils (12) angeschlossenen und die von dieser abgegebenen digitalen Signalkombinationen in Analog-Stufenfunktionen umwandelnden Digital-Analog-Umformern (82a-82y^und mit an diese angeschlossenen und die Analog-Stufenfunktionen in stetige Analog-Funktionen umformenden Glättungsschaltungen, deren Ausgangssignale zur Steuerung des Tongenerators (14), der Verstärker (26, 27, 30, 60,64) und abstimmbaren Resonanzfilter (42,44,46) des Steuerteils (!8) dienen (Steuersignale), dadurch gekennzeichnet, daß die Eingangssteuerbefehle zur Adressierung der Speichermatrix (80) verwendet werden und daß als Glättungsschaltungen Tiefpaßfilter (84a—84Λ) vorgesehen sind, die so dimensioniert sind, daß die aufeinander folgenden, in dem Steuerteil (18) erzeugten Phoneme möglichst glatt ineinander übergehen.
2. Schaltung nach Anspruch 1, dadurch gekennzeichnet, daß die Speichermatrix (80) eine Nurlese-Speichermatrix (ROM) ist.
3. Schaltung nach Anspruch 1 undt2, dadurch gekennzeichnet, daß die Digital/Analog-Umformer Widerstandsnetzwerke (82a—&2j) sind.
4. Schaltung nach Anspruch 1 bis 3, dadurch gekennzeichnet, daß der Rauschgenerator (16) ein breitbandiger Generator mit Gaußscher Verteilung ist.
5. Schaltung nach Anspruch 1 bis 4, dadurch gekennzeichnet, daß der Eingangsteil (12) einen Zerhacker (92) umfaßt.
6. Schaltung nach Anspruch 1 bis 5, dadurch gekennzeichnet, daß der Ausgang des Rauschgenerators (16) mit dem Ausgang des Tongenerators (14) derart kombiniert ist, daß jeder stimmhaften Phonemquantität ein nicht modulierter Teil der stimmlosen Phonemquantität zugesetzt wird.
7. Schaltung nach Anspruch 1 bis 6, dadurch gekennzeichnet, daß mindestens drei abstimmbare Resonanzfilter (42,44, 46) vorhanden sind, deren jedes so durch die Steuersignale abstimmbar ist, daß sein Durchlaßbereich innerhalb eines vorbestimmten Frequenzbandes liegt und folglich jedes der erzeugten Phoneme eine Resoninzhüllkurve hat, die mindestens drei getrennte Amplitudenpole aufweist.
8. Schaltung nach Anspruch 7, dadurch gekennzeichnet, daß jedes der abstimmbaren Resonanzfilter (42, 44, 46) so angeschlossen ist, daß es ein anderes Steuersignal vom Eingangsteil (12) empfängt.
9 Schaltung nach Anspruch 1 bis 8, gekennzeichnet durch einen Exponentialgenerator (86), der zwischen den r.ingangstcil (12) und den Steuerteil (18) zum Synthetisieren von Verschlußlautphonemen ge-
schaltet ist.
10. Schaltung nach Anspruch 7, dadurch gekennzeichnet, daß die Durchlaßbereichc der drei Resonanzfiiter (42,44,46) zwischen etwa 100 bis 1000 Hz bzw. 500 bis 3000 Hz bzw. 1000 bis 4000 Hz liegen.
1 i. Schaltung nach Anspruch 7 bis 10, dadurch gekennzeichnet, daß jedes der abstimmbaren Resonanzfilter (42,44,46) einen Kondensator und Mittel zur Variation der Spannung an diesem Kondensator zur Abstimmung des betreffenden Filters umfaßt.
DE19722209548 1971-03-01 1972-02-29 Elektrische Sprachsynthetisatorschaltung Expired DE2209548C3 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11947371A 1971-03-01 1971-03-01

Publications (3)

Publication Number Publication Date
DE2209548A1 DE2209548A1 (de) 1972-10-19
DE2209548B2 DE2209548B2 (de) 1979-06-28
DE2209548C3 true DE2209548C3 (de) 1984-11-08

Family

ID=22384598

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19722209548 Expired DE2209548C3 (de) 1971-03-01 1972-02-29 Elektrische Sprachsynthetisatorschaltung

Country Status (5)

Country Link
JP (1) JPS5416167B1 (de)
CA (1) CA1005913A (de)
DE (1) DE2209548C3 (de)
FR (1) FR2127875A5 (de)
GB (1) GB1387321A (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4128737A (en) * 1976-08-16 1978-12-05 Federal Screw Works Voice synthesizer
IT1083533B (it) * 1977-06-20 1985-05-21 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per la generazione di un segnale tipo voce per l'effettuazione di misure oggettive delle prestazioni di apparecchiature facenti parte di sistemi di trasmissione di segnali vocali

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3319002A (en) * 1963-05-24 1967-05-09 Clerk Joseph L De Electronic formant speech synthesizer

Also Published As

Publication number Publication date
FR2127875A5 (de) 1972-10-13
GB1387321A (en) 1975-03-12
CA1005913A (en) 1977-02-22
DE2209548A1 (de) 1972-10-19
JPS5416167B1 (de) 1979-06-20
DE2209548B2 (de) 1979-06-28

Similar Documents

Publication Publication Date Title
DE2115258A1 (de) Sprachsynthese durch Verkettung von in Formant Form codierten Wortern
DE2108599A1 (de) Gerat zur hörbaren Wiedergabe eines Kardiogramms
DE2920298A1 (de) Binaere interpolatorschaltung fuer ein elektronisches musikinstrument
DE2840596A1 (de) Sprachsynthesizer
DE2736082A1 (de) Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer)
DE2530380A1 (de) Sprachsynthetisatorsystem
DE2526457C3 (de) Elektronisches Musikinstrument
DE2937256C2 (de) Elektronisches Musikinstrument
US3836717A (en) Speech synthesizer responsive to a digital command input
EP1105867A1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
DE2727349A1 (de) Einrichtung zum erzeugen eines klangsignales fuer ein elektronisches musikinstrument
DE2429871C3 (de) Verfahren zum Erzeugen von elektrischen Klangsignalen entsprechend Klängen bestimmter Klanghöhe jedoch unterschiedlicher Lautstärkewerte
DE2209548C3 (de) Elektrische Sprachsynthetisatorschaltung
DE2430321C3 (de) Einrichtung zur Erzeugung von Tonsignalen
DE2051589A1 (de) Anordnung zur Synthese eines Signals
DE1903623C3 (de) Elektrischer Sprach-Synthetisator
DE3101590A1 (de) Verfahren und anordnung zum erzeugen eines sprachsignals
DE2657039A1 (de) Schaltungsanordnung zum nachahmen der klangcharakteristik von zungen-orgelpfeifen
DE2515524C3 (de) Einrichtung zum elektronischen Erzeugen von Klangsignalen
CH572258A5 (de)
DE2904426A1 (de) Analog-sprach-codierer und decodierer
EP0094681B1 (de) Schaltungsanordnung zur elektronischen Sprachsynthese
DE4102078C2 (de) Toneffektgerät zur Erzeugung von Nachhalleffekten
DE3904425A1 (de) Verfahren und vorrichtung zur klangaufbereitung
DE3126163C2 (de) Schaltungsanordnung zur amplitudenkontrollierten Erzeugung eines akustischen Signals

Legal Events

Date Code Title Description
8281 Inventor (new situation)

Free format text: GAGNON, RICHARD T., BIRMINGHAM, MICH., US

AG Has addition no.

Ref country code: DE

Ref document number: 2530380

Format of ref document f/p: P

C3 Grant after two publication steps (3rd publication)
8339 Ceased/non-payment of the annual fee
8380 Miscellaneous part iii

Free format text: SPALTE 1, ZEILE 7 DER PATENTSCHRIFT MUSS RICHTIG LAUTEN: "CHERMATRIX (80) ENTHAELT, MIT EINEM DEN EINGANGS-."