DE2840596A1

DE2840596A1 - Sprachsynthesizer

Info

Publication number: DE2840596A1
Application number: DE19782840596
Authority: DE
Inventors: Carl Larry Ostrowski
Original assignee: Federal Screw Works
Current assignee: Federal Screw Works
Priority date: 1977-09-26
Filing date: 1978-09-18
Publication date: 1979-04-05
Also published as: GB2057823A; CA1118105A; GB2057824A; US4130730A; GB2005967B; GB2057823B; GB2005967A; GB2057824B

Description

_ ₇ _ 2840598

Die Erfindung betrifft Sprachsynthesizer, insbesondere einen weitgehend vereinfachten Sprachsynthesizer, der eine qualifizierte Sprache erzeugen kann.

Im allgemeinen umfaßt die Erfindung einen Synthesizer wie der in der mitanhängigen Patentanmeldung P 27 36 o82.3 vom 1o. August 1977 mit dem Titel "Voice Synthesizer" ("Elektronisches Gerät zur phonetischen Synthetisierung menschlicher Sprache (Sprach-Synthesizer)") in der Offenlegungsschrift mit Offenlegungstag vom 23. Februar 1978 beschriebene Synthesizer.Während der in dieser Patentanmeldung beschriebene Synthesizer ein hochentwickeltes Gerät zur Erzeugung einer bemerkenswert natürlichen Sprache ist, soll mit der Erfindung ein Sprachsynthesizer von einfacherer Auslegung, kleineren Abmessungen und geringeren Kosten geschaffen werden, der trotzdem eine qualifizierte Sprache erzeugen kann.

Der erfindungsgemäße Sprachsynthesizer wird von einem digitalen Ein-," gangsbefehl von 8 Bits gesteuert. 6 Bits dienen für die Phonemwahl, wodurch ein Zugriff zu 2 oder 64 möglichen Phonemen geboten wird, und die beiden übrigen Bits dienen der Steuerung der stimmlichen Tonlage oder der Tonveränderung. Für jedes Phonem kann die Anlage 12 Steuerparameter erzeugen. In dem ersten Ausführungsbeispiel dient ein Steuersignalparameter, der als Reiblaut- oder Mitlautsteuerung bezeichnet wird, zur Einsteuerung sowohl der hochfrequenten als auch der niederfrequenten Reiblaut- oder Mitlautenergie in den Schallweg. Insbesondere verbindet die Anlage ein Reiblautoder Mitlautsteuersignal sowie das reziproke Reiblaut- oder Mit-

-⁸"

Ö098H/0778 -

840596

lautsteuersignal, um die parallele Eingabe von Reiblaut- oder Mitlautenergie in das zweite und vierte (F5) Resonanzfilter im Schallweg zu steuern. Somit wird, wie nachstehend näher erläutert wird,

mit Reiblaut- oder Mitlautenergie für ein gegebenes Phonem/stimmlosem Anteil Reiblaut- oder Mitlautenergie direkt in die Resonanzfilter F2 und F5 eingesteuert, wobei die Größe der in das Resonanzfilter F2 eingesteuerten Mitlautenergie umgekehrt proportional ist der Größe der dem Resonanzfilter F5 eingesteuerten Energie. Das erste Ausführungsbeispiel der Erfindung umfaßt auch eine zweite Mitlauterregungssteuerung für die parallele Einsteuerung von Mitlautenergie in das zweite und dritte Resonanzfilter im Schallweg, die jedoch vom Steuersignal für die Selbstlautamplitude gesteuert wird» Somit ergibt die überlagerung der in das Resonanzfilter F1 eingegebenen Glottisv/ellenform mit der in die Resonanz filter F2 und F3 eingegebenen und von der Selbstlautamplitude gesteuerten Mitlautenergie eine asynchrone Erregung des seriellen Schallwegs,, Die Verwendung von weißem Rauschen als HaupterregungsqueBs für die Resonanzfilter F2 und F3 verleiht dem Synthesizer eine mehr "atmende" oder mehr "hauchende" Stimme.

Ein zv/eites nachstehend beschriebenes Äusführungsbeispiel der Erfindung kann von einer Energiequelle von 12 V aus betrieben werden und eignet sich somit besonders für den beweglichen oder tragbaren Einsatz. Auch diese Anlage wird von 8 Bit-Digitalbefehlen gesteuert und kann 12 elektronische Steuersignalparameter je Phonem erzeugen. Einer der Steuerparameter dient jedoch der Erzeugung zweier getrennter Steuersignale und ergibt so ein zusätzliches Steuer-

909814/0778

2840598

signal ohne weiteren Schaltungsaufwand.

Dieses zweite Ausführungsbeispiel umfaßt eine neuartige Pausensteuerschaltung/ welche das Auftreten eines Pausenphonems abtastet und dann die Werte bestimmter kritischer Parameter über das Ende des Phonems hinaus beibehält, welches der Pause voranging, damit sich die Charakteristik des Schallweges aufgrund von Einschwingänderungen in der Steuerung der Signalparameter nicht ändern kann, ehe das NF-Ausgangssignal vollständig ausgeblendet ist. D.h. die Pausensteuerschaltung erzeugt ein Aus gangs signal, wenn sie das Fehlen von Steuersignalen sowohl der Selbstlautamplitude als auch der Mitlautamplitude abtastet.Das erzeugte Ausgangssignal dient dann dem Abtasten und Halten der Ausgangssignale einer Regel- oder Koppelungsschaltung für drei Schaltzustände, welche die gegenwärtigen oder laufenden Werte der betroffenen Parameter aufrecht erhält. Das gleiche Ausgangssignal wird auch dazu verwendet, gleichzeitig zwei Analogschalttore auszutasten, um Einschwingveränderungen zweier zusätzlicher neuer Signalparameter zu verhindern. Das Ausgangssignal geht nach einer bestimmten Zeitspanne automatisch in das Pausenphonem über, die kleiner ist als die Gesamtdauer des Pausenphonems.

Der seriell geschaltete Schallweg des zweiten Ausführungsbeispiels wird wie der des ersten Ausführungsbeispiels synchron gesteuert, jedoch sorgt jetzt die Selbstlautenergie für das zweite Erregungssignal anstelle des weißen Rauschens. Insbesondere wird die in das erste Resonanzfilter eingegebene Glottiswellenform auch parallel

- 1o -

•09814/0771

- 1ο -

in das zweite Resonanzfilter eingesteuert. Somit werden infolge der durdi das Resonanzfilter F1 eingeführten Eigenverzögerung die Resonanzfilter F2 und F3 praktisch zweimal angesteuert. Zuerst durch eine direkte Paralleleinsteuerung der Selbstlautenergie in das zweite Resonanzfilter und zweitens durch eine verzögerte Erregung der restlichen Selbstlautenergie vom Ausgangssignal des ersten Resonanzfilters. Das Ergebnis ist äne verbessert klingende Stimme oder Sprache infolge einer natürlicheren Simulierung der menschlicheq/Glottis, die in der Natur die Stimmbänder während eines jeden Öffnungs- und Schließtaktes zweimal erregt. Die Erfindung ist nachstehend näher erläutert. Alle in der Beschreibung enthaltenen Merkmale und Maßnahmen können von erfindungswesentlicher Bedeutung sein.

Die Zeichnungen zeigen:

Fig. 1a und 1b ein Blockschaltbild eines Ausführungsbexspxels

des erfindungsgemäßen Sprachsynthesizers;

Fig. 2a und 2b einen Stromlaufplan des in den Fig. 1a und 1b

gezeigten Synthesizers;

Fig. 3 ein Blockschaltbild eines anderes Ausführungs

bexspxels eines erfindungsgemäßen Sprachsynthesizers;

Fig. 4a und 4b einen Stromlaufplan des in Fig. 3 gezeigten

Sprachsynthesizers.

Die Fig. 1a und 1b zeigen ein Blockschaltbild von einem der bevor-

- 11 -

80S8U/077I

2840598

zugten Ausführungsbeispiele des erfindungsgemäßen Sprachsynthesizers. Wie bereits erwähnt, stellt der erfindungsgemäße Sprachsynthesizer eine vereinfachte und verbilligte Version des höher entwickelten Synthesizers der mitanhängigen P 27 36 o82.3 der gleichen Anmelderin dar. Die erfindungsgemäße Anlage wird durch einen digitalen 8 Bit-Befehl gesteuert. 6 Eingangsbits 15 dienen der Phonemwahl und die beiden restlichen Bits 25 zum Verändern des Tonlagenpegels des NF- oder Audioausgangssignals. Die 6 Phonemwahlbits 15 gelangen an einen Festwertspeicher 12, in welchem 12 verschiedene,jedes Phonem elektronisch bestimmende Parameter für jedes der 64 (2 ) möglichen Phoneme, die durch die sechs Phonemwahlbits identifiziert werden können, gespeichert sind. Jeder im Festwertspeicher 12 gespeicherte Parameter umfaßt vorzugsweise vier Auflösungsbits zur Erzeugung von seriellen Digitalsteuerzahlen mit Binärstellenwerten die in der vorstehend erwähnten mitanhängigen Anmeldung beschrieben sind. So muß der bei dem bevorzugten Ausführungsbeispiel verwendete Festwertspeicher 12 ein Speichervermögen von mindestens 4 χ 12 χ oder 3o72 Bits besitzen. Der bei dem bevorzugten Ausftihrungsbeispiel verwendete Speicher ist ein Festwertspeicher für 12 χ 256 Bits.

Der Festwertspeicher 12 kann von einer Adressenschaltung 22 für das Tastverhältnis gesteuert werden, welche die entsprechenden Taktsignale auf Leitungen 21,23 einspeist, die der Festwertspeicher 12 braucht, um die vorstehend erwähnten seriellen ParameterSteuersignale mit Binärstellenwerten für das Tastverhältnis zu erzeugen. Die Adressensteuerschaltung für das Tastverhältnis 22 ist an einen Taktgeber 24 angeschlossen, der ein Rechtecktaktsignal mit einer

- 12 -

009814/0778

Frequenz von 2o kHz erzeugt. Das 2o kHz-Taktsignal des Taktgebers 24 wird durch die Adressensteuerschaltung für das Tastverhältnis

22 in 15 Impulsgruppen zerlegt, die dann weiter in Zeitabschnitten 8,4,2 und einem Taktimpulsen unterteilt werden. Für jede eingehende Gruppe von 15 Taktimpulsen erzeugt die Adressensteuerschaltung für das Tastverhältnis ein hochpegeliges Ausgangssignal auf der Leitung

23 oder der MSB-Leitung während der Zeitabschnitte für die 8 und

4 Taktimpulse, und ein hochpegeliges Ausgangssignal auf der Leitung 21 oder der LSB-Leitung während der Zeitabschnitte für die 8 und 2 Taktimpulse.

Wie bereits erwähnt, enthalten die vom Festwertspeicher 12 erzeugten

mit
seriellen digitalen Steuerparameter/Binärstellenwerten vorzugsweise 4 Auflösungsbits. D.h., daß der Festwertspeicher 12 für jeden Phonemparameter 4 Datenbits enthält, wodurch er 2 oder 16 mögliche Werte je Parameter erzeugen kann. Um diese 4 Bits mit ihren entsprechenden Binärstellen zu erzeugen, wird das erste der vier seriellen Ausgangsbits im Steuersignalparameter oder das Bit mit dem höchsten Stellenwert erzeugt, wenn beide Signale auf den Leitungen 21 und 2 3 hochpegelig sind; das zweite Bit, wenn die LSB-Leitung niederpegelig und die MSB-Leitung hochpegelig ist; das dritte Bit, wenn die LSB-Leitung hochpegelig und die MSB-Leitung niederpegelig ist; und das vierte der vier Bits mit dem geringsten Stellenwert, wenn beide Leitungen MSB und LSB niederpegelig sind. Daraus ergibt sich, daß das erste Bit der höchsten Stellenzahl für eine Periode von 8 Taktimpulsen, das zweite Bit für eine Zeitspanne von vier Taktimpulsen, das dritte für eine Zeitspanne von 2 Taktimpulsen und das vierte

- 13 -

8098U/077I

für eine Periode von einem Taktimpuls erzeugt wird. Auf diese Weise kann ein Analogsijial digital als durchschnittliche Größe eines
Steuersignals in einer Periode von 12 Taktimpulsen dargestellt werden.

Obwohl sie allgemein bekannt sind, werden die speziellen, vom Festwertspeicher 12 erzeugten Steuersignalparameter kurz erklärt, um
zu einem besseren Verständnis der Arbeitsweise der erfindungsgemäßen Anlage zu führen.

Die Steuersignale F1, F2 und F3 bestimmen die Resonanzfrequenz-pole in den ersten drei regelbaren Resonanzfiltern 42,44,46 im Schallweg So. Das Taktsignal (timing) wird für jedes Phonem erzeugt und dient der Festlegung der Erzeugungszeit bzw. Verweilzeit für jedes Phonem. Das Selbstlautamplitudensteuersignal (VA) wird erzeugt, wenn ein
Phonem mit einem stimmhaften Anteil auftritt. Das Selbstlautamplitudensteuersignal steuert die Intensität der stimmhaften Komponente im Audioausgangssignal. Das Steuersignal für die Selbstlautverzögerung (VD) wird während bestimmter phonetischer Mitlaut-Selbstlautübergänge erzeugt, bei welchen die Amplitude des Mitlautanteils
schnell abfällt, während gleichzeitig die Amplitude des Selbstlautanteils schnell ansteigt. Das Steuersignal für die Selbstlautverzögerung dient dazu, die Übertragung des Selbstlautamplitudensteuersignals unter diesen Umständen zu verzögern. Das Schließ- oder
Verschlußsteuersignal (CL) dient der Simulierung der Phonemwechselwirkung, die z.B. während der Erzeugung des vom Phonem "i" gefolgten Phonems "b" auftritt. Das Verschlußsteuersignal bewirkt, wenn es
am Verschlußnetzwerk 5o anliegt, eine plötzliche Amplitudenmodula-

- 14 -

9098U/0778

tion des NF-Ausgangssignals, die den Aufbau und die plötzliche Freigabe von Energie simuliert, die während der Aussprache solcher Phonemkombinationen auftritt. Das Steuersignal für die Vokalspektrumhüllkurve (VSC) dient der spektralen Ausformung des Energiespektrums des Selbstlauterregungssignals. Insbesondere steuert das Steuersignal für die Vokalspektrumhüllkurve ein Tiefpaßfilter erster Ordnung im Schaltungsblock 4o, das die in den Schallweg eingesteuerte Selbstlautenergie unterdrückt, wobei die maximale Unterdrückung in Anwesenheit rein stimmloser Phoneme erfolgt. Das Steuersignal F2Q verändert den Gütefaktor "Q" oder die Bandbreite des Resonanzfilters zweiter Ordnung 44 im Schallweg 6o und wird hauptsächlich im Zusammenhang mit der Erzeugung der Nasalphoneme "n", "m" und "ng" verwandt. Nasalphoneme weisen normalerweise einen höheren Energiegehalt auf der ersten Formante (F1) und einen erheblich niedereren und breitbandigeren Energiegehalt bei höheren Formanten auf. So wird während des Auftretens von Nasalphonemen das Steuersignal F2Q erzeugt, um die Bandbreite des Resonanzfilters F2 44 zu verengen, das infolge der Kaskadenschaltung der Resonanzfilter im Schallweg verhindert, daß erhebliche Energiemengen die höheren Formanten erreichen. Das Steuersignal für die Reiblautoder Selbstlautamplitude (FA) wird erzeugt, wenn ein Phonem mit einem stimmlosen Anteil auftritt und dient der Steuerung der Intensität des stimmlosen Anteils am NF-Aus gangs signal. Das Steuersignal für die Verschlußverzögerung (CLD) wird während bestimmter phonetischer Selbstlaut-Mitlautübergänge erzeugt, bei welchen es zweckmäßig ist, die Übertragung der Steuersignale für den Verschluß und die ilitlautamplitude in der gleichen Weise zu verzögern wie

- 15 -

9098U/0778

die vorstehend erörterte Selbstlautverzögerung. Schließlich wird ein neuartiges Reiblaut- oder Mitlautsteuersignal (FC) erzeugt, das zwei Steuersignale ersetzt, die normalerweise in Synthesizern dieser Art erzeugt werden, d.h. die Steuersignale für die Mitlautfrequenz und den Mitlauttiefpaß. Insbesondere wird festgelegt, daß ganz allgemein ein Mitlautphonem leine hochfrequente Mitlautenergie im Bereich der Formante F5 braucht, wenn es niederfrequente Mitlautenergie im Bereich der Formanten F2 braucht und umgekehrt. Daher verwendet die Erfindung ein einziges Mitlautsteuersignal (FC) sowie dessen Reziproksignal (FC), um die Eingabe von nieder- und hochfrequenter Mitlautenergie in den Schallweg 6o zu steuern. Die Art und Weise, wie dies durchgeführt wird, wird nachstehend näher erläutert.

Die Ausgangssteuersignalparameter des Festwertspeichers 12 gelangen an eine Anzahl von verhältnismäßig langsam arbeitenden Übergangsoder Einschwingfiltern 14. In der Praxis werden die Steuersignale für das Tastverhältnis mit Binärstellen durch die Übergangsfilter in Analogsignale umgesetzt und dann durch Vergleichsverstärker wieder in digitale Tastverhältnissignale zurückverwandelt, an welchen ein 2o kHz-Dreieckstaktsignal des Taktgebers 24 anliegt. Die Einschwing- oder Übergangsfilter 14 sind absichtlich für eine verhältnismäßig lange Ansprechzeit gegenüber der Dauer des Einschwingzustandes eines normalen Phonems ausgelegt, um plötzliche Amplituden änderungen der Ausgangssteuersignale des Festwertspeichers 12 zu vermeiden. So sorgen die Übergangsfilter 14 für allmähliche Änderungen zwischen den Einschwingpegeln der Steuersignalparameter,

- 16 -

909814/0778

um die weichen Übergänge zwischen in der menschlichen Sprache auftretenden Phonemen zu simulieren. Die Ansprechzeit der Übergangsfilter des bevorzugten Ausführungsbeispiels ist unveränderlich, wodurch der große Schaltungsaufwand vermieden wird, der für die Möglichkeit der Simulierung einer veränderlichen Sprechgeschwindigkeit erforderlich wäre.

Der Phonemtaktgeberkreis 2o erzeugt ein Sägespannungssignal, das sich in einer Zeitspanne von 5V bis OV verändert, die die Dauer der Phonemerzeugung bestimmt. Die Steilheit des vom Phonemtaktgeberkreis 2o erzeugten Sägezahnsignals hängt vom Wert des Phonemtaktsteuersignals des Festwertspeichers 12 ab. Das Steuersignal für die Selbstlautverzögerung (VD) liegt an einem Vokalverzögerungsnetzwerk 16 an, welches die Übertragung des Steuersignals für die Selbstlautamplitude für eine bestimmte Zeitspanne abzüglich der Dauer eines Einzelphonems verzögert, wenn das Steuersignal für die Selbstlautverzögerung vom Festwertspeicher 12 abgegeben wird. Das Steuersignal für die Verschlußverzögerung liegt am Verschlußverzögertngsnetzwerk 18 an, das wie das Vokalverzögerungsnetzwerk 16 arbeitet und die Übertragung der Steuersignale für die Mitlautamplitude und den Verschluß verzögert,wenn das Steuersignal für die Verschlußverzögerung vom Festwertspeicher 12 abgegeben wird.Die beiden Toniagenwahlbits 25 des 8 Bit-Eingangsbefehls gelangen direkt an einen Tonlagenübergangs- oder Einschwingfilterkreis 32, welcher die Bits mit Binärstellenwert zu einem einzigen analogen Tonlagensteuersignal zusammenfaßt und das Signal einem Übergangsfilter einspeist, welches plötzliche Amplitudenänderungen im Tonlagensteuersignal in der gleichen Weise glättet wie es vorstehend anhand der Übergangs-

• 09814/0771 " ¹⁷ "

filter 14 beschrieben wurde. Das Ausgangssignal des Tonlagenübergangsfilterkreises 32 gelangt an die Selbstlauterregungs- oder Glottisquelle 34, die ein stimmhaftes Erregungssignal oder eine Glottiswellenform erzeugt. Das Ausgangssignal des Tonlagenübergangsfilters 32 bestimmt die Tonhöhe des stimmhaften Anteils, die der Grundfrequenz (F0) der Glottiswellenform entspricht. Bei dem bevorzugten Ausführungsbeispiel der Erfindung umfaßt die von der Mitlauterregungsquelle 14 erzeugte Glottiswellenform eine stumpfe Sägezahnspannung wie die, die in der mitanhänigen P 27 36 o82.3 beschrieben wird.

Die Glottiswellenform der Mitlauterregungsquelle 34 gelangt über die Steuerschaltung 4o für die Mitlauterregung in den Schallweg 6o. Der Regler 4o für die Selbstlauterregung formt den Energiegehalt der Glottiswellenform spektral in Abhängigkeit vom Steuersignal für die Vokalspektrumhülle und moduliert die Amplitude des Selbstlauterregungssignals in Abhängigkeit vom Steuersignal für die Selbstlautamplitude.

Die Mitlauterregungsenergie oder der Anteil der stimmlosen Phoneme an der menschlichen Sprache wird von einem Generator 26 für weißes Rauschen erzeugt. Die Eingabe des Mitlauterregungssignals in den Schallweg 6o wird vom Mitlauterregungssteuerkrexs 58 sowie einem neuartigen zweiten parallel geschalteten Steuernetzwerk 38 für die Eingabe von Mitlauten gesteuert. Die Steuerschaltung 58 für die Mitlauterregung ist in drei einzelne Kreise 28,3o,36 unterteilt, um die neuartige Weise zu betonen, in welcher die Eingabe des Mi t-

- 18 -

9098U/0779

lautanteils in den Schallweg 60 durch dieses Ausführungsbeispiel der Erfindung gesteuert wird. Im einzelnen ist ein herkömmliches Mitlautstimmnetzwerk 3o vorgesehen, welches das Steuersignal für die Mitlautamplitude in Abhängigkeit von der Glottiswellenform moduliert, wenn ein Phonem mit stimmhafter Energie erzeugt wird, wie es durch das Auftreten eines Steuersignals für die Selbstlautamplitude bestimmt wird. Das Steuersignal für die Mitlautamplitude gelangt dann an einen Hochpass mit Steuerschaltung für die Mitlautamplitude 28, welche das Mitlauterregungssignal aus dem weißen Rauschen des Generators 26 ausfiltert und die Amplitude des Signals in Abhängigkeit vom Steuersignal für die Mitlautamplitude moduliert. Das modulierte Mitlauterregungssignal wird dann einem neuartigen Steuernetzwerk 36 für die Eingabe oder Einsteuerung von Mitlautsignalen eingespeist, welche die Eingabe von Mitlautenergie in den Schallweg 60 unter der Steuerung eines einzigen Mitlautsteuersignals vollzieht. Das Mit lauterregungs signal vom Ausgang der Mitlauterregungssteuerung 58 wird parallel sowohl in das Resonanzfilter F2/44 und das Mitlautresonanzfilter F5/54 eingespeist. Wie erwähnt, gelangt das Ausgangssignal des Generators 26 für weißes Rauschen auch an ein zweites parallel geschaltetes Steuernetzwerk für die Eingabe von Mitlautenergie. Erfindungswesentlich ist, daß das parallel geschaltete Steuernetzwerk 38 für die Eingabe von Mitlautenergie diese Eingabe in das zweite und dritte Resonanz-

des Steuersignals filter 44 und 46 unter der Steuerung/für die Selbstlautamplitude durchführt. Obwohl die Resonanzfilter F1/42, F2/44 und F3/46 in Reihe geschaltet sind, weist das in das Resonanzfilter F1/42 eingegebene Selbstlauterregungssignal nicht genügend Energie außerhalb

- 19 -

80Ö8U/077i

des Frequenzbereiches F1 auf, um das zweite und dritte Resonanzfilter 44,46 hinreichend anzusteuern. Anstatt dessen \*e:den in dem in den Fig . 1a,1b gezeigten Ausführungsbeispiel das zweite und dritte Resonanzfilter 44,46 hauptsächlich von weißem Rauschen unter der Steuerung des Steuersignals für die Selbstlautamplitude betrieben. Diese Schaltungsanordnung ergibt für den erfindungsgemäßen Sprachsynthesizer eine mit mehr nach natürlichem "Atem" oder natürlicher "Rauhheit" klingende Stimme.

Das Ausgangssignal der ersten drei in Serie geschalteten Resonanzfilter 42,44,46 wird dem Ausgangssignal eines vierten oder Mitlautresonanzfilters 54 überlagert (48), und das summierte Ausgangssignal gelangt über das Verschlußnetzwerk 5o und einen Tiefpass 52 an einen entsprechenden NF-Wandler. Das Verschlußnetzwerk 5o kann die Amplitude des Audioausgangssignals in Abhängigkeit von einem Verschlußsteuersignal, wie beschrieben, sehr schnell modulieren. Der Tiefpass 52 filtert die Wirkung des 2o kHz-Taktsignals aus dem NF-Ausgangssignal heraus.

Die Fig. 2a,2b zeigen einen Stromlaufplan eines Ausführungsbeispiels des erfindungsgemäßen Sprachsynthesizers der Fig. 1a,1b. Wie im Zusammenhang mit der Beschreibung des Blockschaltbildes erwähnt, wird der erfindungsgemäße Sprachsynthesizer durch einen digitalen 8 Bit-Eingangsbefehl gesteuert. Die sechs der Phonemwahl 74 dienenden Eingangsbits sind parallel zu zwei Festwertspeichern 7o,72 geschaltet. Für die vorstehend erwähnte erforderliche Speicherkapazität der Festwertspeicher dienen zwei integrierte Schal-

- 2o -

808814/0778

- 2ο -

tungsplättchen. Ebenso wurde bereits bemerkt, daß die Festwertspeicher 7o und 72 Ausgangssteuersignale für das Tastverhältnis mit Binärstellen erzeugen, welche die elektronischen Parameter der künstlichen Sprache enthalten. Da die Erfindung eine Verbesserung bei Sprachsynthesizern darstellt und sich ein großer allgemein bekannter Teil der Schaltung für jedes Steuersignal wiederholt, wird nur beispielshalber die dem Verschlußsteuersignal zugeordnete Schaltung in ihren Einzelheiten erklärt.

Wenn am Ausgang eines Festwertspeichers 72 ein Verschlußsteuersignal anliegt, wird es über eine CMOS-Pufferschaltung 78 an ein RC-Übergangsfilter mit Festfrequenz geleitet, das aus den Widerständen R1, R2 und den Kondensatoren C1,C2 besteht. Wie erwähnt, dient das Übergangs- oder Einschwingfilter der Glättung plötzlicher Amplitudenänderungen des vom Festwertspeicher 72 erzeugten digitalen Steuersignals mit Binärstellenwert. Außerdem sei bemerkt, daß das Verschlußsteuersignal, ehe es an das Übergangsfilter angelegt wird, durch ein Analogtor 82 gesteuert wird, dessen Steuerklemme über eine Leitung 81 das Steuersignal für die Verschlußverzögerung anlegt. Wie bereits erwähnt, dient das Steuersignal für die Verschlußverzögerung für eine kurzfristige Verzögerung der Übertragung des Verschlußsteuersignals (sowie auch des Steuersignals für die Mitlautamplitude) während bestirnter Selbstlaut-Mitlaut-Phonemübergänge .

Nachdem das Verschlußsteuersignal durch das Übergangsfilter geleitet wurde und dadurch in ein Analogsignal umgesetzt wurde, wird

- 21 -

9098U/0778

es in ein digitales Rechtecksignal zurückverwandelt, dessen Tastverhältnis der Amplitude des Analogsignals proportional ist. Es wird dadurch erreicht, daß der Ausgang des Übergangsfilters an den negativen Eingang eines Vergleichsverstärkers 80 angeschlossen wird. Am positiven Eingang des Vergleichsverstärkers 80 liegt ein 2o kHz Dreieckssignal vom Ausgang des Taktgebers 85 an. Der Vergleichsverstärker 80 moduliert die Impulsbreite des an seinem negativen Eingang anliegenden Analogsteuersignal, so daß das an die Leitung 84 abgegebene Ausgangssignal eine Rechteckwelle enthält, deren Tastverhältnis proportional der Größe des am negativen Eigang anliegenden Analogsignals ist. Das auf der Leitung 84 anliegende Steuersignal für das Ausblenden des Tastverhältnisses liegt dann an der Steuerklemme eines Analogtores 86 an, das in der Endstufe der NF-Ausgangs leitung liegt. Das Ausblendungssteuersignal auf der Leitung 84 sperrt das Analogtor 86 kurzfristig, um eine plötzliche Amplitudenmodulation des NF-Ausgangssignals herbeizuführen. Wie bereits bemerkt, wird das Ausblend- oder Verschlußsteuersignal für bestimmte Phonemwechselwirkungen wie ein Phonem "b" mit folgendem Phonem "i" erzeugt.

Wie bereits anhand der Beschreibung des Blockschaltbildes der Fig. 1a,1b erläutert wurde, dienen die beiden restlichen Bits 76 des digitalen 8 Bit-Eingangsbefehls zur Tonlagensteuerung. Die beiden Bits 76 mit Binärstellen werden addiert, und an ein Übergangsfilter

88 angelegt, um plötzliche Amplitudenänderungen des summierten Signals zu glätten. Das sich ergebende Analogsignal auf einer Leitung

89 gelangt an einen Sägezahnspannungsgenerator 9o, der im wesent-

Ö098U/0778

lichen einen Integrationsverstärker 91 umfaßt, und an den Knotenpunkt 95 eine Ausgangssägezahnspannung abgibt. Die Frequenz der von der Schaltung 9o erzeugten Sägezahnspannung hängt von der Größe des am negativen Eingang des IntegrationsVerstärkers 91 anliegenden Signals ab. So kann durch Veränderung der Einstellung der Tonlagenbits 76 die Grundfrequenz (F0) der Glottiswellenform verändert werden.

Die Sägezahnspannung am Knotenpunkt 95 wird einer weiteren Wellenformungsschaltung 1oo eingespeist, welche die Sägezahnspannung durch Subtraktion der unteren Signalhälfte beschneidet oder abkappt. Das sich daraus ergebende Ausgangssignal auf einer Leitung 1o4 stellt die in den Schallweg eingegebene Glottiswellenform dar. Eine nähere Beschreibung der die Selbstlauterregung erzeugenden Schaltung ist in der vorstehend erwähnten mitanhängigen Patentanmeldung gegeben .

Außerdem wird die Sägezahnspannung am Knotenpunkt 95 über einen Inversionsverstärker 97 dem Eingang eines NOR-Tores 98 eingespeist. Dieses wird durch das Ausgangssignal eines Rechenverstärkers 94 atigesteuert, das das NOR-Tor 98 beaufschlagt, wenn auf einer Leitung 92 ein Steuersignal für die Selbstlautamplitude erzeugt wird. Wenn dieses Signal an der Leitung 92 anliegt, wird das Ausgangssignal des Rechenverstärkers 94 niederpegelig, wodurch das NOR-Tor 98 die Sägezahnspannung am Ausgang des Rechenverstärkers 97 in"Rechteckform" bringt. Das Rechtecksignal vom Ausgang des NOR-Tors 98 gelangt dann an den Eingang eines anderen NOR-Tors 1o2, an dessen zweitem Eingang das Staiersignal für die Mitlautamplitude über die

- 23 -

Ö098U/0778

Leitung 96 her anliegt. Wenn somit ein Steuersignal für eine Selbstlautamplitude auf der Leitung 92 anliegt, und damit das NOR-Tor 98 ansteuert, "zerhackt" das NOR-Tor 1o2 das auf der Leitung 96 anliegende Steuersignal für die Mitlautamplitude in Abhängigkeit von der "rechteckig gemachten" Sägezahnspannung des Knotenpunktes 95. Liegt kein Steuersignal für die Selbstlautamplitude auf der Leitung 92 an, dann sperrt das NOR-Tor 98 und weist ein niederpegeliges Ausgangssignal auf, das seinerseits das NOR-Tor 1o2 als Inversionsschaltung arbeiten läßt, wodurch das Steuersignal für die Mitlautamplitude auf der Leitung 96 unbeeinflußt durch das Rechtecksignal weitergeleitet werden kann. Da die Frequenz der Sägezahnspannung am Knotenpunkt 95 etwa 2oo mal langsamer ist als die Tastverhältnis-, frequenz des Steuersignals für die Mitlautamplitude auf der Leitung 96 (1oo Hz zu 2o kHz), bewirkt das "Zerhacken" des Steuersignals für die Mitlautamplitude durch die Sägezahnspannung eine erhebliche Verminderung des Mitlaut- oder stimmlosen Sprachanteils, wenn ein Phonem auftritt, das stimmhafte Energie braucht, wie es durch das Anliegen eines Steuersignals für die Selbstlautamplitude angezeigt wird.

Das Steuersignal für die Mitlautamplitude gelangt vom Ausgang des NOR-Tors 1o2 auf einer Leitung 96' zur Steuerklemme eines Analogtors 1o6, das in den Ausgangskreis eines Generators 11o für weißes Rauschen geschaltet ist. Das vom Generator 11o erzeugte Mitlauterregungssignal auf einer Leitung 1o8 wird durch die schnelle Ein- und Austastung des Analogtors 1o6 unter der Steuerung des Steuersignals für die Mitlautamplitudentastung moduliert. Das modulierte Signal

- 24 -

§09814/0778

gelangt dann über ein 4 kHz - Hochpassfilter 122 zu zwei weiteren Analogtoren 118,12ο. Diese steuern die Eingabe der Mitlauterregerenergie in die Resonanzfilter F2 und F5 im Schallweg ein. Im Gegensatz zu früheren Synthesizern steuert die erfindungsgemäße Einrichtung die Eingabe von Mitlautenergie in den Schallweg mit einem einzigen Steuerparameter, der hier als Mitlautsteuersignal (FC)

die

erscheint. Somit entfällt/zur Erzeugung eines weiteren Steuerparameters erforderliche Schaltung. Bei der Untersuchung des Frequenzspektrums von Mitlautphonemen erkannte man, daß die meisten Phoneme, die erhebliche Mengen niederfrequenter Mitlautenergie im Bereich der Formante F2 brauchen, nicht ebenso große Mengen hochfrequenter Mitlautenergie im Bereich der Formante F5 benötigen und umgekehrt. Z.B. muß für Mitlautphoneme wie "f" und "p" Mitlaut- oder Reiblautenergie hauptsächlich im Resonanzfilter F2 eingereist werden, und für Phoneme wie "s" und "t"muß die Mitlautenergie hauptsächlich in das Resonanzfilter F5 eingesteuert werden. Somit kann die erfindungsgemäße Anlage einen einzigen Steuerparameter für Mitlaute (FC) auf einer Leitung 112 erzeugen, der auch einem invertierenden Vergleichsverstärker 114 eingespeist wird, um den Reziprokwert des Mitlautsteuerparameters (FC) auf einer Leitung 116 zu erzeugen. Der Mitlautsteuerparameter auf der Leitung 112 wird einer Steuerklemme eines Analogtores 118 aufgeschaltet und steuert die Eingabe niederfrequenter Mitlautenergie auf einer Leitung 124 in das Resonanzfilter F2, und der Reziprokwert des Mitlautsteuersignals auf der Leitung 116 wird der Steuerklemme des Analogtores 12o aufgeschaltet und steuert die Eingabe hochfrequenter Mitlautenergie auf einer Leitung 126 in das Mitlaut- oder Resonanzfilter F5. Daraus ergibt sich,

- 25 -

Ä0Ö8U/077I

_₂₅_ 284059S

daß die Größe der dem Resonanzfilter F2 eingesteuerten Mitlautenergie umgekehrt proportional ist der Größe der dem Resonanzfilter F5 eingesteuerten Mitlautenergie.

Der stimmhafte Anteil oder die Glottiswellenform auf der Leitung 1o4 von der Selbstlauterregerquelle wird am Resonanzfilter F1 in den Schallweg eingesteuert. Die Eingabe des stimmhaften Anteils in den Schallweg wird durch das Steuersignal für die Vokalspektrumshüllkurve auf eher Leitung 14o sowie durch das Steuersignal für die Selbstlautamplitude auf der Leitung 128 besorgt. Im einzelnen werden die Steuersignale für die Selbstlautamplitude und die Vokalspektrumshüllkurve den Steuerklemmen der Analogtore 13o,142 aufgeschaltet, die mit dem Selbstlauterregungssignal auf der Leitung 1o4 zusammengeschaltet werden. Wie bereits erwähnt, formt das Steuersignal für die Vokalspektrumshüllkurve den Energiegehalt des Selbstlauterregungssignals durch Steuerung der Grenzfrequenz eines Tiefpassfilters erster Ordnung 143 und das Steuersignal für die Selbstlautamplitude moduliert die Amplitude des Selbstlauterregungssignals

Obwohl die Resonanzfilter F1,F2,F3 in Reihe geschaltet sind, besitzt das Selbstlauterregungssignal im bevorzugten Ausführungsbeispiel nicht genügend hochfrequente Energie, um die Resonanzfilter F2,F3 richtig anzusteuern. Dies steht natürlich im Gegensatz zur herkömmlichen Praxis, nach welcher die ersten drei Resonanzfilter im Schallweg hauptsächlich durch den stimmhaften Sprachanteil gesteuert werden. Um jedoch den erfindungsgemäßen Synthesizer mit einer natürlicher klingenden "atmenden" oder "rauhen" Stimme zu versehen,

- 26 -

Ä098U/077I

werden das zweite und dritte Resonanzfilter hauptsächlich mit Mitlautenergie unter der Steuerung des Steuersignals für die Selbstlautamplitude betrieben. Vor allem wird das Ausgangssignal des Generators 11o für weißes Rauschen auf einer Leitung 1o8 direkt dem Resonanzfilter F2 über einen Widerstand R4 und dem Resonanzfilter F3 über einen Widerstand R5 eingegeben. Die Einspeisung von weißem Rauschen in die Resonanzfilter F2,F3 wird durch ein Analogtor 134 gesteuert, an dessen Steuerklemme das Steuersignal für die Selbstlautamplitude über eine Leitung 128 her anliegt. Daraus ergibt sich, daß die Resonanzfilter F2,F3 dieses Ausführungsbeispiels asynchron angesteuert werden, und zwar parallel mit weißem Rauschen gesteuert vom Steuersignal für die Selbstlautamplitude. Die asynchrone Beaufschlagung der Resonanzfilter F2,F3 leitet sich davon ab, daß Restselbstlautenergie vom Ausgang des Resonanzfilters F1 in gewisser Weise die Resonanzfilter F2,F3 erregt. Jedoch infolge der Eigenverzögerung, die von einem stimmhaften, das Resonanzfilter F1 durchlaufenden Anteil erzeugt wird, sind die Resonanzfilter F2, F3 einer doppelten Erregung ausgesetzt: Zuerst mit Mitlautenergie über die Widerstände R4,R5 und zweitens durch die verzögerte Selbstlautenergie vom Ausgang des Resonanzfilters F1.

Wie schließlich noch aus dem Stromlaufplan hervorgeht, wird das Ausgangssignal der in Reihe geschalteten Resonanzfilter F1,F2 und F3 im Schallweg dem Ausgangssignal des Mitlaut- oder Resonanzfilters F5 durch das Summierglied 144 aufgeschaltet und gelangt über einen Tiefpass 146 an einen entsprechenden NF-Wandler.

- 27 -

Ö098U/0778

_₂₇_ 2840598

Fig. 3 zeigt ein Blockschaltbild eines anderen Ausführungsbeispiels der Erfindung. Die Blöcke der Fig. 3, die den Blöcken des ersten Ausführungsbeispiels der Fig. 1a,1b entsprechen, sind mit strichindizierten Bezugszeichen versehen. Wie leicht zu ersehen ist, wird auch das Ausführungsbeispiel der Fig. 3 durch einen digitalen 8 Bit-Eingangsbefehl gesteuert, wobei 6 Eingangsbits für die Phonemwahl und die übrigen zwei Bits für die Tonlagensteuerung dienen. Wie im ersten Ausführungsbeispielkann der Festwertspeicher 12' zwölf Steuersignalparameter für jedes Phonem erzeugen. Es sei jedoch bemerkt, daß ein_er der Signalparameter dazu dient, zwei getrennte Steuersignale zu erzeugen, d.h. die Steuersignale für die Vokalspektrumshüllkurve und für Mitlautfrequenz. Die Erzeugung eines eigenen Steuersignals für die Mitlautfrequenz ermöglicht es, wie im ersten Ausführungsbeispiel, das Mitlautsteuersignal einzig als Steuersignal für einen Mitlauttiefpass (FLP) zu verwenden. Damit kann ein herkömmliches Regelnetzwerk 58' für die Mitlauterregung verwendet werden.

Das zweite Ausführungsbeispiel umfaßt auch eine neuartige Pausensteuer schaltung 15o, welche die Werte bestimmter kritischer Steuerparameter vom Ausgangssignal des Festwertspeichers 12' "halten" kann, wenn eine Pause im NF-Ausgangssignal abgegriffen wird. Der Zweck der Pausensteuerung 15o besteht darin, daß sich Werte der kritischen Steuerparameter und damit auch die Charakteristik des Schallweges 6o ändern, ehe das NF-Ausgangssignal vollständig ausgetastet ist. Die Pausensteurung 15o greift eine Pause dadurch ab, daß sie laufend die Steuersignale für die Mitlautamplitude und

- 28 -

0O98U/O778

die Selbstlautamplitude überwacht und ein Ausgangssignal abgibt, wenn beide Signale niederpegelig sind. Das dadurch erzeugte Ausgangssignal wird an die Regel- oder Koppelkreise im Ausgang des Festwertspeichers 12' zurückgeführt, um die Parameter auf ihren gegenwärtigen Werten zu halten. Weiter kann die Pausensteuerschaltung 15o das "Haltesignal" nach einer bestimmten Zeitspanne im Pausenphonem beenden, die durch das Steuersignal für die Verschlußverzögerung vom Verschlußverzögerungsnetzwerk 16' bestimmt wird.

Die übrigen Unterschiede befinden sich bei diesem Ausführungsbeispiel im Schallweg 6ο¹, in welchen die stimmhaften und stimmlosen Erregungssignale eingegeben werden. Vor allem sind hier die Resonanzfilter 42'/FI/ 44'/F2, 46'F3 und 54·/F5 in Reihe geschaltet und" nicht wie beim ersten Ausführungsbeispiel so angeordnet , daß das Resonanzfilter F5 parallel zu den ersten drei in Serie geschalteten Filtern liegt. Außerdem wurde ein Rückführungsweg zwischen die Resonanzfilter 44'/F2 und 42'/Fi sowie 46'/F3 und 44'/F2 zugeschaltet. Diese Rückführungswege dienen der Simulierung der Rückdrücke, die sich in der menschlichen Sprachanatomie zwischen Zunge, Mund und Stimmbänder entwickeln.

Schließlich sei bemerkt, daß auch das zweite Ausführungsbeispiel eine asynchrone Parallelerregung des Schallweges 6o' bietet. Im Gegensatz jedoch zum ersten Ausführungsbeispiel wird -die asynchrone Parallelerregung ausschließlich durch den stimmhaften Anteil erzeugt, Insbesondere wird &s Ausgangssignal der Mitlauterregungssteuerung 58' nur parallel den Resonanzfiltern 44'/F2 und 54'/F5 in herkömm-

-29-

8Q98U/0778

licher Weise eingespeist. Jedoch wird das stimmhafte Erregungssignal vom Ausgang der Selbstlauterregungssteuerung 4o' außer dem Resonanzfilter 42'/F1 auch parallel dem Resonanzfilter 44 ^l/Έ2 eingegeben. Somit wird das Resonanzfilter 44'/F2 und, in geringerem Grade auch das Resonanzfilter 46'/F3 zweimal angesteuert: Zuerst durch direkte Ehsteuerung der Selbstlautenergie in das Resonanzfilter 44'/F2 und dann durch die verzögerte Selbstlautenergie vom Ausgang des Resonanzfilters 42'/Fi. Der Zweck dieser Anordnung besteht darin, die wahre Funktion der menschlichen Glottis genauer zu simulieren, die eine Art von "Doppelerregung" der Stimmbänder vollzieht, wenn sie sich öffnet und schließt.

Die Fig. 4a,4b zeigen einen Stromlaufplan des in Fig. 3 gezeigten Ausführungsbeispiels der Erfindung. Zunächst sei bemerkt, daß der in den Fig. 4a,4b dargestellte Sprachsynthesizer von einer 12V-Spannungsversorgung aus betrieben werden kann. In der Praxis funktioniert die Anlage mit einer Spannungsversorgung zwischen 6 V und 15V. Somit eignet sich dieses Ausführungsbeispiel der Erfindung besonders für eine tragbare Batteriespannungsquelle.

Die Versorgungsbedingungen dieser Anlage sind so, daß vier getrennte Spannungspegel benötigt werden. Außer den positiven (z.B. 12 V) und Massepotentialen der Batterie umfaßt die erfindungsgemäße Anlage eine Stromversorgungsschaltung 22o, die zwei weitere Spannungspegel zwischen +V und Masse erzeugen kann und die mit +V1 und +V2 bezeichnet sind. Da jedoch die Ausgangsspannung einer Batterie während ihrer Gebrauchslebensdauer sich ändert, müssen sich die Span-

- 3o -

9098U/0778

-3ο-

2840598

nungspegel +VI und +V2 entsprechend ändern.Somit umfaßt die erfindungsgemäße Spannungsversorgung 22o zwei Folgespannungskreise 222, 224, welche Ausgangssignale erzeugen, die den Änderungen des Spannungspegels der Signale an ihren Eingängen nacheilen.

Außerdem dient der Wechsel zu einer regelbaren Spannungsquelle auch dem Einsatz von Rechenverstärkern in bestimmten Teilen der Schaltung, die einen entsprechenden Kurzschluß bei ihrer minimalen Nennspannung herbeiführen.können. Entsprechend verwendet das bevorzugte Ausführungsbeispiel der Erfindung Rechenverstärker Fairchild 79 8 für die mit dem Großbuchstaben "A" gekennzeichneten Rechenverstärker.

Die Bestückung mit Festwertspeichern ist bei diesem Ausführungsbeispiel durch drei einzelne CMOS-Festwertspeicherplättchen 152,154, 156 gelöst, hier mit No. MC14524. Die Ausgangssignale der Festwertspeicher 152,154,156 gelangen an Verriegelungsschalter 158,16ο,162, welche die Aufgabe der CMOS-Pufferschaltungen des ersten Ausführungsbeispiels lösen und die langsam arbeitenden Übergangsfilter steuern sowie auch die Datenausgänge der CMOS-Festwertspeicher während einer Adressenumschaltung nidit hochpegelig werden lassen. Der Riegelschalter 158 ist für drei Schaltzustände ausgelegt, wobei der dritte Schaltzustand eine Abtast- und Haltefunktion bietet.

Wie bereits erwähnt, können Übergangs- oder Einschwingänderungen der Werte der kritischeren Steuerparameter einen bemerkenswerten Zustand bei dem letzten Phonem vor einer Pause hervorrufen, wobei

9098U/0778

sich der Wert des Steuerparamters vor einem vollständigen Verlust der Erregungsenergie im Schallweg ändern kann. Das führt dazu, daß das letzte Phonem vor einer Pause eine andere Charakteristik annimmt und daher auch einen anderen Ton, wenn das NF-Signal ausgetastet wird. Um diese Lage zu berichtigen, werden das Steuersignal für die Mitlautamplitude auf einer Leitung 164 und das Steuersignal für die Selbstlautamplitude auf einer Leitung 166 einem NOR-Tor 168 eingereist, dessen Ausgang an den negativen Eingang eines Vergleichsverstärkers 17o geführt ist. Wenn sowohl das Steuersignal

das
für die Mitlautamplitude als auch /für die Selbstlautamplitude niederpegelig sind, wird das Ausgangssignal des NOR-Tors 168 hochpegelig und bewirkt, daß das Ausgangssignal des Vergleichsverstärkers 17o auf einer Leitung 171 niederpegelig ist. Das niederpegelige Signal auf der Leitung 171 bewirkt seinerseits, daß das Ausgangssignal eines NOR-Tors 172 hochpegelig wird, wodurch der Dreifachverriegelungsschalter 158 auf seine Abtast- und Haltestellung umschaltet. Außerdem gelangt das hochpegelige Ausgangssignal des NOR-Tors 172 auf einer Leitung 176 über eine Umkehrschaltung 178 an die Steuerklemmen zweier Analogtore 18o,182. In dem Stromkreis dieser Tore stehen die an den Ausgängen Q1,Q2 des Riegelschalters 16o erscheinenden Steuersignale für die Vokalspektrumshüllkurve (VSC+PF) und die Bandbreite des zweiten Resonanzfilters im Schallweg F2Q an. Wenn das Signal auf der Leitung 176 hochpegelig wird, und damit das Ausgangssignal der Umkehrschaltung 178 auf niederpegelig umschaltet, befinden sich die Analogtore 18o,182 im offenen Stromkreis und isolieren damit die mit den Steuersignalen VSC+FF und F2Q verbundenen Übergangsfilter gegen weitere Änderungen des

- 32 -

•09814/0778

Ausgangsschaltzustand.es des Riegelschalters 16ο.

Daraus ergibt sich, daß beim Abgreifen eines Pausenphonems, das durch die Abwesenheit der Steuersignale für sowohl die Selbstlautals auch Mitlautamplitude bestimmt wird, die an den Ausgängen des Riegelschalters 158 für drei Schaltzustände anliegenden Steuersignalparameter F1,F2,F3 und FLP auf ihren gegenwärtigen Werten gehalten werden und, daß die den Steuersignalen für die Vokalspektrumshülle, der Mitlautfrequenz und F2Q zugeordneten Übergangsfilter von den Ausgängen des Riegelschalters 16o getrennt sind. So sind auch die Kondensatoren der mit den einzelnen der verschiedenen gekennzeichneten kritischen Steuerparameter verbundenen Filter praktisch während des ersten Teils des Pausenphonems gegen weitere Änderungen der Festwertspeicherausgangssignale isoliert, um sicherzustellen, daß die Schallenergie im Schallweg vollkommen ausgetastet wird, ehe vorhandene Phonemparameter geändert werden.

Das hochpegelige Signal auf der Leitung 176 am Ausgang des NOR-Tors 172 wird automatisch nach einem bestimmten Zeitabschnitt während des Pausenphonems ausgetastet, um die Wiederaufnahme des Normalbetriebes der Schaltung zu ermöglichen. Insbesondere liegt am anderen Eingang des NOR-Tors 172 das Steuersignal für die Schließverzögerung (CLD) des Tastverhältnisses über die Leitung 174 vom Ausgang eines Vergleichsverstärkers 175 her an. Das Ausgangssignal des Vergleichsverstärkers 175 ist zunächst stets niederpegelig am Anfang einer Phonemperiode wegen des Dreiecksägezahnsignals (TR), das von einem Phonemtaktgeber 2oo her an seinem

- 33 -

• Q98H/0778

negativen Eingang anliegt. Jedoch fällt die Größe des TR-Signals bei einer bestimmten Zeitspanne, die kleiner ist als die Dauer der gesamten Phonemperiode unter die Größe des Steuersignals CLD ab, das am positiven Eingang des Vergleichsverstärkers 175 anliegt und bewirkt damit, daß dessen Ausgangssignal auf der Leitung 174 hochpegelig wird. Die vorgegebene Zeitspanne hängt natürlich von der Steilheit des TR-Signals ab, das seinerseits vom Phonemtaktsteuersignal auf einer Leitung 2o4 gesteuert wird. Wenn das Tastfür
verhältnissteuersignal/die Verschlußverzögerung auf der Leitung 174 hochpegelig wird, schaltet das Ausgangssignal des NOR-Tors auf niederpegelig um, wodurch das Abtast- und Haltesignal vom Dreizustandsriegelschalter 158 ausgetastet wird und die Analogtore 18o,182 durchsteuern.

Außerdem liegt derselbe Steuersignalparameter vom Ausgang Q1 des Riegelschalters 16o auf der Leitung 184 auch an zwei getrennten Übergangsfiltern 175,176 an. Das Ausgangssignal des Übergangsfilters 175 wird einem Analog-Digitalumsetzer 187 eingespeist, um das Tastverhältnissteuersignal für die Vokalspektrumhülle auf einer Leitung 2o2 zu erzeugen, und das Ausgangssignal für die Übergangsfilter 286 wird einem Analogdigitalumsetzer 188 eingespeist, um das Tastverhältnissteuersignal für die Mitlautfrequenz auf einer Leitung 19o zu erzeugen.

Wie bereits anhand der Erläuterung des Blockschaltbildes der Fig.3 bemerkt wurde, ermöglicht die Erzeugung eines eigenen Steuersignals für die Mitlautfrequenz die Verwendung einer herkömmlichen Regel-

- 34 -

Ö098U/0778

schaltung mit getrennt gesteuerten Band- und Tiefpassfiltern 192, 198. Im einzelnen gelangt das Steuersignal für die Mitlautfrequenz auf der Leitung 19o an die Steuerklemme eines Analogtores 191, welches die Bandbreite des Bandfilters 192 steuert. Das restliche Mitlautsteuersignal, das einfach als FC-Steuersignal im ersten Ausführungsbeispiel bezeichnet wurde, dient ausschließlich als Tiefpaß-Steuersignal. Somit liegt das Steuersignal für den Mitlauttiefpaß (FLP) über eine Leitung 194 an den Steuerklemmen zweier Analogtore 195,196 an, welche die Grenzfrequenz des Tiefpaß_filters 198 in der Regelschaltung für die Mitlauterregung steuern. Das Mitlauterregungssignal dieser Regelschaltung wird am Resonanzfilter F2 über einen Widerstand Rio und am Resonanzfilter F5 über einen Widerstand R12 ii den Schallweg eingesteuert· Da der Wert des Widerstandes Rio viel höher bemessen ist als d^r Wert des Widerstandes R12, gelangt der Hauptteil der Mitlauterregungsenergie in das Resonanzfilter F5.

Das Selbstlauterregungssignal oder die Glottiswellenform auf einer Leitung 2oo wird unter der Steuerung des Steuersignals für die Vokalspektrumhüllkurve auf einer Leitung 2o2 sowie des Steuersignals für die Selbstlautamplitude auf einer Leitung 2o6 spektral geformt und amplitudenmoduliert. Dann wird die Glottiswellenform am Resonanzfilter F1 über einen Widerstand R14 und am Resonanzfilter F2 über einen Widerstand R16 in den Schallweg eingesteuert. Somit wird wie im ersten Ausführungsbeispiel der Schallweg asynchron gesteuert, weil die Glottiswellenform praktisch verzögert wird, d.h. um etwa 18o° versetzt wird, wenn sie das Resonanzfilter F1 durchläuft.

- 35 -

8098U/0778

Damit werden die Resonanzfilter F2,F3 praktisch zweimal angesteuert: Zuerst durch Direkteingabe des stimmhaften Erregungssignals über den Widerstand R16 und dann durch die verzögerte Eingabe der Selbstlautenergie vom Ausgang des Resonanzfilters F1.

Durch die vorstehend beschriebene asynchrone Ansteuerung des Schallweges simuliert der erfindungsgemäße Sprachsynthesizer die Funktion der menschlichen Glottis natürlicher. Vor allem erregt die Glottis die Stimmbänder durch sanftes öffnen und Schließen

sich,
nicht nur einmal, sondern es ergab I daß die Glottis zunächst auf einer Seite schließt und dann mit einer sehr schnellen Bewegung den vollständigen Verschluß herbeiführt. Die asynchrone Ansteuerung der erfindungsgemäßen Anlage simuliert so diese Tätigkeit, indem sie eine doppelte Selbstlaut- oder Stimmerregung des Schallwegs vorsieht.

Außerdem ergab es sich, besonders aufgrund der Tatsache, daß ein Resonanzfilter F4 nicht verwendet wird, daß das NF-Ausgangssignal besser klingt, wenn die Glottiswellenform keine besonderen Anteile an Hochfrequenzenergie besitzt, wenn sie in das Resonanzfilter F1 eingesteuert wird. Jedoch bleibt mit verminderter Hochfrequenzenergie der Glottiswellenform bei Eingabe in das Resonanzfilter F1 ungenügende Energie in der Glottiswellenform am Ausgang des Resonanzfilters F1, um die Resonanzfilter F2 und F3 entsprechend zu beaufschlagen. Daher dient die Paralleleingabe des stimmhaften Erregungssignals in das Resonanzfilter F2 auch dazu, den Resonanzfilter F2, F3 eine entsprechende hochfrequente Selbstlautenergie einzuspeisen.

809814/0778

- 36 -

Außerdem sei bemerkt, daß ein Rückführungswiderstand R22 zwischen den Ausgang des Resonanzfilters F2 und den Eingang des Resonanzfilters F1 geschaltet ist,und'ein anderer Rückführungswiderstand R24 zwischen dem Ausgang des Resonanzfilters F3 und dem Eingang des Resonanzfilters F2 vorgesehen ist. Diese Rückführungswiderstände simulieren die normalen Gegendrücke im menschlichen Stimmapparat. Insbesondere beeinflußt der beim Schließen des Mundes erzeugte Gegendruck die Schwingung der Stimmbänder. Ebenso erzeugt auch die Zungenbewegung Gegendrücke, welche die Schwingung der Stimmbänder beeinflussen. Somit dient die Zwischenresonanzruckkopplung der Widerstände R22,R24, den erfindungsgemäßen Schallweg mehr an den menschlichen Stimmapparat anzupassen. Ferner sei bemerkt, daß zwei Widerstände Ri8,R2o parallel zu den Bandpasskreisen der Resonanzfilter F1,F2 geschaltet sind. Es ergab sich, daß "Q" oder die Bandbreite der Resonanzfilter F1, F2 sich umgekehrt proportional zu Änderungen der Resonanzfrequenzen der Filter ändert, obwohl in einem geringeren Ausmaß. Somit sind die Widerstände Ri8,R2o vorgesehen, um dieses Merkmal zu realisieren.

Schließlich wie auch anhand des Blockschaltbildes der Fig. 3 bemerkt verwendet dieses Ausführungsbeispiel der Erfindung einen vollkommen seriell beschalteten Schallweg. Insbesondere sind die Resonanzfilter F1,F2,F3,F5 in Kaskadenschaltung angeordnet, wobei das Ausgangssginal des Resonanzfilters F5 über ein Verschlußnetzwerk 214 sowie ein 2o kHz TiefpaßfilteK216 an einen entsprechenden NF-Wandler gelangt.

- 37 -

• 098U/0778

Außer den vorstehend beschriebenen Ausführungsbeispielen sind noch weitere möglich, ohne den Rahmen der Erfindung zu verlassen.

909814/0778

eerse

Claims

Sprachsynthesizer Patentansprüche

1.J Elektronische Anlage zur phonetisch—künstlichen Nachbildung der menschlichen Sprache mit einer Eingabevorrichtung, welche in Abhängigkeit von Eingabedaten eine Sollfolge von Phonemen identifiziert, um eine Anzahl von Steuersignalen zu erzeugen, welche jedes Phonem in der gewünschten Folge von Phonemen bestimmen, einschließlich eines ersten Steuersignales zur Steuerung der Amplitude des stimmhaften Sprachanteils und eines zweiten Steuersignals zur Steuerung der Amplitude des stimmlosen Sprachanteils, sowie einschließlich einer Selbstlauterregungsquelle zur Erzeugung eines stimmhaften Erregungssignals, einer Mitlauterregungsquelle zur Erzeugung eines stimmbsen Erregungssignals und eines Schallwegs, der in Abhängigkeit vom stimmhaften und stimmlosen Erregungssignal sowie einer gewissen Anzahl von Steuersignalen im wesentlichen die Frequenzspektra der einzelnen Phoneme in der Sollfolge erzeugt, einschließlich eines er-

9098U/0778

2840598

sten unter der Steuerung eines dritten Steuersignals einstellbaren Resonanzfilters, zur Erzeugung der erstenfOrmante im Frequenzspektrum und eines zweiten Resonanzfilters, das in Reihe zum ersten Resonanzfilter geschaltet ist und unter der Steuerung eines vierten Steuersignals einstellbar ist , um die zweite Formante des Frequenzspektrums zu erzeugen, dadurch gekennzeichnet, daß die Anlage Steuereinrichtungen (4o,38) umfaßt, um die stimmhaften (VA) und stimmlosen (FC) Erregungssignale in den Schallweg (60) einzusteuern, sodann dadurch, daß die erste Steuervorrichtung (4o) die Erregungsenergie parallel in das erste (42) und zweite (44) Resonanzfilter unter der Steuerung des ersten Steuersignals (VA) einspeist sowie dadurch, daß die zweite Steuervorrichtung (38) die Erregungsenergie in den Schallweg (60) unter der Steuerung des zweiten Steuersignals (FC) einspeist.

2. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß die erste Steuervorrichtung (4o) das stimmhafte Erregungssignal (VA) parallel in das erste (42) und das zweite (44) Resonanzfilter einspeist.

3. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet,daß die erste Steuervorrichtung (4o) das stimmhafte Erregungssignal

(VA) in das erste Resonanzfilter (42) und das stimmlose Erregungssignal (FC) in das zweite Resonanzfilter (44) einspeist.

4. Sprachsynthesizer nach Anspruch 3, dadurch gekennzeichnet, daß der Schallweg (4o) ein drittes mit dem zweiten Resonanzfilter (44) in Reihe geschaltetes Resonanzfilter (46) umfaßt, das unter

9098U/0778 " ³ "

-3- 2840598

der Steuerung eines fünften Steuersignals zur Erzeugung der dritten Formante (F3) in den Frequenzspektra einstellbar ist sowie dadurch, daß die erste Steuervorrichtung (4o) das stimmlose Erregersignal (FC) in das dritte Resonanzfilter (467 unter der Steuerung des ersten Steuersignals (VA) eingibt.

5. Sprachsynthesizer nach Anspruch 4, dadurch gekennzeichnet, daß die zweite Steuervorrichtung (58,38) das stimmlose Erregungssignal (FC) in den Schallweg (6o) einspeist.

6. Sprachsynthesizer nach Anspruch 5, dadurch gekennzeichnet, daß der Schallweg (6o) ein viertes Resonanzfilter (54) zur Erzeugung der fünften Formante (F5) in den Frequenzspektra umfaßt sowie dadurch, daß die zweite Steuervorrichtung (38) das stimmlose Erregungssignal parallel in das zweite (44) und vierte (54) Resonanzfilter einsteuert.

7. Sprachsynthesizer nach Anspruch 6, dadurch gekennzeichnet, daß das vierte Resonanzfilter (54) parallel zu den in Reihe geschalteten ersten (42) , zweiten (44) und dritten (46) Resonanzfiltern geschaltet ist.

8. Sprachsynthesizer nach Anspruch 2, dadurch gekennzeichnet, daß die zweite Steuereinrichtung (38) das stimmlose Erregungssignal (FC) in den Schallweg (6o) einsteuert.

9. Sprachsynthesizer nach Anspruch 8, dadurch gäennzeichnet, daß

9098U/0778

2840598

der Schallweg (60) auch ein drittes, mit dem zweiten Resonanzfilter (44) in Reihe geschaltetes Resonanzfilter (46) umfaßt,

das unter der Steuerung eines fünften Steuersignals einstellist,

bar /um die dritte Formante (F3) in den Frequenzspektra zu bilden sowie dadurch, daß ein viertes Resonanzfilter (54) die fünfte Resonanzformante (F5) in den Frequenzspektra erzeugt und schließlich dadurch, daß die zweite Steuervorrichtung (38) das stimmlose Erregungssignal (FC) parallel in das zweite (44) und vierte (54) Resonanzfilter eingibt»

10. Sprachsynthesizer nach Anspruch 9, dadurclygekennzeidnet, daß das vierte Resonanzfilter (54) mit dem dritten Resonanzfilter (46) in Reihe geschaltet ist.

11. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß eine Pausensteuerung (15o) mit der Eingabevorrichtung (12") verbunden ist, um ein Ausgangssignal zu erzeugen, das bewirkt, daß die Eingabevorrichtung (12") die gegenwärtigen Werte bestimmter Steuersignale (CLD, VSC+FF, F2Q) über die normale Phoneniperiode hinaus beibehält, wenn weder das erste (VA) und das zweite (FC) Steuersignal anliegen.

12. Sprachsynthesizer nach Anspruch 11, dadurch gekennzeichnet, daß die Pausensteuerung (15o) auch die Erzeugung des Ausgangssignals nach einer bestimmten Zeitspanne beenden kann, die kleiner ist als die von einem der Steuersignale (CLD) gesteuerte Gesamtperiode des Phonems.

Ö098U/0778

2840598

13. Sprachsynthesizer nach Anspruch 12, dadurch gekennzeichnet, daß das eine Steuersignal ein Steuersignal zur Verschlußverzögerung (CLD) ist.

14. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß der Schallweg (6o) ein drittes Resonanzfilter (46) umfaßt, um die dritte Formante (F3) in den FrequenzSpektra zu bilden sowie ein viertes Resonanz filter (54) um die fünfte Formante . (F 5) in den FrequenzSpektra auszuformen, weiter dadurch, daß die zweite Steuereinrichtung (38) das stimmlose Erregungssignal (FC) in das Resonanzfilter (44) unter der zusätzlichen Steuerung eines anderen Steuersignals (VA) eingibt und auch das stimmlose Erregungssignal (FC) in das vierte Resonanzfilter (54) unter der zusätzlichen Steuerung des reziproken Steuersignals (FC) einspeist.

15. Sprachsynthesizer nach Anspruch 14, dadurch gekennzeichnet, daß das dritte Resonanzfilter (46) in Reihe mit dem zweiten Resonanzfilter (44) geschaltet ist und daß das vierte Resonanzfilter (54) parallel zum ersten (42), zweiten (44) und dritten Resonanzfilter (46) geschaltet ist.

16. Elektronische Anlage zur phonetisch-künstlichen Nachahmung der menschlichen Sprache mit einer Selbstlautquelle zur Erzeugung eines stimmhaften Erregungssignals, einer Mitlautquelle zur Erzeugung eines stimmlosen Erregungssignals, ferner mit einer Eingabevorrichtung, welche in Abhängigkeit von Eingabedaten

Ö098U/0778

2840598

eine Sollfolge von Phonemen identifiziert, um eine Anzahl von Steuersignalen zu erzeugen, die jedes Phonem in der gewünschten

einschließlich Phoneinfolge elektronisch bestimmen,/eines ersten Steuersignals zur Steuerung der Amplitude des stimmhaften Erregungssignals sowie eines zweiten Steuersignals zur Steuerung der Amplitude des stimmlosen Erregersignalsbnd mit einem Schallweg, der in Abhängigkeit vom stimmhaften und stimmlosen Erregungssignal sowie in Abhängigkeit von bestimmten Steuersignalen im wesentlichen die Frequenzspektra für jede der Sollfolge von Phonemen erzeugt, dadurch gekennzeichnet, daß eine Pausensteuerung (15o) mit der Eingabevorrichtung (12') verbunden ist, um ein Ausgangssignal zu erzeugen, welches bewirkt, daß die Eingabevorrichtung (12¹) die gegenwärtigen Werte bestimmter Steuersignale über die normale Phonemperiode hinaus aufrecht erhält, wenn weder das erste (VA) und das zweite (FC) Steuersignal anliegen.

17. Sprachsynthesizer nach Anspruch 16,dadurch gekennzeichnet, daß die Pausensteuerung (15o) die Erzeugung des Ausgangssignals in Abhängigkeit von einem am Beginn eines jeden Phonems erzeugten Steuersignals (CLD) nach einer bestimmten Zeitspanne beendet, die kürzer ist als die Dauer einer gesamten Periode des Phonems.

18. Sprachsynthesizer nach Anspruch 17, dadurch gekennzeichnet, daß dieses Steuersignal ein Steuersignal für die Verschlußverzögerung (CLD) ist.

809814/077«