DE2736082A1

DE2736082A1 - Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer)

Info

Publication number: DE2736082A1
Application number: DE19772736082
Authority: DE
Inventors: Mark Vincent Dorais
Original assignee: Federal Screw Works
Current assignee: Federal Screw Works
Priority date: 1976-08-16
Filing date: 1977-08-10
Publication date: 1978-02-23
Also published as: CH625900A5; CA1082812A; IT1084152B; FR2362462B1; FR2362462A1; GB1584836A; US4128737A

Description

2736032

Die Erfindung betrifft elektronisches Gerät zur phonetischen Synthetisierung menschlicher Sprache (Sprach-Synthesizer).

Bis vor kurzem hat die Entwicklung auf diesem Gebiet nur zu außerordentlich komplizierten und kostspieligen Geräten geführt, die zudem nur eine sehr unnatürlich klingende Sprache erzeugen konnten» Dies ist hauptsächlich der Tatsache zuzuschreiben, daß diese Synthesizer der ersten Generation, die praktisch auf keiner Vorentwicklung aufbauen konnten, einen Synthesizer anstrebten, der praktisch jede bekannte Funktion der menschlichen Sprache ausüben können ; sollte. Als Folge konnten die resultierenden Systeme nur wenige ' Funktionen zufriedenstellend ausführen.

i Typisch für diese Art des Baus früherer Sprachsynthesizer war, ^!

wie die Übergangsperioden zwischen den Phonemen behandelt wurden. ' In Erkenntnis der Bedeutung, welche die Übergangsperioden in der : menschlichen Sprache besitzen, haben einige Systeme beträchtliche j Mühe darauf verwendet, verschiedene Ubergangswellenformen zu erzeugen, um die tatsächliche menschliche Artikulation zwischen Gleichgewichtsphonemzuständen zu simulieren. Die außerordentlich komplexe Schaltung, die zur Analysierung, Kontrolle und Integration bei der Produktion dieser Wellenformen erforderlich ist, damit eine glatt fließende phonetische Sprache erzielt wird, machte diese Systeme zu kommerziellen Zwecken vollständig unbrauchfbar. Die Komplexität dieser Systeme rief daraufhin Forschungen auf den Plan, welche die ursprünglichen Systeme vereinfachen sollten.

- 24 -

809808/0752

2736Ü82

Die jüngeren Entwicklungen auf diesem Gebiet gehen im wesentlichen von dem Eingeständnis aus, daß die genaue Duplikation der mensch- \ liehen Sprache nicht erzielbar ist. Sie versuchen stattdessen, j eine Annäherung an das menschliche Sprachsystem zu entwerfen, wel-j ehe zu einer annehmbar klingenden Sprache führt. Ohne die Bedeu- I

tung der Interphonemübergänge zu mißachten, war das wichtigste j

! Ergebnis dieser Entwicklung die Abweichung von dem außerordent- i

lieh komplexen System der Interphonemübergänge, das oben angespro^

eheη wurde. Es wurde ein vereinfachter Weg gewählt, der verhältnismäßig langsame Filter verwendet. Diese glätten die abrupten Variationen in den Kontrollparametern, welche die stationären Zustände der einzelnen Phoneme bestimmen.

Aufgabe der vorliegenden Erfindung ist es, einen Sprachsynthesizez zu schaffen, der nicht nur verhältnismäßig unkompliziert und preiswert ist, sondern auch eine bemerkenswert natürlich klingende Sprache erzeugt. Das System soll sich einer großen Breite mögliche Verwendungszwecke anpassen können. Ein erfahrener Programmierer soll nicht erforderlich sein, wodurch der Einsatz zusammen mit einem Digitalrechner als Umwandler zwischen Text und Audiosignal sich besonders anbietet.

Die bevorzugte Ausführungsform der vorliegenden Erfindung umfaßt ein System, welches digitalisierte Signale, z.B. das Ausgangssignal eines Computers oder eines anderen digitalen Gerätes, in elektronisch synthetisierte menschliche Sprache dadurch umsetzt, daß die Phoneme und Allophone der Sprache erzeugt und ineinander

809808/0752

2 '■ je,ν»32

integriert v/erden. Das grundlegende digitale Kommandowort, welches den Sprachsynthesizer betreibt, umfaßt vorzugsweise 12 Hits. Sieben dieser Bits sind der Phonem-Auswahl zugeordnet, und sie definieren ein bestimmtes Phonem , eine Pause oder eine Kontrollfunktion; 'sie machen maximal 2 oder 128 unterschiedliche Kommandos aus. Da

die Kapazität höher ist als das, was zur Erzeugung der Grundphonemilaute erforderlich ist, kann das System eine größere Vielzahl von Allophonen reproduzieren. Diese stellen Grundphoneme dar, die ge-

!ringfügig verändert sind, so daß sie sich besser in die Variabili-

I tat der Sprache einpassen. Z.B. ist das Phonem "ae" im englischen jWort "happen" anders alö im englischen Wort "bat". In ähnlicher j Weise ist das Anfangsphonem "k" im Wort "kick" anders als das

■Phonem "k" Im Wort "quit". Außerdem kann aufgrund der höheren !Kapazität das vorliegende System verschiedene Kommandoworte der Erzeugung von Phonemen widmen, die bestimmten Fremdsprachen zu

'eigen sind.Dadurch kann das System auch Fremdsprachen mit hoher !Qualität erzeugen.

Drei der 12 Datenbits im Eingangskommandowort werden zur Inflektionskontrolle verwendet. Dies ergibt 2 oder acht verschiedene Inflektionswerte pro Phonem. Hierdurch kann das System die glatten j und feinen Bewegungen in der Tonlage der menschlichen Sprache nachvollziehen. Die verbleibenden beiden Datenbits in jedem Eingangskommandowort werden dazu verwendet, die Geschwindigkeit der Phonemerzeugung zu variieren. Dadurch ergeben sich vier mögliche Zeitintervalle für jede Phonemerzeugung; die Phoneme können textgemäß in der Zeltdauer präzisiert werden.

- 26 - .

809808/0752

ORIGINAL INSPECTED

Sieben Bits, welche das jeweilige Phonem definieren, werden an eine Eingangsschaltung gelegt. Diese erzeugt mehrere bestimmte Kontrollsignale, die das gewählte Phonem elektronisch definieren. Die von der Eingangsschaltung erzeugten Kontrollsignale besitzen vorzugsweise die Form serialisierter, binär gewichteter Rechteckwellen, deren Durchschnittswert den analogen Kontrollsignalen äquivalent ist, die sie darstellen. Dadurch, daß digitale Darstellungen analoger Signale erzeugt werden, vermeidet das vorliegende System, daß zur genauen Steuerung der Analogsignale j komplizierte elektronische Schaltungen erforderlich sind.

Die Kontrollsignale gelangen von der Eingangsschaltung durch eine Reihe relativ langsamer Ubergangsfilter, welche die abrupten Amplitudenvariationen in den Signalen glätten. Von hier werden die Kontrollsignale verschiedenen dynamischen Artikulations-Kontroll- ! schaltkreisen zugeführt. Diese kombinieren und verarbeiten die j Parameter und erzeugen hiernach Kontrollsignale für die Erregung und den Vokaltrakt, die den Muskelkommandos des Gehirns an Vokaltrakt, Stimmritze, Zunge und Mund beim menschlichen Sprachmechanistmus analog sind.

Das System enthält ferner Erregerquellen für Vokale und Reiblaute. Diese empfangen die Erreger-Kontrollsignale, welche die verschiedenen Signaleigenschaften der grundlegenden stimmhaften und stimm-* losen Signale in der menschlichen Sprache bestimmen. Die Vokalerrqgerquelle erzeugt eine glottale Wellenform, welche die im menschlichen Vokal trakt r^'M ngende Stimmritze nachahmt. Die Reiblaut-

- 27 ->

809808/0752

quelle simuliert den Klang der Luft, die durch eine Drosselöffnung¹ strömt, wie dies bei der Aussprache der Phoneme "s", "f", ^Hh" i

auftritt. j

Die Vokal- und Reiblauterregersignale sowie die Kontrollsignale ; für den Vokal trakt werden einer Reihe von in Kaskaden form ge schal-* teten Resonanzfiltern zugeführt. Diese simulieren die mehrfachresonanten Hohlräume im menschlichen Vokaltrakt. Die Kontrollsignale stellen die charakteristischen Resonanzen des Filters so ein,' daß das erzeugte Audiosignal das erwünschte FrequenzSpektrum auf- j

weist. '

Die beiden Geschwindigkeitsbits im ursprünglichen Eingangskommandc wort werden in ein Einschaltdauer-Kontrolsignal umgewandelt, das dem Phonemtaktgeber zugeführt wird. Dieser bestimmt die Zeitdauer der Erzeugung des bestimmten Phonems. Die drei verbleibenden Inflektionsbits im Eingangskommandowort werden dazu verwendet, ein analoges Inflektionskontrollsignal zu erzeugen. Dieses wird der vokalen Erregerquelle zugeführt und bestimmt die "Tonhöhe" oder Frequenz der glottalen Wellenform.

Die bevorzugte Ausfuhrungsform der vorliegenden Erfindung enthält außerdem eine Schaltung, die automatisch das Inflektionsniveau verschiedener Phoneme in Übereinstimmung mit bestimmten Kontrollsignalen verändert. Im Ergebnis ist die vom vorliegenden System erzeugte Stimme weniger monoton und klitjt natürlicher als diejeni ge bekannter Systeme. Dies gilt insbesondere, wenn eine Handpro-

- 28 -

809808/0752

- ₂₈ . 2736032

grairanierung der Inflektion unpraktisch ist oder nicht verwendet wird.

Die vorliegende Erfindung benutzt weiter eine glottale Wellenform, welche die Wirkung der menschlichen Stimmritze genauer simuliert.

I Die neue glottale Wellenform besitzt die Form eines verstümmelten Sägezahns, die sowohl gerade als auch ungerade Harmonische erzeugt In der glottalen Wellenform wird außerdem ein Formant mit hoher Frequenz zugegeben, der die Spektralenergie der Wellenform bei hohen Frequenzen erhöht. Die höhere Energie bei hohen Frequenzen verbessert die relative Spektralamplitude der unteren Formanten

Der erfindungsgemäße Vokaltrakt wird dadurch verbessert, daß auch das Resonanzfilter vierter Ordnung eine Beweglichkeit aufweist. Dies ist von besonderer Bedeutung, da dies erzielt wird, ohne j daß zusätzliche Kontrollparameter erzeugt werden müssen. Letzteresj

würde die Komplexität des Systems erhöhen. Das vierte Resonanzfilter wird vielmehr unter der Kontrolle desselben Kontrollsignales j variabel gemacht, welches den Ort des dritten Resonanzpoles be- j s timmt.

Zur Simulation der verringerten Impedanz, die im menschlichen Vokaltrakt auftritt, wenn die Stimmritze offen ist, werden im erfindungsgemäßen Vokaltrakt Vokalresonanzen unterdrückt. Hierzu ist ein Schaltkreis vorhanden, der ein Rechteckimpuls mit variabler Impulsbreite erzeugt. Dessen Einschaltdauer ist proportional zur

809808/0752 " ²⁹ "

Größe der glottalen Wellenform. Das Einschaltdauer-Signal für die qlottale Unterdrückung wird dann an eine Reihe von Analogtoren gelegt, die über den Bandpass-Abschnitt der ersten drei Resonanzfilter im Vokaltrakt liegen. Der Effekt besteht darin, daß die auf

!offener Stimmritze beruhenden Resonanzen gedämpft werden, indem

die Bandbreiten der Resonanzfilter erhöht werden, wenn die Größe ider glottalen Wellenform wächst.

!Schließlich verwendet die vorliegende Erfindung einen Kommando-, Dekoder- und Kontrollkreis, der dem Programmierer die Möglichkeit gibt, das Gesamtvolumen und die gesamte Sprechrate des Audio-Ausgangssignals zu variieren, über diesen Kreis kann in das iSprachmuster außerdem ein stummes Phonem eingefügt werden, das iebenso wie ein stimmhaftes Phonem artikuliert wird. Dadurch wird I zur Natürlichkeit der erzeugten Sprache beigetragen. Wie hiernach ι ausführlicher beschrieben wird, wird das stumme Phonem hauptsächlich zusammen mit bestimmten Phonemen verwendet, die natürlicher ,klingen, wenn ihr Artikuiationsmuster gebildet wird, bevor Erregerlenergie dem Vokaltrakt zugeführt wird, bzw. v/enn deren Artikula-

tionsmuster eine kurze Zeitdauer hiernach noch aufrecht erhalten wird.

Der Kontrollkreis wird von einem besonderen 7-iUt-Phonemcode akti-> viert. Dieser unterscheidet das Kon trol lkorruuando von anderen Phonemkommandos. Die verbleibenden fünf Bits im I'citrol ikommandowort werden dazu verwendet, das gewünschte Klangniveau und die gewünschjte Sprechrate auszuwählen, und anzugeben, ob die darauffolgende :

809808/0752

- 3ο - 2 / ο_ , L ;

ι
Phonemzeitdauer stumm sein soll. Das Kontrollkommandophonem verjbraucht nur Gin sehr kurzes Zeitintervall, so daß der normale phoinetische Aufbau nicht in bemerkenswerter Weise verändert wird.

'Dies geschieht dadurch, daß die gewünschte Kommandoinformation verklinkt wird und dem Synthesizer das Kommando gegeben wird, sofort zum nächsten Phonem v/eiterzugehen.

Ein Ausffihrungsbeispiel der Erfindung wird nachfolgend anhand der Zeichnung näher beschrieben; es zeigen:

j Fig. la und Ib das Blockdiagramm eines erfindungsgemässen

! Sprachsynthesizers;

j Fig. 2 ein Schaltungsdiagramm eines Teils des in

! Fig. 1 dargestellten Systems;

■Fig. 3a die graphische Darstellung der Beziehung

zwischen der Fundamentalfrequenz der glottalen Wellenform und der Bewegung des ersten Resonanzpoles über einen Bereich von Vokalphonemen ;

Fig. 3b die graphische Illustration der Veränderungen

in der Fundamentalfrequenz der glottalen

Wellenform über einen Bereich von Konsonan-

ten-Phonemumgebungen;

Fig. 4 eine Graphik, in der die Spektralenergie

' der glottalen Wellenform vor und nach der

; Zufügung einer hochpoligen Kompensation

j verglichen wird;

- 31 -

809808/0752

ORIGINAL INSPECTED

2736Ü32

Fig. 5 ein Schaltungsdiagramm der Resonanzfilter

dritter und vierter Ordnung im Vokaltrakt des in Fig. 1 dargestellten Systems;

Fig. 6 ein Schaltungsdiagramm der Kommando-, Dekoder-

und Kontrollschaltung des in Fig. 1 dargestellten Systems;

Fig. 7 ein Signaldiagramm, in dem die Modulation

der Amplituden-Kontrollsignale, die von der Kommando-, Dekoder- und Kontrollschaltung von Fig. 6 erzeugt werden, dargestellt ist;

Fig. 8 ein Signaldiagramm, in dem die Zeitgabe der

verschiedenen Taktsignale in der Kommando-, Dekoder- und Kontrollschaltung von Fig. 6 dargestellt ist.

In Fig. 1 ist das Blockdiagramm eines erfindungsgemäßen Stimmen-Synthesizers dargestellt. Wie oben erläutert, wird dieses System vorzugsweise mit einem digitalen Eingangskommandowort von 12 Bit betrieben. Sieben der 12 Eingangsbits werden zur Phonemwahl verwendet; sie werden zwei read-only memories (ROM) 12 und 14 geführt. Für jedes der 128 möglichen Phoneme, die von den sieben Phonemauswahlbits identifiziert werden können, werden in den ROMs 12 und 14 16 verschiedene Parameter gespeichert. Diese definieren elektronisch jedes Phonem. Zusätzlich benötigt jeder Parameter vier Auflösungsbits zur Erzeugung der serialisierten, binär gewichteten, digitalen Kontrollsignale, die oben erwähnt wurden.

- 32 -

809808/0752

- 32 - 2736U32

Daher ist der gesamte ROM-Bitbedarf 16 χ 4 χ 128, also 8192 Bit. Dem kann entsprochen werden, indem irgendeine Zahl parallel geschalteter ROMs verwendet wird, die zur notwendigen Kapazität führt. Das in Fig. 1 gezeigte System enthält zwei ROMs 12 und 14, die jeweils eine 512 χ 8 Bitmatrix mit jeweils insgesamt 4o96 Bits umfassen. Selbstverständlich kann ein einziges ROM mit einer Kapazität von 8192 an die Stelle der beiden dargestellten ROMs 12,l4 gesetzt werden.

Die ROMs 12 und 14 werden unter der Kontrolle eines Zyklus-Adressierkreises 16 getaktet. Dieser liefert die richtige Zeitfolge auf den Leitungen 18 und 19, welche die ROMs 12 und 14 zur Erzeugung der erwähnten, serialisierten, binär gewichtigten Kontrollsignale benötigen. Der Zykhis-Adressierkreis 16 ist an einen Taktgeber 2o angeschlossen, der Rechteck-Ausgangssignale mit einer Frequenz von 2o kHz erzeugt. Das 2o kHz-Rechtecktaktsignal, welches vom Zyklus-Adressierkreis 16 empfangen wird, wird in Gruppen von jeweils 15 Impulsen aufgeteilt, die ihrerseits in Zeitsegmente von acht, vier, zwei und einem Taktimpuls unterteilt werden. Auf jeweils eine Gruppe aus fünfzehn empfangenen Taktsignalen, erzeugt der Zyklus-Adressierkreis 16 ein Ausgangssignal HI auf der Leitung 18 bzw. der MSB-Leitung während der Zeitsegmente 8 und 4, und ein HI-Ausgangssignal auf der Leitung 19 bzw. der LSB-Leitung während der Zeitsegmente 8 und 2.

Die serialisierten, binär gewichteten, digitalen Kontrollparameter, die von den ROMs 12,14 erzeugt werden, enthalten vorzugsweise vier

809808/0752

Auflösungsbits. Mit anderen Worten: für je df j η Phonemparameter ent-

4 halten die ROMs 1? und 14 vier Informationsbits, was 2 oder 16 mögliche Werte pro Parameter orglbt. Um die vier Hits mit dem entsprechenden Binärgewicht zu versehen, wird das erste oder bedeutendste der vier serialisierten Ausgangsbits im Kontrollnarameter er-

(logIsehe 1)

zeugt, wenn beide Signale auf den Leitungen 18,19 Hl/sind. Das

(logische 0)

zweite Bit wird erzeugt, wenn die LSB-Leitung LO/und die MiiU-Leitung HI ist; das dritte Bit, wenn die r.SB-I.eitung HE und die MSB-Leitung LO ist; das; vierte oder am wenigsten bedeutende der vier Bits wird erzeugt, wenn sowohl die MSB- als auch die LSH-Leltung LO Ist. Es ist also zu erkennen, daß das erste, bedeutendste Bit über eine Zeltdauer von acht Taktlmpulsen hinweg, das zweite Bit über eine Zeltdauer von vier Taktimpulsen hinweg, das dritte Bit über eine Zeltdauer von zwei Taktimpulsen hinweg und das vierte Bit über eine Zeltdauer von einem Taktimpuls hinweg erzeugt wird. Auf diese Weise kann ein Analogsignal digital als durchschnittliche Größe des Kontroll:;Ignales über eine Impulsperlode von 15 Takten dargestellt werden.

Obwohl an sich bekannt, werden die besonderen, von den ROMs 12,14 auf den Leitungen 22 erzeugten Kontrollsignalparameter hier kurz erläutert, um dem Verständnis der Funktionswelse des Systems eine bessere Grundlage zu geben.

Die Kontrollsignale Fl und F2 bestimmen den Ort der Resonanzfrequenz-Pole in den ersten beiden variablen Resonanz filtern Im Vokaltrakt 6o. Wie nachfolgend ausführlicher beschrieben wird, be-

- 31 -

809808/0752

. 34 - 2736Ü82

stimmt das Kontrollsignal F3 + F4 den Ort der Frequenz-Pole in den variablen Resonanz filtern sowohl dritter als auch vierter Ordnung im Vokaltrakt 60. Die Kontrollsignale für Nasalschluß und Nasalfrequenz werden immer dann erzeugt, wenn die Stimmengrößen "n", "m" oder "ng" vorliegen. Sie simulieren die Energieabnahme, die im Stimmenenergiespektrum auftritt, wenn diese Phoneme gesprochen werden. Das Kontrollsignal für den Nasalschluß bestimmt genauer die Menge der zu entfernenden Vokalenergie; das Kontrollsignal für die Nasalfrequenz bestimmt die Frequenz, bei der die Energie verringert werden soll. Die Kontrollsignale für die Reiblautfrequenz und den ReLblaut-low-pass arbeiten ebenfalls zusammen; diese werden immer dann erzeugt, wenn Phoneme mit Reiblautenergie, z.B. "f" und "s" vorliegen. Diese Kontrollsignale formen die Reiblautanregungsenergie spektral vor der Einführung in den Vokaltrakt Das Kontrollsignal für den Reiblaut-low-pass bestimmt im einzelnen die Frequenz, oberhalb welcher die breitbandige Reiblaut-Anregungsenergie ausgeschlossen wird. Das Kontrollsignal für die Reiblautfrequenz bestimmt die Frequenz, bei der die maximale, stimmlose Energie auftritt. Das Kontrollsignal für die Übergangsrate wird bei jedem Phonem erzeugt; zusammen mit dem Ausgangssignal des Geschwindigkeitskontrollkreises 3o, der nachfolgend beschrieben wird, bestimmt es die Übergangsrate zwischen den stationären Zustünden der oben erwähnten Kontrollsignale. Das Zeit-Kontrollsignal wird ebenfalls bei jedem Phonem erzeugt und bestimmt zusammen mit dem Ausgangsnignal des Geschwindigkeitskontrollkreises 3o die Zeitdauer der Produktion jeden Phonems. Ein Kontrollsignal für die Vo-

- 35 -

809808/0752

kaiamplitude wird immer dann erzeugt, wenn ein Phonem mit einer stimmhaften Komponente vorliegt. Das Kontrollsignal für die Vokalamplitude regelt die Intensität der stimmhaften Komponente im Audio-Ausgangssignal. Das Kontrollsignal für die Vokalverzögerung wird bei bestimmten phonetischen übergängen zwischen Reiblaut und Vokal erzeugt, wo dfe Amplitude des Reiblaut-Bestandteils schnell abnimmt und gleichzeitig die Amplitude des Vokalbestandteiles rasch anwächst. Wie bei der Beschreibung des Generatorkreises 38 für die Vokalverzögerung ausführlicher erläutert wird, identifiziert das Kontrollsignal für die Vokalverzögerung diejenigen Fälle, in denen der Generator für die Vokalverzögerung die übertragung des Kontrollsignals für die Vokalamplitude verzögern soll. Das Kontrollsignal für den Schluß wird dazu verwendet, die Phonemwechselwirkung zu simulieren, die z.B. bei der Erzeugung des Phonems "b", gefolgt vom Phonem "e", auftritt. Das Kontrollsignal für den Schluß führt, wenn es erzeugt wird, zu einer abrupten Amplitudenmodulation im Audio-Ausgangssignal, welche den Aufbau und die plötzliche Freigabe von Energie simuliert, die bei der Aussprache solcher Phonem-Kombinationen auftritt. Das Kontrollsignal für die spektrale Vokalkontur ist ein weiteres Kontrollsignal, welches das vokale Energiespektrum spektral formt. Das Kontrollsignal für die spektrale Vokalkontur steuert ein Tiefpass-Filter erster Ordnung, welches die in den Vokaltrakt gebrachte Vokalenergie ; unterdrückt, wobei die größte Unterdrückung bei Vorliegen rein ; stimmloser Phoneme auftritt. Das Kontrollsignal F2Q variiert das j"Q" oder die Bandbreite eines Resonanzfilters (F2) zweiter Ordnung

i '

! im Vokaltrakt 6o. Es wird hauptsächlich im Zusammenhang mit der ! - 36 - ^;

809808/0782

Erzeugung nasaler Phoneme "η", "τη" und "ng" verwendet. Nasale Phoneme besitzen typischerweise eine größere Energiemenge beim ersten Formanten (Fl) und einen wesentlich niedrigeren und breiteren Energiegehalt bei höheren Formanten. Bei Vorliegen nasaler Phoneme wird daher das Kontrollsignal F2Q erzeugt, wodurch das Q des Resonanz filters F2 verringert wird. Dieses verhindert aufgrund der Kaskadenanordnung der Resonanzfilter im Vokaltrakt 60, daß nennenswerte Energiemengen die höheren Formanten erreichen. Das Kontrollsignal für die Reiblaut-Amplitude wird immer dann erzeugt, wenn ein Phonem mit einer stimmlosen Komponente vorliegt. Es wild dazu verwendet, die Intensität der stimmlosen Komponente im Audio-Ausgangssignal zu steuern. Schließlich wird ein Kontrollsignal für die Schlußverzögerung bei bestimmten phonetischen übergängen zwischen Vokal und Reiblaut erzeugt, wo die Transmission der Kontrollsignale für den Schluß, die spektrale Vokalkontur, F2Q und die Reiblaut-Amplitude so verzögert werden sollen, wie dies für das Kontrollsignal für die Vokalverzögerung beschrieben wurde.

Die Kontrollparameter-Ausgangssignale des ROM 12 werden an eine erste Reihe relativ langsamer Übergangs filter 24 gelegt. Die Übergangsfilter 24 sind absichtlich so gebaut, daß sie eine verhältnismäßig lange Ansprechzeit, bezogen auf die Dauer eines typischen Phonems im Gleichgewichtszustand besitzt. Auf diese Weise werden abrupte Amplitudenveränderungen in den Kontrollausgangs-Signalen des ROM 12 eliminert. Die Übergangsfilter 24 ergeben somit graduelle Veränderungen zwischen den Gleichgewichtsniveaus der

809808/0752 - 37 -

Kontrollsignalparameter und simulieren die glatten Übergänge zwischen den Phonemen, die bei der menschlichen Sprache gegeben sind. Die Ansprechzeit dor Übergangs filter 24 wird vorzugsweise unter dem Einfluß des Ausgangssignales des Übergangs-Kontrollkreises 26 gemacht. Der Übergangs-KontrolIkreis 26 kombiniert das Kontrollsignal für die Ubergangsrate vom ROM 14 mit dem Ausgangssignal des Geschwindigkeitskontrollkreises 3o und erzeugt ein Rechtecksignal mit fester Frequenz und variabler Impulsbreite, dessen prozentuale Einschaltdauer die AnsprechEit der UbergangsfiLter 24 bestimmt.

Die beiden Geschwindigkeitsauswahlbits aus dem Eingangskommandowort mit 12 Bit werden direkt an einen Phonemraten-Summierkreis 28 gelegt. Der Phonamraten-Summicrkreis 28 kombiniert die Geschv/indigkeitsauswahlbits mit dem Ausgangssignal für die Sprechrate auf der Leitung 46 des Kommando- und Steuerkreises 5o. Die Summation wird an den Geschwindigkeitskontrollkreis 3o gelegt. Der Geschwindigkeitskontrollkreis 3o erzeugt ein Rechteckausgangssignal mit variabler Impulsbreite, dessen prozentuale Einschaltdauer z.T. von der Größe des Ausgangssignais des Phonemraten-Summierkreises 28 abhängt. Das Einschaltdauersignal für die Sprechrate vom Geschwindigkeits-Kontrollkreis 3o wird an den Übergangskontrollkreis 26 gelegt, sowie an den Phoneinzeitkreis 32, an ein Inflektionsfilter 52 und an eine zweite Reihe relativ langsamer ubergangsfiiter 31. Wie zuvor erwähnt, kombiniert der übergangskontrollkrais 26 das Ausgangssignal des Geschwindigkeitskontrollkreises 3o mit den Kontrollsignalen für die Übergangsrate des ROM 14 und erzeugt

- 38 -

809808/0752

das Einschaltdauer-übergangssignal, welches die Ansprechzeit der ersten Reihe langsamer Übergangs filter 24 bestimmt.

Der Phonemzeitgeber 32 , der ebenfalls das Sprechrateneinschaltdauersignal des Geschwindigkeitskontrollkreises 32 empfängt, erzeugt ein Rampensignal, das sich von 5 V auf O V in einer Zeitdauer verändert, welche die Dauer der Phonemerzeugung bestimmt. Die Neigung des Rampensignals, das vom Phonemzeitgeber 32 erzeugt wird, hängt sowohl von der Einschaltdauer des Sprechratensignals des Geschwindigkeitskontrollkreises 3o als auch von dem Wert des Phonemzeitsignals vom ROM 14 ab. Das Phonemzeitsignal vom ROM 14 bestimmt die relative Produktionsdauer von jedem einzelnen Phonem, während der GeschwindigkeitskontrollkreLs 3o die Gesamtrate der Phonemproduktion, d.h. die Sprechrate bestimmt.

Das Kontrollsignal für die Vokalamplitude des ROM 14 wird an einen Modulationskreis 36 für die Vokalamplitude gelegt. Dieser moduliert die Amplitude des Vokalamplituden-Kontrollsignals je nach der Größe des Volumen-Kontrollsignals, das auf der Leitung 48 von dem Kommando- und Steuerkreis 5o empfangen wird. Das modulierte Vokalamplituden-Kontrollsignal wird an einen Generator 38 für die Vokalverzögerung gelegt. Dieser verzögert die übertragung des Vokalamplitudenkon trol Is ignals um eine bestimmte Zeitdauer, die geringer ist als die Dauer eines einzigen Phonemzeitintervalls, und zwar immer dann, wenn ein Kontrollsignal für die Vokalverzögerung vom ROM 14 abgegeben wird.

- 39 -

809808/0752

In entsprechender Weise wird das Kontrollsignal für die Reiblautamplitude vom ROM 14 an einen Modulationskreis 4o für die ReIblautamplitude gelegt. Dieser moduliert die Amplitude des Reiblautamplitudenkontrollsignals je nach der Größe des VoIumenkontroll signals, das auf der Leitung 47 vom Kommando- und Steuerkreis 5o empfangen wird. Das modulierte Reiblautamplitudenkontrollsignal wird an einen Generator 4 2 für die Schlußverzögerung gelegt. Dieser funktioniert ebenso wie der Generator 38 für die Vokalverzögerung. Zusätzlich werden die Kontrollsignale für den Schluß, die spektrale Vokalkont und F2Q an den Generator 4 2 für die Schlußverzögerung gelegt. Dieser verzögert entsprechend die übertragung der erwähnten Kontrollsignale um eine bestimmte Zeitdauer, die geringer ist als die Dauer eines einzigen Phonemzeitintervalls, und zwar immer dann, wenn ein Kontrollsignal für die Schlußverzögerung vom ROM 14 abgegeben wird. Die Zeitverzögerungen, die von dem Generator 38 für die Vokalverzögerung und dem Generator 4 2 für die Schlußverzögerung bewirkt werden, hängen von dem Zeitintervall des jeweiligen Phoneme ab, das erzeugt wird. Dieses Zeitintervall wird vom Rampen-Ausgangesignal vom Phonemzeitgeber 32 bestimmt.

Wie zuvor erörtert, stellen der Generator 38 für die Vokalverzögerung und der Generator 4 2 für die Schlußverzögerung sicher, daß eine richtige Zeitfolge zwischen bestimmten Reiblaut-Vokal- und Vokal-Reiblaut-Phonetikübergängen gewährleistet ist. Z.B. enthält der Vokal -Reiblautübergang bei der Aussprache des Buchstabens ;"s" einen Vokalbestandteil, dessen Amplitude rasch abnimmt, wäh-

- 4o - j

809808/0752

rend gleichzeitig die Amplitude des Reiblautbestandteiles rasch anwächst. In diesem Fall verzögert der Generator 4 2 für die Abschlußverzögerung die Transmission des Reiblautbestandteiles gegenüber dem Vokalbestandteil, so daß der rasche Anstieg in dem Reiblautenergieniveau nicht im raschen Abnehmen des Vokalenergieniveaus verlorengeht. Vielmehr wird die Produktion des Reiblautbestandteiles etwas zeitlich verzögert.

Die Ausgangssignale des Generators 38 für die Vokalverzögerung und des Generators 4 2 für die Schlußverzögerung werden an eine zweite Reihe relativ langsamer Ubergangsfilter 34 gelegt. Diese glätten die abrupten Amplitudenvariationen in den Kontrollsignalen ebenso, wie dies zuvor für die Übergangsfilter 24 beschrieben wurde. Wie bei der ersten Reihe von Ubergangsfiltern 24 wird die Ansprechzeit der zweiten Reihe von Ubergangsfiltern 34 vom Sprechrateneinschaltdauersignal des Geschwindigkeits-Kontrollkreises gesteuert. Die Ansprechzeit der zweiten Reihe von Übergangsfiltern 34 wird jedoch nur vom Sprechraten-Signal des Geschwindigkeitskontrollkreises 3o geregelt, wogegen die Ansprechzeit der ersten Reihe von Übergangsfiltern 24 zusätzlich vom Kontrollsignal für die Ubergangsrate des ROM 12 kontrolliert wird. Dies geschieht deshalb, weil die Ubergangszeitgabe der Kontrollsignalparameter, die an die zweite Reihe von Übergangsfiltern 34 gelegt werden, nicht so kritisch ist, wie die Zeitgabe für die Kontrollsignalparameter, die an die erste Reihe von Übergangsfiltern 24 gelegt werden. Die genaue Zeitgabe-Kontrolle, die vom Ubergangskontrollsignal gewährleistet wird, ist daher nicht erforderlich.

- 41 - ;

809808/0752

- 41 - I I JOÜ'j,'

Die drei Inflektions-Auswahlbits vom 12-Bit-Eingnngskommandowort werden direkt an ein Inflektionsfilter 5? gelegt. Dieses kombiniert die binären, gewichteten Bits zu einem einzigen, analogen, Inflektionskontrollsignal. Zusätzlich glättet das Inflektionsfilter 52 die abrupten Amplitudenveränderungen im Inflektions-Kontrollsignal ebenso wie dies zuvor für die Ubergangsfilter 21,34 beschrieben wurde. Die Ansprechzeit des Inflektionsfilters 52 wird ebenfalls vom Sprechrateneinschaltdauersignal des Geschwindigkeitskontrollkreises 3o gesteuert.

Das Ausgangssignal des Inflektionsfilters 5 2 wird zu einer vokalen Erregerquelle 54 geführt, welche die stimmhafte Erregerenergie bzw. glottale Wellenform erzeugt. Das Ausgangssignal des Inflektionsfilters 5 2 bestimmt die Höhe der Vokalenergie , die der Fundamentalfrequenz (F0) der glottalen Wellenform entspricht. Beider bevorzugten Ausführungsform umfaßt die glottale Wellenform, die von der vokalen Erregerquelle 54 erzeugt wird, im wesentlichen eine Sägezahnwelle, rfobei der negative Teil des Signales entfernt ist. Wie hiernach ausführlicher erläutert wird, simuliert diese neuartige glottale Wellenform besser die Wirkungsweise der menschlichen Stimmritze und verbessert damit die Natürlichkeit der erzeugten Sprache.

Um außerdem ein bestimmtes Ausmaß an automatischer Inflektionskontrolle zu erzielen, wie sie bisher nicht erreichbar war, wird die Fundamental frequenz der glottabn Wellenform, die von der vokalen Erregerquelle 51 erzeugt wird, variabel gemacht, je nach

- 12 -

809808/0752

2736Ü«;.'

den Veränderungen In den Kontrollsignalen Fl, nasaler Schluß, Vokalamplitude, Schluß und Reiblautamplitude. Die erwähnten Kontrollsignale werden nämlich an einen Modulationskreis 56 für die Parameterinflektion gelegt, der den Effekt der Kontrollsignale auf die Fundamental frequenz der glottalen Wellenform moduliert.

Die Ausgangssignale der Übergangsfilter 24,34 werden an eine Reihe von Analog-Einschaltdauer-l/andlern 53 gelegt. Im einzelnen umfassen die Konverter 58 eine Mehrzahl von Komparatoren, deren einer Eingang ein 2o kHz-Dreieckssignal vom Taktgeber 2o empfängt und deren anderer Eingang mit einem Kontrollsignal der Übergangs filter 24,34 verbunden ist. Die Komparatoren erzeugen Rechtecksignale mit variabler Impulsbreite und fester Frequenz, deren prozentuale Einschaltdauer der Größe der zugehörigen, an den Eingängen empfangenen Kontrollsignale entspricht.

Die Kontrollsignale Fl, F2, F3 +Fl, F2Q, glottale Unterdrückung und Schluß der Wandler 58 werden direkt an die Vokaltrakt-Filtereinheit 6o gelegt. Die Vokaltraktfiltereinheit 6o umfasst im wesentlichen fünf in Serie geschaltete Resonanzfilter, von denen vier variabel sind, ein analoges Schlußtor und ein 2o kHz-Filter. Das analoge Schlußtor spricht auf das Schluß-Einschaltdauerkontrollsignal an und moduliert die Amplitude des Audio-Ausgangssignals; das 2o kHz-Filter schließt Effekte des Taktsignales auf das Audio-Ausgangssignal aus. Die variablen Resonanzfilter Fl, F2, F3 liefern die ersten drei Resonanz-Formanten im Energiespektrum des Audio-Ausgangssignals; sie sind jeweils unter dem Einfluß ihrer zugehöri-

809808/0752

2736Ü82

gen Einschaltdauer-Kontrollsignale abstimmbar. Das Resonanz filter Fl ist über einen Frequenzbereich zwischen 25o Hz und ca. 800 Hz einstellbar. Das Resonanzfilter F2 ist über den Frequenzbereich zwischen 76 Hz und 2400 Hz einstellbar. Das Resonanzfilter F3 ist innerhalb des Frequenzbereiches zwischen 12oo Hz und 255o Hz einstellbar. Wie hiernach ausführlicher erläutert wird, ist auch das Resonanzfilter F4, welches den vierten Formanten im Audio-Ausgangssignal liefert, variabel, ohne daß die Erzeugung eines zusätzlichen Kontrollsignals erforderlich wäre. Das Resonanzfilter F4 wird nämlich vom selben Kontrollsignal abgestimmt, welches das Resonanzfilter F3 abstimmt. Es ist innerhalb des Frequenzbereiches zwischen 2400 und 37oo Hz variabel. Das Resonanzfilter F5 ist ein Festpolfilter, welches einen fünften Formanten im Audio-Ausgangssignal bei ca. 44oo Hz beisteuert.

Die Resonanzfilter F2 und F5 in der Vokaltraktfiltereinheit 60 werden mit dem stimmlosen Erregersignal aus einer Reiblauterregersteuerung 6 2 gespeist. Nur die Resonanzfilter F2 und F5 empfangen Reiblautenergie; es hat sich nämlich als hinreichend herausgestellt, nur bei diesen beiden Punkten im Vokaltrakt Reiblautenergie zuzuführen, um die Frequenzspektren aller Reiblautphoneme genau zu I stimulieren. Die Reiblauterregersteuerung 6 2 empfängt das stimm- ^; ilose bzw. Reiblauterregersignal vom Reiblaut-Erregergenerator 64,

i ·

der die stimmlose PhonemgröBe der menschlichen Sprache erzeugt. i Die Reiblauterregersteuerung 6 2 umfaßt im wesentlichen eine Gruppe' analoger Steuergeräte, welche die Amplituden-, Frequenz- und Tief-; pass-Signaleigenschaften des Reiblaut-Erregersignals verändern, '

809808/0752

je nach den Einschaltdauer-Kontrollsignalen, die von den Analog-Einschaltdauerwandlern 58 empfangen werden. Der Reiblaut-Erregergenerator 64 besteht aus einer Rauschquelle, welche den Klang von Luft, die durch eine Drosselöffnung strömt, simuliert, wie er bei der Aussprache der Phoneme "s", "f", "h" auftritt.

Der stimmhafte Signalanteil der vokalen Erregerquelle 54 wird ebenfalls zur Vokaltraktfiltereinheit 6o über eine vokale Erregersteuerung 66 geführt. Die Vokalerregersteuerung 66 umfaßt in entsprechender Weise eine Gruppe analoger Kontrollgeräte, welche die Signaleigenschaften des stimmhaften Erregersignals verändern, je nach den Einschaltdauer-Kontrollsignalen für Vokalamplitude, spektrale Vokalkontur, Nasalfrequenz und Nasalschluß, die von den Wandlern 58 empfangen werden.

Wie hiernach ausführlicher erläutert wird, enthält die in die Vokaltraktfiltereinheit 6o gespeiste Vokalenergie einen zusätzlichen Formanten, der zum stimmhaften Erregersignal durch einen hochpoligen Kompensationskreis 68 addiert wird. Dadurch wird die spektrale Energie des Signales bei hohen Frequenzen erhöht. Zusätzlich wird die stimmhafte Signalgröße an einen glottalen Unterdrückerkreis 7o gelegt, der im Vokaltrakt 6o eine resonante Unterdrückung bewirkt. Dadurch wird die öffnung der Stimmritze bei der menschlichen Sprache simuliert; Der glottale Unterdrückungskreis 7o erzeugt ein Einschaltdauerkontrollsignal, welches die Resonanz der Resonanzfilter Fl, F2 und F3 dämpft. Wie hiernach ausführlicher erläutert

- 45 -

809808/0752

wird, bewirkt der glottale Unterdrückungskreis 7o eine maximale Dämpfung während derjenigen Teile der glottalen Wellenform, welche der offenen Stimmritze entsprechen. Da zudem die menschliche Stimmritze nur während der Erzeugung stimmhafter Phoneme aktiv ist, liefert die glottale Unterdrückungseinheit 7o ihr Unterdrükkungseinschaltdauersignal zum Vokaltrakt 60 nur während der Erzeugung stimmhafter Phoneme, wie dies durch den Empfang eines Vokalamplitudensignals auf der Leitung 7 2 zur Kenntnis gebracht wird.

Schließlich ist ein Kommandodekoder- und Steuerkreis 5o vorhanden, der die Gesamtgeschwindigkeit und Amplitude des Audioausgangssignals regelt. Wie anhand der Fig. 6 ausführlicher erläutert wird, kann die gesamte Sprechrate und/oder das gesamte Sprechvolumen des Audio-Ausgangnsignals nach einem Programm variiert werden, in dem der Kommandokreis mit seinem vorgewählten, 7 Hit umfassenden Phonem-"Hamen" aufgerufen wird und die gewünschten Geschwindigkeits- und/oder Volumenänderungen über die Auswahlbits für Geschwindigkeit bzw. Inflektion eingegeben werden. Zusätzlich kann der Kommando-, Dekoder- und Steuerkreis 5o ein artikuliertes, 3tilles Phonem in das Sprachmuster einbringen, wodurch die menschliche Sprache realistischer simuliert wird.

In Fig. 2 ist ein detailliertes Schaltdiagramm wichtiger Teile des in Fig. 1 dargestellten Systemes gezdgt. Wie zuvor bei der Beschreibung des Blockdiagramms von Fig.l erwähnt wurde, werden drei der 12 Bits des Eingangskommandowortes vorzugsweise der Programmie-

809808/0752 "⁴⁶ "

-46- 273ÜÜ8 2

rung und Steuerung der Inflektion bzw. der Höhe des Audioausgangssignals zugeordnet. Die drei Inflektionsbits verbessern die Sprachqualität, indem die Verschiedenheit diskreter Inflektionsniveaus erhöht wird, die bei der Programmierung zur Verfugung stehen. Dies geschieht, indem jedes der drei Eingangsdaten-Inflektionsbits 2 ,

7 8

2 und 2 mit einem Gewichtungswiderstand Rl, R2 bzw.R3 verbunden wird und die Gewichtungswiderstände an einem gemeinsamen Summierpunkt 78 verbunden werden. Das Ausgangssignal des Summierpunktes 78 wird dann auf das Inflektionsfilter 8o gebracht. Die Widerstandswerte der Widerstände Rl, R2 und R3 sind so gewählt, daß sich acht mögliche Inflektionsniveaus ergeben. Im einzelnen hat der Gewichtungswiderstand Rl, der mit dem am wenigsten signifikanten Bit 2 verbunden ist, einen liiert, der viermal so groß fet wie der Wert des Gewichtungswiderstandes R3, der mit dem am stärksten signifikanten Dit 28 verbunden ist, und doppelt so groß wie der Wert des Gewichtungswiderstandes R2, der mit dem mittleren Inflektionsbit 2 verbunden ist. Es ist also zu er-

kennen, daß der Beitrag des Inflektionsbits 2 zur Grosse des Signals am Summierpunkt 78 doppelt so groß ist wie derjenige des Inflektionsbits 2 und viermal so groß wie derjenige des Inflektionsbits 2⁶. Das Inflektionsfilter 8o umfaßt ein verhältnismäßig langsames Filter, dessen Ansprechzeit durch das Sprechrateneinschaltdauersignal des Geschwindigkeitskontrollkreises gesteuert wird. Die verhältnismäßig langsame Ansprechzeit des Inflektionsf ilters 8o glättet die abrupten AmplitudenVariationen im Signal am Summierpunkt 78 , die auftreten, wenn der Zustand der Eingangsinflektionsbits verändert wird.

- 47 -

809808/0752

Wie aus Fig. 1 erinnerlich ist, wird das Ausgangssignal des Inflektionsfliters 8o an die Vokalerregerquelle gelegt, welche die grundlegende, stimmhafte Phonemgröße erzeugt, die der vibrierenden Stimmritze im menschlichen Vokaltrakt analog ist. Die Vokal-Erregerquelle umfaßt im wesentlichen einen Integrationsverstärker 82 und einen Verstärker 86. Das Ausgangssignal des Inflektionsfilters 8o wird über einen Kopplungswiderstand an den negativen Eingang des Integrators 8 2 gelegt. Der negative Eingang des Integrators ist außerdem über den Widerstand R4 mit einer Vorspannung von +12V verbunden. Der positive Eingang des Integrators 8 2 ist über den Widerstand R5 geerdet; der Ausgang des Integrators 82 ist über den Rückkopplungskondensator Cl zu seinem negativen Eingang zurückgeführt. Da die Integration eines Signals mit konstantem Potential zu einem Rampensignal führt, ist zu erkennen, daß der Integrator 82 ein ins Negative gehendes Rampensignal erzeugt, dessen Neigung proportional zum Signal-potential am negativen Eingang ist. Der Ausgang des Integrators 8 2 ist über einen Rückkopplungskreis aus den Widerständen R6, R7 und R8, der Diode Dl und dem Verstärker zum negativen Eingang zurückgeführt. Der Zweck dieses Rückkopplungskreises besteht darin, den Ausgang des Integrators 82 zu Beginn eines neuen Zyklus auf das ursprüngliche Potential zurückzustellen. Der Integrator 82 erzeugt somit eine sägezahnartige Welle, wie im Signaldiagramm dargestellt, deren Frequenz mit der Größe des aus dem Infektionsfilter 8o kommenden Signales verknüpft ist.

Stimmhafte Signalgrößen, die sägezahnartige Form aufweisen, erzeugen, wie bereits in der Vergangenheit erkannt wurde, natürlicher

809808/0752

- 48 - 2736QB?

klingende Sprache als andere Arten zuvor verwendeter Wellenformen, z.B. die Impulsfunktion. Dies beruht hauptsächlich aufgrund der Fähigkeit der Sägezahn-Wellenform, eine breitere Amplitudenverteilung sowohl gerader als auch ungerader Harmonischer zu erzeugen, Die Grundsägezahnform wird jedoch drei fundamentalen Wirkungen der menschlichen Stimmritze nicht gerecht: (1) dem öffnen der Stimmritze; (2) dem Schließen der Stimmritze; (3) der geschlossenen Stimmritze. Um die Wirkungen der menschlichen Stimmritze genauer zu simulieren und damit eine natürlicher klingende Stimme zu erzeugen, wird die glottale Wellenform dahingehend modifiziert, daß der Ausgang des Integrators 8 2 über einen Widerstand R14 mit dem negativen Eingang eines Verstärkers 86 verbunden wird. Der positive Eingang des Verstärkers 86 ist geerdet. Der Ausgang des Verstärkers 86 ist über eine Diode D3 und einen Kurzschlußwiderstand R15 zum negativen Eingang zurückgeführt. Die Diode D3 wirkt als Rückkopplungskurzschluß für Signale, welche die Durchbruchsspannung über-sehreiten; der Widerstand R15 ergibt eine lineare Rückkopplung zum Widerstand 14 für Signale, die gegenüber Masse negativ sind. Es ist also zu erkennen, daß der Verstärker 86 im Effekt das Signal des Integrators 8 2 invertiert und die Sägezahnform verstümmelt, indem die untere Hälfte des Signales subtrahiert wird, wie dies im Signaldiagramm dargestellt ist.

Tatsächlich wird der Wert der Diode D3 vorzugsweise so gewählt, daß etwas mehr als die Hälfte der Sägezahnform entfernt wird. Mit anderen Worten: Der Höhenabschnitt der Welle, die am Ausgang des Verstärkers 86 liegt, umfaßt vorzugsweise mehr als 5o %

809808/0752

des Signales. Es wurden zwar Experimente mit einer Schaltung angestellt, welche diesen Prozentsatz je nach der Erzeugung unterschiedlicher Phoneme variiert; die erhöhte Komplexität, die mit der beträchtlichen zusätzlichen Schaltung verbunden ist, hat jedoch den Einschluß dieser Schaltungsanordnung beim bevorzugten Ausführungsbeispiel verhindert. Es hat sich jedoch herausgestellt, daß die feste Wellenform, die verwendet wird, für die meisten Zwecke mehr als ausreicht. Praktisch gesprochen, gibt es wenige Fälle, in denen eine Veränderung der Abschnitthöhe des Signals zu einem nennenswerten Unterschied in der Qualität des Audioausgangssignals führt.

Das Ausgangssiqnal des Verstärkers 86 nähert außerdem die menschlichen Glottal-Eigenschaften besser an, indem die drei Fundamentalwirkungen der menschlichen Stimmritze simuliert werden. Insbesondere simuliert der ins Positive gehende Teil der verstümmelten Wellenform die öffnung der Stimmritze; der absteigende Teil der Welle simuliert das Schließen der Stimmritze und der gleichbleibende Teil simuliert die geschlossene Stimmritze. Die sich ergebende glottde Wellenform trägt in signifikanter Weise der Tatsache Rechnung, daß die menschliche Stimmritze schließt, kurz nachdem die maximale Erregung auftritt; hierdurch ist oine freie Resonanz der Vokaitöne möglich. Da die verstümmelte glottale Wellenform eine maximale Erregung liefert, wenn das Signal seine Richtung an der positiven Spitze umkehrt, int zu erkennen, daß die Wellenform die "Ruhe" der menschlichen CI lot ta !wirkung simuliert, indem eine inaktive Periode (entsprechend dor geschlossenen Stimm-

809808/0752 ~ ^5o "

- 5ο -

2 7 3 6 U ο ζ

ritze) kurz nach denjenigen Teil des Signals eingefügt wird, indem die maximale Erregung auftritt.

Die hier beschriebene neuartige glottale Wellenform int außerdem insofern von Bedeutung, als sie auch zusammen mit dem nachfolgend beschriebenen glottalen Unterdrückungskreis verwendet wird, wodurch eine glottale Unterdrückung vokaler Resonanzen erzeugt wird, wie sie ähnlich in der menschlichen Stimme von Natur aus auftritt.

Es ist bekannt, daß die Frequenz, bei der die menschliche Stimmritze schwingt, nicht konstant bleibt. Die Variationen in der Fundamental frequenz oder die "Tonhöhe" der menschlichen Stimme kann in zwei Grundkategorien eingeteilt werden: freiwillig und unfreiwillig. Freiwillige Veränderungen in der Tonhöhe sind diejenigen Verschiebungen und Muster, die ein Individuum einer Botschaft mitgibt, um die Bedeutung eines bestimmten Wortes anzudeuten oder eine bestimmte Emotion mitzuteilen. Unfreiwillige Veränderungen andererseits werden durch Veränderungen des subglottalen Druckes und der Muskulatur hervorgerufen, die von Natur aus auftreten, wenn Vokale und Konsonante gesprochen werden. Beachte z.B. die unfreiwillige "Veränderung" in der Fundamentalfrequenz der Stimme bei den englischen Worten "beat" und "bat". Die Fundamental frequenz verringert sich unvermeidlich im Wort "bat" und erhöht sich im Wort "beat". Dies beruht darauf, daß das Phonem "e" im Wort "beat" eine geringere Muskelanspannung bei der Artikulation benötigt als das Phonem "ae" im Wort "bat". Da die Benutzer von Synthesizern häufig die Inflek-

809808/0752

tions-Kommandobits nicht verwenden, ist die Sprache, die ohne Einschluß von Information über mindestens die unfreiwillige Inflektion erzeugt wird, sehr unnatürlich. Wenn der Synthesizer primär als Konverter von gedrucktem Text ins Hörbare verwendet wird, wird die optimale Verwendung der Inflektionskommandobits außerordentlich schwierig. Wenn weiter bei der Bauweise des Synthesizers eine Zuordnung der unfreiwilligen Inflektion enthalten ist, wird die normale Inflektionsprogrammierung vereinfacht, da sie sich hauptsächlich den freiwilligen Fundamental frequenz-Veränderungen widmen kann.

Bei dem vorliegenden Gerät erfolgt eine Inflektionszuordnung in der Bauweise dadurch, daß die Eingangssignale am Integrator 82 je nach bestimmten, erkanten Inflektionsmustern verändert v/erden, die mit der Erzeugung verschiedener Gruppen von Phonemen verbunden sind. In Fig. 3a ist die Beziehung zwischen der Fundamentalfrequenz und dem Ort des ersten resonanten Formanten bei der Erzeugung von Vokalphonemen dargestellt. Aus der Betrachtung dieser Darstellung folgt, daß die Fundamentalfrequenz umgekehrt mit Veränderungen in der Position des ersten Formanten über das Spektrum der angegebenen Vokal-Phoneme variiert. Diese Beziehung wird hier dadurch verwendet, daß der Ausgang des Ubergangsfilters Fl über einen Widerstand RIl mit dem positiven Eingang des Integrators 8 2 verbunden wird. Damit ist zu erkennen, daß die Differenz zwischen den Spannungswerten am positiven und negativen Eingang des Integrators 82 kleiner wird, wenn das Signal vom Ubergangsfliter Fl wächst. Dies wiederum verringert die negative Steigung der Säge-

- 52 -

809808/0752

-52- 2736U82

zahnform am Ausgang des Integrators 82, die von der Spannung am Kondensator Cl bestimmt wird. Die Verringerung der Steigung des ins Negative gehenden Teiles der Sägezahnform verlängert die Wellenform, was natürlich die Frequenz des Signales herabsetzt. Auf diese Weise wird die Fundamentalfrequenz der glottalen Wellenform automatisch umgekehrt mit den Veränderungen im Kontrollsignal Fl variiert, welches die Position des ersten Formanten kontrolliert.

In Fig. 3b ist die Position der mittleren Fundamentalfrequenz in der Umgebung verschiedener Konsonanten dargestellt. Wie aus der Figur zu erkennen ist, ist die mittlere Fundamentalfrequenz bei Vorliegen nasaler Phoneme, z.B. ^Mn", "m" oder "ng" typischerweise niedriger. Diese charakteristische Inflektionsvariation wird dadurch berücksichtigt, daß der Ausgang des nasalen Ubergangsfilters über einen Widerstand Rio mit dem positiven Eingang des Integrators 8 2 verbunden wird. Auf diese Weise wird die Fundamentalfrequenz der glottalen Wellenform, die am Ausgang des Integrators 82 erzeugt wird, verringert, wenn ein nasales Kontrollsignal vorliegt. Im einzelnen bewirkt das höhere Potential am positiven Eingang des Integrators 8 2 , daß auf dem Vorliegen eines Signals aus dem nasalen Ubergangsfilter beruht, eine Verringerung der Neigung des ins Negative gehenden Teils der Sägezahnform auf dieselbe Weise, wie dies zuvor anhand der Inflektions-Modifikation, die

j vom Kontrollsignal Fl erzeugt wird, beschrieben wurde . Die Fun-

damentalfrequenz der glottalen Wellenform verringert sich somit, wenn nasale Phoneme erzeugt werden.

- 53 -

809808/0752

Aus Fig. 3b ist ferner zu entnehmen, daß bei Vorliegen von Reiblautphonemen, z.B. "f", "h", "s", oder "sch", die Fundamentalfrequenz der glottalen Wellenform eher ansteigt. Um dieser Inflektionseigenschaft Rechnung zu tragen, ist der Ausgang des Reiblautamplituden-Obergangsfilters über einen Widerstand R9 mit dem negativen Eingang des Integrators 82 verbunden. Da ein Kontrollsignal für die Reiblautamplitude immer dann vorliegt, wenn ein Reiblautphonem erzeugt wird, wächst das Potential am negativen Eingang des Integrators 82 bei Vorliegen eines Reiblautphonems. Indem das relative Potential am negativen Eingang des Integrators 82 erhöht wird, wird die Zeitkonstante des Kreises verringert; dadurch wird die Neigung des ins Negative gehenden Teils der Sägezahnform vergrößert. Dies wiederum erhöht die Fundamentalfrequenz des Ausgangssignales. Die Fundamentalfrequenz der glottalen Wellenform wird also während der Erzeugung von Reiblautphonemen vergrößert.

Schließlich ist aus Flg. 3b zu erkennen, daß bei Vorliegen von Phonemen wie "b", "d" oder "g" die mittlere Fundamentalfrequenz abnimmt. Um dieser Inflektionseigenschaft Rechnung zu tragen, muß eine Kombination von Kontrollsignalen ausgewählt werden, welche eindeutig das Vorliegen dieser Phoneme identifiziert. Die Phoneme "b", "d" und "g" sind "Explosions"-Phoneme, bei denen die Erzeugung eines SchlußkontrolIsiqnales erforderlich ist. Ein Schlußkontrollsignal wird jedoch auch für die "Explosions"-Phoneme "p", "t" und "k" erzeugt. Wie die Fig. 3b darstellt, ist die mLttlore Fun- «lameutalfroc[iien-2 für die Phoneme "p", "t" und "k" wesentlich größor uln elin mittlere Fundamental frequenz für die Phonon»! "b", "d"

809808/0752 "" ⁵¹ "

und "g". Um daher zwischen diesen beiden Gruppen von Phonemen zu unterscheiden, muß ein weiteres Kontrollsignal zugefügt werden. Im einzelnen sind die Phoneme "b", "d" und "g" stimmhafte Stops, wogegen die Phoneme "p", "t" und "k" stimmlose Stops sind. In-dem also das Ausgangssignal des Ubergangsfilters für die Vokalamplitude genommen und eine logische "UND"-Funktion mit dem Ausgang des Übergangsfilters für Schluß gebildet wird, kann das Vorliegen der Phoneme "b", "d" und "g" in eindeutiger Weise bestimmt werden. Diese Inflektionsmodifikation wird dadurch verwirklicht, daß der Ausgang des Ubergangsfilters für die Vokalamplitude durch zwei in Serie geschaltete Widerstände R12 und Rl3 mit dem positiven Anschluß des Integrators 82 verbunden wird, und indem der Ausgang des Ubergangsfilters für Schluß über eine Diode D2 zum Mittelpunkt der Widerstände R12 und Rl3 geführt wird. Bei einem Widerstandswert von R13, der wesentlich größer ist als derjenige von R12 funktioniert diese Schaltungsanordnung im Ergebnis als logisches UND-Tor. Das Potential am positiven Eingang des Integrators 82 wird nur dann verringert, wenn ein Ausgangssignal sowohl vom Übergangsfilter für die Vokalamplitude als auch vom Ubergangsfilter für Schluß erzeugt wird. Wenn also beide Kontrollsignale vorliegen, wird die Fundamentalfrequenz der glottalen Wellenform verringert.

Da die Parameter für die Inflektionsmodifikation an den Ausgängen der übergangsfiltcr abgenommen werden, treten die Veränderungen im Infiektionsnlvoau des Audioausganqssiqnals allmählich auf, wie hei der natürlichen menschlichen Sprache. Es versteht rs ich, d.iß die oben boschri ebone, automatische Inf lok ticmssteuorumf zusatz-

eü9808/0752

lieh zur programmierten Inflektionsveränderung erfolgt und weniger dramatisch als letztere ist. Wenn jedoch das System hauptsächlich als Wandler zwischen gedrucktem Text und Ton verwendet werden soll, können die automatischen Inflektionsvariationen ausgeprägter gemacht werden, indem einfach die Widerstandswerte des Kreises verändert werden.

Wie zuvor bei der Beschreibung des Blockdiagramms von Fig. 1 erwähnt wurde, enthält das System einen hochpoligen Kompensationskreis, der die spektrale Energie der glottalen Wellenform bei hohen Frequenzen erhöht. Die Bezeichnung "hochpolig" bezieht sich auf die Formanten, die hoch im Frequenzspektrum des Hörbereiches liegen. Wenn sie auch innerhalb des Hörbereichs liegen, so tragen die hochpoligen Formanten anerkannterweise nicht zur Verständlichkeit des Audioausgangs bei. Es hat sich jedoch herausgestellt, daß ihr Vorliegen die relative spektrale Energie beeinflußt, die bei den niedrigeren, zur Verständlichkeit der Sprache beitragenden Formanten verfügbar ist. Demzufolge wird bei dem hier beschriebenen System ein hochpoliger Kompensationskreis verwendet, der einen Formanten hoher Frequenz der glottalen Wellenform bei ungefähr 4ooo Hz hinzufügt. Dies geschieht, indem die verstümmelte glottale Wellenform, die am Ausgang des Verstärkers 86 erzeugt

wird, einem hochbedärapften, bi-quad-Resonator 96 zugeführt wird. Der bi-quad-Resonator 96 ist ein Festpolfilter, der praktisch identisch mit den Resonanzfiltern ist, die im Vokaltrakt verwendet | werden und genauer in Fig. 5 gezeigt sind. Ein Unterschied besteht darin, daß das Ausgangssignal des bi-quad-Resonators 96 vom

809808/0752 "⁵⁶ "

Bandpass-ΛusgangsanSchluß anstelle des Lowpass-Ausgangs, wie im Vokaltrakt, abgenommen wird. Das Ausgangssignal des bi-quad-Resonators 96 wird zu einem Summierpunkt 94 über einen Summierwiderstand R21 geführt. Auch die verstümmelte glottale Wellenform wird über einen Summierwiderstand R2o zum Summierpunkt 94 geführt. Damit enthält das am Summierpunkt auftretende Signal die verstümmelte glottale Wellenform unter Zugabe eines Formanten bei ungefähr 4ooo Hz. Dies erhöht im Ergebnis die spektrale Energie der Wellenform bei hohen Frequenzen.

Die Position des Formanten, der zur glottalen Wellenform zugegeben wird, liegt niedriger in der Frequenz als der höchste resonante Formant im Vokaltrakt. Diese Beziehung hat sich bei der Verbesserung der Qualität der erzeugten Sprache als besonders wichtig herausgestellt. Diese führt zu besseren Ergebnissen als dann, wenn der zur glottalen Wellenform zugegebene Formant der höchste Formant im Sprachsystem ist.

In Fig. 4 ist der Effekt des bi-quad-Resonators 96 auf die spektrale Energie der glottalen Wellenform graphisch dargestellt.Die mit "I" gekennzeichnete Kurve zeigt die spektrale Energie der glottalen Wellenform ohne den bi-quad-Resonator; die mit "II" gekennzeichnete Kurve stellt die spektrale Energie der glottalen Wellenform nach Zufügen des bi-quad-Resonators dar. Aus dem Diagramm ist zu erkennen, daß die spektrale Energie der glottalen Wellenform ohne hochpolige Kompensation bei höheren Frequenzen beträchtlich abnimmt. Bei Zugabe der hochpoligen Kompensation

809808/0752

wird die spektrale Energie der glottalen Wellenform jenseits von 4 kHz, was der Resonanzfrequenz des bi-quad-Resonators entspricht, auf hohem Niveau gehalten.

Die hochpolige Kompensation ist besonders wichtig bei solchen Sprachsynthesizern, wie sie in Fig. 1 beschrieben sind und bei denen der Vokaltrakt in Kaskaden- oder Serienschaltung liegende Resonanzfilter verwendet. Dies beruht auf den inherenten Energieverlusten, die im Erregungssignal eintreten, während es durch die niederfrequenten Resonatoren im Vokaltrakt geführt wird,

Zurück zu Fig. 2. Bevor das vokale Erregungssignal an die Vokal-Erregungssteuerung gelegt wird, wird es durch ein Hochpassfilter 98 geleitet. Dieses filtert Frequenzen unterhalb von ca. 15o Hz weg. Der Zweck des Hochpassfilters 98 besteht darin, die Energie am unteren Frequenzende des Spektrums von der glottalen Wellenform abzuschneiden. Dies beseitigt im Ergebnis die "Basslastigkeit" des Signals und läßt die "schärferen", hochfrequenten Teile der glottalen Wellenform intakt; dadurch wird die Verständlichkeit der Sprache verbessert.

Wie aus der Erörterung der Fig. 1 erinnerlich sein wird, enthält das System einen glottalen Unterdrückungskreis. Dieser simuliert die reduzierte Impedanz, die sich im menschlichen Vokaltrakt widerspiegelt, wenn die Stimmritze offen ist. Der Zweck des glottalen Unterdrückungskreises kann genauer folgendermaßen beschrieben werden. Der menschliche Vokaltrakt ist am einen Ende, dem Mund, ge-

809808/0752 "⁵⁸ "

öffnet, jedoch nur während eines Teils der Zeit am anderen Ende, der Stimmritze, geschlossen. Wenn die Stimmritze offen ist, führt dies dazu, daß die Impedanz im Vokaltrakt reduziert wird. Dies wiederum resultiert in einer Dämpfung der Formant-Resonanzen. Diese Eigenschaft des menschlichen Vokaltrakts soll vom glottalen Unterdrückungskreis simuliert werden. Das vokale Erregungssignal vom Verstärker 86, vgl. Fig. 2, wird durch ein Analogtor 88 und einen Spannungsteiler aus den Widerständen R18 und Rl9 an den positiven Eingang eines Komparatorverstärkers 92 gelegt. Der negative Eingang des Komparatorverstärkers 92 ist mit dem 2o kHz-Dreiecks-Taktsignal verbunden. Der Komparatorverstärker 92 liefert immer dann ein Signal an seinem Ausgang, wenn die Größe des am positiven Eingang liegenden Signals die Größe des am negativen Eingang liegenden Signals übersteigt. Der Komparatorverstärker 92 erzeugt somit ein Ausgangssignal mit 2o kHz und variabler Impulsbreite, dessen prozentuale Einschaltdauer direkt proportional dem Potential der glottalen Wellenform ist, die an seinem positiven Eingang liegt. Da die Frequenz des Taktsignales, welches am negativen Eingang des Komparatorverstärkers 9 2 liegt, größenordnungsmäßig 2oo mal größer als die Frequenz der glottalen Wellenform, die am positiven Eingang liegt, ist, erscheint das Ausgangssignal des Komparators 92 als rasche Folge von Spitzen, die zunehmend breiter werden, wenn die glottale Wellenform an Größe zunimmt. Wenn sich die glottale Wellenform ihrer maximalen Amplitude nähert, erscheint das Ausgangssignal des Komparatorverstärkers 92 im wesentlichen als Signal mit konstanter Höhe, unterbrochen durch eine rasche Folge von zunehmend schmaler werdenden, ins Negative gehen-

809808/0752 " ⁵⁹ "

den Spitzen. Während desjenigen Teiles der glottalen Wellenform, welcher die geschlossene Stimmritze darstellt, d.h., während der konstanten Abschnitte der Wellenform, erscheinen keine Impulse am Ausgang des Komparatorverstärkers 92.

Das Einschaltdauersignal für die glottale Unterdrückung, das am Ausgang des Komparators 92 erzeugt wird, wird an die Vokaltraktfiltereinheit 6o gelegt.

In Fig. 5 sind die bi-quad-Resonanzfilter F3 und F4 aus der Vokaltraktfiltereihheit genauer dargestellt. Wie aus der Fig. hervorgeht, wird das Einschaltdauersignal für die glottale Unterdrückung an den Steueranschluß eines Analogtors loo gelegt. Dieses liegt in Reihe mit einem Widerstand R22. Die Serienschaltung ist über den "Q"- bzw. Bandpasswiderstand R23 des bi-quad-Resonators F3 geschaltet. Wenn im Betrieb das Analogtor loo offen ist, d.h., wenn das Einschaltdauersignal für die glottale Unterdrückung gleich Null ist - erscheint der Widerstand R22 als unendlich groß und hat somit keinen Effekt auf das Q des Resonanzfilters F3. Wenn die Einschaltdauer des glottalen Unterdrückungssignales anwächst, beginnt das Analogtor loo zu leiten und verringert dabei den effektiven Wert des Widerstandes R 22. Dies verkleinert das Q

; des Resonators. Wenn das glottale Unterdrückungssignal sich der

^: maximalen Einschaltdauer nähert, erreicht der Widerstand R22 sei-

Jnen Nennwert und verringert dabei das Q des Resonanzfilters F3 ;

i auf seinen minimalen Wert. Der Effekt besteht also darin, daß ■

die Resonanz gedämpft wird, die auf der offenen Stimmritze beruht,j

809808/0752 "^6o "

wobei eine maximale Dämpfung auftritt, wenn die glottale Wellenform ihren positiven Spitzenwert erreicht, der einer maximal offenen Stimmritze entspricht.

Das Einschaltdauersignal für die glottale Unterdrückung wird außerdem zwei ähnlichen Analogtoren zugeführt, welche über die Bandpassabschnitte der bi-quad-Resonatoren Fl und F2 ebenso geschaltet sind, wie dies für den Resonator F3 beschrieben wurde. Das Q aller drei bi-quad-Resonatoren Fl, F2 und F3 wird also während der Glottalperiode in Übereinstimmung mit denjenigen Teilen der glottalen Wellenform variiert, welche das öffnen und Schließen der menschlichen Stimmritze simulieren.

Im Gegensatz zur vokalen Erregerquelle des vorliegenden Sprach-Synthesizers ist jedoch die Analogkomponente im menschlichen Sprachsystem, die Stimmritze, nicht loo % der Zeit aktiv. Insbesondere während der Erzeugung stimmloser Phoneme ist die Stimmritze überhaupt nicht aktiv. Es ist also zu erkennen, daß der Effekt der glottalen Unterdrückung nur während der Erzeugung

stimmhafter Phoneme vorliegen sollte. In Fig. 2 wird dies da-

! durch erzielt, daß das Ausgangssignal des Übergangsfilters für

j die Vokalamplitude dem positiven Eingang eines Komparatorverstärkers 9o zugeführt wird. Der negative Eingang des Komparatorverstärke rs 9o ist mit dem Mittelpunkt eines Spannungsteilers aus zwei Widerständen R16 und R17 verbunden, die in Reihe zwischen eine +8V-Spannungsquelle und Erde geschaltet sind. Der Ausgang des Komparatorverstärkers 9o ist mit dem Steueranschluß des Ana-

809808/0752 " ⁶¹ "

logtores 88 verbunden, welches als elektronischer Schalter funktioniert. Der Komparatorverstärker 9o liefert ein Steuersignal zum Analogtor 88 nur dann, wenn ein Signal vom Übergangsfilter für die Vokalamplitude anliegt. Da die Anwesenheit eines Kontrollsignals für die Vokalamplitude die Anwesenheit eines stimmhaften Phonems andeutet, ergibt sich, daß das Analogtor 88 leitet. Daher wird ein Einschaltdauersignal für die glottale Unterdrückung nur während der Erzeugung stimmhafter Phoneme gebildet. Während der Erzeugung stimmloser Phoneme ist demzufolge das Analogtor 88 nicht leitend, was die Bildung eines Einschaltdauersignals für die glottale Unterdrückung verhindert.

Zurück zu Fig. 5. Außer den Resonanzfiltern Fl, F2 und F3 ist auch das Resonanz filter F4 variabel, um die Natürlichkeit der erzeugten Stimme zu verbessern. Bekannte Stimmensynthesizer enthalten typischerweise vier oder fünf Resonanzfilter. Üblicherweise sind jedoch nur die ersten drei, Fl, F2 und F3, variabel. Es wurde zwar erkannt, daß eine Beweglichkeit des vierten Resonanzfilters wünschenswert ist; dies wird jedoch üblicherweise wegen der größeren Komplexität bei der Erzeugung zusätzlicher Daten oder Parameter nicht getan. Man hält es für ausreichend, nur die ersten drei Resonanzfilter variabel zu machen. Es hat sich jedoch herausgestellt, daß bis zu einem gewissen Grad die Bewegung des vierten Resonanzpoles der Bewegung des dritten Resonanzpoles folgt. Diese üezLehung benutzend wird hier dem vierten Resonanzfilter eine Beweglichkeit einfach dadurch gegeben, daß ein Analogtor Io6 und ein Widerstand Io8 dem bi-quad-Resonator F4 zugefügt werden und indem das Ein-

- 62 -

809808/0752

schaltdauersignal F3, welches die Position des Frequenzpoles im Resonanzfilter F3 regelt, an den Steueranschluß des Analogtores Io6 gelegt wird. Es läßt sich somit erkennen, daß das Resonanzfilter F4 variabel gemacht wird, ohne daß zusätzliche Daten oder Parameter erzeugt werden müssen. Dies geschieht einfach unter Verwendung desselben variablen Kontrollsignales, welches das Resonanzfilter F3 betreibt.

In Fig. 6 ist ein Schaltungsdiagramm der Kommando-, Dekoder- und Steuereinheit 5o gezeigt. Im Schaltungsdiagramm von Fig. 6 sind außerdem die Geschwindigkeitssteuerung, der Phonemratensummierer und die Modulationskreise für die Vokalamplitude und die Reiblautamplitude enthalten.

Wie aus der Erörterung der Fig. 1 erinnerlich ist, ist jedem Phonem eine bestimmte Zeitdauer zugeordnet, die vom Kontrollsignal für die Phonemzeit bestimmt wird. Dieses bestimmt die Normalzeit, während der das Phonem erzeugt wird. Wenn die Zeitdauer eines bestimmten Phonems durch ein Programm variiert werden soll, sieht das vorliegende System zwei Auswahlbits für die Rate vor, die dem Programmierer die Option für vier verschiedene Zeitdauern für jedes herausgegriffene Phonem einräumen. Wenn die Raten-Auswahlbits nicht verwendet werden, wird jedes Phonem mit seiner normalen Zeitdauer hergestellt. Wenn jedoch der Programmierer die Dauer eines bestimmten Phonems entweder erhöhen oder verringern will, wird die entsprechende Veränderung über die beiden ι Raten-Auswahlbits eingegeben. Außerdem kann bei Anwendungsfällen

809808/0752 "⁶³ "

zur Textaudioumwandlung dasselbe Phonem unter programmierter Steuerung stärker oder weniger betont werden, indem die Raten-Auswahl -bits verändert werden.

Eine programmierbare Geschwindigkeitskontrolle wird dadurch geschaffen, daß die beiden Ratenbits 2 und 2 ° an einem Summierpunkt 128 über zwei Gewichtungswiderstände R3o bzw. R31 zusammengeführt werden. Der Widerstand R3o wird so gewählt, daß er den doppelten Wert des Widerstands R31 besitzt. Dadurch wird das Bit 2 das weniger bedeutende Bit und das Bit 2 ° das stärker bedeutende Bit. Der Summierpunkt 128 ist außerdem über den Widerstand R28 mit einer -8 V-Sp annungs quelle verbunden. Das Ausgangssignal des Summierpunktes 128 ist mit dem negativen Eingang eines Summierverstärkers 13o verbunden. Der positive Eingang des Summierverstärkers 13o ist geerdet; sein Ausgang ist über einen Rückkopplungswider stand R32 zu seinem negativen Eingang zurückgeführt. Der Summierverstärker 13o wirkt im Ergebnis als Strom-Spannungswandler; er liefert ein analoges Ausgangssignal, dessen Größe proportional zur Stromgröße am Summierpunkt 128 ist. Wenn beide Raten-Auswahlbits auf eine logische O gestellt sind, bewirkt das j über den Widerstand R28 angelegte -8V-Vorspannungspotential einen minimalen Strom am Summierpunkt 128. Dies wiederum legt die mini-j male Spannung am Ausgang des Summierverstärkers 13o fest. Bei I

der bevorzugten Ausführungsform werden die Schaltungswerte so ge- ; wählt, daß diese Spannung ca. 2,3 V beträgt. Der Ausgang des Sum-j mierverstärkers 13o ist mit der Oberseite eines Ratenpotentiometeifs R33 verbunden, dessen anderes Ende geerdet ist. Der Abgriff des

809808/0752 "⁶⁴

2736Ü82

Potentiometers R33 ist mit dem positiven Eingang eines Komparatorverstärkers 132 und über einen Kondensator C2 mit Erde verbunden. Der negative Eingang des Komparatorverstärkers 132 ist mit dem 2o kHz-Dreiecks-Taktsignal verbunden. Der Komparatorverstärker erzeugt ein Ausgangssignal variabler Impulsbreite bei 2o kHz, dessen Einschaltdauer durch die Größe des am positiven Eingang liegenden Signals bestimmt. Das Potential des Signals, welches am positiven Eingang des Komparatorverstärkers 132 liegt, kann entweder von Hand durch Einstellen des Potentiometers R33 oder durch Veränderung des Stroms am Summierpunkt 128 variiert werden. Letzteres verändert die Spannung an der Oberseite des Ratenpotentiometers R33. Der logische Zustand der beiden Geschwindigkeits-Auswahlbits beeinflußt also die Stromgröße am Summierpunkt 128. Diese wiederum bestimmt die Einschaltdauer des Sprechraten-Signals, das am Ausgang des Komparatorverstärkers 132 erzeugt wird. Bei der bevorzugten Ausführungsform werden die Geschwindigkeits-Auswahlbits normalerweise auf eine logische "öl" gesetzt; hierdurch werden zwei Niveaus der "Vergrößerung" und ein einziges Niveau der "Verringerung" in der Einschaltdauer des Sprechraten-Signals möglich. Wie aus Fig. 1 erinnerlich ist, wird das Sprechraten-Einschaltdauersignal vom Koraparatorverstärker 132 zum Phonem-Zeitgeber geführt, wo es mit dem Kontrollsignal für die Phonemzeitgabe kombiniert wird. Hierdurch wird die Neigung der Zeitrampe bestimmt, die vom Phonem- ; zeitgeber erzeugt wird. Es ist somit zu erkennen, daß die beiden Geschwindigkeits-Auswahlbits eine Möglichkeit geben, die Zeitgabe der einzelnen Phoneme nach Programm zu variieren.

- 65 -

809808/0782

Der weiter vorhandene Kommando- Dekoder- und Kontrollkreis gibt dem System die Fähigkeit, nach Programm das Gesamtvolumen und die Sprechrate des Audioausgangssignals zu variieren. Die bevorzugte Ausführungsform dieses Kreises, die in Fig. 6 gezeigt ist, ist so gebaut, daß sie die invertierte Logik des Eingangskommandowortes empfängt. Es versteht sich somit, gewissermaßen als allgemekie Anmerkung bei der Beschreibung dieses Kreises, daß das Vorliegen eines Signals durch eine logische "O" und die Abwesenheit eines Signals durch eine logische "1" gekennzeichnet ist.

Wie das Schaltungsdiagramm von Fig. 6 darstellt, erhält der Kontrollkreis alle 12 Eingangsbits vom Eingangskommandowort. Dem Kontrollkreis ist ein besonderer "Name" aus sieben Bit zugeordnet, der auf den sieben Phonemauswahleingangsleitungen zum "Aufruf" des Kontrollkreises eingegeben wird. Die sieben Phonem-Auswahlblts werden einem logischen Kreis Ho zugeführt, der die auf den sieben Phonemauswahleingangsleitungen liegende Information dekodiert und feststellt, wann der Kontrollkreis aufgerufen wird. Bei der dargestellten bevorzugten Ausführungsform ist dem Kontrollkreis der Name ¹¹OOOOOOO" zugeordnet. Der logische Kreis Ho wirkt somit praktisch als ODER-Tor mit sieben Eingängen; er liefert nur dann ein Ausgangssignal LO, wenn alle sieben Phonemauswahlbits auf eine logische 0 gesetzt sind.

Wenn der Kontrollkreis aufgerufen wird, werden zwei der Inflektionsauswahlbits, 2 und 2 , als Amplitudenauswahlbits verwendet. Die beiden Geschwindigkeitsauswahlbits werden dazu verwendet, die

809808/0752 - ™ '

gesamte Sprechrate des Audioausgangs zu variieren. Außerdem wird

das dritte Inflektionsauswahlbit, 2 , als Bit für stumme Phoneme verwendet, dessen Funktion nachfolgend ausführlicher erläutert wird. Jedes der vier Amplituden- und Geschwindigkeitsbits ist mit einem von vier logischen NOR-Toren 112,114,116,118 verbunden. Wenn der logische Kreis Ho ein Ausgangssignal LO auf der Leitung 111 abgibt, somit andeutet, daß der Kontrollkreis aufgerufen ist, werden die NOR-Tore 112,114,116,118 in Funktion gesetzt. Mit anderen Worten: Wenn der Kontrollkreis aufgerufen wird, reflektieren die Ausgangssignale der NOR-Tore 112,114,116 und 118 die invertierten logischen Zustände der Amplituden- und Geschwindigkeitsauswahlbits. Die Ausgangssignale der vier NOR-Tore 112,114,116,118 werden jeweils dem Dateneingang (D) eines J-K-Flipflops 12o,122,124, bzw. 126 zugeführt.

Die Flipflops 12o,122,124,126 werden von dem Taktsignal getaktet, das auf der Leitung 135 vom Ausgang eines exklusiven NOR-Tores empfangen wird. Ein Eingang des exklusiven NOR-Tores 137 liegt auf Erde; der andere Eingang ist mit demAusgang des NOR-Tores 134 verbunden. Ein Eingang des NOR-Tores 134 ist mit dem Ausgang eines Zeitverzögerungsnetzwerkes 136 verbunden,das aus einem Widerstand R35 und einem Kondensator C4 besteht. An seinem anderen Eingang ist das NOR-Tor 134 mit dem Q-Ausgang des J-K-Flipflops 154 verbunden. Das Zeitverzögerungsnetzwerk 136 empfängt ein verzögertes Signal auf der Leitung 131 von einem anderen Zeitverzögerungsnetzwerk 138. Dieses besteht aus dem Widerstand R 34und dem Kondensator C3 und empfängt das echte Steuersignal vom Ausgang des

809808/0752 "⁶⁷ "

logischen Kreises llo auf der Leitung 111.

Für den Augenblick sei angenommen, daß der Q-Ausgang des Flipflops 154 auf eine logische O gesetzt ist. Wenn das Signal auf der Leitung 131 LO wird, wird das Ausgangssignal des NOR-Tores 134 HI. Dadurch wird auch der Ausgang des exklusiven NOR-Tores 137 HI , was die Flipflops 12o,122,124,126 taktet und die am Dateneingang der Flipflops liegenden Daten eingibt. Der Zeitverzögerungskreis 138 stellt sicher, daß die Daten von den Amplituden- und Geschwindigkeitsauswahlbits an den Eingängen der Flip-Flops 12o,122,124,126 vor dem Taktsignal auf der Leitung 135 ankommen. Wenn der Kontrollkreis also aufgerufen wird, werden die (invertierten) der Amplituden- und Geschwindigkeitsauswahlbits auf die Q-Ausgänge der vier J-K-Flipflops 12o,122,124,126 übertragen.

Die beiden Kontrollflipflops 124,126 für die Sprechrate sind mit ihrem Q-Ausgang über zwei Gewichtungswiderstände R27 bzw. R29 mit dem Summierpunkt 128 verbunden. Der logische Zustand der Q-Ausgänge der Flipflops 124,126 beeinflußt also die Stromgröße am Summierpunkt 128, der, wie zuvor erörtert, den Spannungswert an der Oberseite des Ratenpotentianeters R33 bestimmt.

Der Gewichtungswiderstand R27 wird vorzugsweise so gewählt, daß er einen Wert hat, der ca. halb so groß wie der Wert des Widerstands R29 ist. Der logische Zustand des Flipflops 124 hat einen größeren Einfluß auf die Stromgröße am Summierpunkt 128 als der logische Zustand des Flipflops 126. Das O-Dekodersignal auf der

— 6fl —

809808/0752

Leitung 139 ist mit dem Rückstellanschluß R des Flipflops 124 und mit dem Setzanschluß £) des Flipflops 126 verbunden. Die O-Dekoderleitung stellt die J-K-Flipflop auf ihren logischen Normalzustand vor. Der logische Zustand des Q-Ausgang des Flipflops 124 wird also normalerweise auf eine logische "O" und der logische Zustand des QAusgangs des Flipflops 126 normalerweise auf eine "1" gesetzt. Von der normalen Einstellung her sind also zwei Niveaus der "Vergrößerung" und ein einziges Niveau der "Verringerung" für die Gesamtsprechrate des Audioausgangssignales verfügbar.

Bei der bevorzugten Ausfuhrungsform ist weiter der Wert des Widerstands R29 (der größer als R27 ist) geringer als der Wert des Widerstands R31 (der halb so groß wie der Widerstand R3o ist). Auf diese Weise sind die Gesamtveränderungen in der Sprechrate des Audio-Ausgangssignals, die durch Variationen in dem logischen Zustand der Flipflops 124 und 126 beim Aufruf des Kontrollkreises erzeugt werden, stärker ausgeprägt, als die Fluktuationen in den relativen Zeitdauern der einzelnen Phoneme, die durch Veränderungen

9 in den logischen Zuständen der Geschwindigkeitsauswahlbits 2

und 2 °, die über die Widerstände R3o und R31 zugeführt werden, erzeugt werden.

Da der logische Zustand der Flipflops 124 und 126 gleichbleibt, bis sie an ihrem Takteingang (CL) einen neuen Taktimpuls empfangen,:

/ I

bleibt eine programmierte Veränderung in der Gesamtsprechrate des \ Systems nach der Dauer des Kontrollphonems erhalten. Veränderungen in dem logischen Zustand der Flipflops 124,126 bleiben nämlich, un

- 69 -

809808/0752

geachtet nachfolgender Einstellungen der beiden Geschwindigkeitsauswahlbits, fixiert, bis das Kontrollphonemkoiranando wieder auftritt. Die Zeitgabe der einzelnen Phoneme kann somit über die Geschwindigkeitsauswahlbits nach Programm eingestellt werden oder es kann die Gesamtsprechrate des Audioausgangssignals über das Kontrollkommando und den Kontrollkreis in Kombination mit den beiden Geschwindigkeits-Auswahlbits nach Programm verändert werden.

Im Amplitudenkontrollabschnitt des in Fig. 6 dargestellten Schaltkreises sind die Q-Ausgänge der Flipflops 12o und 122 für die Volumenkontrolle über zwei Gewichtungswiderstände R24 bzw. R25 mit einem Summierpunkt 14o verbunden. Der Summierpunkt 14o ist außerdem über den Widerstand R26 an eine +5V-Vorspannung gelegt. Die logischen Zustände der Flipflops 12o,122 kontrollieren also zusammen mit dem Anteil der +5V-Vorspannung den Stromwert am Summierpunkt 14o. Das +SV-Vorspannungspotential, welches über den Widerstand R26 anliegt, bestimmt den minimalen Strom am Summlerpunkt 14o, wenn die Q-Ausgänge der Flipflops 12o,122 beide auf eine logische "0" gesetzt sind. Das Ausgangssignal des Summierpunktes 14o wird zwei Analogtoren 14 2,144 zugeführt. Die Steueranschlüsse der Analogtore 14 2,144 sind so geschaltet, daß sie die Kontrollsignale für die Reiblautamplitude bzw. die Vokal amplitude vom ROM 14 empfangen. Die anderen Seiten der Analogtore 14 2 und 144 sind jeweils mit dem positiven Eingang eines Operationsverstärkers 15o bzw. 152 über zwei weitere Analogtore 146 bzw. 148 verbunden, deren Funktion später erläutert wird.

- 7o -

809808/0752

Die Verstärker 15ο,152 sind als Spannungsfolger geschaltet, wobei ihre positiven Eingänge über die Widerstände R36 bzw. R37 geerdet und ihre Ausgänge zu den negativen Eingängen zurückgeführt sind. Auf diese Weise bilden die Verstärker 15o und 152 einen Treiber mit geringer Impedanz für die Schlußverzögerungs- und VokalverzÖ-gerungs-Kreise, an welche die Ausgangssignale der Verstärker 15o bzw. 152 angelegt sind.

Die Größe der Kontrollsignale für die Reiblautamplitude und die Vokalamplitude wird auf folgende Weise moduliert. Dabei wird zusätzlich auf Fig. 7 bezug genommen. Der Summierpunkt 14o liefert ein Signal mit konstantem Potential zu den Analogtoren 142,144, dessen Größe, z.B. 3 V, vom logischen Zustand der Flipflops 12o, 122 bestimmt wird. Wenn die Analogtore 142 und 144 dauernd von den Kontrollsignalen für die Reiblautamplitude und die Vokalamplitude durchgesteuert würden, würden die Analogtore 14 2,144 sich wie einfache Leiter darstellen. In diesem Fall würde das konstante Potential vom Summierpunkt 14o einfach auf die positiven Eingänge der Verstärker 15o,152 unverändert übertragen. Wie jedoch erinnerlich ist, enthalten die Kontrollsignale für die Reiblautamplitude und die Vokalamplitude vom ROM 14 zeitgewichtete Rechtecksignale mit variabler Impulsbreite, deren Größe zwischen 0 und 5 V variiert. Wenn also die Amplituden-Kontrollsignale vom ROM 14 "HI" sind, führen die Analogtore 14 2 und 144 das Signal vom Summierpunkt 14o. Wenn umgekehrt die Amplitudenkontrollsignale vom ROM 14 "LO" sind, wirken die Analogtore 14 2 und 144 als offene Schalter und !verhindern die übertragung des Signals vom Summierpunkt 14o.

809808/0752

Wie in Fig. 7 gezeigt, umfassen somit die Ausgangssignale der Analogtore 14 2,144 Rechtecksignale mit variabler Impulsbreite, deren Einschaltdauer das äquivalent zur Einschaltdauer der Kontrollsignale für die Reiblaut-Amplitude und die Vokalamplitude ist, deren Spannungs-"Swing" jedoch auf die Größe des Signals vom Summierpunkt 14o beschränkt ist. Mit anderen Worten, die von den Analogtoren 14 2 und 144 erzeugten Ausgangssignale entsprechen den Kontrollsignalen für die Reiblautamplitude bzw. die Vokalamplitude mit der Ausnahme, daß die Amplitude der Signale so moduliert ist, daß sie dem Spannungspotential am Summierpunkt 14o entspricht. Da somit der Wert der Amplitudenkontrollsignale durch ihre durchschnittliche Amplitude innerhalb einer Zeitdauer von 15 Taktimpulsen bestimmt wird, wird das Volumen des Audioausgangssignales entsprechend verändert. Da weiter die logischen Zustände der Flipflops 12o und 122 konstant bleiben, bis ein weiteres Kontrolltaktsignal über die Leitung 135 empfangen wird, dauert die Gesamtveränderung im Volumen des Audioausgangssignales an, bis ein darauffolgendes Kontrollkommando auftritt, unabhängig von Veränderungen in den beiden Inflektionsauswahlbits 2 und 2 .

Die Nulldekoderleitung 139, welche die normale Amplitudeneinstellung bewirkt, ist mit dem Rückstelleingang des Flipflops 12o und dem Setzeingang des Flipflops 122 verbunden. Da das Flipflop 12o das weniger bedeutende Bit und das Flipflop 122 das bedeutendere Bit liefert, erlaubt die normale Amplitudeneinstellung vorzugsweise zwei Niveaus der Verringerung und ein einziges Niveau der

Vergrößerung.

- 72 -

809808/0752

2736Ü82

Wie zuvor erwähnt, gibt die Kommando-, Dekoder- und Kontrolleinheit dem System auch die Fähigkeit, ein artikuliertes, stummes Phonem in das Sprachmuster einzufügen. Hierzu sei die Schaltungsanordnung von Fig. 6 betrachtet. Das Ausgangssignal des logischen Kreises Ho wird zusätzlich an einen Eingang eines NOR-Tores 156 mit dua-

lern Eingang gelegt. Das stumme Phonembit 2 ist mit dem anderen Eingang des NOR-Tores 156 verbunden; das Ausgangssignal des NOR-Tores 156 ist an den Dateneingang des J-K-Flipflops 154 gelegt. Es ist also zu erkennen, daß beim Aufruf des Kontrollkreises, wie er durch das Ausgangssignal LO des logischen Kreises Ho zum Aus-

druck kommt, und wenn das stumme Phonembit 2 auf eine logische O gesetzt wird, das Ausgangssignal des NOR-Tores 156 III wird. Der Q-Ausgang des Flipflop 154 ist mit den Steueranschlüssen der Analogtore 146 und 148 verbunden. Da die 0-Dekoderleitung 139 mit dem Rückstellanschluß des Flipflop 154 verbunden ist, liegt der Q-Ausgang des Flipflop 154 normalerweise HI. Deshalb leiten normalerweise die Analogtore 146 und 148. In Abwesenheit eines stummen Phonems werden somit die Kontrollsignale für die Reiblaut-Amplitude und die Vokal-Amplitude von den Analogtoren 146 bzw. 148 geführt. Bei Vorliegen eines stummen Phonems jedoch wird ein Signal HI an den Dateneingang des Flipflop 154 gelegt; hier- !durch wechselt der logiahe Zustand des Q auf LO, wenn ein entsprechendes Taktsignal für stummes Phonem auf der Leitung 158 an

I i

!den Takteingang des Flipflop 154 gelangt. In diesem Fall werden

i !

die Analogtore 146 und 148 nicht leitend und verhindern somit j die übertragung der Kontrollsignale sowohl für die Reiblautamplitude als auch die Vokalamplitude. In Abwesenheit der beiden Ampli-

809808/0752 - 73 -

tuden-Kontrollsignale werden weder stimmhafte noch stimmlose Erregersignale in den Vokaltrakt gegeben.

Obwohl zwar die Dauer des Kommandophonems außerordentlich kurz ist, ist, wie hiernach ausführlicher erläutert wird, die Dauer des stummen Phonems der Zeitdauer eines normalen stimmhaften Phonems äquivalent. Das Artikulationsmuster jeden Phonems kann demzufolge während der Zeitdauer des stummen Phonems, dem Kontrollkonunando folgend, erzeugt werden. Der Hauptvorteil dieses Merkmals besteht darin:

Theoretisch sollte zwar jeder gewünschte Sprachklang durch die entsprechende Phonemkombination erzeugt werden können. In Wirklichkeit gibt es jedoch bestimmte Sprachklänge, die einfach nicht unter Verwendung von Phonemen allein genau wiedergegeben werden können. Beispielsweise Worte mit Vokalanfangen, sowie Worte, die mit den Buchstaben "1" oder "w" beginnen, sind Worte, bei denen die Artikulationsmuster gebildet werden, bevor die tatsächliche Aussprache des Wortes anfängt. Beachte insbesondere, wie sich der Mund zur Aussprache der englischen Worte "oak", "ear", "like", "walk" vorbereitet, bevor die Worte tatsächlich gesprochen werden. Ohne diese Vorbereitung beginnen diese Worte zu abrupt und klingen unnatürlich, als ob das erste Phonem jeden Wortes teilweise fallengelassen worden wäre.

Das Merkmal des stummen Phonems kann zur Simulation dieser Artikulationseigenschaft der menschlichen Sprache verwendet werden;

809808/0752 - 74 -

es bildet die Möglichkeit, daß das Artikulationsmuster eines bestimmten Phonems eingestellt wird, bevor das Phonem tatsächlich erzeugt wird. Wenn z.B. ein Wort, das mit dem Buchstaben "w" beginnt, erzeugt werden soll, ruft die bevorzugte Folge von Eingangskommandoworten ein stummes Kontrollphonem,gefolgt von zwei Phonemen "w" auf. Obwohl also das erste Phonem "w", welches dem Kontrollkommando folgt, nicht vokalisiert wird, wird auf diese Weise das Artikulationsmuster des Phonems "w" während der Zeitdauer des stummen Phonems dennoch gebildet. Demzufolge ist bei im voraus eingestelltem Artikulationsmuster, wie bei der menschlichen Sprache, die Vokalisation des zweiten Phonems "w" ausgeprägt glatter und natürlicher klingend.

Das Merkmal des stummen Phonems kann außerdem dazu verwendet werden, die Spracherkennung bestimmter Laute am Ende von Worten zu verbessern. Insbesondere Worte, deren Ende "abzufallen" neigen, z.B. diejenigen, die mit nasalen Phonemen enden, klingen, als ob ein zusätzliches Phonem da wäre, wenn das Artikulationsmuster des letzten Phonems abrupt beendet wird. Wenn z.B. das Phonem "n" im englischen Wort "sun" abrupt beendet wird, klingt das Wort eher wie "suna". Dies beruht hauptsächlich darauf, daß die Restenergie im Vokaltrakt als etwas anderes als ein "n" nach der Zeitdauer des Phonems "n" vokalisiert wird.

Um zu verhindern, daß dies auftritt, kann das stumme Kontrollkommando zusammen mit einem weiteren Pho.iem "n" verwendet werden, wodurch (ein "stummes n" an das Ende des Wortes gefügt wird. Auf diese Wei-

803808/0752 ~ ⁷⁵ ~

se wird das Artikulationsmuster des Phonems "n" aufrecht erhalten, wodurch der nasale Klang "n" natürlicher verblaßt.

Wie zuvor schon angedeutet, ist die relative Zeitgabe der verschiedenen Takt- und Datensignale im Kontrollkreis für seine richtige Wirkungsweise von Bedeutung und wird deshalb ausführlich beschrieben. Hierzu wird zusätzlich auf die Fig. 8 bezug genommen. Das hier gezeigte Signaldiagramm zeigt die Zustände verschiedener Signale an bestimmten Punkten des Kommandokreises. Zu Beginn ist folgendes anzumerken: wenn das Kommandophonem aufgerufen wird, um die Gesamtsprechgeschwindigkeit und/oder das Gesamtvolumen des Audioausgangssignales zu verändern, sollte rasch zum nächsten Phonem fortgeschritten werden, ohne daß dem Kontrollkommando eine vollständige Phonemzeitdauer gewidmet wird. Der Kontrollkreis benötigt nämlich nicht die verhältnismäßig lange Zeit, die zur Erzeugung eines typischen Phonems vorgesehen ist, um die eingegebenen Veränderungen auszuführen. Um somit das Auftreten einer Pause im Sprachmuster zu vermeiden, wenn die Gesamtgeschwindigkeit und/oder Idas Gesamtvolumen des Audioausgangssignals verändert wird, kann der Kontrollkreis ein zusätzliches Phonemtaktsignal in rascher !Folge auf das Taktsignal erzeugen, welches das Kommandophonem ab- : Ige rufen hat. :

i ;

i I

JIn Fig. 6 wird das Phonem-Taktsignal, welches die Zeitgabe der Ein4 angskommandoworte (PCI) steuert, an zwei exklusive ODER-Tore 164, 66 gelegt. Der andere Eingang des exklusiven ODER-Tores 166 ist It dem Ausgang der Zeitverzögerung 138 verbunden, die auf der

809808/0762 " ^?6 "

Leitung 131 ein verzögertes Kontrolisignal (FD) liefert. Der andere Eingang des exklusiven ODER-Tores 164 ist ebenfalls mit dem Ausgang der Zeitverzögerung 138 über einen Inverter 168 und ein weiteres Zeitverzögerungsnetzwerk 16o verbunden. Das am Ausgang des zweiten Zeitverzögerungsnetzwerkes 16o liegende Signal wird durch die Notation (FDD) gekennzeichnet.

Die Ausgangssignale der exklusiven ODER-Tore 164,166 werden an ein anderes exklusives ODER-Tor 17o gelegt. Dessen Ausgang ist mit einem Eingang eines NOR-Tores 17 2 mit dualem Eingang verbunden. Der andere Eingang des NOR-Tores 17 2 ist mit dem Ausgang des Zeitverzögerungsnetzwerkes 138 verbunden. Das Ausgangssignal des NOR-Tores 172 wird an ein weiteres NOR-Tor 174 mit dualem Eingang gelegt. Dessen anderer Eingang ist über einen Inverter (176) mit der PCI-Leitung verbunden. Zu Zwecken der Erläuterung kann man das Ausgangssignal des NOR-Tores 174 als äquivalent zum Phonem-Taktsignal (PCO) betrachten.

Es sei nun angenommen, daß kein Kontrollphonemkommando vorliegt,

wie dies durch das Aus gangs signal (F) HI am logischen Kreis Ho

jangedeutet wird. Es ist zu erkennen, daß das Phonemtaktsignal durch den Zeitgabekreis nicht verändert wird. Mit anderen Worten: das Phonemtakt-Aus-Signal (PCO) ist dem Phonemtakt-Ein-Signal (PCI äquivalent. Unter diesen Bedingungen findet ein normales Takten j der Eingangskommando-worte statt.

Bei Vorliegen eines Kontrollphonems wird jedoch das Ausgangssignal

809808/0752 "⁷⁷ "

des logischen Kreises Ho LO. Wenn dies auftritt, fügt der Zeitgabekreis einen zweiten Phonemtaktimpuls in das Phonemtaktsignal.

Dies geschieht (vgl. das Signaldiagramm in Fig. 8) in folgender Weise. Da hier eine invertierte Logik behandelt wird, erscheint der Phonemtaktimpuls auf der PCI-Leitung als negativer Impuls mit ca. 18o yusec. Dauer. Die ins Positive gehende Flanke des Taktimpulses, im Zeitdiagramm zur Zeit ti angedeutet, entspricht dem Zeitpunkt, an dem das Kommandophonem ursprünglich aufgerufen wird. Nach einer Verzögerung von ca. Ho ,usec. spricht der logische Kreis Ho zur Zeit t2 auf das Phonemkommando an, indem er an seinem Ausgang (F) ein Signal LO abgibt. Diese Verzögerung um Ho/Use beruht hauptsächlich auf der inhärenten Verzögerung in der Schalttafel oder einem anderen, ähnlichen Gerät, welches die digitalen Eingangskommandoworte abgibt. Ungefähr lo,usec. nach der Zeit t2, was der von dem Zeitverzögerungsnetzwerk 138 bewirkten Verzögerung entspricht, wird das verzögerte Kommandosignal (FD) am Ausgang des Netzwerkes 138 LO. Dadurch wird auch das Phonem-Takt-Aus-Signal (PCO) LO, wie dies zur Zeit t3 angedeutet ist. Nach einer zusätzlichen Zeitdauer von ca. 22o «usec. , was der vom Zeitverzögerungsnetzwerk 16o bewirkten Verzögerung entspricht, wird das zweifach verzögerte und invertierte Kommandosignal (FDD) am Ausgang des Netzwerkes 16o LO. Dadurch wird das Phonem-Takt-Aus-Signal (PCO) wiederum HI. Es ist also zu erkennen, daß eine zusätzliche ins Positive gehende Flanke zur Zeit t6 zum Phonom-Tnktsignal hinzugefügt wird, welche im Effekt das nächste Phonem-Korrmandowort ca. 34oyUsec. abruft, nachdem das Kontrollphonemkommando aufgerufen wurde. - 78 -

809808/0752

Um jedoch sicherzustellen, daß die programmierten Veränderungen in der Gesamtgeschwindigkeit und/oder in dem Gesamtvolumen des Audioausgangssignales ausgeführt werden, ist es wichtig, daß das Kontro11taktsignal (FCL) auf der Leitung 135 vor der Zeit t6 erzeugt wird. Mit anderen Worten, die vier Flipflops 12o,122,124,126 für die Geschwindigkeit und das Volumen müssen wärend der Zeitverzögerung von 22OyUSeC., die vom Zeitverzögerungsnetzwerk erzeugt wird, getaktet werden.

Zurück zur Zeit t3. Das verzögerte Kontrollsignal (FD) auf der Leitung 131 wird einem weiteren Zeitverzögerungsnetzwerk 136 zugeführt, welches das Kontrollsignal um ca. weitere 5o/Usec. verzögert. Wenn dieses zweifach verzögerte Kontrollsignal, durch die Notation (FD¹) bezeichnet, zur Zeit t5 LO wird, wird (bei Abwesenheit eines stummen Phonems) das Kontrolltaktsignal (FCL) auf der Leitung 135 HI; dadurch wird die an den Dateneingängen der Flipflops 12o,122,124,126 liegende Information eingegeben.

Nun sei die Situation betrachtet, in der der Kontrollkreis zu dem Zweck aufgerufen wird, ein stummes Phonem in das Sprach-Ausgangssignal einzufügen. In diesem Fall soll die Dauer des stummen Phonems mit der Zeitdauer eines typischen Phonems übereinstimmen. Bei der bevorzugten Ausfuhrungsform ist zudem der Kontrollkreis so ausgebildet, daß er den Status der Flipflops 12o,122,124,126 für die Geschwindigkeit und die Amplitude aufrecht erhält, wenn ein stummes Phonem erzeugt wird. Auf diese Weise dauern die Zustände, die vor der Erzeugung des stummen

809808/0752

Phonems vorlagen, nach der Erzeugung des stummen Phonems an.

Zurück zu Fig. 6. Das Ausgangssignal des NOR-Tores 174 wird an ein weiteres Zeitverzögerungsnetzwerk 16 2, bestehend aus dem Widerstand R39 und dem Kondensator C6, gelegt. Der Ausgang des Netzwerkes 16 2 ist mit beiden Eingängen eines NOR-Tores 176 mit dualem Eingang verbunden. Der Ausgang des NOR-Tores 176 ist mit dem Taktanschluß (CL) eines Flipflops 154 für das stumme Phonem verbunden. Somit ist, wie das Diagramm in Fig. 8 zeigt, das Taktsignal für das stumme Phonem (SPCL) auf der Leitung 158 äquivalent dem Phonem-Takt-Aus-Signal (PCO), welches invertiert und vom Netzwerk 16 2 um ca. lo.usec. verzögert ist.

Da das Flipflop 154 von der ins Positive gehenden Flanke eines am Takteingang (CL) empfangenen Signalimpulses geschaltet wird, ist zu erkennen, daß das Signal (SP) für das stummephonem vom Eingangsbit 2 noch nicht am Dateneingang des Flipflop 154 angekommen list, wenn das Taktsignal für das stumme Phonem (SPCL) vor der IZeit ti zuerst das Flipflop 154 taktet. Trotz des durchsteuernden Taktsignales auf der Leitung 158 bleibt daher der Q-Ausgang des '

Flipflop 154 HI, wodurch momentan die Leitung der Analogtore 146, '

148 beibehalten wird. Wie das Zeitdiagramm andeutet, wird das Vorliegen eines stummen Phonems (SP) am Dateneingang des Flip-Flops '

154 bis zur Zeit t2 nicht erkannt, zu der das Ausgangssignal des logischen Kreises Ho (F) LO wird. Ungefähr Io/usec. später, zur Zeit t3, wird das Phonem-Taktsignal vom NOR-Tor 174 wiederum LO. Dies führt nach einer Verzögerung von weiteren Io .usec., die vom

809808/0752 "^8o "

Netzwerk 16 2 bewirkt wird, dazu, daß das Taktsignal für das stumme Phonem (SPCL) auf der Leitung 158 wiederum das Flipflop 154 taktet. Zur Zeit t4, ungefähr 3oo,usec. nach dem ersten ins Positive gehenden Impuls auf der Leitung 158, wird somit das Signal für das

stumme Phonem (SP) vom Bit 2 in das Flipflop 154 eingegeben. Dies bringt den Q-Eingang des Flipflop 154 auf LO, was die Analogtore 146 und 148 nicht leitend macht.

Die zusätzliche Verzögerung um Io/Usec., die vom Netzwerk 16 2 bewirkt wird, ist eine Vorsichtsmaßnahme. Dadurch wird sichergestellt, daß das Signal für das stumme Phonem (SP) am Dateneingang des Flipflop 154 vor dem zweiten ins Positive gehenden Impuls auf der Leitung 158 ankommt. Da außerdem das Signal für das stumme '

j Phonem (SP) nicht vor der zweiten ins Positive gehenden Flanke ; im Taktsignal für das stumme Phonem (SPCL) eingegeben wird, folgtj daß kein weiterer ins Positive gehende Impuls auftritt, bis der

■ darauffolgende Phonemtaktimpuls zur Eingabe des nächsten Phonem-

! —

Kommandowortes erzeugt wird. Das Q-Ausgangssignal"des Flipflop 154 bleibt also für die Zeitdauer des Phonems LO.

Um schließlich zu verhindern, daß sich die logischen Zustände der Flipflops 12o,122,124,126 verändern, wenn ein stummes Phonem vorliegt, wird das Q-Ausgangssignal (LSP) vom Flipflop 154 an einen Eingang des NOR-Tores 134 gelegt. Wenn das Q-Ausgangssignal LSP vom Flipflop 154 zur Zeit t4 HI wird, wird der Ausgang des NOR-Tores 134 auf LO gebracht, unabhängig von dem Zustand des Signals (FD') am anderen Eingang. Dies wiederum hält das Kontrolltaktsign,

80T8Öf7Ö752 - ^8Ϊ

(FCL) auf der Leitung 135 LO und verhindert das Schalten der Flipflops 12o,122,124,126. Es ist daher unerläßlich, daß die vom Netzwerk 136 bewirkte Zeitverzögerung ausreicht, sicherzustellen, daß das Q-Ausgangssignal (LSP) am Flipflop 154 HI wird (zur Zeit t4), bevor das Signal (FD¹) LO wird (zur Zeit t5). Bei der bevorzugten Ausführungsform liegt t4 ca. 4o .usec. vor t5. Es ist somit zu erkennen, daß die Parameter für die Gesamtsprechgeschwindigkeit und das Gesamtvolumen des Audioausgangssignales während der Anwesenheit eines stummen Phonems fixiert sind.

809808/0752

L e e r s e ι t e

Claims

Patentansprüche

Elektronisches Gerät zur phonetischen Synthetisierung menschlicher Sprache (Sprach-Synthesizer) mit einer Eingangsschaltung, welche auf Eingangsdaten anspricht, die eine bestimmte Phonem- i folge identifizieren, und hiernach Kontrollsignale erzeugt, welche die Parameter darstellen, die die gewünschte Phonemfolge definieren; mit einer Vokalquelle, die ein stimmhaftes Erregungssignal erzeugen kann und der eine Fundamentalfrequenz zugeordnet ist, gekennzeichnet durch eine Inflektionskontrolleinrichtung (52,56), die mit der Vokalquelle (54) verbunden ist und die Fundamentalfrequenz des stimmhaften Erregersignales in Übereinstimmung mit bestimmten, von der Eingangsschaltung (12,14) er- !

zeugten Kontrollsignalen variiert, sowie durch einen Vokaltrakt (6o) , der auf das stimmhafte Erregersignal und die Kontrollsig-; nale anspricht und die gewünschte Phonemfolge erzeugt. _;

809808/0752

ORIGINAL INSPECTEO

2. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß die Inflektions-Kontrolleinrichtung (52,56) die Fundamentalfre-t quenz des stimmhaften Erregersignals um einen Betrag verändert, j der mit den Größen der genannten Kontrollsignale verknüpft ist.

j 3. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß

! die Inflektions-Kontrolleinrichtung (52,56) außerdem auf die Eingangsdaten anspricht und hiernach die Fundamentalfrequenz des stimmhaften Erregersignäfes verändert.

4. Sprachsynthesizer nach Anspruch 3, dadurch gekennzeichnet, daß die Eingangsdaten mehrere digitale Kommandoworte aus 12 bit umfassen, wobei drei der Eingangsbits aus jedem Kommandowort an die Inflektions-Kontrolleinrichtung (52,56) zur Variation : der Fundamentalfrequenz des stimmhaften Erregersignales gelegt ; werden.

5. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß er außerdem eine Reiblautquelle (64) enthält, welche ein stimmloses Erregersignal erzeugen kann.

6. Sprachsynthesizer nach Anspruch 5,dadurch gekennzeichnet, daß j von der Eingangsschaltung (12,14) immer dann ein erstes Kon- ; trollsignal erzeugt wird, wenn ein Reiblautenergie benötigende^

Phonem erzeugt werden soll, und daß die Inflektions-Kontroll- i einrichtung (52,56) immer dann die Fundamentalfrequenz des j

stimmhaften Erregersignales erhöht, wenn das erste Kontrollsig-f nal erzeugt wird. i

809808/0752 " ³ "

7. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß von der Eingangsschaltung (12,14) immer dann ein zweites Kontrollsignal erzeugt wird, wenn ein nasales Phonem erzeugt werden soll/ und daß die Inflektions-Kontrolleinrichtung (52,56) die Fundamentalfrequenz des stimmhaften Erregersignales immer dann erniedrigt, wenn das zweite Kontrollsignal erzeugt wird.

8. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß

der Vokaltrakt (6o) eine Mehrzahl von Resonanzfiltern (F1-F5) i umfaßt, welche im wesentlichen das Frequenzspektrum von jedem :

Phonem in der gewünschten Phonemfolge erzeugen und mindestens j

ein variables Resonanzfilter (Fl) enthalten, welches unter |

der Einwirkung eines dritten Kontrollsignals abstimmbar ist ,

und den ersten resonanten Formanten im Frequenzspektrum der | gewünschten Phonemfolge bildet.

9. Sprachsynthesizer nach Anspruch 8, dadurch gekennzeichnet, daß die Inflektions-Kontrolleinrichtung (52,56) die Fundamentalfrequenz des stimmhaften Erregersignals immer dann erniedrigt, wenn das dritte Kontrollsignal erzeugt wird.

.o. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß von der Eingangsschaltung (12,14) immer dann ein viertes Kontrollsignal erzeugt wird, wenn ein Vokalenergie erforderndes Phonem erzeugt werden soll, und daß ein fünftes Kontrollsignal von der Eingangsschaltung (12,14) immer dann erzeugt wird, wenn ein Explosionsphonem erzeugt werden soll, und daß die Inflek-

809808/0752

tionskontrolleinrichtung (52,56) die Fundamentalfrequenz des stimmhaften Erregersignals immer dann erniedrigt, wenn das vierte und das fünfte Kontrollsignal für dasselbe Phonem erzeugt werden.

11. Elektronisches Gerät zur phonetischen Synthetisierung menschlicher Sprache (Sprach-Synthesizer) mit einem Vokaltrakt, der mehrere Resonanzfilter enthält, die im wesentlichen die Frequenzspektren phonetischer Sprache erzeugen, mit einer Vokalquelle, die mit dem Vokaltrakt verbunden ist, und ein stimm- i

haftes Erregersignal erzeugt, welches stimmhafte Erregerenergije den Resonanzfiltern zuführt, dadurch gekennzeichnet, daß die i Wellenform der Vokalquelle (54) keine Erregerenergie den Reso-i nanzfiltern (F1-F5) kurz nach der maximalen Erregerenergie zu-J

führt. ί

12. Sprachsynthesizer nach Anspruch 11, dadurch gekennzeichnet,

daß die von der Vokalquelle (54) erzeugte Wellenform des stimnhaften Erregersignals die Wirkungen der menschlichen Stimmritze dadurch simuliert, daß ein erstes Segment enthalten ist, das j die öffnung der Stimmritze simuliert, ein zweites Segment, welches das Schließen der Stimmritze simuliert, und ein drittes Segment, welches die geschlossene Stimmritze simuliert, und daß das stimmhafte Erregersignal die maximale Erregerenergie am Übergang zwischen den ersten beiden Segmenten abgibt und keine Erregerenergie während des dritten Segments.

809808/0752

13. Sprachsynthesizer nach Anspruch 12, dadurch gekennzeichnet, daß die Dauer des dritten Segmentes mindestens so groß wie die zusammengenommene Dauer der ersten beiden Segmente ist.

14. Sprachsynthesizer nach Anspruch 12, dadurch gekennzeichnet, daß das erste Segment allmählich in der Größe von einem Anfangswert auf einen Maximalwert anwächst, daß das zweite Segment in der Größe rasch von dem Maximalwert auf den ursprünglichen Wert abfällt, und daß das dritte Segment auf dem ursprünglichen Viert konstant bleibt.

15. Sprachsynthesizer nach Anspruch 14, dadurch gekennzeichnet, daß das stimmhafte Erregersignal im wesentlichen die Form eines verstümmelten Sägezahns aufweist.

i
16. Sprachsynthesizer nach Anspruch 14, dadurch gekennzeichnet,

daß jedem Resonanzfilter (F1-F5) eine Bandbreite zugeordnet ist und eine Unterdrückungsschaltung (7o) vorgesehen ist, welehe die Unterdrückung von Formant-Resonanzen im menschlichen

! Vokaltrakt simuliert, die auf der öffnung der Stimmritze beruhen, indem die Bandbreiten von mindestens einigen der Reso- ! nanzfilter (F1-F5) in Übereinstimmung mit der Größe des stimmhaften Erregersignals variiert werden.

j 17. Sprachsynthesizer nach Anspruch 16, dadurch gekennzeichnet, daß die Unterdrückungsschaltung (7o) die Bandbreiten vergrö-

ßert, wenn sich die Größe des stimmhaften Erregersignales erhöht.

809808/0752

8. Sprachsynthesizer nach Anspruch 17, dadurch gekennzeichnet, daß die Unterdrückungsschaltung (7o) die Bandbreiten außerdem in Übereinstimmung mit der Größe des stimmhaften Erregersignals nur während der Erzeugung von Phonemen verändert, die stimmhafte Erregerenergie benötigen.

19. Sprachsynthesizer nach Anspruch 11, dadurch gekennzeichnet, daß ein Schaltkreis (68) vorhanden ist, der einen Formanten mit verhältnismäßig hoher, feststehender Frequenz dem stimmhaften Erregersignal zuführt, wodurch die Erregerenergie des stimmhaften Erregersignals bei hohen Frequenzen erhöht wird.

20. Sprachsynthesizer nach Anspruch 19, dadurch gekennzeichnet,

daß der Schaltkreis (68) ein Festpol-Resonanzfilter umfaßt.

21. Sprachsynthesizer nach Anspruch 2o, dadurch gekennzeichnet,

daß das Resonanz filter seine Resonanz bei einer Frequenz von ca. 4ooo Hz aufweist.

22. Sprachsynthesizer nach Anspruch 21, dadurch gekennzeichnet,

daß die Resonanzfilter (F1-F5) im Vokaltrakt ein Festpolresonanzfilter umfassen, welches seine Resonanz bei einer Frequenz besitzt, die größer als 4ooo Hz ist.

23. Sprachsynthesizer nach Anspruch 22, dadurch gekennzeichnet, daß das Festpolresonanz filter im Vokaltrakt (6o) seine Resonanz bei einer Frequenz von ca. 44oo Hz besitzt.

809808/0752

24. Sprachsynthesizer nach Anspruch 19, dadurch gekennzeichnet, daß die Resonanzfilter (F1-F5) im Vokaltrakt (6o) zu einer Kaskade geschaltet sind.

25. Elektronisches Gerät zur phonetischen Synthetisierung menschlicher Sprache (Sprach-Synthesizer) mit einer Eingangsschaltung, die auf Eingangsdaten anspricht, welche eine bestimmte Phonemfolge identifizieren, und hiernach Kontrollsignale erzeugt, welche die Parameter darstellen, die die gewünschte Phonemfolge definieren; mit einer Vokalquelle, die ein stimmhaftes Erregersignal mit einer Wellenform variierender Größe erzeugt; mit einem Vokaltrakt, der auf das stimmhafte Erregersignal und die Kontrollsignale anspricht und danach die gewünschte Phonemfolge erzeugt, der mehrere Resonanzfilter mit bestimmten, zugehörigen Brandbreiten besitzt, welche die resonanten Formanten im Frequenzspektrum der Phoneme erzeugen,, gekennzeichnet durch eine Unterdrückungsschaltung (7o), wel- j ehe die Unterdrückung von formanten Resonanzen im menschlichen Vokaltrakt simuliert, die auf der öffnung der Stimmritze beruhen, indem die Bandbreiten von mindestens einigen Resonanzfiltern (F1-F5) in Übereinstimmung mit der Größe des stimmhaften Erregersignals variiert werden.

26. Sprachsynthesizer nach Anspruch 25, dadurch gekennzeichnet, daß die Unterdrückungsschaltung (7o) die Bandbreiten vergrößert, wenn die Größe des stimmhaften Erregersignals anwächst.

809808/0752

_Λ 2736032

— ο —

27. Sprachsynthesizer nach Anspruch 26, dadurch gekennzeichnet, daß die Unterdrückungsschaltung (7o) ein Rechtecksignal mit variabler Impulsbreite erzeugt, deren Einschaltdauer proportional zur Größe des stimmhaften Erregersignales ist.

28. Sprachsynthesizer nach Anspruch 27, dadurch gekennzeichnet, daß jedes Resonanzfilter (F1-F5), welches von der Unterdrückungsschaltung (7o) beeinflußt wird, einen ßandpass-Abschnitt aufweist, der in einem Nebenschluß ein elektronisches Steuergerät (loo) aufweist, welches unter der Kontrolle des Unter- :

i drückungssignals einen Strom derart über den Bandpass-Abschnitjt

j führen kann, daß der Prozentsatz der Zeit, in der das elektro-

nische Steuergerät (loo) den Strom führt, mit der prozentualen! Einschaltdauer des Unterdrückungssignales verknüpft ist.

29. Sprachsynthesizer nach Anspruch 28, dadurch gekennzeichnet, daß das Unterdrückungssignal an die drei Resonanzfilter (F1-F3) im Vokaltrakt (6o) gelegt wird, welche die ersten drei resonan-

ten Formanten im Frequenzspektrum der Phoneme erzeugen. !

3o. Sprachsynthesizer nach Anspruch 26, dadurch gekennzeichnet, daß das von der Vokalquelle (54) erzeugte stimmhafte Erregersignal eine Wellenform aufweist, die ein erstes Segment umfaßt welches in der Größe anwächst, ein zweites Segment, welches in der Größe abnimmt und ein drittes Segment, das auf einem konstanten Wert bleibt.

809808/0752

IΊ 3 b ü 8 2

31. Sprachsynthesizer nach Anspruch 3o, dadurch gekennzeichnet, daß die Unterdrückngsschaltung (7o) bestimmte Bandbreiten der Resonanzfilter (F1-F3) während des ersten Segmentes des stimmhaften Erregersignales vergrößert, die Bandbreiten der i Resonanzfilter (Fl-F3) von den erhöhten Werten während des i zweiten Segmentes des stimmhaften Erregersignales verringert, ! und keinen Effekt auf die bestimmten Bandbreiten der Resonanzfilter (F1-F3) während des dritten Segmentes des stimmhaften

j Erregersignales hat.

! 32. Sprachsynthesizer nach Anspruch 31, dadurch gekennzeichnet, daß die Dauer des dritten Segmentes des stimmhaften Erregersignales mindestens so groß ist wie die kombinierte Dauer der ersten beiden Segmente.

33. Sprachsynthesizer nach Anspruch 25, dadurch gekennzeichnet,

daß die Unterdrückungsschaltung (7o) die Bandbreiten in über- ; einsti.ntmung mit der Größe des stimmhaften Erregersignales ! nur während der Erzeugung von Phonemen verändert, die stimmj hafte Erregerenergie benötigen.

; 34. Sprachsynthesizer nach Anspruch 33, dadurch gekennzeichnet,

daß ein Kontrollsignal durch die Eingangsschaltung (12,14) immer dann erzeugt wird, wenn ein Vokalenergie benötigendes . Phonem erzeugt werden soll und daß die Unterdrückungsschaltuncj

j (7o) die Bandbreiten der Resonanzfilter (F1-F3) nur dann be- ; i

einflußt, wenn dieses Kontrollsignal erzeugt wird.

- Io 4

809808/0752

- Io -

35. Sprachsynthesizer nach Anspruch 34, dadurch gekennzeichnet, I daß das genannte Kontrollsignal ein Vokalamplituden-Kontroll-■ signal umfaßt.

'36. Sprachsynthesizer nach Anspruch 25, dadurch gekennzeichnet, daß ein Schaltkreis (68) enthalten ist, der einen Formanten

, bei relativ hoher, fester Frequenz dem stimmhaften Erregerj signal zufügt und dadurch die Erregungsenergie des stinunhaf-

j ten Erregersignals bei hohen Frequenzen erhöht.

37. Sprachsynthesizer nach Anspruch 36, dadurch gekennzeichnet, daß der Schaltkreis ein Festpol-Resonanzfilter umfaßt.

38. Sprachsynthesizer nach Anspruch 37, dadurch gekennzeichnet,

: daß das Resonanzfilter seine Resonanz bei einer Frequenz

i von ca. 4ooo Hz. besitzt.

39. Sprachsynthesizer nach Anspruch 38, dadurch gekennzeichnet, daß die Resonanzfilter (F1-F5) im Vokaltrakt (6o) ein Festpol-Resonanzfilter enthalten, das bei einer Frequenz von
über 4ooo Hz seine Resonanz besitzt.

:4o. Sprachsynthesizer nach Anspruch 39, dadurch gekennzeichnet, j daß das Festpol-Resonanzfilter im Vokaltrakt (6o)seine Resonanz bei einer Frequenz von ca. 44oo Hz besitzt.

- 11 -

809808/0752

- ii - 2736032

41. Sprachsynthesizer nach Anspruch 36, dadurch gekennzeichnet, daß die Resonanzfilter (F1-F5) im Vokaltrakt (6o) zu einer Kaskade geschaltet sind.

2. Elektronisches Gerät zur phonetischen Synthetisierung menschlicher Sprache (Sprach-Synthesizer) mit einer Ekigangsschaltung, welche auf Eingangsdaten anspricht, die eine bestimmte Phonemfolge identifizieren, und hiernach Kontrollsignale erzeugt, welche die Parameter darstellen, die die Phonemfolge definieren; mit einem Vokaltrakt, der auf die Kontrollsignale anspricht und hiernach die erwünschte Phonemfolge erzeugt, der weiter i mehrere Resonanzfilter enthält, welche die resonanten Formantep im Frequenzspektrum der erwünschten Phonemfolge erzeugen, da- ^! durch gekennzeichnet, daß die Resonanzfilter (F1-F5) drei va- · riable Resonanzfilter (F1-F3) enthalten, die jeweils unter der Kontrolle von einem Kontrollsignal abstimmbar sind, wodurch die ersten drei Formanten in den Frequenzspektren erzeugt werden, sowie ein viertes variables Resonanzfilter (F4), welches unter der Kontrolle von einem der Kontrollsignale abstimmbar ist, welches eines (F3) der ersten drei variablen Resonanzfilter (F1-F3) abstimmt, wodurch der vierte Formant in den Frequenzspektren gebildet wird.

43. .Sprachsynthesizer nach Anspruch 4 2, dadurch gekennzeichnet, daß das vierte Resonanzfilter (F4) unter der Kontrolle desselben Kontrollsignales abstimmbar ist, welches das dritte Resonanzfilter (F3) abstimmt.

- 12 -

809808/0752

_ ₁₂ -

273bU!J/

'44. Sprachsynthesizer nach Anspruch 4 2, dadurch gekennzeichnet, ; daß eine Vokalquelle (54) enthalten ist, welche stimmhafte Erregerenergie zum Vokaltrakt (6o) liefert, indem es ein stimmhaftes Erregersignal erzeugt, welches eine verhältnismäßig breite Verteilung sowohl ungerader als auch gerader Harmonischer und zusätzlich einen Formanten mit relativ hoher, feststehender Frequenz enthält, welcher den Energiegehalt des Erregungssignals bei verhältnismäßig hohen Frequenzen überhalb eines bestimmten Wertes hält.

45. Sprachsynthesizer nach Anspruch 44, dadurch gekennzeichnet, daß der Vokaltrakt (6o) ein fünftes Resonanz filter (F5) enthält, das seine Resonanz bei einer höheren Frequenz besitzt,

• als der Formant mit relativ hoher, feststehender Frequenz im stimmhaften Erregersignal.

46. Sprachsynthesizer nach Anspruch 45, dadurch gekennzeichnet, daß der Formant mit feststehender Frequenz im stimmhaften Erregersignal bei ca. 4ooo Hz liegt und daß das fünfte Resonanzfilter (F5) im Vokaltrakt (6o) seine Resonanz bei ungefähr 44oo Hz besitzt.

47. Sprachsynthesizer nach Anspruch 42, dadurch gekennzeichnet, daß die Resonanzfilter (F1-F5) im Vokaltrakt (6o) zu einer Kaskade geschaltet sind.

^!48. Elektronisches Gerät zur phonetischen Synthetisierung mensch-

- 13 -

809808/0752

2 /..H Vj j

licher Sprache (Sprach-Synthesizer) mit einer Vokalquelle, welche ein stimmhaftes Erregersignal erzeugt; einer RuIbLautquelle, welche ein stimmloses Erregersignal erzeugt; mit einer Eingabeschaltung, welche auf den Empfang von Eingangsdaten anspricht, die eine bestimmte Phonemfolge identifizieren, und hiernach mehrere Kontrollsignale erzeugt, welche die Parameter darstellen, die die von den Eingangsdaten identifizierten Phoneme definieren, wobei ein erstes Kontrollsignal «lie Amplitude des stimmhaften Erregersignals und ein zweites Kontrollsignal die Amplitude des stimmlosen Erregersignals kontrolliert, mit einem Vokaltrakt, der auf das stimmhafte und das stimmlose Erregersignal und die Kontrollsignale anspricht und ein Audio-Ausgangssignal erzeugt, welches aus der erwünschten Phonemfolge besteht, die zu verständlicher menschlicher Sprache zusammengesetzt sind, gekennzeichnet durch eine Amplituden-Kontrollschaltung (5o,4o,36), welche die relative Gesamtamplitude des Audio-Ausgangssignals variiert, indem ein bestimmtes Signal moduliert wird, welches für die ersten beiden KontrolI-signale charakteristisch ist.

49. Sprachsynthesizer nach Anspruch 48, dadurch gekennzeichnet, daß die Amplituden-Kontrollschaltung (¹So, lo, 36) auf bestimmte Eingangsdaten hin die relative Gesamtamplitude des Audio-Ausgangssignals variiert, wobei die relativen Amplitudenvariationen in dem stimmhaften und dem stimmlosen Erregersignal beibehalten werden, welche von Phonem zu Phonem unter der Kontrolle der ersten beiden Kontrol!signale auftreten, In-

- 11 -

809808/0752

ORIGINAL INSPECTED

21

eiern -Ins Signal, welches fur die ersten beiden Kontrollsignale charakteristisch Ist/ um oinen bestimmten Prozentsatz kontinuierlich moduliert wird.

50. Sprachsynthesizer nach Anspruch 49, dadurch gekennzeichnet, daß die Eingangsdaten digitale Kommandoworte aus jeweils mehreren Eingangsbits umfassen, und daß die Amplituden-KontrolI-schaltung (5o,lo,36) auf bestimmte digitale Kommandoworte anspricht und hiernach das Signal, welches für die ersten beiden Kontrollsignale charakteristisch ist, in Übereinstimmung mit dem Wort bestimmter Eingangsbits in vorherbestimmten digitalen Kommandoworten moduliert.

51. Sprachsynthesizer nach Anspruch 5o, dadurch gekennzeichnet, daß der Prozentsatz der Modulation durch den Wert der bestimm-

: ten Eingangsbits in den vorherbestimmten digitalen Kommandoworten bestimmt wird.

2. Sprachsynthesizer nach Anspruch 51, dadurch gekennzeichnet, : daß das bestimmte charakteristische Signal der Amplitude . des ersten und des zweiten Kontrollsignals entspricht.

53. Sprachsynthesizer nach Anspruch 52, dadurch gekennzeichnet, daß die Amplituden-Kontrollschaltung (5o,4o,36) eine Einrichtung enthält, welche ein Gleichspannungssignal erzeugt, dessen Größe vom Wert der genannten Eingangsbits bestimmt wird,

: sowl..· -:ine Kontrolleinrichtung, welche die Amplitude des er-

- 15 -

803808/0752

17 J b ·^! H /

sten und des zweiten Kontrollsignals in Übereinstimmung mit der Größe des Gleichspannungssignals variiert.

54. Sprachsynthesizer nach Anspruch 53, dadurch gekennzeichnet, daß die Kontrolleinrichtung (5o) ein erstes elektronisches Kontrollgerät enthält, welches unter der Kontrolle des ersten Kontrollsignals leitet, sowie ein zweites elektronisches Kontrollgerät, welches unter der Kontrolle des zweiten Kontrollsignales das Gleichspannungssignal leitet.

55. Sprachsynthesizer nach Anspruch 54, dadurch gekennzeichnet, daß das erste Steuergerät ein Analogtor (14 2) umfaßt, dessen Eingang an das Gleichspannungssignal angeschlossen ist, und dessen Steueranschluß das erste Kontrollsignal empfängt, und daß das zweite elektronische Steuergerät ein Analogtor (144) umfaßt, dessen Eingang das Gleichspannungssignal und dessen Steueranschluß das zweite Kontroll signal empfängt.

56. Sprachsynthesizer nach Anspruch 48, dadurch gekennzeichnet, daß ein Schaltkreis vorhanden ist., der auf Eingangsdaten anspricht und danach ein stummes Phonem erzeugt, indem verhindert wird, daß das stimmhafte und das stimmlose Erregersig-

nal den Vokaltrakt (60) erregen, j

j 57. Sprachsynthesizer nach Anspruch 56, dadurch gekennzeichnet, daß eine erste Modulatorschaltung (36) enthalten ist, welche die Amplitude des stimmhaften Erregersignals in Übereinstim-

- 16 -

809808/0752

ORIGINAL

2736Ü8/!

; mung mit dem ersten Kontrollsignal moduliert, sowie eine zwei-

j te Modulatorschaltung (4o), welche die Amplitude des stimmlo-

! sen Erregersignals in Übereinstimmung mit dem zweiten Kontroll-

' signal moduliert.

58. Sprachsynthesizer nach Anspruch 57, dadurch gekennzeichnet, daß das erste und das zweite Kontrollsignal von der ersten , und zweiten Modulatorschaltung (36,4o) ferngehalten werden, wenn bestimmte Eingangsdaten empfangen werden.

159. Sprachsynthesizer nach Anspruch 58, dadurch gekennzeichnet,

' daß ein Steuersignal erzeugt wird, bis die genannten Eingangs-

j daten empfangen werden, und daß eine Kontrollschaltung zwi-

! sehen der Eingangsschaltung (12,14) und den beiden Modulatorschaltungen (36,4o) liegt, welche verhindert, daß das erste Kontrollsignal zur ersten Modulatorschaltung (36) übertragen

! wird und das zweite Kontrollsignal zur zweiten Modulatorschaltung (4o) übertragen wird, wenn das Steuersignal auf-

i gehört hat.

¹6o. Elektronisches Gerät zur phonetischen Synthetisierung menschlicher Sprache (Sprach-Synthesizer) mit einer Eingangsschaltung, welche auf Eingangsdaten anspricht, die eine bestimmte Phonemfolge identifizieren, und hiernach Kontrollsignale er- ;

I zeugt, welche die die Phoneme definierenden Parameter dar- :

stellen; mit einem Zeitgeber, der auf ein Kontrollsignal anspricht und hiernach ein Zeitgabesignal erzeugt, welches die ;

- 17 -

809808/0752

27JuJJ/

Dauer der Erzeugung jeden Phonemes bestimmt, mit einem Vokaltrakt, der auf die Kontrollsignale anspricht und hiernach ein Audioausgangssignal erzeugt, welches die erwünschte Phoneinfolge umfaßt, dadurch gekennzeichnet, daß eine erste Kontrollschaltung (28,3o) vorgesehen ist, welche auf die Eingangsdaten anspricht und hiernach die Phonemzeitgabe variiert, indem ein Sprechratensignal in Übereinstimmung mit den Eingangsdaten erzeugt wird, welches der Zeitgeberschaltung (32) zur Variation des Zeitgabesignals zugeführt wird.

61. Sprachsynthesizer nach Anspruch 6o, dadurch gekennzeichnet, daß eine zweite Kontrollschaltung (5o) auf bestimmte Eingangsdaten ansprcht und hiernach die relative Gesamtsprechrate des Audioausgangs bestimmt, wobei die relativen Variationen in den Zeitdauern der PhonemproHuktlon, die von Phonem zu Phonem unter der Kontrolle des einen Kontrollsignals auftreten, beibehalten werden, indem ein bestimmtes Signal, welches für die

j Sprechrate charakteristisch ist, gleichförmig variiert wird.

2. Sprachsynthesizer nach Anspruch Γι I, dadurch gekennzeichnet, daß die erste Kontrollschaltung (28,3o) ein Gprechratensignal erzeugt, welches ein Rechtecksignal mit variabler Impulsbreite umfaßt, dessen Einschaltdauer von den Eingangsdaten bestimmt wird.

3. Sprachsynthesizer nach Anspruch 6 2, dadurch gekennzeichnet, daß die zweite Kontrollschaltung (5o) ein AungangssiinaI in

- 10 -

809808/0752

ORIGINAL INSPECTED

Übereinstimmung mit den bestimmten Eingangsdaten erzeugt,dessen Größe ebenfalls die Einschaltdauer des Sprechratensignals bestimmt.

64. Sprachsynthenizer nach Anspruch 6 3, dadurch gekennzeichnet, daß das Zeitgabesignal ein Rampensignal umfaßt, v/elches in einem Zeitintervall, das die Dauer der Phonemerzeugung bestimmt, sich zwischen zwei bestimmten Größenwerten verändert, und daß die Neigung des Zeitgabesignals durch die Einschaltdauer des Sprechratensignals bestimmt ist.

65. Sprachsynthesizer nach Anspruch 63, dadurch gekennzeichnet, ι daß die Eingangsdaten mehrere digitale Kommandoworte umfassen, von denen jedes mehrere Eingangsbits enthält, und daß die ELnschaltdauer des Sprechratensignals durch den Wert

; bestimmter Eingangsbits in jedem der digitalen Kommandoworte bestimmt wird.

66. Sprachsynthesizer nach Anspruch 65, dadurch gekennzeichnet, daß die zweite Kontrollschaltung (5o) auf bestimmte digitale Kommandoworte anspricht, und die Größe des Ausgangssigals in Übereinstimmung mit dem Wert bestimmter Eingangsbits in den bestimmten digitalen Kommandoworten verändert.

67. Elektronisches Gerät zur phonetischen Synthetisierung menschlicher Sprache fSprach-Synthesizer) mit einer Eingangsschaltung, welche auf Eingangsdaten anspricht, die eine bestimmte

- 19 -

809808/0752

27 3 b I) B 2

Phonemfolge identifizieren, und hiernach mehrere Kontrollsignale erzeugt, welche die Parameter darstellen, die die gewünschte Phonemfolge definieren, mit einer Vokalquelle, welche ein stimmhaftes Erregersignal erzeugt, mit einer Reiblautquelle, welche ein stimmloses Erregersignal erzeugt, mit einem Vokaltrakt, der auf das stimmhafte und das stimmlose Erregersignal anspricht und hiernach ein Audio-Ausgangssignal erzeugt, welches in Übereinstimmung mit den Kontrollsignalen die Phonemfolge enthält, dadurch gekennzeichnet, daß ein Schaltkreis (5o) vorhanden ist, der auf Eingangsdaten hin bewirkt, daß der Vokaltrakt (6o) ein stummes Phonem erzeugt, indem verhindert wird, daß das stimmhafte und das stimmlose Erregersignal den Vokaltrakt (6o) erregen.

j

68. Sprach-Synthesizer nach Anspruch 67, dadurch gekennzeichnet, j daß eine erste Modulatorschaltung (36) vorgesehen ist, welche

i die Amplitude des stimmhaften Erregersignals in Ubereinstim- \

mung mit einem ersten Kontrollsignal, welches von der Eingangsj-

schaltung (12,14) erzeugt wird, immer dann moduliert, wenn j

ein Phonem, welches Vokalenergie benötigt, erzeugt werden soll, und daß eine zweite Modulatorschaltung (4o) vorhanden ist, welche die Amplitude des stimmlosen Erregersignals in _t Übereinstimmung mit^inem zweiten Kontrollsignal moduliert, welches von der Eingangsschaltung (12,14) immer dann erzeugt wird, wenn ein Reiblaut-Energie benötigendes Phonem erzeugt werden soll.

- 2o -

809808/0752

- 2ο -

2736U82

9. Sprachsynthesizer nach Anspruch 68, dadurch gekennzeichnet, daß das erste und das zweite Kontrollsignal von den beiden Modulatorschaltungen (36,4o) bei Empfang bestimmter Eingangsdaten ferngehalten wird.

70. Sprachsynthesizer nach Anspruch 69, dadurch gekennzeichnet, daß ein Steuersignal erzeugt wird, bis die bestimmten Eingangsdaten empfangen werden, und daß eine Kontrollschaltung zwischen der Eingangsschaltung (12,14) und den beiden Modulatorschaltungen (36,4o) liegt, welche verhindert, daß das erste Kontrollsignal zur ersten Modulatorschaltung (36) übertragen wird, und daß das zweite Kontrollsignal zur zweiten Modulatorschaltung (4o) übertragen wird, wenn das Steuersignal aufgehört hat.

71. Sprachsynthesizer nach Anspruch 7o, dadurch gekennzeichnet, daß die Kontrollschaltung (5o) ein erstes elektronisches Steuergerät (14 2) umfaßt, welches das erste Kontrollsignal ;

I immer dann leitet, wenn ein Steuersignal erzeugt wird, und !

ein zweites elektronisches Steuergerät (144), welches das zweite Kontrollsignal immer dann leitet, wenn das Steuersignal erzeugt v/ird. '

72. Sprachsynthesizer nach Anspruch 68, dadurch gekennzeichnet, ' daß eine Amplitudenkontrollschaltung (5o) enthalten ist, | welche auf Eingangsdaten anspricht und hiernach die relative Gesamtamplitude des Audio-Ausgangssignals verändert, indem

- 21 -

809808/0752

273ÜU82

kontinuierlich ein bestimmtes Signal, welches für das erste und das zweite Kontrollsignal charakteristisch ist, um einen bestimmten Prozentsatz moduliert wird, der von den Eingangsdaten bestimmt v/ird.

j 73. Sprachsynthesizer nach Anspruch 72, dadurch gekennzeichnet, daß der bestimmte Prozentsatz der Modulation, der vor dem stummen Phonem vorlag, beibehalten wird, so daß die relative Gesamtamplitude des Audioausgangssignals, die vor dem stum-

ί men Phonem vorlag, nach dem stummen Phonem andauert.

74. Elektronisches Gerät zur phonetischen Synthetisierung menschlicher Sprache (Sprach-Synthesizer) mit einer Vokalquelle

die ein stimmhaftes Erregersignal erzeugt, mit einem Vokaltrakt, der auf das stimmhafte Erregersignal anspricht und ■ hiernach im wesentlichen das FrequenzSpektrum einer gewünsch-' ten Phonemfolge erzeugt, gekennzeichnet durch eine Hochpolkompenscitionsschaltung (68) , welche einen Formanten mit re- ; lativ hoher, fester Frequenz dem stimmhaften Erregersignal zufügt und dadurch den Energiegehalt des stimmhaften Erregersignals bei relativ hohen Frequenzen erhöht.

75. Sprachsynthesizer nach Anspruch 74, dadurch gekennzeichnet, daß der Vokaltrakt (6o) mehrere Resonanzfilter (F1-F5) enthält, welche mindestens ein Resonanzfiltor (F5) enthalten, dessen Resonanz bei einer Frequenz liegt, die höher ist als die Frequenz des zusätzlich zum stimmhaften Erregersignal

809808/0752 -22-

2736Ü82

zugefügten Formanten.

76. Sprachsynthesizer nach Anspruch 75, dadurch gekennzeichnet, daß die Resonanzfilter (F1-F5) zu einer Kaskade geschaltet sind.

77. Sprachsynthesizer nach Anspruch 75,dadurch gekennzeichnet, daß ein Resonanzfilter (F5) bei 44oo Hz seine Resonanz besitzt, und daß die hohe Frequenz des zusätzlichen Formanten bei 4ooo Hz liegt.

j 78. Sprachsynthesizer nach Anspruch 74, dadurch gekennzeichnet, daß die Vokalquelle (54) ein stimmhaftes Erregersignal er- \ zeugt, das die Form einer verstümmelten Sägezahnwelle besitzt.

179. Sprachsynthesizer nach Anspruch 6o, dadurch gekennzeichnet,

j daß eine Schaltung für eine variable Ubergangsrate (26) zwischen die Eingangsschaltung (12,14) und den Vokaltrakt (6o) geschaltet ist, auf das Sprechratensignal anspricht und hiernach die abrupten Variationen glättet, die in den Kontrollsignalen zwischen aufeinanderfolgenden Phonemen auftreten.

18o. Sprachsynthesizer nach Anspruch 67, dadurch gekennzeichnet,

; daß der VokaL trakt (6o) in Übereinstimmung mit den Kontrollsig?-

nalen das ArtLkuLationsmuster des darauffolgenden Phonems,

welches von den Eingangsdaten identifiziert wird, während der Erzeugung des stummen Phonemes bildet.

809808/0752 - 23 -