DE2736082A1 - Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer) - Google Patents
Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer)Info
- Publication number
- DE2736082A1 DE2736082A1 DE19772736082 DE2736082A DE2736082A1 DE 2736082 A1 DE2736082 A1 DE 2736082A1 DE 19772736082 DE19772736082 DE 19772736082 DE 2736082 A DE2736082 A DE 2736082A DE 2736082 A1 DE2736082 A1 DE 2736082A1
- Authority
- DE
- Germany
- Prior art keywords
- signal
- speech synthesizer
- control
- synthesizer according
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 9
- 238000003786 synthesis reaction Methods 0.000 title claims description 8
- 230000005284 excitation Effects 0.000 claims description 91
- 230000001755 vocal effect Effects 0.000 claims description 87
- 230000007704 transition Effects 0.000 claims description 57
- 210000004704 glottis Anatomy 0.000 claims description 36
- 230000001629 suppression Effects 0.000 claims description 31
- 238000001228 spectrum Methods 0.000 claims description 17
- 230000000694 effects Effects 0.000 claims description 15
- 230000007423 decrease Effects 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 13
- 238000004880 explosion Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000009471 action Effects 0.000 claims description 2
- 238000009826 distribution Methods 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims description 2
- 241000282979 Alces alces Species 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 21
- 230000003595 spectral effect Effects 0.000 description 18
- 230000003111 delayed effect Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000008859 change Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 7
- 239000003990 capacitor Substances 0.000 description 6
- 230000005405 multipole Effects 0.000 description 6
- 206010040007 Sense of oppression Diseases 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000001934 delay Effects 0.000 description 4
- 230000009977 dual effect Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000002747 voluntary effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000005513 bias potential Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 208000015181 infectious disease Diseases 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 210000003205 muscle Anatomy 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- GLZPCOQZEFWAFX-UHFFFAOYSA-N Geraniol Chemical compound CC(C)=CCCC(C)=CCO GLZPCOQZEFWAFX-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 206010049816 Muscle tightness Diseases 0.000 description 1
- JLNTWVDSQRNWFU-UHFFFAOYSA-N OOOOOOO Chemical compound OOOOOOO JLNTWVDSQRNWFU-UHFFFAOYSA-N 0.000 description 1
- 230000037007 arousal Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
Description
2736032
Die Erfindung betrifft elektronisches Gerät zur phonetischen Synthetisierung menschlicher Sprache (Sprach-Synthesizer).
Bis vor kurzem hat die Entwicklung auf diesem Gebiet nur zu außerordentlich komplizierten und kostspieligen Geräten geführt, die
zudem nur eine sehr unnatürlich klingende Sprache erzeugen konnten»
Dies ist hauptsächlich der Tatsache zuzuschreiben, daß diese Synthesizer der ersten Generation, die praktisch auf keiner Vorentwicklung aufbauen konnten, einen Synthesizer anstrebten, der praktisch
jede bekannte Funktion der menschlichen Sprache ausüben können ; sollte. Als Folge konnten die resultierenden Systeme nur wenige '
Funktionen zufriedenstellend ausführen.
i Typisch für diese Art des Baus früherer Sprachsynthesizer war, !
wie die Übergangsperioden zwischen den Phonemen behandelt wurden. '
In Erkenntnis der Bedeutung, welche die Übergangsperioden in der :
menschlichen Sprache besitzen, haben einige Systeme beträchtliche j Mühe darauf verwendet, verschiedene Ubergangswellenformen zu erzeugen, um die tatsächliche menschliche Artikulation zwischen
Gleichgewichtsphonemzuständen zu simulieren. Die außerordentlich
komplexe Schaltung, die zur Analysierung, Kontrolle und Integration bei der Produktion dieser Wellenformen erforderlich ist,
damit eine glatt fließende phonetische Sprache erzielt wird, machte diese Systeme zu kommerziellen Zwecken vollständig unbrauchfbar. Die Komplexität dieser Systeme rief daraufhin Forschungen
auf den Plan, welche die ursprünglichen Systeme vereinfachen sollten.
- 24 -
809808/0752
2736Ü82
Die jüngeren Entwicklungen auf diesem Gebiet gehen im wesentlichen
von dem Eingeständnis aus, daß die genaue Duplikation der mensch- \ liehen Sprache nicht erzielbar ist. Sie versuchen stattdessen, j
eine Annäherung an das menschliche Sprachsystem zu entwerfen, wel-j
ehe zu einer annehmbar klingenden Sprache führt. Ohne die Bedeu- I
tung der Interphonemübergänge zu mißachten, war das wichtigste j
! Ergebnis dieser Entwicklung die Abweichung von dem außerordent- i
lieh komplexen System der Interphonemübergänge, das oben angespro^
eheη wurde. Es wurde ein vereinfachter Weg gewählt, der verhältnismäßig
langsame Filter verwendet. Diese glätten die abrupten Variationen in den Kontrollparametern, welche die stationären
Zustände der einzelnen Phoneme bestimmen.
Aufgabe der vorliegenden Erfindung ist es, einen Sprachsynthesizez
zu schaffen, der nicht nur verhältnismäßig unkompliziert und preiswert ist, sondern auch eine bemerkenswert natürlich klingende
Sprache erzeugt. Das System soll sich einer großen Breite mögliche Verwendungszwecke anpassen können. Ein erfahrener Programmierer
soll nicht erforderlich sein, wodurch der Einsatz zusammen mit einem Digitalrechner als Umwandler zwischen Text und Audiosignal
sich besonders anbietet.
Die bevorzugte Ausführungsform der vorliegenden Erfindung umfaßt
ein System, welches digitalisierte Signale, z.B. das Ausgangssignal eines Computers oder eines anderen digitalen Gerätes, in
elektronisch synthetisierte menschliche Sprache dadurch umsetzt, daß die Phoneme und Allophone der Sprache erzeugt und ineinander
809808/0752
2 '■ je,ν»32
integriert v/erden. Das grundlegende digitale Kommandowort, welches
den Sprachsynthesizer betreibt, umfaßt vorzugsweise 12 Hits. Sieben
dieser Bits sind der Phonem-Auswahl zugeordnet, und sie definieren
ein bestimmtes Phonem , eine Pause oder eine Kontrollfunktion;
'sie machen maximal 2 oder 128 unterschiedliche Kommandos aus. Da
die Kapazität höher ist als das, was zur Erzeugung der Grundphonemilaute
erforderlich ist, kann das System eine größere Vielzahl von Allophonen reproduzieren. Diese stellen Grundphoneme dar, die ge-
!ringfügig verändert sind, so daß sie sich besser in die Variabili-
I tat der Sprache einpassen. Z.B. ist das Phonem "ae" im englischen
jWort "happen" anders alö im englischen Wort "bat". In ähnlicher
j Weise ist das Anfangsphonem "k" im Wort "kick" anders als das
■Phonem "k" Im Wort "quit". Außerdem kann aufgrund der höheren
!Kapazität das vorliegende System verschiedene Kommandoworte der Erzeugung von Phonemen widmen, die bestimmten Fremdsprachen zu
'eigen sind.Dadurch kann das System auch Fremdsprachen mit hoher
!Qualität erzeugen.
Drei der 12 Datenbits im Eingangskommandowort werden zur Inflektionskontrolle
verwendet. Dies ergibt 2 oder acht verschiedene Inflektionswerte pro Phonem. Hierdurch kann das System die glatten
j und feinen Bewegungen in der Tonlage der menschlichen Sprache nachvollziehen.
Die verbleibenden beiden Datenbits in jedem Eingangskommandowort werden dazu verwendet, die Geschwindigkeit der Phonemerzeugung
zu variieren. Dadurch ergeben sich vier mögliche Zeitintervalle für jede Phonemerzeugung; die Phoneme können textgemäß
in der Zeltdauer präzisiert werden.
- 26 - .
809808/0752
Sieben Bits, welche das jeweilige Phonem definieren, werden an eine Eingangsschaltung gelegt. Diese erzeugt mehrere bestimmte
Kontrollsignale, die das gewählte Phonem elektronisch definieren. Die von der Eingangsschaltung erzeugten Kontrollsignale besitzen
vorzugsweise die Form serialisierter, binär gewichteter Rechteckwellen,
deren Durchschnittswert den analogen Kontrollsignalen äquivalent ist, die sie darstellen. Dadurch, daß digitale Darstellungen
analoger Signale erzeugt werden, vermeidet das vorliegende System, daß zur genauen Steuerung der Analogsignale
j komplizierte elektronische Schaltungen erforderlich sind.
Die Kontrollsignale gelangen von der Eingangsschaltung durch eine Reihe relativ langsamer Ubergangsfilter, welche die abrupten Amplitudenvariationen
in den Signalen glätten. Von hier werden die Kontrollsignale verschiedenen dynamischen Artikulations-Kontroll-
! schaltkreisen zugeführt. Diese kombinieren und verarbeiten die j Parameter und erzeugen hiernach Kontrollsignale für die Erregung
und den Vokaltrakt, die den Muskelkommandos des Gehirns an Vokaltrakt, Stimmritze, Zunge und Mund beim menschlichen Sprachmechanistmus
analog sind.
Das System enthält ferner Erregerquellen für Vokale und Reiblaute.
Diese empfangen die Erreger-Kontrollsignale, welche die verschiedenen Signaleigenschaften der grundlegenden stimmhaften und stimm-*
losen Signale in der menschlichen Sprache bestimmen. Die Vokalerrqgerquelle
erzeugt eine glottale Wellenform, welche die im menschlichen Vokal trakt r^'M ngende Stimmritze nachahmt. Die Reiblaut-
- 27 ->
809808/0752
quelle simuliert den Klang der Luft, die durch eine Drosselöffnung1
strömt, wie dies bei der Aussprache der Phoneme "s", "f", Hh" i
auftritt. j
Die Vokal- und Reiblauterregersignale sowie die Kontrollsignale ;
für den Vokal trakt werden einer Reihe von in Kaskaden form ge schal-*
teten Resonanzfiltern zugeführt. Diese simulieren die mehrfachresonanten Hohlräume im menschlichen Vokaltrakt. Die Kontrollsignale stellen die charakteristischen Resonanzen des Filters so ein,'
daß das erzeugte Audiosignal das erwünschte FrequenzSpektrum auf- j
weist. '
Die beiden Geschwindigkeitsbits im ursprünglichen Eingangskommandc
wort werden in ein Einschaltdauer-Kontrolsignal umgewandelt, das dem Phonemtaktgeber zugeführt wird. Dieser bestimmt die Zeitdauer
der Erzeugung des bestimmten Phonems. Die drei verbleibenden Inflektionsbits im Eingangskommandowort werden dazu verwendet,
ein analoges Inflektionskontrollsignal zu erzeugen. Dieses wird der vokalen Erregerquelle zugeführt und bestimmt die "Tonhöhe"
oder Frequenz der glottalen Wellenform.
Die bevorzugte Ausfuhrungsform der vorliegenden Erfindung enthält
außerdem eine Schaltung, die automatisch das Inflektionsniveau verschiedener Phoneme in Übereinstimmung mit bestimmten Kontrollsignalen verändert. Im Ergebnis ist die vom vorliegenden System
erzeugte Stimme weniger monoton und klitjt natürlicher als diejeni
ge bekannter Systeme. Dies gilt insbesondere, wenn eine Handpro-
- 28 -
809808/0752
- 28 . 2736032
grairanierung der Inflektion unpraktisch ist oder nicht verwendet
wird.
Die vorliegende Erfindung benutzt weiter eine glottale Wellenform,
welche die Wirkung der menschlichen Stimmritze genauer simuliert.
I Die neue glottale Wellenform besitzt die Form eines verstümmelten
Sägezahns, die sowohl gerade als auch ungerade Harmonische erzeugt In der glottalen Wellenform wird außerdem ein Formant mit hoher
Frequenz zugegeben, der die Spektralenergie der Wellenform bei hohen Frequenzen erhöht. Die höhere Energie bei hohen Frequenzen
verbessert die relative Spektralamplitude der unteren Formanten
Der erfindungsgemäße Vokaltrakt wird dadurch verbessert, daß auch
das Resonanzfilter vierter Ordnung eine Beweglichkeit aufweist. Dies ist von besonderer Bedeutung, da dies erzielt wird, ohne j
daß zusätzliche Kontrollparameter erzeugt werden müssen. Letzteresj
würde die Komplexität des Systems erhöhen. Das vierte Resonanzfilter
wird vielmehr unter der Kontrolle desselben Kontrollsignales j variabel gemacht, welches den Ort des dritten Resonanzpoles be- j
s timmt.
Zur Simulation der verringerten Impedanz, die im menschlichen Vokaltrakt
auftritt, wenn die Stimmritze offen ist, werden im erfindungsgemäßen Vokaltrakt Vokalresonanzen unterdrückt. Hierzu ist
ein Schaltkreis vorhanden, der ein Rechteckimpuls mit variabler Impulsbreite erzeugt. Dessen Einschaltdauer ist proportional zur
809808/0752 " 29 "
Größe der glottalen Wellenform. Das Einschaltdauer-Signal für die qlottale Unterdrückung wird dann an eine Reihe von Analogtoren
gelegt, die über den Bandpass-Abschnitt der ersten drei Resonanzfilter im Vokaltrakt liegen. Der Effekt besteht darin, daß die auf
!offener Stimmritze beruhenden Resonanzen gedämpft werden, indem
die Bandbreiten der Resonanzfilter erhöht werden, wenn die Größe
ider glottalen Wellenform wächst.
!Schließlich verwendet die vorliegende Erfindung einen Kommando-,
Dekoder- und Kontrollkreis, der dem Programmierer die Möglichkeit gibt, das Gesamtvolumen und die gesamte Sprechrate des Audio-Ausgangssignals
zu variieren, über diesen Kreis kann in das iSprachmuster außerdem ein stummes Phonem eingefügt werden, das
iebenso wie ein stimmhaftes Phonem artikuliert wird. Dadurch wird
I zur Natürlichkeit der erzeugten Sprache beigetragen. Wie hiernach
ι ausführlicher beschrieben wird, wird das stumme Phonem hauptsächlich
zusammen mit bestimmten Phonemen verwendet, die natürlicher ,klingen, wenn ihr Artikuiationsmuster gebildet wird, bevor Erregerlenergie
dem Vokaltrakt zugeführt wird, bzw. v/enn deren Artikula-
tionsmuster eine kurze Zeitdauer hiernach noch aufrecht erhalten wird.
Der Kontrollkreis wird von einem besonderen 7-iUt-Phonemcode akti->
viert. Dieser unterscheidet das Kon trol lkorruuando von anderen Phonemkommandos.
Die verbleibenden fünf Bits im I'citrol ikommandowort
werden dazu verwendet, das gewünschte Klangniveau und die gewünschjte
Sprechrate auszuwählen, und anzugeben, ob die darauffolgende :
809808/0752
- 3ο - 2 / ο_ , L ;
ι
Phonemzeitdauer stumm sein soll. Das Kontrollkommandophonem verjbraucht nur Gin sehr kurzes Zeitintervall, so daß der normale phoinetische Aufbau nicht in bemerkenswerter Weise verändert wird.
Phonemzeitdauer stumm sein soll. Das Kontrollkommandophonem verjbraucht nur Gin sehr kurzes Zeitintervall, so daß der normale phoinetische Aufbau nicht in bemerkenswerter Weise verändert wird.
'Dies geschieht dadurch, daß die gewünschte Kommandoinformation verklinkt wird und dem Synthesizer das Kommando gegeben wird, sofort
zum nächsten Phonem v/eiterzugehen.
Ein Ausffihrungsbeispiel der Erfindung wird nachfolgend anhand der
Zeichnung näher beschrieben; es zeigen:
j Fig. la und Ib das Blockdiagramm eines erfindungsgemässen
! Sprachsynthesizers;
j Fig. 2 ein Schaltungsdiagramm eines Teils des in
! Fig. 1 dargestellten Systems;
■Fig. 3a die graphische Darstellung der Beziehung
zwischen der Fundamentalfrequenz der glottalen Wellenform und der Bewegung des ersten
Resonanzpoles über einen Bereich von Vokalphonemen ;
Fig. 3b die graphische Illustration der Veränderungen
in der Fundamentalfrequenz der glottalen
Wellenform über einen Bereich von Konsonan-
ten-Phonemumgebungen;
Fig. 4 eine Graphik, in der die Spektralenergie
' der glottalen Wellenform vor und nach der
; Zufügung einer hochpoligen Kompensation
j verglichen wird;
- 31 -
809808/0752
2736Ü32
dritter und vierter Ordnung im Vokaltrakt des in Fig. 1 dargestellten Systems;
und Kontrollschaltung des in Fig. 1 dargestellten Systems;
der Amplituden-Kontrollsignale, die von der Kommando-, Dekoder- und Kontrollschaltung
von Fig. 6 erzeugt werden, dargestellt ist;
verschiedenen Taktsignale in der Kommando-, Dekoder- und Kontrollschaltung von Fig. 6
dargestellt ist.
In Fig. 1 ist das Blockdiagramm eines erfindungsgemäßen Stimmen-Synthesizers dargestellt. Wie oben erläutert, wird dieses System
vorzugsweise mit einem digitalen Eingangskommandowort von 12 Bit betrieben. Sieben der 12 Eingangsbits werden zur Phonemwahl verwendet; sie werden zwei read-only memories (ROM) 12 und 14 geführt.
Für jedes der 128 möglichen Phoneme, die von den sieben Phonemauswahlbits identifiziert werden können, werden in den ROMs 12
und 14 16 verschiedene Parameter gespeichert. Diese definieren elektronisch jedes Phonem. Zusätzlich benötigt jeder Parameter
vier Auflösungsbits zur Erzeugung der serialisierten, binär gewichteten, digitalen Kontrollsignale, die oben erwähnt wurden.
- 32 -
809808/0752
- 32 - 2736U32
Daher ist der gesamte ROM-Bitbedarf 16 χ 4 χ 128, also 8192 Bit.
Dem kann entsprochen werden, indem irgendeine Zahl parallel geschalteter ROMs verwendet wird, die zur notwendigen Kapazität
führt. Das in Fig. 1 gezeigte System enthält zwei ROMs 12 und 14,
die jeweils eine 512 χ 8 Bitmatrix mit jeweils insgesamt 4o96 Bits umfassen. Selbstverständlich kann ein einziges ROM mit einer Kapazität von 8192 an die Stelle der beiden dargestellten ROMs 12,l4
gesetzt werden.
Die ROMs 12 und 14 werden unter der Kontrolle eines Zyklus-Adressierkreises 16 getaktet. Dieser liefert die richtige Zeitfolge
auf den Leitungen 18 und 19, welche die ROMs 12 und 14 zur Erzeugung der erwähnten, serialisierten, binär gewichtigten Kontrollsignale benötigen. Der Zykhis-Adressierkreis 16 ist an einen Taktgeber 2o angeschlossen, der Rechteck-Ausgangssignale mit einer
Frequenz von 2o kHz erzeugt. Das 2o kHz-Rechtecktaktsignal, welches vom Zyklus-Adressierkreis 16 empfangen wird, wird in Gruppen
von jeweils 15 Impulsen aufgeteilt, die ihrerseits in Zeitsegmente von acht, vier, zwei und einem Taktimpuls unterteilt werden. Auf
jeweils eine Gruppe aus fünfzehn empfangenen Taktsignalen, erzeugt der Zyklus-Adressierkreis 16 ein Ausgangssignal HI auf der Leitung
18 bzw. der MSB-Leitung während der Zeitsegmente 8 und 4, und ein HI-Ausgangssignal auf der Leitung 19 bzw. der LSB-Leitung während der Zeitsegmente 8 und 2.
Die serialisierten, binär gewichteten, digitalen Kontrollparameter,
die von den ROMs 12,14 erzeugt werden, enthalten vorzugsweise vier
809808/0752
Auflösungsbits. Mit anderen Worten: für je df j η Phonemparameter ent-
4 halten die ROMs 1? und 14 vier Informationsbits, was 2 oder 16
mögliche Werte pro Parameter orglbt. Um die vier Hits mit dem entsprechenden
Binärgewicht zu versehen, wird das erste oder bedeutendste der vier serialisierten Ausgangsbits im Kontrollnarameter er-
(logIsehe 1)
zeugt, wenn beide Signale auf den Leitungen 18,19 Hl/sind. Das
(logische 0)
zweite Bit wird erzeugt, wenn die LSB-Leitung LO/und die MiiU-Leitung HI ist; das dritte Bit, wenn die r.SB-I.eitung HE und die MSB-Leitung
LO ist; das; vierte oder am wenigsten bedeutende der vier Bits wird erzeugt, wenn sowohl die MSB- als auch die LSH-Leltung
LO Ist. Es ist also zu erkennen, daß das erste, bedeutendste
Bit über eine Zeltdauer von acht Taktlmpulsen hinweg, das zweite
Bit über eine Zeltdauer von vier Taktimpulsen hinweg, das dritte
Bit über eine Zeltdauer von zwei Taktimpulsen hinweg und das vierte
Bit über eine Zeltdauer von einem Taktimpuls hinweg erzeugt wird. Auf diese Weise kann ein Analogsignal digital als durchschnittliche
Größe des Kontroll:;Ignales über eine Impulsperlode von 15 Takten
dargestellt werden.
Obwohl an sich bekannt, werden die besonderen, von den ROMs 12,14 auf den Leitungen 22 erzeugten Kontrollsignalparameter hier kurz
erläutert, um dem Verständnis der Funktionswelse des Systems eine bessere Grundlage zu geben.
Die Kontrollsignale Fl und F2 bestimmen den Ort der Resonanzfrequenz-Pole
in den ersten beiden variablen Resonanz filtern Im Vokaltrakt 6o. Wie nachfolgend ausführlicher beschrieben wird, be-
- 31 -
809808/0752
. 34 - 2736Ü82
stimmt das Kontrollsignal F3 + F4 den Ort der Frequenz-Pole in den
variablen Resonanz filtern sowohl dritter als auch vierter Ordnung im Vokaltrakt 60. Die Kontrollsignale für Nasalschluß und Nasalfrequenz
werden immer dann erzeugt, wenn die Stimmengrößen "n",
"m" oder "ng" vorliegen. Sie simulieren die Energieabnahme, die im Stimmenenergiespektrum auftritt, wenn diese Phoneme gesprochen
werden. Das Kontrollsignal für den Nasalschluß bestimmt genauer die Menge der zu entfernenden Vokalenergie; das Kontrollsignal
für die Nasalfrequenz bestimmt die Frequenz, bei der die Energie verringert werden soll. Die Kontrollsignale für die Reiblautfrequenz
und den ReLblaut-low-pass arbeiten ebenfalls zusammen; diese werden
immer dann erzeugt, wenn Phoneme mit Reiblautenergie, z.B. "f" und "s" vorliegen. Diese Kontrollsignale formen die Reiblautanregungsenergie
spektral vor der Einführung in den Vokaltrakt Das Kontrollsignal für den Reiblaut-low-pass bestimmt im einzelnen
die Frequenz, oberhalb welcher die breitbandige Reiblaut-Anregungsenergie
ausgeschlossen wird. Das Kontrollsignal für die Reiblautfrequenz bestimmt die Frequenz, bei der die maximale, stimmlose
Energie auftritt. Das Kontrollsignal für die Übergangsrate wird bei jedem Phonem erzeugt; zusammen mit dem Ausgangssignal des
Geschwindigkeitskontrollkreises 3o, der nachfolgend beschrieben
wird, bestimmt es die Übergangsrate zwischen den stationären Zustünden
der oben erwähnten Kontrollsignale. Das Zeit-Kontrollsignal wird ebenfalls bei jedem Phonem erzeugt und bestimmt zusammen mit
dem Ausgangsnignal des Geschwindigkeitskontrollkreises 3o die Zeitdauer
der Produktion jeden Phonems. Ein Kontrollsignal für die Vo-
- 35 -
809808/0752
kaiamplitude wird immer dann erzeugt, wenn ein Phonem mit einer
stimmhaften Komponente vorliegt. Das Kontrollsignal für die Vokalamplitude
regelt die Intensität der stimmhaften Komponente im Audio-Ausgangssignal. Das Kontrollsignal für die Vokalverzögerung
wird bei bestimmten phonetischen übergängen zwischen Reiblaut und Vokal erzeugt, wo dfe Amplitude des Reiblaut-Bestandteils schnell
abnimmt und gleichzeitig die Amplitude des Vokalbestandteiles rasch anwächst. Wie bei der Beschreibung des Generatorkreises 38
für die Vokalverzögerung ausführlicher erläutert wird, identifiziert
das Kontrollsignal für die Vokalverzögerung diejenigen Fälle, in denen der Generator für die Vokalverzögerung die übertragung des
Kontrollsignals für die Vokalamplitude verzögern soll. Das Kontrollsignal
für den Schluß wird dazu verwendet, die Phonemwechselwirkung zu simulieren, die z.B. bei der Erzeugung des Phonems "b",
gefolgt vom Phonem "e", auftritt. Das Kontrollsignal für den Schluß führt, wenn es erzeugt wird, zu einer abrupten Amplitudenmodulation
im Audio-Ausgangssignal, welche den Aufbau und die
plötzliche Freigabe von Energie simuliert, die bei der Aussprache solcher Phonem-Kombinationen auftritt. Das Kontrollsignal für
die spektrale Vokalkontur ist ein weiteres Kontrollsignal, welches das vokale Energiespektrum spektral formt. Das Kontrollsignal
für die spektrale Vokalkontur steuert ein Tiefpass-Filter erster
Ordnung, welches die in den Vokaltrakt gebrachte Vokalenergie
; unterdrückt, wobei die größte Unterdrückung bei Vorliegen rein ; stimmloser Phoneme auftritt. Das Kontrollsignal F2Q variiert das
j"Q" oder die Bandbreite eines Resonanzfilters (F2) zweiter Ordnung
i '
! im Vokaltrakt 6o. Es wird hauptsächlich im Zusammenhang mit der ! - 36 - ;
809808/0782
Erzeugung nasaler Phoneme "η", "τη" und "ng" verwendet. Nasale
Phoneme besitzen typischerweise eine größere Energiemenge beim ersten Formanten (Fl) und einen wesentlich niedrigeren und breiteren
Energiegehalt bei höheren Formanten. Bei Vorliegen nasaler Phoneme wird daher das Kontrollsignal F2Q erzeugt, wodurch das
Q des Resonanz filters F2 verringert wird. Dieses verhindert aufgrund der Kaskadenanordnung der Resonanzfilter im Vokaltrakt 60,
daß nennenswerte Energiemengen die höheren Formanten erreichen. Das Kontrollsignal für die Reiblaut-Amplitude wird immer dann
erzeugt, wenn ein Phonem mit einer stimmlosen Komponente vorliegt. Es wild dazu verwendet, die Intensität der stimmlosen Komponente
im Audio-Ausgangssignal zu steuern. Schließlich wird ein Kontrollsignal für die Schlußverzögerung bei bestimmten phonetischen übergängen
zwischen Vokal und Reiblaut erzeugt, wo die Transmission der Kontrollsignale für den Schluß, die spektrale Vokalkontur,
F2Q und die Reiblaut-Amplitude so verzögert werden sollen, wie
dies für das Kontrollsignal für die Vokalverzögerung beschrieben wurde.
Die Kontrollparameter-Ausgangssignale des ROM 12 werden an eine erste Reihe relativ langsamer Übergangs filter 24 gelegt. Die
Übergangsfilter 24 sind absichtlich so gebaut, daß sie eine verhältnismäßig lange Ansprechzeit, bezogen auf die Dauer eines typischen
Phonems im Gleichgewichtszustand besitzt. Auf diese Weise werden abrupte Amplitudenveränderungen in den Kontrollausgangs-Signalen
des ROM 12 eliminert. Die Übergangsfilter 24 ergeben somit graduelle Veränderungen zwischen den Gleichgewichtsniveaus der
809808/0752 - 37 -
Kontrollsignalparameter und simulieren die glatten Übergänge zwischen
den Phonemen, die bei der menschlichen Sprache gegeben sind. Die Ansprechzeit dor Übergangs filter 24 wird vorzugsweise unter
dem Einfluß des Ausgangssignales des Übergangs-Kontrollkreises 26 gemacht. Der Übergangs-KontrolIkreis 26 kombiniert das Kontrollsignal
für die Ubergangsrate vom ROM 14 mit dem Ausgangssignal des
Geschwindigkeitskontrollkreises 3o und erzeugt ein Rechtecksignal mit fester Frequenz und variabler Impulsbreite, dessen prozentuale
Einschaltdauer die AnsprechEit der UbergangsfiLter 24 bestimmt.
Die beiden Geschwindigkeitsauswahlbits aus dem Eingangskommandowort
mit 12 Bit werden direkt an einen Phonemraten-Summierkreis 28 gelegt. Der Phonamraten-Summicrkreis 28 kombiniert die Geschv/indigkeitsauswahlbits
mit dem Ausgangssignal für die Sprechrate auf der Leitung 46 des Kommando- und Steuerkreises 5o. Die Summation
wird an den Geschwindigkeitskontrollkreis 3o gelegt. Der Geschwindigkeitskontrollkreis
3o erzeugt ein Rechteckausgangssignal mit variabler Impulsbreite, dessen prozentuale Einschaltdauer z.T. von
der Größe des Ausgangssignais des Phonemraten-Summierkreises 28
abhängt. Das Einschaltdauersignal für die Sprechrate vom Geschwindigkeits-Kontrollkreis
3o wird an den Übergangskontrollkreis 26 gelegt, sowie an den Phoneinzeitkreis 32, an ein Inflektionsfilter
52 und an eine zweite Reihe relativ langsamer ubergangsfiiter 31.
Wie zuvor erwähnt, kombiniert der übergangskontrollkrais 26 das
Ausgangssignal des Geschwindigkeitskontrollkreises 3o mit den Kontrollsignalen für die Übergangsrate des ROM 14 und erzeugt
- 38 -
809808/0752
das Einschaltdauer-übergangssignal, welches die Ansprechzeit der
ersten Reihe langsamer Übergangs filter 24 bestimmt.
Der Phonemzeitgeber 32 , der ebenfalls das Sprechrateneinschaltdauersignal
des Geschwindigkeitskontrollkreises 32 empfängt, erzeugt ein Rampensignal, das sich von 5 V auf O V in einer Zeitdauer verändert,
welche die Dauer der Phonemerzeugung bestimmt. Die Neigung des Rampensignals, das vom Phonemzeitgeber 32 erzeugt wird, hängt
sowohl von der Einschaltdauer des Sprechratensignals des Geschwindigkeitskontrollkreises
3o als auch von dem Wert des Phonemzeitsignals vom ROM 14 ab. Das Phonemzeitsignal vom ROM 14 bestimmt die
relative Produktionsdauer von jedem einzelnen Phonem, während der GeschwindigkeitskontrollkreLs 3o die Gesamtrate der Phonemproduktion,
d.h. die Sprechrate bestimmt.
Das Kontrollsignal für die Vokalamplitude des ROM 14 wird an einen
Modulationskreis 36 für die Vokalamplitude gelegt. Dieser moduliert
die Amplitude des Vokalamplituden-Kontrollsignals je nach der Größe des Volumen-Kontrollsignals, das auf der Leitung 48 von dem
Kommando- und Steuerkreis 5o empfangen wird. Das modulierte Vokalamplituden-Kontrollsignal
wird an einen Generator 38 für die Vokalverzögerung gelegt. Dieser verzögert die übertragung des Vokalamplitudenkon
trol Is ignals um eine bestimmte Zeitdauer, die geringer ist als die Dauer eines einzigen Phonemzeitintervalls, und
zwar immer dann, wenn ein Kontrollsignal für die Vokalverzögerung
vom ROM 14 abgegeben wird.
- 39 -
809808/0752
In entsprechender Weise wird das Kontrollsignal für die Reiblautamplitude
vom ROM 14 an einen Modulationskreis 4o für die ReIblautamplitude
gelegt. Dieser moduliert die Amplitude des Reiblautamplitudenkontrollsignals je nach der Größe des VoIumenkontroll signals,
das auf der Leitung 47 vom Kommando- und Steuerkreis 5o empfangen wird. Das modulierte Reiblautamplitudenkontrollsignal
wird an einen Generator 4 2 für die Schlußverzögerung gelegt. Dieser
funktioniert ebenso wie der Generator 38 für die Vokalverzögerung.
Zusätzlich werden die Kontrollsignale für den Schluß, die spektrale Vokalkont und F2Q an den Generator 4 2 für die Schlußverzögerung
gelegt. Dieser verzögert entsprechend die übertragung der erwähnten
Kontrollsignale um eine bestimmte Zeitdauer, die geringer ist als die Dauer eines einzigen Phonemzeitintervalls, und zwar immer dann,
wenn ein Kontrollsignal für die Schlußverzögerung vom ROM 14 abgegeben wird. Die Zeitverzögerungen, die von dem Generator 38 für
die Vokalverzögerung und dem Generator 4 2 für die Schlußverzögerung bewirkt werden, hängen von dem Zeitintervall des jeweiligen Phoneme
ab, das erzeugt wird. Dieses Zeitintervall wird vom Rampen-Ausgangesignal
vom Phonemzeitgeber 32 bestimmt.
Wie zuvor erörtert, stellen der Generator 38 für die Vokalverzögerung
und der Generator 4 2 für die Schlußverzögerung sicher, daß eine richtige Zeitfolge zwischen bestimmten Reiblaut-Vokal- und
Vokal-Reiblaut-Phonetikübergängen gewährleistet ist. Z.B. enthält der Vokal -Reiblautübergang bei der Aussprache des Buchstabens
;"s" einen Vokalbestandteil, dessen Amplitude rasch abnimmt, wäh-
- 4o - j
809808/0752
rend gleichzeitig die Amplitude des Reiblautbestandteiles rasch
anwächst. In diesem Fall verzögert der Generator 4 2 für die Abschlußverzögerung
die Transmission des Reiblautbestandteiles gegenüber dem Vokalbestandteil, so daß der rasche Anstieg in dem
Reiblautenergieniveau nicht im raschen Abnehmen des Vokalenergieniveaus verlorengeht. Vielmehr wird die Produktion des Reiblautbestandteiles
etwas zeitlich verzögert.
Die Ausgangssignale des Generators 38 für die Vokalverzögerung und des Generators 4 2 für die Schlußverzögerung werden an eine
zweite Reihe relativ langsamer Ubergangsfilter 34 gelegt. Diese
glätten die abrupten Amplitudenvariationen in den Kontrollsignalen ebenso, wie dies zuvor für die Übergangsfilter 24 beschrieben
wurde. Wie bei der ersten Reihe von Ubergangsfiltern 24 wird die Ansprechzeit der zweiten Reihe von Ubergangsfiltern 34 vom Sprechrateneinschaltdauersignal
des Geschwindigkeits-Kontrollkreises gesteuert. Die Ansprechzeit der zweiten Reihe von Übergangsfiltern
34 wird jedoch nur vom Sprechraten-Signal des Geschwindigkeitskontrollkreises
3o geregelt, wogegen die Ansprechzeit der ersten Reihe von Übergangsfiltern 24 zusätzlich vom Kontrollsignal für
die Ubergangsrate des ROM 12 kontrolliert wird. Dies geschieht deshalb, weil die Ubergangszeitgabe der Kontrollsignalparameter,
die an die zweite Reihe von Übergangsfiltern 34 gelegt werden,
nicht so kritisch ist, wie die Zeitgabe für die Kontrollsignalparameter, die an die erste Reihe von Übergangsfiltern 24 gelegt
werden. Die genaue Zeitgabe-Kontrolle, die vom Ubergangskontrollsignal
gewährleistet wird, ist daher nicht erforderlich.
- 41 - ;
809808/0752
- 41 - I I JOÜ'j,'
Die drei Inflektions-Auswahlbits vom 12-Bit-Eingnngskommandowort
werden direkt an ein Inflektionsfilter 5? gelegt. Dieses kombiniert
die binären, gewichteten Bits zu einem einzigen, analogen, Inflektionskontrollsignal.
Zusätzlich glättet das Inflektionsfilter 52
die abrupten Amplitudenveränderungen im Inflektions-Kontrollsignal
ebenso wie dies zuvor für die Ubergangsfilter 21,34 beschrieben
wurde. Die Ansprechzeit des Inflektionsfilters 52 wird ebenfalls
vom Sprechrateneinschaltdauersignal des Geschwindigkeitskontrollkreises 3o gesteuert.
Das Ausgangssignal des Inflektionsfilters 5 2 wird zu einer vokalen
Erregerquelle 54 geführt, welche die stimmhafte Erregerenergie bzw. glottale Wellenform erzeugt. Das Ausgangssignal des Inflektionsfilters
5 2 bestimmt die Höhe der Vokalenergie , die der Fundamentalfrequenz (F0) der glottalen Wellenform entspricht. Beider bevorzugten
Ausführungsform umfaßt die glottale Wellenform, die von der
vokalen Erregerquelle 54 erzeugt wird, im wesentlichen eine Sägezahnwelle, rfobei der negative Teil des Signales entfernt ist. Wie
hiernach ausführlicher erläutert wird, simuliert diese neuartige glottale Wellenform besser die Wirkungsweise der menschlichen
Stimmritze und verbessert damit die Natürlichkeit der erzeugten Sprache.
Um außerdem ein bestimmtes Ausmaß an automatischer Inflektionskontrolle
zu erzielen, wie sie bisher nicht erreichbar war, wird die Fundamental frequenz der glottabn Wellenform, die von der vokalen
Erregerquelle 51 erzeugt wird, variabel gemacht, je nach
- 12 -
809808/0752
2736Ü«;.'
den Veränderungen In den Kontrollsignalen Fl, nasaler Schluß, Vokalamplitude,
Schluß und Reiblautamplitude. Die erwähnten Kontrollsignale werden nämlich an einen Modulationskreis 56 für die Parameterinflektion
gelegt, der den Effekt der Kontrollsignale auf die Fundamental
frequenz der glottalen Wellenform moduliert.
Die Ausgangssignale der Übergangsfilter 24,34 werden an eine Reihe
von Analog-Einschaltdauer-l/andlern 53 gelegt. Im einzelnen umfassen
die Konverter 58 eine Mehrzahl von Komparatoren, deren einer Eingang
ein 2o kHz-Dreieckssignal vom Taktgeber 2o empfängt und deren anderer Eingang mit einem Kontrollsignal der Übergangs filter 24,34
verbunden ist. Die Komparatoren erzeugen Rechtecksignale mit variabler
Impulsbreite und fester Frequenz, deren prozentuale Einschaltdauer
der Größe der zugehörigen, an den Eingängen empfangenen Kontrollsignale
entspricht.
Die Kontrollsignale Fl, F2, F3 +Fl, F2Q, glottale Unterdrückung
und Schluß der Wandler 58 werden direkt an die Vokaltrakt-Filtereinheit
6o gelegt. Die Vokaltraktfiltereinheit 6o umfasst im wesentlichen
fünf in Serie geschaltete Resonanzfilter, von denen vier variabel sind, ein analoges Schlußtor und ein 2o kHz-Filter. Das
analoge Schlußtor spricht auf das Schluß-Einschaltdauerkontrollsignal
an und moduliert die Amplitude des Audio-Ausgangssignals; das 2o kHz-Filter schließt Effekte des Taktsignales auf das Audio-Ausgangssignal
aus. Die variablen Resonanzfilter Fl, F2, F3 liefern die ersten drei Resonanz-Formanten im Energiespektrum des Audio-Ausgangssignals;
sie sind jeweils unter dem Einfluß ihrer zugehöri-
809808/0752
2736Ü82
gen Einschaltdauer-Kontrollsignale abstimmbar. Das Resonanz filter
Fl ist über einen Frequenzbereich zwischen 25o Hz und ca. 800 Hz einstellbar. Das Resonanzfilter F2 ist über den Frequenzbereich
zwischen 76 Hz und 2400 Hz einstellbar. Das Resonanzfilter F3 ist
innerhalb des Frequenzbereiches zwischen 12oo Hz und 255o Hz einstellbar. Wie hiernach ausführlicher erläutert wird, ist auch das
Resonanzfilter F4, welches den vierten Formanten im Audio-Ausgangssignal liefert, variabel, ohne daß die Erzeugung eines zusätzlichen
Kontrollsignals erforderlich wäre. Das Resonanzfilter F4 wird nämlich vom selben Kontrollsignal abgestimmt, welches das Resonanzfilter F3 abstimmt. Es ist innerhalb des Frequenzbereiches zwischen
2400 und 37oo Hz variabel. Das Resonanzfilter F5 ist ein Festpolfilter, welches einen fünften Formanten im Audio-Ausgangssignal
bei ca. 44oo Hz beisteuert.
Die Resonanzfilter F2 und F5 in der Vokaltraktfiltereinheit 60 werden mit dem stimmlosen Erregersignal aus einer Reiblauterregersteuerung 6 2 gespeist. Nur die Resonanzfilter F2 und F5 empfangen
Reiblautenergie; es hat sich nämlich als hinreichend herausgestellt, nur bei diesen beiden Punkten im Vokaltrakt Reiblautenergie zuzuführen, um die Frequenzspektren aller Reiblautphoneme genau zu
I stimulieren. Die Reiblauterregersteuerung 6 2 empfängt das stimm- ;
ilose bzw. Reiblauterregersignal vom Reiblaut-Erregergenerator 64,
i ·
der die stimmlose PhonemgröBe der menschlichen Sprache erzeugt. i
Die Reiblauterregersteuerung 6 2 umfaßt im wesentlichen eine Gruppe'
analoger Steuergeräte, welche die Amplituden-, Frequenz- und Tief-; pass-Signaleigenschaften des Reiblaut-Erregersignals verändern, '
809808/0752
je nach den Einschaltdauer-Kontrollsignalen, die von den Analog-Einschaltdauerwandlern
58 empfangen werden. Der Reiblaut-Erregergenerator 64 besteht aus einer Rauschquelle, welche den Klang von
Luft, die durch eine Drosselöffnung strömt, simuliert, wie er bei der Aussprache der Phoneme "s", "f", "h" auftritt.
Der stimmhafte Signalanteil der vokalen Erregerquelle 54 wird
ebenfalls zur Vokaltraktfiltereinheit 6o über eine vokale Erregersteuerung 66 geführt. Die Vokalerregersteuerung 66 umfaßt in entsprechender
Weise eine Gruppe analoger Kontrollgeräte, welche die
Signaleigenschaften des stimmhaften Erregersignals verändern, je nach den Einschaltdauer-Kontrollsignalen für Vokalamplitude, spektrale
Vokalkontur, Nasalfrequenz und Nasalschluß, die von den Wandlern 58 empfangen werden.
Wie hiernach ausführlicher erläutert wird, enthält die in die Vokaltraktfiltereinheit
6o gespeiste Vokalenergie einen zusätzlichen Formanten, der zum stimmhaften Erregersignal durch einen hochpoligen
Kompensationskreis 68 addiert wird. Dadurch wird die spektrale Energie des Signales bei hohen Frequenzen erhöht. Zusätzlich wird
die stimmhafte Signalgröße an einen glottalen Unterdrückerkreis 7o gelegt, der im Vokaltrakt 6o eine resonante Unterdrückung bewirkt.
Dadurch wird die öffnung der Stimmritze bei der menschlichen Sprache simuliert; Der glottale Unterdrückungskreis 7o erzeugt
ein Einschaltdauerkontrollsignal, welches die Resonanz der Resonanzfilter
Fl, F2 und F3 dämpft. Wie hiernach ausführlicher erläutert
- 45 -
809808/0752
wird, bewirkt der glottale Unterdrückungskreis 7o eine maximale
Dämpfung während derjenigen Teile der glottalen Wellenform, welche der offenen Stimmritze entsprechen. Da zudem die menschliche
Stimmritze nur während der Erzeugung stimmhafter Phoneme aktiv
ist, liefert die glottale Unterdrückungseinheit 7o ihr Unterdrükkungseinschaltdauersignal
zum Vokaltrakt 60 nur während der Erzeugung stimmhafter Phoneme, wie dies durch den Empfang eines Vokalamplitudensignals
auf der Leitung 7 2 zur Kenntnis gebracht wird.
Schließlich ist ein Kommandodekoder- und Steuerkreis 5o vorhanden,
der die Gesamtgeschwindigkeit und Amplitude des Audioausgangssignals
regelt. Wie anhand der Fig. 6 ausführlicher erläutert wird, kann die gesamte Sprechrate und/oder das gesamte Sprechvolumen
des Audio-Ausgangnsignals nach einem Programm variiert werden,
in dem der Kommandokreis mit seinem vorgewählten, 7 Hit umfassenden Phonem-"Hamen" aufgerufen wird und die gewünschten Geschwindigkeits-
und/oder Volumenänderungen über die Auswahlbits für Geschwindigkeit bzw. Inflektion eingegeben werden. Zusätzlich
kann der Kommando-, Dekoder- und Steuerkreis 5o ein artikuliertes, 3tilles Phonem in das Sprachmuster einbringen, wodurch die menschliche
Sprache realistischer simuliert wird.
In Fig. 2 ist ein detailliertes Schaltdiagramm wichtiger Teile des in Fig. 1 dargestellten Systemes gezdgt. Wie zuvor bei der Beschreibung
des Blockdiagramms von Fig.l erwähnt wurde, werden drei
der 12 Bits des Eingangskommandowortes vorzugsweise der Programmie-
809808/0752 "46 "
-46- 273ÜÜ8 2
rung und Steuerung der Inflektion bzw. der Höhe des Audioausgangssignals
zugeordnet. Die drei Inflektionsbits verbessern die Sprachqualität,
indem die Verschiedenheit diskreter Inflektionsniveaus erhöht wird, die bei der Programmierung zur Verfugung stehen. Dies
geschieht, indem jedes der drei Eingangsdaten-Inflektionsbits 2 ,
7 8
2 und 2 mit einem Gewichtungswiderstand Rl, R2 bzw.R3 verbunden wird und die Gewichtungswiderstände an einem gemeinsamen Summierpunkt
78 verbunden werden. Das Ausgangssignal des Summierpunktes
78 wird dann auf das Inflektionsfilter 8o gebracht. Die Widerstandswerte
der Widerstände Rl, R2 und R3 sind so gewählt, daß sich acht mögliche Inflektionsniveaus ergeben. Im einzelnen hat
der Gewichtungswiderstand Rl, der mit dem am wenigsten signifikanten
Bit 2 verbunden ist, einen liiert, der viermal so groß fet wie der Wert des Gewichtungswiderstandes R3, der mit dem am
stärksten signifikanten Dit 28 verbunden ist, und doppelt so
groß wie der Wert des Gewichtungswiderstandes R2, der mit dem
mittleren Inflektionsbit 2 verbunden ist. Es ist also zu er-
kennen, daß der Beitrag des Inflektionsbits 2 zur Grosse des
Signals am Summierpunkt 78 doppelt so groß ist wie derjenige
des Inflektionsbits 2 und viermal so groß wie derjenige des Inflektionsbits 26. Das Inflektionsfilter 8o umfaßt ein verhältnismäßig
langsames Filter, dessen Ansprechzeit durch das Sprechrateneinschaltdauersignal des Geschwindigkeitskontrollkreises gesteuert
wird. Die verhältnismäßig langsame Ansprechzeit des Inflektionsf ilters 8o glättet die abrupten AmplitudenVariationen
im Signal am Summierpunkt 78 , die auftreten, wenn der Zustand der Eingangsinflektionsbits verändert wird.
- 47 -
809808/0752
Wie aus Fig. 1 erinnerlich ist, wird das Ausgangssignal des Inflektionsfliters
8o an die Vokalerregerquelle gelegt, welche die grundlegende, stimmhafte Phonemgröße erzeugt, die der vibrierenden
Stimmritze im menschlichen Vokaltrakt analog ist. Die Vokal-Erregerquelle umfaßt im wesentlichen einen Integrationsverstärker 82
und einen Verstärker 86. Das Ausgangssignal des Inflektionsfilters
8o wird über einen Kopplungswiderstand an den negativen Eingang des Integrators 8 2 gelegt. Der negative Eingang des Integrators
ist außerdem über den Widerstand R4 mit einer Vorspannung von +12V verbunden. Der positive Eingang des Integrators 8 2 ist über den
Widerstand R5 geerdet; der Ausgang des Integrators 82 ist über den Rückkopplungskondensator Cl zu seinem negativen Eingang zurückgeführt.
Da die Integration eines Signals mit konstantem Potential zu einem Rampensignal führt, ist zu erkennen, daß der Integrator
82 ein ins Negative gehendes Rampensignal erzeugt, dessen Neigung proportional zum Signal-potential am negativen Eingang ist. Der
Ausgang des Integrators 8 2 ist über einen Rückkopplungskreis aus den Widerständen R6, R7 und R8, der Diode Dl und dem Verstärker
zum negativen Eingang zurückgeführt. Der Zweck dieses Rückkopplungskreises besteht darin, den Ausgang des Integrators 82 zu Beginn
eines neuen Zyklus auf das ursprüngliche Potential zurückzustellen. Der Integrator 82 erzeugt somit eine sägezahnartige Welle,
wie im Signaldiagramm dargestellt, deren Frequenz mit der Größe des aus dem Infektionsfilter 8o kommenden Signales verknüpft ist.
Stimmhafte Signalgrößen, die sägezahnartige Form aufweisen, erzeugen,
wie bereits in der Vergangenheit erkannt wurde, natürlicher
809808/0752
- 48 - 2736QB?
klingende Sprache als andere Arten zuvor verwendeter Wellenformen,
z.B. die Impulsfunktion. Dies beruht hauptsächlich aufgrund der
Fähigkeit der Sägezahn-Wellenform, eine breitere Amplitudenverteilung sowohl gerader als auch ungerader Harmonischer zu erzeugen,
Die Grundsägezahnform wird jedoch drei fundamentalen Wirkungen der menschlichen Stimmritze nicht gerecht: (1) dem öffnen der
Stimmritze; (2) dem Schließen der Stimmritze; (3) der geschlossenen Stimmritze. Um die Wirkungen der menschlichen Stimmritze genauer
zu simulieren und damit eine natürlicher klingende Stimme zu erzeugen, wird die glottale Wellenform dahingehend modifiziert,
daß der Ausgang des Integrators 8 2 über einen Widerstand R14 mit dem negativen Eingang eines Verstärkers 86 verbunden wird. Der
positive Eingang des Verstärkers 86 ist geerdet. Der Ausgang des Verstärkers 86 ist über eine Diode D3 und einen Kurzschlußwiderstand
R15 zum negativen Eingang zurückgeführt. Die Diode D3 wirkt
als Rückkopplungskurzschluß für Signale, welche die Durchbruchsspannung
über-sehreiten; der Widerstand R15 ergibt eine lineare
Rückkopplung zum Widerstand 14 für Signale, die gegenüber Masse negativ sind. Es ist also zu erkennen, daß der Verstärker 86 im
Effekt das Signal des Integrators 8 2 invertiert und die Sägezahnform verstümmelt, indem die untere Hälfte des Signales subtrahiert
wird, wie dies im Signaldiagramm dargestellt ist.
Tatsächlich wird der Wert der Diode D3 vorzugsweise so gewählt,
daß etwas mehr als die Hälfte der Sägezahnform entfernt wird. Mit anderen Worten: Der Höhenabschnitt der Welle, die am Ausgang
des Verstärkers 86 liegt, umfaßt vorzugsweise mehr als 5o %
809808/0752
des Signales. Es wurden zwar Experimente mit einer Schaltung angestellt,
welche diesen Prozentsatz je nach der Erzeugung unterschiedlicher Phoneme variiert; die erhöhte Komplexität, die mit
der beträchtlichen zusätzlichen Schaltung verbunden ist, hat jedoch
den Einschluß dieser Schaltungsanordnung beim bevorzugten Ausführungsbeispiel verhindert. Es hat sich jedoch herausgestellt,
daß die feste Wellenform, die verwendet wird, für die meisten Zwecke mehr als ausreicht. Praktisch gesprochen, gibt es wenige
Fälle, in denen eine Veränderung der Abschnitthöhe des Signals
zu einem nennenswerten Unterschied in der Qualität des Audioausgangssignals führt.
Das Ausgangssiqnal des Verstärkers 86 nähert außerdem die menschlichen
Glottal-Eigenschaften besser an, indem die drei Fundamentalwirkungen
der menschlichen Stimmritze simuliert werden. Insbesondere simuliert der ins Positive gehende Teil der verstümmelten Wellenform
die öffnung der Stimmritze; der absteigende Teil der Welle simuliert das Schließen der Stimmritze und der gleichbleibende
Teil simuliert die geschlossene Stimmritze. Die sich ergebende glottde Wellenform trägt in signifikanter Weise der Tatsache Rechnung,
daß die menschliche Stimmritze schließt, kurz nachdem die maximale Erregung auftritt; hierdurch ist oine freie Resonanz
der Vokaitöne möglich. Da die verstümmelte glottale Wellenform eine maximale Erregung liefert, wenn das Signal seine Richtung
an der positiven Spitze umkehrt, int zu erkennen, daß die Wellenform
die "Ruhe" der menschlichen CI lot ta !wirkung simuliert,
indem eine inaktive Periode (entsprechend dor geschlossenen Stimm-
809808/0752 ~ 5o "
- 5ο -
2 7 3 6 U ο ζ
ritze) kurz nach denjenigen Teil des Signals eingefügt wird, indem
die maximale Erregung auftritt.
Die hier beschriebene neuartige glottale Wellenform int außerdem
insofern von Bedeutung, als sie auch zusammen mit dem nachfolgend beschriebenen glottalen Unterdrückungskreis verwendet wird, wodurch
eine glottale Unterdrückung vokaler Resonanzen erzeugt wird, wie sie ähnlich in der menschlichen Stimme von Natur aus auftritt.
Es ist bekannt, daß die Frequenz, bei der die menschliche Stimmritze
schwingt, nicht konstant bleibt. Die Variationen in der Fundamental frequenz oder die "Tonhöhe" der menschlichen Stimme
kann in zwei Grundkategorien eingeteilt werden: freiwillig und unfreiwillig. Freiwillige Veränderungen in der Tonhöhe sind diejenigen
Verschiebungen und Muster, die ein Individuum einer Botschaft mitgibt, um die Bedeutung eines bestimmten Wortes
anzudeuten oder eine bestimmte Emotion mitzuteilen. Unfreiwillige Veränderungen andererseits werden durch Veränderungen des
subglottalen Druckes und der Muskulatur hervorgerufen, die von Natur aus auftreten, wenn Vokale und Konsonante gesprochen werden.
Beachte z.B. die unfreiwillige "Veränderung" in der Fundamentalfrequenz
der Stimme bei den englischen Worten "beat" und "bat". Die Fundamental frequenz verringert sich unvermeidlich
im Wort "bat" und erhöht sich im Wort "beat". Dies beruht darauf, daß das Phonem "e" im Wort "beat" eine geringere Muskelanspannung
bei der Artikulation benötigt als das Phonem "ae" im Wort "bat". Da die Benutzer von Synthesizern häufig die Inflek-
809808/0752
tions-Kommandobits nicht verwenden, ist die Sprache, die ohne Einschluß
von Information über mindestens die unfreiwillige Inflektion erzeugt wird, sehr unnatürlich. Wenn der Synthesizer primär als
Konverter von gedrucktem Text ins Hörbare verwendet wird, wird die optimale Verwendung der Inflektionskommandobits außerordentlich
schwierig. Wenn weiter bei der Bauweise des Synthesizers eine Zuordnung der unfreiwilligen Inflektion enthalten ist, wird die
normale Inflektionsprogrammierung vereinfacht, da sie sich hauptsächlich
den freiwilligen Fundamental frequenz-Veränderungen widmen kann.
Bei dem vorliegenden Gerät erfolgt eine Inflektionszuordnung in
der Bauweise dadurch, daß die Eingangssignale am Integrator 82 je nach bestimmten, erkanten Inflektionsmustern verändert v/erden,
die mit der Erzeugung verschiedener Gruppen von Phonemen verbunden sind. In Fig. 3a ist die Beziehung zwischen der Fundamentalfrequenz
und dem Ort des ersten resonanten Formanten bei der Erzeugung
von Vokalphonemen dargestellt. Aus der Betrachtung dieser Darstellung folgt, daß die Fundamentalfrequenz umgekehrt mit Veränderungen
in der Position des ersten Formanten über das Spektrum der angegebenen Vokal-Phoneme variiert. Diese Beziehung wird hier
dadurch verwendet, daß der Ausgang des Ubergangsfilters Fl über einen Widerstand RIl mit dem positiven Eingang des Integrators 8 2
verbunden wird. Damit ist zu erkennen, daß die Differenz zwischen den Spannungswerten am positiven und negativen Eingang des Integrators
82 kleiner wird, wenn das Signal vom Ubergangsfliter Fl
wächst. Dies wiederum verringert die negative Steigung der Säge-
- 52 -
809808/0752
-52- 2736U82
zahnform am Ausgang des Integrators 82, die von der Spannung am
Kondensator Cl bestimmt wird. Die Verringerung der Steigung des ins Negative gehenden Teiles der Sägezahnform verlängert die
Wellenform, was natürlich die Frequenz des Signales herabsetzt. Auf diese Weise wird die Fundamentalfrequenz der glottalen Wellenform
automatisch umgekehrt mit den Veränderungen im Kontrollsignal Fl variiert, welches die Position des ersten Formanten kontrolliert.
In Fig. 3b ist die Position der mittleren Fundamentalfrequenz in der Umgebung verschiedener Konsonanten dargestellt. Wie aus der
Figur zu erkennen ist, ist die mittlere Fundamentalfrequenz bei
Vorliegen nasaler Phoneme, z.B. Mn", "m" oder "ng" typischerweise
niedriger. Diese charakteristische Inflektionsvariation wird dadurch
berücksichtigt, daß der Ausgang des nasalen Ubergangsfilters
über einen Widerstand Rio mit dem positiven Eingang des Integrators
8 2 verbunden wird. Auf diese Weise wird die Fundamentalfrequenz der glottalen Wellenform, die am Ausgang des Integrators 82 erzeugt
wird, verringert, wenn ein nasales Kontrollsignal vorliegt. Im einzelnen bewirkt das höhere Potential am positiven Eingang
des Integrators 8 2 , daß auf dem Vorliegen eines Signals aus dem nasalen Ubergangsfilter beruht, eine Verringerung der Neigung
des ins Negative gehenden Teils der Sägezahnform auf dieselbe Weise, wie dies zuvor anhand der Inflektions-Modifikation, die
j vom Kontrollsignal Fl erzeugt wird, beschrieben wurde . Die Fun-
damentalfrequenz der glottalen Wellenform verringert sich somit,
wenn nasale Phoneme erzeugt werden.
- 53 -
809808/0752
Aus Fig. 3b ist ferner zu entnehmen, daß bei Vorliegen von Reiblautphonemen, z.B. "f", "h", "s", oder "sch", die Fundamentalfrequenz der glottalen Wellenform eher ansteigt. Um dieser Inflektionseigenschaft Rechnung zu tragen, ist der Ausgang des Reiblautamplituden-Obergangsfilters über einen Widerstand R9 mit dem negativen
Eingang des Integrators 82 verbunden. Da ein Kontrollsignal für die Reiblautamplitude immer dann vorliegt, wenn ein Reiblautphonem
erzeugt wird, wächst das Potential am negativen Eingang des Integrators 82 bei Vorliegen eines Reiblautphonems. Indem das relative
Potential am negativen Eingang des Integrators 82 erhöht wird, wird die Zeitkonstante des Kreises verringert; dadurch wird die
Neigung des ins Negative gehenden Teils der Sägezahnform vergrößert. Dies wiederum erhöht die Fundamentalfrequenz des Ausgangssignales. Die Fundamentalfrequenz der glottalen Wellenform wird
also während der Erzeugung von Reiblautphonemen vergrößert.
Schließlich ist aus Flg. 3b zu erkennen, daß bei Vorliegen von Phonemen wie "b", "d" oder "g" die mittlere Fundamentalfrequenz
abnimmt. Um dieser Inflektionseigenschaft Rechnung zu tragen, muß eine Kombination von Kontrollsignalen ausgewählt werden, welche
eindeutig das Vorliegen dieser Phoneme identifiziert. Die Phoneme "b", "d" und "g" sind "Explosions"-Phoneme, bei denen die Erzeugung
eines SchlußkontrolIsiqnales erforderlich ist. Ein Schlußkontrollsignal wird jedoch auch für die "Explosions"-Phoneme "p", "t"
und "k" erzeugt. Wie die Fig. 3b darstellt, ist die mLttlore Fun-
«lameutalfroc[iien-2 für die Phoneme "p", "t" und "k" wesentlich größor uln elin mittlere Fundamental frequenz für die Phonon»! "b", "d"
809808/0752 "" 51 "
und "g". Um daher zwischen diesen beiden Gruppen von Phonemen zu
unterscheiden, muß ein weiteres Kontrollsignal zugefügt werden. Im einzelnen sind die Phoneme "b", "d" und "g" stimmhafte Stops,
wogegen die Phoneme "p", "t" und "k" stimmlose Stops sind. In-dem also das Ausgangssignal des Ubergangsfilters für die Vokalamplitude
genommen und eine logische "UND"-Funktion mit dem Ausgang des Übergangsfilters für Schluß gebildet wird, kann das Vorliegen
der Phoneme "b", "d" und "g" in eindeutiger Weise bestimmt werden. Diese Inflektionsmodifikation wird dadurch verwirklicht, daß
der Ausgang des Ubergangsfilters für die Vokalamplitude durch zwei in Serie geschaltete Widerstände R12 und Rl3 mit dem positiven Anschluß des Integrators 82 verbunden wird, und indem der Ausgang
des Ubergangsfilters für Schluß über eine Diode D2 zum Mittelpunkt der Widerstände R12 und Rl3 geführt wird. Bei einem Widerstandswert von R13, der wesentlich größer ist als derjenige von R12 funktioniert diese Schaltungsanordnung im Ergebnis als logisches UND-Tor. Das Potential am positiven Eingang des Integrators 82 wird
nur dann verringert, wenn ein Ausgangssignal sowohl vom Übergangsfilter für die Vokalamplitude als auch vom Ubergangsfilter für
Schluß erzeugt wird. Wenn also beide Kontrollsignale vorliegen, wird die Fundamentalfrequenz der glottalen Wellenform verringert.
Da die Parameter für die Inflektionsmodifikation an den Ausgängen
der übergangsfiltcr abgenommen werden, treten die Veränderungen
im Infiektionsnlvoau des Audioausganqssiqnals allmählich auf, wie
hei der natürlichen menschlichen Sprache. Es versteht rs ich, d.iß
die oben boschri ebone, automatische Inf lok ticmssteuorumf zusatz-
eü9808/0752
lieh zur programmierten Inflektionsveränderung erfolgt und weniger
dramatisch als letztere ist. Wenn jedoch das System hauptsächlich als Wandler zwischen gedrucktem Text und Ton verwendet werden soll,
können die automatischen Inflektionsvariationen ausgeprägter gemacht
werden, indem einfach die Widerstandswerte des Kreises verändert werden.
Wie zuvor bei der Beschreibung des Blockdiagramms von Fig. 1 erwähnt
wurde, enthält das System einen hochpoligen Kompensationskreis,
der die spektrale Energie der glottalen Wellenform bei hohen Frequenzen erhöht. Die Bezeichnung "hochpolig" bezieht sich
auf die Formanten, die hoch im Frequenzspektrum des Hörbereiches
liegen. Wenn sie auch innerhalb des Hörbereichs liegen, so tragen die hochpoligen Formanten anerkannterweise nicht zur Verständlichkeit
des Audioausgangs bei. Es hat sich jedoch herausgestellt, daß ihr Vorliegen die relative spektrale Energie beeinflußt, die
bei den niedrigeren, zur Verständlichkeit der Sprache beitragenden Formanten verfügbar ist. Demzufolge wird bei dem hier beschriebenen
System ein hochpoliger Kompensationskreis verwendet, der einen Formanten hoher Frequenz der glottalen Wellenform bei ungefähr
4ooo Hz hinzufügt. Dies geschieht, indem die verstümmelte glottale Wellenform, die am Ausgang des Verstärkers 86 erzeugt
wird, einem hochbedärapften, bi-quad-Resonator 96 zugeführt wird.
Der bi-quad-Resonator 96 ist ein Festpolfilter, der praktisch identisch mit den Resonanzfiltern ist, die im Vokaltrakt verwendet |
werden und genauer in Fig. 5 gezeigt sind. Ein Unterschied besteht darin, daß das Ausgangssignal des bi-quad-Resonators 96 vom
809808/0752 "56 "
Bandpass-ΛusgangsanSchluß anstelle des Lowpass-Ausgangs, wie im
Vokaltrakt, abgenommen wird. Das Ausgangssignal des bi-quad-Resonators 96 wird zu einem Summierpunkt 94 über einen Summierwiderstand R21 geführt. Auch die verstümmelte glottale Wellenform wird
über einen Summierwiderstand R2o zum Summierpunkt 94 geführt. Damit
enthält das am Summierpunkt auftretende Signal die verstümmelte glottale Wellenform unter Zugabe eines Formanten bei ungefähr 4ooo
Hz. Dies erhöht im Ergebnis die spektrale Energie der Wellenform bei hohen Frequenzen.
Die Position des Formanten, der zur glottalen Wellenform zugegeben
wird, liegt niedriger in der Frequenz als der höchste resonante Formant im Vokaltrakt. Diese Beziehung hat sich bei der Verbesserung der Qualität der erzeugten Sprache als besonders wichtig herausgestellt. Diese führt zu besseren Ergebnissen als dann, wenn
der zur glottalen Wellenform zugegebene Formant der höchste Formant im Sprachsystem ist.
In Fig. 4 ist der Effekt des bi-quad-Resonators 96 auf die spektrale Energie der glottalen Wellenform graphisch dargestellt.Die
mit "I" gekennzeichnete Kurve zeigt die spektrale Energie der glottalen Wellenform ohne den bi-quad-Resonator; die mit "II" gekennzeichnete Kurve stellt die spektrale Energie der glottalen
Wellenform nach Zufügen des bi-quad-Resonators dar. Aus dem Diagramm ist zu erkennen, daß die spektrale Energie der glottalen
Wellenform ohne hochpolige Kompensation bei höheren Frequenzen beträchtlich abnimmt. Bei Zugabe der hochpoligen Kompensation
809808/0752
wird die spektrale Energie der glottalen Wellenform jenseits von 4 kHz, was der Resonanzfrequenz des bi-quad-Resonators entspricht,
auf hohem Niveau gehalten.
Die hochpolige Kompensation ist besonders wichtig bei solchen Sprachsynthesizern,
wie sie in Fig. 1 beschrieben sind und bei denen der Vokaltrakt in Kaskaden- oder Serienschaltung liegende Resonanzfilter
verwendet. Dies beruht auf den inherenten Energieverlusten,
die im Erregungssignal eintreten, während es durch die niederfrequenten Resonatoren im Vokaltrakt geführt wird,
Zurück zu Fig. 2. Bevor das vokale Erregungssignal an die Vokal-Erregungssteuerung
gelegt wird, wird es durch ein Hochpassfilter 98 geleitet. Dieses filtert Frequenzen unterhalb von ca. 15o Hz
weg. Der Zweck des Hochpassfilters 98 besteht darin, die Energie
am unteren Frequenzende des Spektrums von der glottalen Wellenform abzuschneiden. Dies beseitigt im Ergebnis die "Basslastigkeit"
des Signals und läßt die "schärferen", hochfrequenten Teile der
glottalen Wellenform intakt; dadurch wird die Verständlichkeit der Sprache verbessert.
Wie aus der Erörterung der Fig. 1 erinnerlich sein wird, enthält das System einen glottalen Unterdrückungskreis. Dieser simuliert
die reduzierte Impedanz, die sich im menschlichen Vokaltrakt widerspiegelt,
wenn die Stimmritze offen ist. Der Zweck des glottalen Unterdrückungskreises kann genauer folgendermaßen beschrieben werden.
Der menschliche Vokaltrakt ist am einen Ende, dem Mund, ge-
809808/0752 "58 "
öffnet, jedoch nur während eines Teils der Zeit am anderen Ende,
der Stimmritze, geschlossen. Wenn die Stimmritze offen ist, führt dies dazu, daß die Impedanz im Vokaltrakt reduziert wird. Dies
wiederum resultiert in einer Dämpfung der Formant-Resonanzen. Diese Eigenschaft des menschlichen Vokaltrakts soll vom glottalen
Unterdrückungskreis simuliert werden. Das vokale Erregungssignal vom Verstärker 86, vgl. Fig. 2, wird durch ein Analogtor 88 und
einen Spannungsteiler aus den Widerständen R18 und Rl9 an den positiven Eingang eines Komparatorverstärkers 92 gelegt. Der negative Eingang des Komparatorverstärkers 92 ist mit dem 2o kHz-Dreiecks-Taktsignal verbunden. Der Komparatorverstärker 92 liefert
immer dann ein Signal an seinem Ausgang, wenn die Größe des am positiven Eingang liegenden Signals die Größe des am negativen
Eingang liegenden Signals übersteigt. Der Komparatorverstärker 92 erzeugt somit ein Ausgangssignal mit 2o kHz und variabler Impulsbreite, dessen prozentuale Einschaltdauer direkt proportional
dem Potential der glottalen Wellenform ist, die an seinem positiven Eingang liegt. Da die Frequenz des Taktsignales, welches
am negativen Eingang des Komparatorverstärkers 9 2 liegt, größenordnungsmäßig 2oo mal größer als die Frequenz der glottalen Wellenform, die am positiven Eingang liegt, ist, erscheint das Ausgangssignal des Komparators 92 als rasche Folge von Spitzen, die zunehmend breiter werden, wenn die glottale Wellenform an Größe zunimmt.
Wenn sich die glottale Wellenform ihrer maximalen Amplitude nähert, erscheint das Ausgangssignal des Komparatorverstärkers 92 im wesentlichen als Signal mit konstanter Höhe, unterbrochen durch eine
rasche Folge von zunehmend schmaler werdenden, ins Negative gehen-
809808/0752 " 59 "
den Spitzen. Während desjenigen Teiles der glottalen Wellenform,
welcher die geschlossene Stimmritze darstellt, d.h., während der konstanten Abschnitte der Wellenform, erscheinen keine Impulse
am Ausgang des Komparatorverstärkers 92.
Das Einschaltdauersignal für die glottale Unterdrückung, das am
Ausgang des Komparators 92 erzeugt wird, wird an die Vokaltraktfiltereinheit 6o gelegt.
In Fig. 5 sind die bi-quad-Resonanzfilter F3 und F4 aus der Vokaltraktfiltereihheit genauer dargestellt. Wie aus der Fig. hervorgeht,
wird das Einschaltdauersignal für die glottale Unterdrückung an den Steueranschluß eines Analogtors loo gelegt. Dieses liegt in
Reihe mit einem Widerstand R22. Die Serienschaltung ist über den "Q"- bzw. Bandpasswiderstand R23 des bi-quad-Resonators F3 geschaltet. Wenn im Betrieb das Analogtor loo offen ist, d.h., wenn
das Einschaltdauersignal für die glottale Unterdrückung gleich Null ist - erscheint der Widerstand R22 als unendlich groß und
hat somit keinen Effekt auf das Q des Resonanzfilters F3. Wenn die Einschaltdauer des glottalen Unterdrückungssignales anwächst,
beginnt das Analogtor loo zu leiten und verringert dabei den
effektiven Wert des Widerstandes R 22. Dies verkleinert das Q
; des Resonators. Wenn das glottale Unterdrückungssignal sich der
: maximalen Einschaltdauer nähert, erreicht der Widerstand R22 sei-
i
auf seinen minimalen Wert. Der Effekt besteht also darin, daß ■
die Resonanz gedämpft wird, die auf der offenen Stimmritze beruht,j
809808/0752 "6o "
wobei eine maximale Dämpfung auftritt, wenn die glottale Wellenform
ihren positiven Spitzenwert erreicht, der einer maximal offenen Stimmritze entspricht.
Das Einschaltdauersignal für die glottale Unterdrückung wird außerdem
zwei ähnlichen Analogtoren zugeführt, welche über die Bandpassabschnitte der bi-quad-Resonatoren Fl und F2 ebenso geschaltet
sind, wie dies für den Resonator F3 beschrieben wurde. Das Q aller drei bi-quad-Resonatoren Fl, F2 und F3 wird also während
der Glottalperiode in Übereinstimmung mit denjenigen Teilen der glottalen Wellenform variiert, welche das öffnen und Schließen
der menschlichen Stimmritze simulieren.
Im Gegensatz zur vokalen Erregerquelle des vorliegenden Sprach-Synthesizers
ist jedoch die Analogkomponente im menschlichen Sprachsystem, die Stimmritze, nicht loo % der Zeit aktiv. Insbesondere
während der Erzeugung stimmloser Phoneme ist die Stimmritze überhaupt nicht aktiv. Es ist also zu erkennen, daß der
Effekt der glottalen Unterdrückung nur während der Erzeugung
stimmhafter Phoneme vorliegen sollte. In Fig. 2 wird dies da-
! durch erzielt, daß das Ausgangssignal des Übergangsfilters für
j die Vokalamplitude dem positiven Eingang eines Komparatorverstärkers
9o zugeführt wird. Der negative Eingang des Komparatorverstärke
rs 9o ist mit dem Mittelpunkt eines Spannungsteilers aus zwei Widerständen R16 und R17 verbunden, die in Reihe zwischen
eine +8V-Spannungsquelle und Erde geschaltet sind. Der Ausgang des Komparatorverstärkers 9o ist mit dem Steueranschluß des Ana-
809808/0752 " 61 "
logtores 88 verbunden, welches als elektronischer Schalter funktioniert.
Der Komparatorverstärker 9o liefert ein Steuersignal zum Analogtor 88 nur dann, wenn ein Signal vom Übergangsfilter für
die Vokalamplitude anliegt. Da die Anwesenheit eines Kontrollsignals
für die Vokalamplitude die Anwesenheit eines stimmhaften Phonems andeutet, ergibt sich, daß das Analogtor 88 leitet. Daher
wird ein Einschaltdauersignal für die glottale Unterdrückung nur während der Erzeugung stimmhafter Phoneme gebildet. Während der
Erzeugung stimmloser Phoneme ist demzufolge das Analogtor 88 nicht leitend, was die Bildung eines Einschaltdauersignals für die glottale
Unterdrückung verhindert.
Zurück zu Fig. 5. Außer den Resonanzfiltern Fl, F2 und F3 ist auch
das Resonanz filter F4 variabel, um die Natürlichkeit der erzeugten Stimme zu verbessern. Bekannte Stimmensynthesizer enthalten typischerweise
vier oder fünf Resonanzfilter. Üblicherweise sind jedoch nur die ersten drei, Fl, F2 und F3, variabel. Es wurde zwar erkannt,
daß eine Beweglichkeit des vierten Resonanzfilters wünschenswert
ist; dies wird jedoch üblicherweise wegen der größeren Komplexität bei der Erzeugung zusätzlicher Daten oder Parameter nicht
getan. Man hält es für ausreichend, nur die ersten drei Resonanzfilter variabel zu machen. Es hat sich jedoch herausgestellt, daß
bis zu einem gewissen Grad die Bewegung des vierten Resonanzpoles der Bewegung des dritten Resonanzpoles folgt. Diese üezLehung benutzend
wird hier dem vierten Resonanzfilter eine Beweglichkeit einfach dadurch gegeben, daß ein Analogtor Io6 und ein Widerstand
Io8 dem bi-quad-Resonator F4 zugefügt werden und indem das Ein-
- 62 -
809808/0752
schaltdauersignal F3, welches die Position des Frequenzpoles im
Resonanzfilter F3 regelt, an den Steueranschluß des Analogtores Io6 gelegt wird. Es läßt sich somit erkennen, daß das Resonanzfilter
F4 variabel gemacht wird, ohne daß zusätzliche Daten oder Parameter erzeugt werden müssen. Dies geschieht einfach unter Verwendung
desselben variablen Kontrollsignales, welches das Resonanzfilter F3 betreibt.
In Fig. 6 ist ein Schaltungsdiagramm der Kommando-, Dekoder- und Steuereinheit 5o gezeigt. Im Schaltungsdiagramm von Fig. 6 sind
außerdem die Geschwindigkeitssteuerung, der Phonemratensummierer und die Modulationskreise für die Vokalamplitude und die Reiblautamplitude
enthalten.
Wie aus der Erörterung der Fig. 1 erinnerlich ist, ist jedem Phonem
eine bestimmte Zeitdauer zugeordnet, die vom Kontrollsignal für die Phonemzeit bestimmt wird. Dieses bestimmt die Normalzeit,
während der das Phonem erzeugt wird. Wenn die Zeitdauer eines bestimmten Phonems durch ein Programm variiert werden soll, sieht
das vorliegende System zwei Auswahlbits für die Rate vor, die dem Programmierer die Option für vier verschiedene Zeitdauern
für jedes herausgegriffene Phonem einräumen. Wenn die Raten-Auswahlbits nicht verwendet werden, wird jedes Phonem mit seiner
normalen Zeitdauer hergestellt. Wenn jedoch der Programmierer die Dauer eines bestimmten Phonems entweder erhöhen oder verringern
will, wird die entsprechende Veränderung über die beiden ι Raten-Auswahlbits eingegeben. Außerdem kann bei Anwendungsfällen
809808/0752 "63 "
zur Textaudioumwandlung dasselbe Phonem unter programmierter Steuerung stärker oder weniger betont werden, indem die Raten-Auswahl -bits verändert werden.
Eine programmierbare Geschwindigkeitskontrolle wird dadurch geschaffen, daß die beiden Ratenbits 2 und 2 ° an einem Summierpunkt 128 über zwei Gewichtungswiderstände R3o bzw. R31 zusammengeführt werden. Der Widerstand R3o wird so gewählt, daß er den
doppelten Wert des Widerstands R31 besitzt. Dadurch wird das Bit 2 das weniger bedeutende Bit und das Bit 2 ° das stärker
bedeutende Bit. Der Summierpunkt 128 ist außerdem über den Widerstand R28 mit einer -8 V-Sp annungs quelle verbunden. Das Ausgangssignal des Summierpunktes 128 ist mit dem negativen Eingang eines
Summierverstärkers 13o verbunden. Der positive Eingang des Summierverstärkers 13o ist geerdet; sein Ausgang ist über einen Rückkopplungswider stand R32 zu seinem negativen Eingang zurückgeführt.
Der Summierverstärker 13o wirkt im Ergebnis als Strom-Spannungswandler; er liefert ein analoges Ausgangssignal, dessen Größe
proportional zur Stromgröße am Summierpunkt 128 ist. Wenn beide Raten-Auswahlbits auf eine logische O gestellt sind, bewirkt das
j über den Widerstand R28 angelegte -8V-Vorspannungspotential einen
minimalen Strom am Summierpunkt 128. Dies wiederum legt die mini-j
male Spannung am Ausgang des Summierverstärkers 13o fest. Bei I
der bevorzugten Ausführungsform werden die Schaltungswerte so ge- ;
wählt, daß diese Spannung ca. 2,3 V beträgt. Der Ausgang des Sum-j
mierverstärkers 13o ist mit der Oberseite eines Ratenpotentiometeifs
R33 verbunden, dessen anderes Ende geerdet ist. Der Abgriff des
809808/0752 "64
2736Ü82
Potentiometers R33 ist mit dem positiven Eingang eines Komparatorverstärkers 132 und über einen Kondensator C2 mit Erde verbunden.
Der negative Eingang des Komparatorverstärkers 132 ist mit dem 2o kHz-Dreiecks-Taktsignal verbunden. Der Komparatorverstärker
erzeugt ein Ausgangssignal variabler Impulsbreite bei 2o kHz, dessen Einschaltdauer durch die Größe des am positiven Eingang liegenden
Signals bestimmt. Das Potential des Signals, welches am positiven Eingang des Komparatorverstärkers 132 liegt, kann entweder von
Hand durch Einstellen des Potentiometers R33 oder durch Veränderung
des Stroms am Summierpunkt 128 variiert werden. Letzteres verändert
die Spannung an der Oberseite des Ratenpotentiometers R33. Der logische Zustand der beiden Geschwindigkeits-Auswahlbits beeinflußt
also die Stromgröße am Summierpunkt 128. Diese wiederum bestimmt die Einschaltdauer des Sprechraten-Signals, das am Ausgang des
Komparatorverstärkers 132 erzeugt wird. Bei der bevorzugten Ausführungsform werden die Geschwindigkeits-Auswahlbits normalerweise
auf eine logische "öl" gesetzt; hierdurch werden zwei Niveaus der "Vergrößerung" und ein einziges Niveau der "Verringerung" in
der Einschaltdauer des Sprechraten-Signals möglich. Wie aus Fig. 1 erinnerlich ist, wird das Sprechraten-Einschaltdauersignal vom
Koraparatorverstärker 132 zum Phonem-Zeitgeber geführt, wo es mit
dem Kontrollsignal für die Phonemzeitgabe kombiniert wird. Hierdurch wird die Neigung der Zeitrampe bestimmt, die vom Phonem- ;
zeitgeber erzeugt wird. Es ist somit zu erkennen, daß die beiden Geschwindigkeits-Auswahlbits eine Möglichkeit geben, die Zeitgabe
der einzelnen Phoneme nach Programm zu variieren.
- 65 -
809808/0782
Der weiter vorhandene Kommando- Dekoder- und Kontrollkreis gibt dem System die Fähigkeit, nach Programm das Gesamtvolumen und
die Sprechrate des Audioausgangssignals zu variieren. Die bevorzugte Ausführungsform dieses Kreises, die in Fig. 6 gezeigt ist,
ist so gebaut, daß sie die invertierte Logik des Eingangskommandowortes empfängt. Es versteht sich somit, gewissermaßen als allgemekie
Anmerkung bei der Beschreibung dieses Kreises, daß das Vorliegen eines Signals durch eine logische "O" und die Abwesenheit
eines Signals durch eine logische "1" gekennzeichnet ist.
Wie das Schaltungsdiagramm von Fig. 6 darstellt, erhält der Kontrollkreis
alle 12 Eingangsbits vom Eingangskommandowort. Dem Kontrollkreis ist ein besonderer "Name" aus sieben Bit zugeordnet,
der auf den sieben Phonemauswahleingangsleitungen zum "Aufruf" des Kontrollkreises eingegeben wird. Die sieben Phonem-Auswahlblts
werden einem logischen Kreis Ho zugeführt, der die auf den sieben Phonemauswahleingangsleitungen liegende Information dekodiert
und feststellt, wann der Kontrollkreis aufgerufen wird. Bei der dargestellten bevorzugten Ausführungsform ist dem Kontrollkreis
der Name 11OOOOOOO" zugeordnet. Der logische Kreis Ho
wirkt somit praktisch als ODER-Tor mit sieben Eingängen; er liefert nur dann ein Ausgangssignal LO, wenn alle sieben Phonemauswahlbits
auf eine logische 0 gesetzt sind.
Wenn der Kontrollkreis aufgerufen wird, werden zwei der Inflektionsauswahlbits,
2 und 2 , als Amplitudenauswahlbits verwendet.
Die beiden Geschwindigkeitsauswahlbits werden dazu verwendet, die
809808/0752 - ™ '
gesamte Sprechrate des Audioausgangs zu variieren. Außerdem wird
das dritte Inflektionsauswahlbit, 2 , als Bit für stumme Phoneme verwendet, dessen Funktion nachfolgend ausführlicher erläutert
wird. Jedes der vier Amplituden- und Geschwindigkeitsbits ist mit einem von vier logischen NOR-Toren 112,114,116,118 verbunden.
Wenn der logische Kreis Ho ein Ausgangssignal LO auf der Leitung 111 abgibt, somit andeutet, daß der Kontrollkreis aufgerufen ist,
werden die NOR-Tore 112,114,116,118 in Funktion gesetzt. Mit anderen Worten: Wenn der Kontrollkreis aufgerufen wird, reflektieren
die Ausgangssignale der NOR-Tore 112,114,116 und 118 die invertierten logischen Zustände der Amplituden- und Geschwindigkeitsauswahlbits.
Die Ausgangssignale der vier NOR-Tore 112,114,116,118 werden jeweils dem Dateneingang (D) eines J-K-Flipflops 12o,122,124, bzw.
126 zugeführt.
Die Flipflops 12o,122,124,126 werden von dem Taktsignal getaktet,
das auf der Leitung 135 vom Ausgang eines exklusiven NOR-Tores empfangen wird. Ein Eingang des exklusiven NOR-Tores 137 liegt auf
Erde; der andere Eingang ist mit demAusgang des NOR-Tores 134 verbunden. Ein Eingang des NOR-Tores 134 ist mit dem Ausgang eines
Zeitverzögerungsnetzwerkes 136 verbunden,das aus einem Widerstand R35 und einem Kondensator C4 besteht. An seinem anderen Eingang
ist das NOR-Tor 134 mit dem Q-Ausgang des J-K-Flipflops 154 verbunden.
Das Zeitverzögerungsnetzwerk 136 empfängt ein verzögertes Signal auf der Leitung 131 von einem anderen Zeitverzögerungsnetzwerk
138. Dieses besteht aus dem Widerstand R 34und dem Kondensator C3 und empfängt das echte Steuersignal vom Ausgang des
809808/0752 "67 "
logischen Kreises llo auf der Leitung 111.
Für den Augenblick sei angenommen, daß der Q-Ausgang des Flipflops
154 auf eine logische O gesetzt ist. Wenn das Signal auf der Leitung 131 LO wird, wird das Ausgangssignal des NOR-Tores 134 HI.
Dadurch wird auch der Ausgang des exklusiven NOR-Tores 137 HI , was die Flipflops 12o,122,124,126 taktet und die am Dateneingang
der Flipflops liegenden Daten eingibt. Der Zeitverzögerungskreis 138 stellt sicher, daß die Daten von den Amplituden- und Geschwindigkeitsauswahlbits an den Eingängen der Flip-Flops 12o,122,124,126
vor dem Taktsignal auf der Leitung 135 ankommen. Wenn der Kontrollkreis also aufgerufen wird, werden die (invertierten) der Amplituden-
und Geschwindigkeitsauswahlbits auf die Q-Ausgänge der vier J-K-Flipflops 12o,122,124,126 übertragen.
Die beiden Kontrollflipflops 124,126 für die Sprechrate sind mit
ihrem Q-Ausgang über zwei Gewichtungswiderstände R27 bzw. R29 mit dem Summierpunkt 128 verbunden. Der logische Zustand der Q-Ausgänge der Flipflops 124,126 beeinflußt also die Stromgröße am
Summierpunkt 128, der, wie zuvor erörtert, den Spannungswert an der Oberseite des Ratenpotentianeters R33 bestimmt.
Der Gewichtungswiderstand R27 wird vorzugsweise so gewählt, daß
er einen Wert hat, der ca. halb so groß wie der Wert des Widerstands R29 ist. Der logische Zustand des Flipflops 124 hat einen
größeren Einfluß auf die Stromgröße am Summierpunkt 128 als der logische Zustand des Flipflops 126. Das O-Dekodersignal auf der
— 6fl —
809808/0752
Leitung 139 ist mit dem Rückstellanschluß R des Flipflops 124 und
mit dem Setzanschluß £) des Flipflops 126 verbunden. Die O-Dekoderleitung stellt die J-K-Flipflop auf ihren logischen Normalzustand
vor. Der logische Zustand des Q-Ausgang des Flipflops 124 wird also normalerweise auf eine logische "O" und der logische Zustand
des QAusgangs des Flipflops 126 normalerweise auf eine "1" gesetzt.
Von der normalen Einstellung her sind also zwei Niveaus der "Vergrößerung" und ein einziges Niveau der "Verringerung" für die
Gesamtsprechrate des Audioausgangssignales verfügbar.
Bei der bevorzugten Ausfuhrungsform ist weiter der Wert des Widerstands R29 (der größer als R27 ist) geringer als der Wert des
Widerstands R31 (der halb so groß wie der Widerstand R3o ist). Auf diese Weise sind die Gesamtveränderungen in der Sprechrate des
Audio-Ausgangssignals, die durch Variationen in dem logischen
Zustand der Flipflops 124 und 126 beim Aufruf des Kontrollkreises erzeugt werden, stärker ausgeprägt, als die Fluktuationen in den
relativen Zeitdauern der einzelnen Phoneme, die durch Veränderungen
9 in den logischen Zuständen der Geschwindigkeitsauswahlbits 2
und 2 °, die über die Widerstände R3o und R31 zugeführt werden,
erzeugt werden.
Da der logische Zustand der Flipflops 124 und 126 gleichbleibt,
bis sie an ihrem Takteingang (CL) einen neuen Taktimpuls empfangen,:
/ I
bleibt eine programmierte Veränderung in der Gesamtsprechrate des \
Systems nach der Dauer des Kontrollphonems erhalten. Veränderungen in dem logischen Zustand der Flipflops 124,126 bleiben nämlich, un
- 69 -
809808/0752
geachtet nachfolgender Einstellungen der beiden Geschwindigkeitsauswahlbits, fixiert, bis das Kontrollphonemkoiranando wieder auftritt. Die Zeitgabe der einzelnen Phoneme kann somit über die
Geschwindigkeitsauswahlbits nach Programm eingestellt werden oder es kann die Gesamtsprechrate des Audioausgangssignals über das Kontrollkommando und den Kontrollkreis in Kombination mit den beiden
Geschwindigkeits-Auswahlbits nach Programm verändert werden.
Im Amplitudenkontrollabschnitt des in Fig. 6 dargestellten Schaltkreises sind die Q-Ausgänge der Flipflops 12o und 122 für die Volumenkontrolle über zwei Gewichtungswiderstände R24 bzw. R25 mit
einem Summierpunkt 14o verbunden. Der Summierpunkt 14o ist außerdem über den Widerstand R26 an eine +5V-Vorspannung gelegt. Die
logischen Zustände der Flipflops 12o,122 kontrollieren also zusammen mit dem Anteil der +5V-Vorspannung den Stromwert am Summierpunkt
14o. Das +SV-Vorspannungspotential, welches über den Widerstand R26 anliegt, bestimmt den minimalen Strom am Summlerpunkt 14o, wenn
die Q-Ausgänge der Flipflops 12o,122 beide auf eine logische "0" gesetzt sind. Das Ausgangssignal des Summierpunktes 14o wird zwei
Analogtoren 14 2,144 zugeführt. Die Steueranschlüsse der Analogtore 14 2,144 sind so geschaltet, daß sie die Kontrollsignale für die
Reiblautamplitude bzw. die Vokal amplitude vom ROM 14 empfangen.
Die anderen Seiten der Analogtore 14 2 und 144 sind jeweils mit dem positiven Eingang eines Operationsverstärkers 15o bzw. 152
über zwei weitere Analogtore 146 bzw. 148 verbunden, deren Funktion später erläutert wird.
- 7o -
809808/0752
Die Verstärker 15ο,152 sind als Spannungsfolger geschaltet, wobei
ihre positiven Eingänge über die Widerstände R36 bzw. R37 geerdet und ihre Ausgänge zu den negativen Eingängen zurückgeführt sind.
Auf diese Weise bilden die Verstärker 15o und 152 einen Treiber mit geringer Impedanz für die Schlußverzögerungs- und VokalverzÖ-gerungs-Kreise,
an welche die Ausgangssignale der Verstärker 15o bzw. 152 angelegt sind.
Die Größe der Kontrollsignale für die Reiblautamplitude und die
Vokalamplitude wird auf folgende Weise moduliert. Dabei wird zusätzlich auf Fig. 7 bezug genommen. Der Summierpunkt 14o liefert
ein Signal mit konstantem Potential zu den Analogtoren 142,144, dessen Größe, z.B. 3 V, vom logischen Zustand der Flipflops 12o,
122 bestimmt wird. Wenn die Analogtore 142 und 144 dauernd von den Kontrollsignalen für die Reiblautamplitude und die Vokalamplitude
durchgesteuert würden, würden die Analogtore 14 2,144 sich wie einfache Leiter darstellen. In diesem Fall würde das konstante
Potential vom Summierpunkt 14o einfach auf die positiven Eingänge der Verstärker 15o,152 unverändert übertragen. Wie jedoch erinnerlich
ist, enthalten die Kontrollsignale für die Reiblautamplitude
und die Vokalamplitude vom ROM 14 zeitgewichtete Rechtecksignale
mit variabler Impulsbreite, deren Größe zwischen 0 und 5 V variiert. Wenn also die Amplituden-Kontrollsignale vom ROM 14 "HI" sind,
führen die Analogtore 14 2 und 144 das Signal vom Summierpunkt 14o. Wenn umgekehrt die Amplitudenkontrollsignale vom ROM 14 "LO"
sind, wirken die Analogtore 14 2 und 144 als offene Schalter und !verhindern die übertragung des Signals vom Summierpunkt 14o.
809808/0752
Wie in Fig. 7 gezeigt, umfassen somit die Ausgangssignale der Analogtore 14 2,144 Rechtecksignale mit variabler Impulsbreite, deren
Einschaltdauer das äquivalent zur Einschaltdauer der Kontrollsignale für die Reiblaut-Amplitude und die Vokalamplitude ist, deren
Spannungs-"Swing" jedoch auf die Größe des Signals vom Summierpunkt 14o beschränkt ist. Mit anderen Worten, die von den Analogtoren 14 2 und 144 erzeugten Ausgangssignale entsprechen den Kontrollsignalen für die Reiblautamplitude bzw. die Vokalamplitude mit
der Ausnahme, daß die Amplitude der Signale so moduliert ist, daß sie dem Spannungspotential am Summierpunkt 14o entspricht. Da somit der Wert der Amplitudenkontrollsignale durch ihre durchschnittliche Amplitude innerhalb einer Zeitdauer von 15 Taktimpulsen bestimmt wird, wird das Volumen des Audioausgangssignales entsprechend verändert. Da weiter die logischen Zustände der Flipflops
12o und 122 konstant bleiben, bis ein weiteres Kontrolltaktsignal über die Leitung 135 empfangen wird, dauert die Gesamtveränderung
im Volumen des Audioausgangssignales an, bis ein darauffolgendes Kontrollkommando auftritt, unabhängig von Veränderungen in den
beiden Inflektionsauswahlbits 2 und 2 .
Die Nulldekoderleitung 139, welche die normale Amplitudeneinstellung bewirkt, ist mit dem Rückstelleingang des Flipflops 12o und
dem Setzeingang des Flipflops 122 verbunden. Da das Flipflop 12o das weniger bedeutende Bit und das Flipflop 122 das bedeutendere
Bit liefert, erlaubt die normale Amplitudeneinstellung vorzugsweise zwei Niveaus der Verringerung und ein einziges Niveau der
- 72 -
809808/0752
2736Ü82
Wie zuvor erwähnt, gibt die Kommando-, Dekoder- und Kontrolleinheit
dem System auch die Fähigkeit, ein artikuliertes, stummes Phonem in das Sprachmuster einzufügen. Hierzu sei die Schaltungsanordnung
von Fig. 6 betrachtet. Das Ausgangssignal des logischen Kreises Ho wird zusätzlich an einen Eingang eines NOR-Tores 156 mit dua-
lern Eingang gelegt. Das stumme Phonembit 2 ist mit dem anderen Eingang des NOR-Tores 156 verbunden; das Ausgangssignal des NOR-Tores
156 ist an den Dateneingang des J-K-Flipflops 154 gelegt.
Es ist also zu erkennen, daß beim Aufruf des Kontrollkreises, wie er durch das Ausgangssignal LO des logischen Kreises Ho zum Aus-
druck kommt, und wenn das stumme Phonembit 2 auf eine logische O
gesetzt wird, das Ausgangssignal des NOR-Tores 156 III wird. Der Q-Ausgang des Flipflop 154 ist mit den Steueranschlüssen der Analogtore
146 und 148 verbunden. Da die 0-Dekoderleitung 139 mit dem Rückstellanschluß des Flipflop 154 verbunden ist, liegt der
Q-Ausgang des Flipflop 154 normalerweise HI. Deshalb leiten normalerweise die Analogtore 146 und 148. In Abwesenheit eines stummen
Phonems werden somit die Kontrollsignale für die Reiblaut-Amplitude und die Vokal-Amplitude von den Analogtoren 146 bzw.
148 geführt. Bei Vorliegen eines stummen Phonems jedoch wird ein Signal HI an den Dateneingang des Flipflop 154 gelegt; hier-
!durch wechselt der logiahe Zustand des Q auf LO, wenn ein entsprechendes
Taktsignal für stummes Phonem auf der Leitung 158 an
I i
!den Takteingang des Flipflop 154 gelangt. In diesem Fall werden
i !
die Analogtore 146 und 148 nicht leitend und verhindern somit j die übertragung der Kontrollsignale sowohl für die Reiblautamplitude
als auch die Vokalamplitude. In Abwesenheit der beiden Ampli-
809808/0752 - 73 -
tuden-Kontrollsignale werden weder stimmhafte noch stimmlose Erregersignale
in den Vokaltrakt gegeben.
Obwohl zwar die Dauer des Kommandophonems außerordentlich kurz ist, ist, wie hiernach ausführlicher erläutert wird, die Dauer
des stummen Phonems der Zeitdauer eines normalen stimmhaften Phonems äquivalent. Das Artikulationsmuster jeden Phonems kann
demzufolge während der Zeitdauer des stummen Phonems, dem Kontrollkonunando
folgend, erzeugt werden. Der Hauptvorteil dieses Merkmals besteht darin:
Theoretisch sollte zwar jeder gewünschte Sprachklang durch die entsprechende Phonemkombination erzeugt werden können. In Wirklichkeit
gibt es jedoch bestimmte Sprachklänge, die einfach nicht unter Verwendung von Phonemen allein genau wiedergegeben werden
können. Beispielsweise Worte mit Vokalanfangen, sowie Worte, die
mit den Buchstaben "1" oder "w" beginnen, sind Worte, bei denen die Artikulationsmuster gebildet werden, bevor die tatsächliche
Aussprache des Wortes anfängt. Beachte insbesondere, wie sich der Mund zur Aussprache der englischen Worte "oak", "ear", "like",
"walk" vorbereitet, bevor die Worte tatsächlich gesprochen werden. Ohne diese Vorbereitung beginnen diese Worte zu abrupt und klingen
unnatürlich, als ob das erste Phonem jeden Wortes teilweise fallengelassen worden wäre.
Das Merkmal des stummen Phonems kann zur Simulation dieser Artikulationseigenschaft
der menschlichen Sprache verwendet werden;
809808/0752 - 74 -
es bildet die Möglichkeit, daß das Artikulationsmuster eines bestimmten
Phonems eingestellt wird, bevor das Phonem tatsächlich erzeugt wird. Wenn z.B. ein Wort, das mit dem Buchstaben "w" beginnt,
erzeugt werden soll, ruft die bevorzugte Folge von Eingangskommandoworten ein stummes Kontrollphonem,gefolgt von zwei Phonemen
"w" auf. Obwohl also das erste Phonem "w", welches dem Kontrollkommando folgt, nicht vokalisiert wird, wird auf diese Weise
das Artikulationsmuster des Phonems "w" während der Zeitdauer des stummen Phonems dennoch gebildet. Demzufolge ist bei im voraus
eingestelltem Artikulationsmuster, wie bei der menschlichen Sprache, die Vokalisation des zweiten Phonems "w" ausgeprägt
glatter und natürlicher klingend.
Das Merkmal des stummen Phonems kann außerdem dazu verwendet werden,
die Spracherkennung bestimmter Laute am Ende von Worten zu verbessern. Insbesondere Worte, deren Ende "abzufallen" neigen,
z.B. diejenigen, die mit nasalen Phonemen enden, klingen, als ob ein zusätzliches Phonem da wäre, wenn das Artikulationsmuster
des letzten Phonems abrupt beendet wird. Wenn z.B. das Phonem "n" im englischen Wort "sun" abrupt beendet wird, klingt das Wort
eher wie "suna". Dies beruht hauptsächlich darauf, daß die Restenergie im Vokaltrakt als etwas anderes als ein "n" nach der Zeitdauer
des Phonems "n" vokalisiert wird.
Um zu verhindern, daß dies auftritt, kann das stumme Kontrollkommando
zusammen mit einem weiteren Pho.iem "n" verwendet werden, wodurch
(ein "stummes n" an das Ende des Wortes gefügt wird. Auf diese Wei-
803808/0752 ~ 75 ~
se wird das Artikulationsmuster des Phonems "n" aufrecht erhalten,
wodurch der nasale Klang "n" natürlicher verblaßt.
Wie zuvor schon angedeutet, ist die relative Zeitgabe der verschiedenen
Takt- und Datensignale im Kontrollkreis für seine richtige Wirkungsweise von Bedeutung und wird deshalb ausführlich beschrieben.
Hierzu wird zusätzlich auf die Fig. 8 bezug genommen. Das hier gezeigte Signaldiagramm zeigt die Zustände verschiedener
Signale an bestimmten Punkten des Kommandokreises. Zu Beginn ist folgendes anzumerken: wenn das Kommandophonem aufgerufen wird, um
die Gesamtsprechgeschwindigkeit und/oder das Gesamtvolumen des Audioausgangssignales zu verändern, sollte rasch zum nächsten Phonem
fortgeschritten werden, ohne daß dem Kontrollkommando eine vollständige Phonemzeitdauer gewidmet wird. Der Kontrollkreis benötigt
nämlich nicht die verhältnismäßig lange Zeit, die zur Erzeugung eines typischen Phonems vorgesehen ist, um die eingegebenen
Veränderungen auszuführen. Um somit das Auftreten einer Pause im Sprachmuster zu vermeiden, wenn die Gesamtgeschwindigkeit und/oder
Idas Gesamtvolumen des Audioausgangssignals verändert wird, kann
der Kontrollkreis ein zusätzliches Phonemtaktsignal in rascher !Folge auf das Taktsignal erzeugen, welches das Kommandophonem ab- :
Ige rufen hat. :
i ;
i I
JIn Fig. 6 wird das Phonem-Taktsignal, welches die Zeitgabe der Ein4
angskommandoworte (PCI) steuert, an zwei exklusive ODER-Tore 164,
66 gelegt. Der andere Eingang des exklusiven ODER-Tores 166 ist It dem Ausgang der Zeitverzögerung 138 verbunden, die auf der
809808/0762 " ?6 "
Leitung 131 ein verzögertes Kontrolisignal (FD) liefert. Der andere
Eingang des exklusiven ODER-Tores 164 ist ebenfalls mit dem Ausgang der Zeitverzögerung 138 über einen Inverter 168 und ein
weiteres Zeitverzögerungsnetzwerk 16o verbunden. Das am Ausgang des zweiten Zeitverzögerungsnetzwerkes 16o liegende Signal wird
durch die Notation (FDD) gekennzeichnet.
Die Ausgangssignale der exklusiven ODER-Tore 164,166 werden an ein anderes exklusives ODER-Tor 17o gelegt. Dessen Ausgang ist
mit einem Eingang eines NOR-Tores 17 2 mit dualem Eingang verbunden.
Der andere Eingang des NOR-Tores 17 2 ist mit dem Ausgang des Zeitverzögerungsnetzwerkes 138 verbunden. Das Ausgangssignal des
NOR-Tores 172 wird an ein weiteres NOR-Tor 174 mit dualem Eingang gelegt. Dessen anderer Eingang ist über einen Inverter (176) mit
der PCI-Leitung verbunden. Zu Zwecken der Erläuterung kann man das Ausgangssignal des NOR-Tores 174 als äquivalent zum Phonem-Taktsignal
(PCO) betrachten.
Es sei nun angenommen, daß kein Kontrollphonemkommando vorliegt,
wie dies durch das Aus gangs signal (F) HI am logischen Kreis Ho
jangedeutet wird. Es ist zu erkennen, daß das Phonemtaktsignal
durch den Zeitgabekreis nicht verändert wird. Mit anderen Worten: das Phonemtakt-Aus-Signal (PCO) ist dem Phonemtakt-Ein-Signal (PCI
äquivalent. Unter diesen Bedingungen findet ein normales Takten j der Eingangskommando-worte statt.
Bei Vorliegen eines Kontrollphonems wird jedoch das Ausgangssignal
809808/0752 "77 "
des logischen Kreises Ho LO. Wenn dies auftritt, fügt der Zeitgabekreis
einen zweiten Phonemtaktimpuls in das Phonemtaktsignal.
Dies geschieht (vgl. das Signaldiagramm in Fig. 8) in folgender Weise. Da hier eine invertierte Logik behandelt wird, erscheint
der Phonemtaktimpuls auf der PCI-Leitung als negativer Impuls mit ca. 18o yusec. Dauer. Die ins Positive gehende Flanke des Taktimpulses,
im Zeitdiagramm zur Zeit ti angedeutet, entspricht dem Zeitpunkt, an dem das Kommandophonem ursprünglich aufgerufen wird.
Nach einer Verzögerung von ca. Ho ,usec. spricht der logische Kreis Ho zur Zeit t2 auf das Phonemkommando an, indem er an seinem
Ausgang (F) ein Signal LO abgibt. Diese Verzögerung um Ho/Use
beruht hauptsächlich auf der inhärenten Verzögerung in der Schalttafel oder einem anderen, ähnlichen Gerät, welches die digitalen
Eingangskommandoworte abgibt. Ungefähr lo,usec. nach der Zeit t2, was der von dem Zeitverzögerungsnetzwerk 138 bewirkten Verzögerung
entspricht, wird das verzögerte Kommandosignal (FD) am Ausgang des Netzwerkes 138 LO. Dadurch wird auch das Phonem-Takt-Aus-Signal
(PCO) LO, wie dies zur Zeit t3 angedeutet ist. Nach einer zusätzlichen Zeitdauer von ca. 22o «usec. , was der vom Zeitverzögerungsnetzwerk
16o bewirkten Verzögerung entspricht, wird das zweifach verzögerte und invertierte Kommandosignal (FDD) am Ausgang
des Netzwerkes 16o LO. Dadurch wird das Phonem-Takt-Aus-Signal (PCO) wiederum HI. Es ist also zu erkennen, daß eine zusätzliche
ins Positive gehende Flanke zur Zeit t6 zum Phonom-Tnktsignal hinzugefügt
wird, welche im Effekt das nächste Phonem-Korrmandowort
ca. 34oyUsec. abruft, nachdem das Kontrollphonemkommando aufgerufen
wurde. - 78 -
809808/0752
Um jedoch sicherzustellen, daß die programmierten Veränderungen in der Gesamtgeschwindigkeit und/oder in dem Gesamtvolumen des
Audioausgangssignales ausgeführt werden, ist es wichtig, daß das Kontro11taktsignal (FCL) auf der Leitung 135 vor der Zeit t6 erzeugt
wird. Mit anderen Worten, die vier Flipflops 12o,122,124,126
für die Geschwindigkeit und das Volumen müssen wärend der Zeitverzögerung von 22OyUSeC., die vom Zeitverzögerungsnetzwerk
erzeugt wird, getaktet werden.
Zurück zur Zeit t3. Das verzögerte Kontrollsignal (FD) auf der Leitung 131 wird einem weiteren Zeitverzögerungsnetzwerk 136 zugeführt,
welches das Kontrollsignal um ca. weitere 5o/Usec. verzögert. Wenn dieses zweifach verzögerte Kontrollsignal, durch
die Notation (FD1) bezeichnet, zur Zeit t5 LO wird, wird (bei Abwesenheit
eines stummen Phonems) das Kontrolltaktsignal (FCL) auf der Leitung 135 HI; dadurch wird die an den Dateneingängen
der Flipflops 12o,122,124,126 liegende Information eingegeben.
Nun sei die Situation betrachtet, in der der Kontrollkreis zu dem Zweck aufgerufen wird, ein stummes Phonem in das Sprach-Ausgangssignal
einzufügen. In diesem Fall soll die Dauer des stummen Phonems mit der Zeitdauer eines typischen Phonems übereinstimmen.
Bei der bevorzugten Ausfuhrungsform ist zudem der
Kontrollkreis so ausgebildet, daß er den Status der Flipflops 12o,122,124,126 für die Geschwindigkeit und die Amplitude aufrecht
erhält, wenn ein stummes Phonem erzeugt wird. Auf diese Weise dauern die Zustände, die vor der Erzeugung des stummen
809808/0752
Phonems vorlagen, nach der Erzeugung des stummen Phonems an.
Zurück zu Fig. 6. Das Ausgangssignal des NOR-Tores 174 wird an
ein weiteres Zeitverzögerungsnetzwerk 16 2, bestehend aus dem Widerstand R39 und dem Kondensator C6, gelegt. Der Ausgang des
Netzwerkes 16 2 ist mit beiden Eingängen eines NOR-Tores 176 mit
dualem Eingang verbunden. Der Ausgang des NOR-Tores 176 ist mit dem Taktanschluß (CL) eines Flipflops 154 für das stumme Phonem
verbunden. Somit ist, wie das Diagramm in Fig. 8 zeigt, das Taktsignal für das stumme Phonem (SPCL) auf der Leitung 158 äquivalent
dem Phonem-Takt-Aus-Signal (PCO), welches invertiert und vom Netzwerk
16 2 um ca. lo.usec. verzögert ist.
Da das Flipflop 154 von der ins Positive gehenden Flanke eines am Takteingang (CL) empfangenen Signalimpulses geschaltet wird,
ist zu erkennen, daß das Signal (SP) für das stummephonem vom Eingangsbit
2 noch nicht am Dateneingang des Flipflop 154 angekommen list, wenn das Taktsignal für das stumme Phonem (SPCL) vor der
IZeit ti zuerst das Flipflop 154 taktet. Trotz des durchsteuernden
Taktsignales auf der Leitung 158 bleibt daher der Q-Ausgang des '
Flipflop 154 HI, wodurch momentan die Leitung der Analogtore 146, '
148 beibehalten wird. Wie das Zeitdiagramm andeutet, wird das Vorliegen eines stummen Phonems (SP) am Dateneingang des Flip-Flops '
154 bis zur Zeit t2 nicht erkannt, zu der das Ausgangssignal des
logischen Kreises Ho (F) LO wird. Ungefähr Io/usec. später, zur
Zeit t3, wird das Phonem-Taktsignal vom NOR-Tor 174 wiederum LO. Dies führt nach einer Verzögerung von weiteren Io .usec., die vom
809808/0752 "8o "
Netzwerk 16 2 bewirkt wird, dazu, daß das Taktsignal für das stumme
Phonem (SPCL) auf der Leitung 158 wiederum das Flipflop 154 taktet. Zur Zeit t4, ungefähr 3oo,usec. nach dem ersten ins Positive gehenden
Impuls auf der Leitung 158, wird somit das Signal für das
stumme Phonem (SP) vom Bit 2 in das Flipflop 154 eingegeben. Dies bringt den Q-Eingang des Flipflop 154 auf LO, was die Analogtore
146 und 148 nicht leitend macht.
Die zusätzliche Verzögerung um Io/Usec., die vom Netzwerk 16 2 bewirkt
wird, ist eine Vorsichtsmaßnahme. Dadurch wird sichergestellt, daß das Signal für das stumme Phonem (SP) am Dateneingang des
Flipflop 154 vor dem zweiten ins Positive gehenden Impuls auf der Leitung 158 ankommt. Da außerdem das Signal für das stumme '
j Phonem (SP) nicht vor der zweiten ins Positive gehenden Flanke ; im Taktsignal für das stumme Phonem (SPCL) eingegeben wird, folgtj
daß kein weiterer ins Positive gehende Impuls auftritt, bis der
■ darauffolgende Phonemtaktimpuls zur Eingabe des nächsten Phonem-
! —
Kommandowortes erzeugt wird. Das Q-Ausgangssignal"des Flipflop
154 bleibt also für die Zeitdauer des Phonems LO.
Um schließlich zu verhindern, daß sich die logischen Zustände der Flipflops 12o,122,124,126 verändern, wenn ein stummes Phonem vorliegt,
wird das Q-Ausgangssignal (LSP) vom Flipflop 154 an einen Eingang des NOR-Tores 134 gelegt. Wenn das Q-Ausgangssignal LSP
vom Flipflop 154 zur Zeit t4 HI wird, wird der Ausgang des NOR-Tores 134 auf LO gebracht, unabhängig von dem Zustand des Signals
(FD') am anderen Eingang. Dies wiederum hält das Kontrolltaktsign,
80T8Öf7Ö752 - 8Ϊ
(FCL) auf der Leitung 135 LO und verhindert das Schalten der Flipflops 12o,122,124,126. Es ist daher unerläßlich, daß die vom Netzwerk
136 bewirkte Zeitverzögerung ausreicht, sicherzustellen, daß das Q-Ausgangssignal (LSP) am Flipflop 154 HI wird (zur Zeit t4),
bevor das Signal (FD1) LO wird (zur Zeit t5). Bei der bevorzugten
Ausführungsform liegt t4 ca. 4o .usec. vor t5. Es ist somit zu erkennen,
daß die Parameter für die Gesamtsprechgeschwindigkeit und das Gesamtvolumen des Audioausgangssignales während der Anwesenheit
eines stummen Phonems fixiert sind.
809808/0752
L e e r s e ι t e
Claims (1)
- PatentansprücheElektronisches Gerät zur phonetischen Synthetisierung menschlicher Sprache (Sprach-Synthesizer) mit einer Eingangsschaltung, welche auf Eingangsdaten anspricht, die eine bestimmte Phonem- i folge identifizieren, und hiernach Kontrollsignale erzeugt, welche die Parameter darstellen, die die gewünschte Phonemfolge definieren; mit einer Vokalquelle, die ein stimmhaftes Erregungssignal erzeugen kann und der eine Fundamentalfrequenz zugeordnet ist, gekennzeichnet durch eine Inflektionskontrolleinrichtung (52,56), die mit der Vokalquelle (54) verbunden ist und die Fundamentalfrequenz des stimmhaften Erregersignales in Übereinstimmung mit bestimmten, von der Eingangsschaltung (12,14) er- !zeugten Kontrollsignalen variiert, sowie durch einen Vokaltrakt (6o) , der auf das stimmhafte Erregersignal und die Kontrollsig-; nale anspricht und die gewünschte Phonemfolge erzeugt. ;809808/0752ORIGINAL INSPECTEO2. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß die Inflektions-Kontrolleinrichtung (52,56) die Fundamentalfre-t quenz des stimmhaften Erregersignals um einen Betrag verändert, j der mit den Größen der genannten Kontrollsignale verknüpft ist.j 3. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß! die Inflektions-Kontrolleinrichtung (52,56) außerdem auf die Eingangsdaten anspricht und hiernach die Fundamentalfrequenz des stimmhaften Erregersignäfes verändert.4. Sprachsynthesizer nach Anspruch 3, dadurch gekennzeichnet, daß die Eingangsdaten mehrere digitale Kommandoworte aus 12 bit umfassen, wobei drei der Eingangsbits aus jedem Kommandowort an die Inflektions-Kontrolleinrichtung (52,56) zur Variation : der Fundamentalfrequenz des stimmhaften Erregersignales gelegt ; werden.5. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß er außerdem eine Reiblautquelle (64) enthält, welche ein stimmloses Erregersignal erzeugen kann.6. Sprachsynthesizer nach Anspruch 5,dadurch gekennzeichnet, daß j von der Eingangsschaltung (12,14) immer dann ein erstes Kon- ; trollsignal erzeugt wird, wenn ein Reiblautenergie benötigende^Phonem erzeugt werden soll, und daß die Inflektions-Kontroll- i einrichtung (52,56) immer dann die Fundamentalfrequenz des jstimmhaften Erregersignales erhöht, wenn das erste Kontrollsig-f nal erzeugt wird. i809808/0752 " 3 "7. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß von der Eingangsschaltung (12,14) immer dann ein zweites Kontrollsignal erzeugt wird, wenn ein nasales Phonem erzeugt werden soll/ und daß die Inflektions-Kontrolleinrichtung (52,56) die Fundamentalfrequenz des stimmhaften Erregersignales immer dann erniedrigt, wenn das zweite Kontrollsignal erzeugt wird.8. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daßder Vokaltrakt (6o) eine Mehrzahl von Resonanzfiltern (F1-F5) i umfaßt, welche im wesentlichen das Frequenzspektrum von jedem :Phonem in der gewünschten Phonemfolge erzeugen und mindestens jein variables Resonanzfilter (Fl) enthalten, welches unter |der Einwirkung eines dritten Kontrollsignals abstimmbar ist ,und den ersten resonanten Formanten im Frequenzspektrum der | gewünschten Phonemfolge bildet.9. Sprachsynthesizer nach Anspruch 8, dadurch gekennzeichnet, daß die Inflektions-Kontrolleinrichtung (52,56) die Fundamentalfrequenz des stimmhaften Erregersignals immer dann erniedrigt, wenn das dritte Kontrollsignal erzeugt wird..o. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß von der Eingangsschaltung (12,14) immer dann ein viertes Kontrollsignal erzeugt wird, wenn ein Vokalenergie erforderndes Phonem erzeugt werden soll, und daß ein fünftes Kontrollsignal von der Eingangsschaltung (12,14) immer dann erzeugt wird, wenn ein Explosionsphonem erzeugt werden soll, und daß die Inflek-809808/0752tionskontrolleinrichtung (52,56) die Fundamentalfrequenz des stimmhaften Erregersignals immer dann erniedrigt, wenn das vierte und das fünfte Kontrollsignal für dasselbe Phonem erzeugt werden.11. Elektronisches Gerät zur phonetischen Synthetisierung menschlicher Sprache (Sprach-Synthesizer) mit einem Vokaltrakt, der mehrere Resonanzfilter enthält, die im wesentlichen die Frequenzspektren phonetischer Sprache erzeugen, mit einer Vokalquelle, die mit dem Vokaltrakt verbunden ist, und ein stimm- ihaftes Erregersignal erzeugt, welches stimmhafte Erregerenergije den Resonanzfiltern zuführt, dadurch gekennzeichnet, daß die i Wellenform der Vokalquelle (54) keine Erregerenergie den Reso-i nanzfiltern (F1-F5) kurz nach der maximalen Erregerenergie zu-Jführt. ί12. Sprachsynthesizer nach Anspruch 11, dadurch gekennzeichnet,daß die von der Vokalquelle (54) erzeugte Wellenform des stimnhaften Erregersignals die Wirkungen der menschlichen Stimmritze dadurch simuliert, daß ein erstes Segment enthalten ist, das j die öffnung der Stimmritze simuliert, ein zweites Segment, welches das Schließen der Stimmritze simuliert, und ein drittes Segment, welches die geschlossene Stimmritze simuliert, und daß das stimmhafte Erregersignal die maximale Erregerenergie am Übergang zwischen den ersten beiden Segmenten abgibt und keine Erregerenergie während des dritten Segments.809808/075213. Sprachsynthesizer nach Anspruch 12, dadurch gekennzeichnet, daß die Dauer des dritten Segmentes mindestens so groß wie die zusammengenommene Dauer der ersten beiden Segmente ist.14. Sprachsynthesizer nach Anspruch 12, dadurch gekennzeichnet, daß das erste Segment allmählich in der Größe von einem Anfangswert auf einen Maximalwert anwächst, daß das zweite Segment in der Größe rasch von dem Maximalwert auf den ursprünglichen Wert abfällt, und daß das dritte Segment auf dem ursprünglichen Viert konstant bleibt.15. Sprachsynthesizer nach Anspruch 14, dadurch gekennzeichnet, daß das stimmhafte Erregersignal im wesentlichen die Form eines verstümmelten Sägezahns aufweist.i
16. Sprachsynthesizer nach Anspruch 14, dadurch gekennzeichnet,daß jedem Resonanzfilter (F1-F5) eine Bandbreite zugeordnet ist und eine Unterdrückungsschaltung (7o) vorgesehen ist, welehe die Unterdrückung von Formant-Resonanzen im menschlichen! Vokaltrakt simuliert, die auf der öffnung der Stimmritze beruhen, indem die Bandbreiten von mindestens einigen der Reso- ! nanzfilter (F1-F5) in Übereinstimmung mit der Größe des stimmhaften Erregersignals variiert werden.j 17. Sprachsynthesizer nach Anspruch 16, dadurch gekennzeichnet, daß die Unterdrückungsschaltung (7o) die Bandbreiten vergrö-ßert, wenn sich die Größe des stimmhaften Erregersignales erhöht.809808/07528. Sprachsynthesizer nach Anspruch 17, dadurch gekennzeichnet, daß die Unterdrückungsschaltung (7o) die Bandbreiten außerdem in Übereinstimmung mit der Größe des stimmhaften Erregersignals nur während der Erzeugung von Phonemen verändert, die stimmhafte Erregerenergie benötigen.19. Sprachsynthesizer nach Anspruch 11, dadurch gekennzeichnet, daß ein Schaltkreis (68) vorhanden ist, der einen Formanten mit verhältnismäßig hoher, feststehender Frequenz dem stimmhaften Erregersignal zuführt, wodurch die Erregerenergie des stimmhaften Erregersignals bei hohen Frequenzen erhöht wird.20. Sprachsynthesizer nach Anspruch 19, dadurch gekennzeichnet,daß der Schaltkreis (68) ein Festpol-Resonanzfilter umfaßt.21. Sprachsynthesizer nach Anspruch 2o, dadurch gekennzeichnet,daß das Resonanz filter seine Resonanz bei einer Frequenz von ca. 4ooo Hz aufweist.22. Sprachsynthesizer nach Anspruch 21, dadurch gekennzeichnet,daß die Resonanzfilter (F1-F5) im Vokaltrakt ein Festpolresonanzfilter umfassen, welches seine Resonanz bei einer Frequenz besitzt, die größer als 4ooo Hz ist.23. Sprachsynthesizer nach Anspruch 22, dadurch gekennzeichnet, daß das Festpolresonanz filter im Vokaltrakt (6o) seine Resonanz bei einer Frequenz von ca. 44oo Hz besitzt.809808/075224. Sprachsynthesizer nach Anspruch 19, dadurch gekennzeichnet, daß die Resonanzfilter (F1-F5) im Vokaltrakt (6o) zu einer Kaskade geschaltet sind.25. Elektronisches Gerät zur phonetischen Synthetisierung menschlicher Sprache (Sprach-Synthesizer) mit einer Eingangsschaltung, die auf Eingangsdaten anspricht, welche eine bestimmte Phonemfolge identifizieren, und hiernach Kontrollsignale erzeugt, welche die Parameter darstellen, die die gewünschte Phonemfolge definieren; mit einer Vokalquelle, die ein stimmhaftes Erregersignal mit einer Wellenform variierender Größe erzeugt; mit einem Vokaltrakt, der auf das stimmhafte Erregersignal und die Kontrollsignale anspricht und danach die gewünschte Phonemfolge erzeugt, der mehrere Resonanzfilter mit bestimmten, zugehörigen Brandbreiten besitzt, welche die resonanten Formanten im Frequenzspektrum der Phoneme erzeugen,, gekennzeichnet durch eine Unterdrückungsschaltung (7o), wel- j ehe die Unterdrückung von formanten Resonanzen im menschlichen Vokaltrakt simuliert, die auf der öffnung der Stimmritze beruhen, indem die Bandbreiten von mindestens einigen Resonanzfiltern (F1-F5) in Übereinstimmung mit der Größe des stimmhaften Erregersignals variiert werden.26. Sprachsynthesizer nach Anspruch 25, dadurch gekennzeichnet, daß die Unterdrückungsschaltung (7o) die Bandbreiten vergrößert, wenn die Größe des stimmhaften Erregersignals anwächst.809808/0752Λ 2736032— ο —27. Sprachsynthesizer nach Anspruch 26, dadurch gekennzeichnet, daß die Unterdrückungsschaltung (7o) ein Rechtecksignal mit variabler Impulsbreite erzeugt, deren Einschaltdauer proportional zur Größe des stimmhaften Erregersignales ist.28. Sprachsynthesizer nach Anspruch 27, dadurch gekennzeichnet, daß jedes Resonanzfilter (F1-F5), welches von der Unterdrückungsschaltung (7o) beeinflußt wird, einen ßandpass-Abschnitt aufweist, der in einem Nebenschluß ein elektronisches Steuergerät (loo) aufweist, welches unter der Kontrolle des Unter- :i drückungssignals einen Strom derart über den Bandpass-Abschnitjtj führen kann, daß der Prozentsatz der Zeit, in der das elektro-nische Steuergerät (loo) den Strom führt, mit der prozentualen! Einschaltdauer des Unterdrückungssignales verknüpft ist.29. Sprachsynthesizer nach Anspruch 28, dadurch gekennzeichnet, daß das Unterdrückungssignal an die drei Resonanzfilter (F1-F3) im Vokaltrakt (6o) gelegt wird, welche die ersten drei resonan-ten Formanten im Frequenzspektrum der Phoneme erzeugen. !3o. Sprachsynthesizer nach Anspruch 26, dadurch gekennzeichnet, daß das von der Vokalquelle (54) erzeugte stimmhafte Erregersignal eine Wellenform aufweist, die ein erstes Segment umfaßt welches in der Größe anwächst, ein zweites Segment, welches in der Größe abnimmt und ein drittes Segment, das auf einem konstanten Wert bleibt.809808/0752IΊ 3 b ü 8 231. Sprachsynthesizer nach Anspruch 3o, dadurch gekennzeichnet, daß die Unterdrückngsschaltung (7o) bestimmte Bandbreiten der Resonanzfilter (F1-F3) während des ersten Segmentes des stimmhaften Erregersignales vergrößert, die Bandbreiten der i Resonanzfilter (Fl-F3) von den erhöhten Werten während des i zweiten Segmentes des stimmhaften Erregersignales verringert, ! und keinen Effekt auf die bestimmten Bandbreiten der Resonanzfilter (F1-F3) während des dritten Segmentes des stimmhaftenj Erregersignales hat.! 32. Sprachsynthesizer nach Anspruch 31, dadurch gekennzeichnet, daß die Dauer des dritten Segmentes des stimmhaften Erregersignales mindestens so groß ist wie die kombinierte Dauer der ersten beiden Segmente.33. Sprachsynthesizer nach Anspruch 25, dadurch gekennzeichnet,daß die Unterdrückungsschaltung (7o) die Bandbreiten in über- ; einsti.ntmung mit der Größe des stimmhaften Erregersignales ! nur während der Erzeugung von Phonemen verändert, die stimmj hafte Erregerenergie benötigen.; 34. Sprachsynthesizer nach Anspruch 33, dadurch gekennzeichnet,daß ein Kontrollsignal durch die Eingangsschaltung (12,14) immer dann erzeugt wird, wenn ein Vokalenergie benötigendes . Phonem erzeugt werden soll und daß die Unterdrückungsschaltuncjj (7o) die Bandbreiten der Resonanzfilter (F1-F3) nur dann be- ; ieinflußt, wenn dieses Kontrollsignal erzeugt wird.- Io 4809808/0752- Io -35. Sprachsynthesizer nach Anspruch 34, dadurch gekennzeichnet, I daß das genannte Kontrollsignal ein Vokalamplituden-Kontroll-■ signal umfaßt.'36. Sprachsynthesizer nach Anspruch 25, dadurch gekennzeichnet, daß ein Schaltkreis (68) enthalten ist, der einen Formanten, bei relativ hoher, fester Frequenz dem stimmhaften Erregerj signal zufügt und dadurch die Erregungsenergie des stinunhaf-j ten Erregersignals bei hohen Frequenzen erhöht.37. Sprachsynthesizer nach Anspruch 36, dadurch gekennzeichnet, daß der Schaltkreis ein Festpol-Resonanzfilter umfaßt.38. Sprachsynthesizer nach Anspruch 37, dadurch gekennzeichnet,: daß das Resonanzfilter seine Resonanz bei einer Frequenzi von ca. 4ooo Hz. besitzt.39. Sprachsynthesizer nach Anspruch 38, dadurch gekennzeichnet, daß die Resonanzfilter (F1-F5) im Vokaltrakt (6o) ein Festpol-Resonanzfilter enthalten, das bei einer Frequenz von
über 4ooo Hz seine Resonanz besitzt.:4o. Sprachsynthesizer nach Anspruch 39, dadurch gekennzeichnet, j daß das Festpol-Resonanzfilter im Vokaltrakt (6o)seine Resonanz bei einer Frequenz von ca. 44oo Hz besitzt.- 11 -809808/0752- ii - 273603241. Sprachsynthesizer nach Anspruch 36, dadurch gekennzeichnet, daß die Resonanzfilter (F1-F5) im Vokaltrakt (6o) zu einer Kaskade geschaltet sind.2. Elektronisches Gerät zur phonetischen Synthetisierung menschlicher Sprache (Sprach-Synthesizer) mit einer Ekigangsschaltung, welche auf Eingangsdaten anspricht, die eine bestimmte Phonemfolge identifizieren, und hiernach Kontrollsignale erzeugt, welche die Parameter darstellen, die die Phonemfolge definieren; mit einem Vokaltrakt, der auf die Kontrollsignale anspricht und hiernach die erwünschte Phonemfolge erzeugt, der weiter i mehrere Resonanzfilter enthält, welche die resonanten Formantep im Frequenzspektrum der erwünschten Phonemfolge erzeugen, da- ! durch gekennzeichnet, daß die Resonanzfilter (F1-F5) drei va- · riable Resonanzfilter (F1-F3) enthalten, die jeweils unter der Kontrolle von einem Kontrollsignal abstimmbar sind, wodurch die ersten drei Formanten in den Frequenzspektren erzeugt werden, sowie ein viertes variables Resonanzfilter (F4), welches unter der Kontrolle von einem der Kontrollsignale abstimmbar ist, welches eines (F3) der ersten drei variablen Resonanzfilter (F1-F3) abstimmt, wodurch der vierte Formant in den Frequenzspektren gebildet wird.43. .Sprachsynthesizer nach Anspruch 4 2, dadurch gekennzeichnet, daß das vierte Resonanzfilter (F4) unter der Kontrolle desselben Kontrollsignales abstimmbar ist, welches das dritte Resonanzfilter (F3) abstimmt.- 12 -809808/0752_ 12 -273bU!J/'44. Sprachsynthesizer nach Anspruch 4 2, dadurch gekennzeichnet, ; daß eine Vokalquelle (54) enthalten ist, welche stimmhafte Erregerenergie zum Vokaltrakt (6o) liefert, indem es ein stimmhaftes Erregersignal erzeugt, welches eine verhältnismäßig breite Verteilung sowohl ungerader als auch gerader Harmonischer und zusätzlich einen Formanten mit relativ hoher, feststehender Frequenz enthält, welcher den Energiegehalt des Erregungssignals bei verhältnismäßig hohen Frequenzen überhalb eines bestimmten Wertes hält.45. Sprachsynthesizer nach Anspruch 44, dadurch gekennzeichnet, daß der Vokaltrakt (6o) ein fünftes Resonanz filter (F5) enthält, das seine Resonanz bei einer höheren Frequenz besitzt,• als der Formant mit relativ hoher, feststehender Frequenz im stimmhaften Erregersignal.46. Sprachsynthesizer nach Anspruch 45, dadurch gekennzeichnet, daß der Formant mit feststehender Frequenz im stimmhaften Erregersignal bei ca. 4ooo Hz liegt und daß das fünfte Resonanzfilter (F5) im Vokaltrakt (6o) seine Resonanz bei ungefähr 44oo Hz besitzt.47. Sprachsynthesizer nach Anspruch 42, dadurch gekennzeichnet, daß die Resonanzfilter (F1-F5) im Vokaltrakt (6o) zu einer Kaskade geschaltet sind.!48. Elektronisches Gerät zur phonetischen Synthetisierung mensch-- 13 -809808/07522 /..H Vj jlicher Sprache (Sprach-Synthesizer) mit einer Vokalquelle, welche ein stimmhaftes Erregersignal erzeugt; einer RuIbLautquelle, welche ein stimmloses Erregersignal erzeugt; mit einer Eingabeschaltung, welche auf den Empfang von Eingangsdaten anspricht, die eine bestimmte Phonemfolge identifizieren, und hiernach mehrere Kontrollsignale erzeugt, welche die Parameter darstellen, die die von den Eingangsdaten identifizierten Phoneme definieren, wobei ein erstes Kontrollsignal «lie Amplitude des stimmhaften Erregersignals und ein zweites Kontrollsignal die Amplitude des stimmlosen Erregersignals kontrolliert, mit einem Vokaltrakt, der auf das stimmhafte und das stimmlose Erregersignal und die Kontrollsignale anspricht und ein Audio-Ausgangssignal erzeugt, welches aus der erwünschten Phonemfolge besteht, die zu verständlicher menschlicher Sprache zusammengesetzt sind, gekennzeichnet durch eine Amplituden-Kontrollschaltung (5o,4o,36), welche die relative Gesamtamplitude des Audio-Ausgangssignals variiert, indem ein bestimmtes Signal moduliert wird, welches für die ersten beiden KontrolI-signale charakteristisch ist.49. Sprachsynthesizer nach Anspruch 48, dadurch gekennzeichnet, daß die Amplituden-Kontrollschaltung (1So, lo, 36) auf bestimmte Eingangsdaten hin die relative Gesamtamplitude des Audio-Ausgangssignals variiert, wobei die relativen Amplitudenvariationen in dem stimmhaften und dem stimmlosen Erregersignal beibehalten werden, welche von Phonem zu Phonem unter der Kontrolle der ersten beiden Kontrol!signale auftreten, In-- 11 -809808/0752ORIGINAL INSPECTED21eiern -Ins Signal, welches fur die ersten beiden Kontrollsignale charakteristisch Ist/ um oinen bestimmten Prozentsatz kontinuierlich moduliert wird.50. Sprachsynthesizer nach Anspruch 49, dadurch gekennzeichnet, daß die Eingangsdaten digitale Kommandoworte aus jeweils mehreren Eingangsbits umfassen, und daß die Amplituden-KontrolI-schaltung (5o,lo,36) auf bestimmte digitale Kommandoworte anspricht und hiernach das Signal, welches für die ersten beiden Kontrollsignale charakteristisch ist, in Übereinstimmung mit dem Wort bestimmter Eingangsbits in vorherbestimmten digitalen Kommandoworten moduliert.51. Sprachsynthesizer nach Anspruch 5o, dadurch gekennzeichnet, daß der Prozentsatz der Modulation durch den Wert der bestimm-: ten Eingangsbits in den vorherbestimmten digitalen Kommandoworten bestimmt wird.2. Sprachsynthesizer nach Anspruch 51, dadurch gekennzeichnet, : daß das bestimmte charakteristische Signal der Amplitude . des ersten und des zweiten Kontrollsignals entspricht.53. Sprachsynthesizer nach Anspruch 52, dadurch gekennzeichnet, daß die Amplituden-Kontrollschaltung (5o,4o,36) eine Einrichtung enthält, welche ein Gleichspannungssignal erzeugt, dessen Größe vom Wert der genannten Eingangsbits bestimmt wird,: sowl..· -:ine Kontrolleinrichtung, welche die Amplitude des er-- 15 -803808/075217 J b ·! H /sten und des zweiten Kontrollsignals in Übereinstimmung mit der Größe des Gleichspannungssignals variiert.54. Sprachsynthesizer nach Anspruch 53, dadurch gekennzeichnet, daß die Kontrolleinrichtung (5o) ein erstes elektronisches Kontrollgerät enthält, welches unter der Kontrolle des ersten Kontrollsignals leitet, sowie ein zweites elektronisches Kontrollgerät, welches unter der Kontrolle des zweiten Kontrollsignales das Gleichspannungssignal leitet.55. Sprachsynthesizer nach Anspruch 54, dadurch gekennzeichnet, daß das erste Steuergerät ein Analogtor (14 2) umfaßt, dessen Eingang an das Gleichspannungssignal angeschlossen ist, und dessen Steueranschluß das erste Kontrollsignal empfängt, und daß das zweite elektronische Steuergerät ein Analogtor (144) umfaßt, dessen Eingang das Gleichspannungssignal und dessen Steueranschluß das zweite Kontroll signal empfängt.56. Sprachsynthesizer nach Anspruch 48, dadurch gekennzeichnet, daß ein Schaltkreis vorhanden ist., der auf Eingangsdaten anspricht und danach ein stummes Phonem erzeugt, indem verhindert wird, daß das stimmhafte und das stimmlose Erregersig-nal den Vokaltrakt (60) erregen, jj 57. Sprachsynthesizer nach Anspruch 56, dadurch gekennzeichnet, daß eine erste Modulatorschaltung (36) enthalten ist, welche die Amplitude des stimmhaften Erregersignals in Übereinstim-- 16 -809808/0752ORIGINAL2736Ü8/!; mung mit dem ersten Kontrollsignal moduliert, sowie eine zwei-j te Modulatorschaltung (4o), welche die Amplitude des stimmlo-! sen Erregersignals in Übereinstimmung mit dem zweiten Kontroll-' signal moduliert.58. Sprachsynthesizer nach Anspruch 57, dadurch gekennzeichnet, daß das erste und das zweite Kontrollsignal von der ersten , und zweiten Modulatorschaltung (36,4o) ferngehalten werden, wenn bestimmte Eingangsdaten empfangen werden.159. Sprachsynthesizer nach Anspruch 58, dadurch gekennzeichnet,' daß ein Steuersignal erzeugt wird, bis die genannten Eingangs-j daten empfangen werden, und daß eine Kontrollschaltung zwi-! sehen der Eingangsschaltung (12,14) und den beiden Modulatorschaltungen (36,4o) liegt, welche verhindert, daß das erste Kontrollsignal zur ersten Modulatorschaltung (36) übertragen! wird und das zweite Kontrollsignal zur zweiten Modulatorschaltung (4o) übertragen wird, wenn das Steuersignal auf-i gehört hat.16o. Elektronisches Gerät zur phonetischen Synthetisierung menschlicher Sprache (Sprach-Synthesizer) mit einer Eingangsschaltung, welche auf Eingangsdaten anspricht, die eine bestimmte Phonemfolge identifizieren, und hiernach Kontrollsignale er- ;I zeugt, welche die die Phoneme definierenden Parameter dar- :stellen; mit einem Zeitgeber, der auf ein Kontrollsignal anspricht und hiernach ein Zeitgabesignal erzeugt, welches die ;- 17 -809808/075227JuJJ/Dauer der Erzeugung jeden Phonemes bestimmt, mit einem Vokaltrakt, der auf die Kontrollsignale anspricht und hiernach ein Audioausgangssignal erzeugt, welches die erwünschte Phoneinfolge umfaßt, dadurch gekennzeichnet, daß eine erste Kontrollschaltung (28,3o) vorgesehen ist, welche auf die Eingangsdaten anspricht und hiernach die Phonemzeitgabe variiert, indem ein Sprechratensignal in Übereinstimmung mit den Eingangsdaten erzeugt wird, welches der Zeitgeberschaltung (32) zur Variation des Zeitgabesignals zugeführt wird.61. Sprachsynthesizer nach Anspruch 6o, dadurch gekennzeichnet, daß eine zweite Kontrollschaltung (5o) auf bestimmte Eingangsdaten ansprcht und hiernach die relative Gesamtsprechrate des Audioausgangs bestimmt, wobei die relativen Variationen in den Zeitdauern der PhonemproHuktlon, die von Phonem zu Phonem unter der Kontrolle des einen Kontrollsignals auftreten, beibehalten werden, indem ein bestimmtes Signal, welches für diej Sprechrate charakteristisch ist, gleichförmig variiert wird.2. Sprachsynthesizer nach Anspruch Γι I, dadurch gekennzeichnet, daß die erste Kontrollschaltung (28,3o) ein Gprechratensignal erzeugt, welches ein Rechtecksignal mit variabler Impulsbreite umfaßt, dessen Einschaltdauer von den Eingangsdaten bestimmt wird.3. Sprachsynthesizer nach Anspruch 6 2, dadurch gekennzeichnet, daß die zweite Kontrollschaltung (5o) ein AungangssiinaI in- 10 -809808/0752ORIGINAL INSPECTEDÜbereinstimmung mit den bestimmten Eingangsdaten erzeugt,dessen Größe ebenfalls die Einschaltdauer des Sprechratensignals bestimmt.64. Sprachsynthenizer nach Anspruch 6 3, dadurch gekennzeichnet, daß das Zeitgabesignal ein Rampensignal umfaßt, v/elches in einem Zeitintervall, das die Dauer der Phonemerzeugung bestimmt, sich zwischen zwei bestimmten Größenwerten verändert, und daß die Neigung des Zeitgabesignals durch die Einschaltdauer des Sprechratensignals bestimmt ist.65. Sprachsynthesizer nach Anspruch 63, dadurch gekennzeichnet, ι daß die Eingangsdaten mehrere digitale Kommandoworte umfassen, von denen jedes mehrere Eingangsbits enthält, und daß die ELnschaltdauer des Sprechratensignals durch den Wert; bestimmter Eingangsbits in jedem der digitalen Kommandoworte bestimmt wird.66. Sprachsynthesizer nach Anspruch 65, dadurch gekennzeichnet, daß die zweite Kontrollschaltung (5o) auf bestimmte digitale Kommandoworte anspricht, und die Größe des Ausgangssigals in Übereinstimmung mit dem Wert bestimmter Eingangsbits in den bestimmten digitalen Kommandoworten verändert.67. Elektronisches Gerät zur phonetischen Synthetisierung menschlicher Sprache fSprach-Synthesizer) mit einer Eingangsschaltung, welche auf Eingangsdaten anspricht, die eine bestimmte- 19 -809808/075227 3 b I) B 2Phonemfolge identifizieren, und hiernach mehrere Kontrollsignale erzeugt, welche die Parameter darstellen, die die gewünschte Phonemfolge definieren, mit einer Vokalquelle, welche ein stimmhaftes Erregersignal erzeugt, mit einer Reiblautquelle, welche ein stimmloses Erregersignal erzeugt, mit einem Vokaltrakt, der auf das stimmhafte und das stimmlose Erregersignal anspricht und hiernach ein Audio-Ausgangssignal erzeugt, welches in Übereinstimmung mit den Kontrollsignalen die Phonemfolge enthält, dadurch gekennzeichnet, daß ein Schaltkreis (5o) vorhanden ist, der auf Eingangsdaten hin bewirkt, daß der Vokaltrakt (6o) ein stummes Phonem erzeugt, indem verhindert wird, daß das stimmhafte und das stimmlose Erregersignal den Vokaltrakt (6o) erregen.j68. Sprach-Synthesizer nach Anspruch 67, dadurch gekennzeichnet, j daß eine erste Modulatorschaltung (36) vorgesehen ist, welchei die Amplitude des stimmhaften Erregersignals in Ubereinstim- \mung mit einem ersten Kontrollsignal, welches von der Eingangsj-schaltung (12,14) erzeugt wird, immer dann moduliert, wenn jein Phonem, welches Vokalenergie benötigt, erzeugt werden soll, und daß eine zweite Modulatorschaltung (4o) vorhanden ist, welche die Amplitude des stimmlosen Erregersignals in t Übereinstimmung mit^inem zweiten Kontrollsignal moduliert, welches von der Eingangsschaltung (12,14) immer dann erzeugt wird, wenn ein Reiblaut-Energie benötigendes Phonem erzeugt werden soll.- 2o -809808/0752- 2ο -2736U829. Sprachsynthesizer nach Anspruch 68, dadurch gekennzeichnet, daß das erste und das zweite Kontrollsignal von den beiden Modulatorschaltungen (36,4o) bei Empfang bestimmter Eingangsdaten ferngehalten wird.70. Sprachsynthesizer nach Anspruch 69, dadurch gekennzeichnet, daß ein Steuersignal erzeugt wird, bis die bestimmten Eingangsdaten empfangen werden, und daß eine Kontrollschaltung zwischen der Eingangsschaltung (12,14) und den beiden Modulatorschaltungen (36,4o) liegt, welche verhindert, daß das erste Kontrollsignal zur ersten Modulatorschaltung (36) übertragen wird, und daß das zweite Kontrollsignal zur zweiten Modulatorschaltung (4o) übertragen wird, wenn das Steuersignal aufgehört hat.71. Sprachsynthesizer nach Anspruch 7o, dadurch gekennzeichnet, daß die Kontrollschaltung (5o) ein erstes elektronisches Steuergerät (14 2) umfaßt, welches das erste Kontrollsignal ;I immer dann leitet, wenn ein Steuersignal erzeugt wird, und !ein zweites elektronisches Steuergerät (144), welches das zweite Kontrollsignal immer dann leitet, wenn das Steuersignal erzeugt v/ird. '72. Sprachsynthesizer nach Anspruch 68, dadurch gekennzeichnet, ' daß eine Amplitudenkontrollschaltung (5o) enthalten ist, | welche auf Eingangsdaten anspricht und hiernach die relative Gesamtamplitude des Audio-Ausgangssignals verändert, indem- 21 -809808/0752273ÜU82kontinuierlich ein bestimmtes Signal, welches für das erste und das zweite Kontrollsignal charakteristisch ist, um einen bestimmten Prozentsatz moduliert wird, der von den Eingangsdaten bestimmt v/ird.j 73. Sprachsynthesizer nach Anspruch 72, dadurch gekennzeichnet, daß der bestimmte Prozentsatz der Modulation, der vor dem stummen Phonem vorlag, beibehalten wird, so daß die relative Gesamtamplitude des Audioausgangssignals, die vor dem stum-ί men Phonem vorlag, nach dem stummen Phonem andauert.74. Elektronisches Gerät zur phonetischen Synthetisierung menschlicher Sprache (Sprach-Synthesizer) mit einer Vokalquelledie ein stimmhaftes Erregersignal erzeugt, mit einem Vokaltrakt, der auf das stimmhafte Erregersignal anspricht und ■ hiernach im wesentlichen das FrequenzSpektrum einer gewünsch-' ten Phonemfolge erzeugt, gekennzeichnet durch eine Hochpolkompenscitionsschaltung (68) , welche einen Formanten mit re- ; lativ hoher, fester Frequenz dem stimmhaften Erregersignal zufügt und dadurch den Energiegehalt des stimmhaften Erregersignals bei relativ hohen Frequenzen erhöht.75. Sprachsynthesizer nach Anspruch 74, dadurch gekennzeichnet, daß der Vokaltrakt (6o) mehrere Resonanzfilter (F1-F5) enthält, welche mindestens ein Resonanzfiltor (F5) enthalten, dessen Resonanz bei einer Frequenz liegt, die höher ist als die Frequenz des zusätzlich zum stimmhaften Erregersignal809808/0752 -22-2736Ü82zugefügten Formanten.76. Sprachsynthesizer nach Anspruch 75, dadurch gekennzeichnet, daß die Resonanzfilter (F1-F5) zu einer Kaskade geschaltet sind.77. Sprachsynthesizer nach Anspruch 75,dadurch gekennzeichnet, daß ein Resonanzfilter (F5) bei 44oo Hz seine Resonanz besitzt, und daß die hohe Frequenz des zusätzlichen Formanten bei 4ooo Hz liegt.j 78. Sprachsynthesizer nach Anspruch 74, dadurch gekennzeichnet, daß die Vokalquelle (54) ein stimmhaftes Erregersignal er- \ zeugt, das die Form einer verstümmelten Sägezahnwelle besitzt.179. Sprachsynthesizer nach Anspruch 6o, dadurch gekennzeichnet,j daß eine Schaltung für eine variable Ubergangsrate (26) zwischen die Eingangsschaltung (12,14) und den Vokaltrakt (6o) geschaltet ist, auf das Sprechratensignal anspricht und hiernach die abrupten Variationen glättet, die in den Kontrollsignalen zwischen aufeinanderfolgenden Phonemen auftreten.18o. Sprachsynthesizer nach Anspruch 67, dadurch gekennzeichnet,; daß der VokaL trakt (6o) in Übereinstimmung mit den Kontrollsig?-nalen das ArtLkuLationsmuster des darauffolgenden Phonems,welches von den Eingangsdaten identifiziert wird, während der Erzeugung des stummen Phonemes bildet.809808/0752 - 23 -
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US05/714,495 US4128737A (en) | 1976-08-16 | 1976-08-16 | Voice synthesizer |
Publications (1)
Publication Number | Publication Date |
---|---|
DE2736082A1 true DE2736082A1 (de) | 1978-02-23 |
Family
ID=24870277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19772736082 Ceased DE2736082A1 (de) | 1976-08-16 | 1977-08-10 | Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer) |
Country Status (7)
Country | Link |
---|---|
US (1) | US4128737A (de) |
CA (1) | CA1082812A (de) |
CH (1) | CH625900A5 (de) |
DE (1) | DE2736082A1 (de) |
FR (1) | FR2362462A1 (de) |
GB (1) | GB1584836A (de) |
IT (1) | IT1084152B (de) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2049189B (en) * | 1979-03-16 | 1983-12-21 | Sharp Kk | Measuring instrument with audible output |
US4449233A (en) | 1980-02-04 | 1984-05-15 | Texas Instruments Incorporated | Speech synthesis system with parameter look up table |
US4327251A (en) * | 1980-03-17 | 1982-04-27 | Radionics Inc. | Automatic telephone directory message system |
US4433210A (en) * | 1980-06-04 | 1984-02-21 | Federal Screw Works | Integrated circuit phoneme-based speech synthesizer |
US4337375A (en) * | 1980-06-12 | 1982-06-29 | Texas Instruments Incorporated | Manually controllable data reading apparatus for speech synthesizers |
US4470150A (en) * | 1982-03-18 | 1984-09-04 | Federal Screw Works | Voice synthesizer with automatic pitch and speech rate modulation |
US4602152A (en) * | 1983-05-24 | 1986-07-22 | Texas Instruments Incorporated | Bar code information source and method for decoding same |
US4754485A (en) * | 1983-12-12 | 1988-06-28 | Digital Equipment Corporation | Digital processor for use in a text to speech system |
JP2595235B2 (ja) * | 1987-03-18 | 1997-04-02 | 富士通株式会社 | 音声合成装置 |
KR920008259B1 (ko) * | 1990-03-31 | 1992-09-25 | 주식회사 금성사 | 포만트의 선형전이구간 분할에 의한 한국어 합성방법 |
US5621658A (en) * | 1993-07-13 | 1997-04-15 | International Business Machines Corporation | Method and apparatus for communicating an electronic action from a data processing system to another data processing system via an audio device |
DE69526805T2 (de) | 1994-12-08 | 2002-11-07 | Univ California | Verfahren und vorrichtung zur verbesserung des sprachverständnisses bei sprachbehinderten personen |
US6052441A (en) * | 1995-01-11 | 2000-04-18 | Fujitsu Limited | Voice response service apparatus |
US6047254A (en) * | 1996-05-15 | 2000-04-04 | Advanced Micro Devices, Inc. | System and method for determining a first formant analysis filter and prefiltering a speech signal for improved pitch estimation |
US6109107A (en) | 1997-05-07 | 2000-08-29 | Scientific Learning Corporation | Method and apparatus for diagnosing and remediating language-based learning impairments |
US6019607A (en) * | 1997-12-17 | 2000-02-01 | Jenkins; William M. | Method and apparatus for training of sensory and perceptual systems in LLI systems |
US6159014A (en) * | 1997-12-17 | 2000-12-12 | Scientific Learning Corp. | Method and apparatus for training of cognitive and memory systems in humans |
US5927988A (en) * | 1997-12-17 | 1999-07-27 | Jenkins; William M. | Method and apparatus for training of sensory and perceptual systems in LLI subjects |
JP3912913B2 (ja) * | 1998-08-31 | 2007-05-09 | キヤノン株式会社 | 音声合成方法及び装置 |
US7524191B2 (en) | 2003-09-02 | 2009-04-28 | Rosetta Stone Ltd. | System and method for language instruction |
US20050153267A1 (en) * | 2004-01-13 | 2005-07-14 | Neuroscience Solutions Corporation | Rewards method and apparatus for improved neurological training |
JP6047922B2 (ja) * | 2011-06-01 | 2016-12-21 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2209548A1 (de) * | 1971-03-01 | 1972-10-19 | Gagnon R | Stimmensynthetisatorsystern |
DE2519483A1 (de) * | 1974-11-20 | 1976-05-26 | Forrest Shrago Mozer | Verfahren und anordnung zur sprachsynthese |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2194298A (en) * | 1937-12-23 | 1940-03-19 | Bell Telephone Labor Inc | System for the artificial production of vocal or other sounds |
US2824906A (en) * | 1952-04-03 | 1958-02-25 | Bell Telephone Labor Inc | Transmission and reconstruction of artificial speech |
US3102165A (en) * | 1961-12-21 | 1963-08-27 | Ibm | Speech synthesis system |
US3268660A (en) * | 1963-02-12 | 1966-08-23 | Bell Telephone Labor Inc | Synthesis of artificial speech |
US3836717A (en) * | 1971-03-01 | 1974-09-17 | Scitronix Corp | Speech synthesizer responsive to a digital command input |
US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
US3908085A (en) * | 1974-07-08 | 1975-09-23 | Richard T Gagnon | Voice synthesizer |
-
1976
- 1976-08-16 US US05/714,495 patent/US4128737A/en not_active Expired - Lifetime
-
1977
- 1977-07-25 CA CA283,441A patent/CA1082812A/en not_active Expired
- 1977-07-28 GB GB31815/77A patent/GB1584836A/en not_active Expired
- 1977-08-10 DE DE19772736082 patent/DE2736082A1/de not_active Ceased
- 1977-08-12 FR FR7724913A patent/FR2362462A1/fr active Granted
- 1977-08-12 IT IT26731/77A patent/IT1084152B/it active
- 1977-08-15 CH CH997077A patent/CH625900A5/de not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2209548A1 (de) * | 1971-03-01 | 1972-10-19 | Gagnon R | Stimmensynthetisatorsystern |
DE2519483A1 (de) * | 1974-11-20 | 1976-05-26 | Forrest Shrago Mozer | Verfahren und anordnung zur sprachsynthese |
Also Published As
Publication number | Publication date |
---|---|
CH625900A5 (de) | 1981-10-15 |
CA1082812A (en) | 1980-07-29 |
IT1084152B (it) | 1985-05-25 |
FR2362462B1 (de) | 1980-09-19 |
FR2362462A1 (fr) | 1978-03-17 |
GB1584836A (en) | 1981-02-18 |
US4128737A (en) | 1978-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2736082A1 (de) | Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer) | |
DE60112512T2 (de) | Kodierung von Ausdruck in Sprachsynthese | |
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
DE2115258C3 (de) | Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern | |
DE2212472A1 (de) | Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte | |
DE2626793A1 (de) | Verfahren zur bewertung stimmhafter und stimmloser zustaende eines sprachsignals | |
DE2840596A1 (de) | Sprachsynthesizer | |
DE69720861T2 (de) | Verfahren zur Tonsynthese | |
DE60019229T2 (de) | Normalisierung der Grundfrequenz zur Spracherkennung | |
DE3228756A1 (de) | Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen | |
DE1965480A1 (de) | Geraet fuer kuenstliche Erzeugung von Worten durch Umwandlung eines in Buchstaben gedruckten Textes in Aussprache | |
DE60202161T2 (de) | Verfahren, Vorrichtung und Programm zur Analyse und Synthese von Sprache | |
EP1105867A1 (de) | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten | |
US4301328A (en) | Voice synthesizer | |
DE1811040C3 (de) | Anordnung zum Synthetisieren von Sprachsignalen | |
DE60315544T2 (de) | Telekommunikationsendgerät zur Veränderung eines übertragenen Sprachsignals bei einer bestehenden Fernsprechverbindung | |
EP0058130B1 (de) | Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens | |
DE60305944T2 (de) | Verfahren zur synthese eines stationären klangsignals | |
DE4441906C2 (de) | Anordnung und Verfahren für Sprachsynthese | |
WO2010078938A2 (de) | Verfahren und vorrichtung zum verarbeiten von akustischen sprachsignalen | |
DE2657039A1 (de) | Schaltungsanordnung zum nachahmen der klangcharakteristik von zungen-orgelpfeifen | |
EP1170723B1 (de) | Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese | |
DE3232835C2 (de) | ||
DE2904426A1 (de) | Analog-sprach-codierer und decodierer | |
EP1130577A2 (de) | Verfahren zur Rekonstruktion tieffrequenter Sprachanteile aus mittelhohen Frequenzanteilen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
8131 | Rejection |