DE1811040A1 - Anordnung zum Synthetisieren von Sprachsignalen - Google Patents
Anordnung zum Synthetisieren von SprachsignalenInfo
- Publication number
- DE1811040A1 DE1811040A1 DE19681811040 DE1811040A DE1811040A1 DE 1811040 A1 DE1811040 A1 DE 1811040A1 DE 19681811040 DE19681811040 DE 19681811040 DE 1811040 A DE1811040 A DE 1811040A DE 1811040 A1 DE1811040 A1 DE 1811040A1
- Authority
- DE
- Germany
- Prior art keywords
- signals
- signal
- speech
- arrangement
- consonants
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002194 synthesizing effect Effects 0.000 title claims description 7
- 238000000034 method Methods 0.000 claims description 7
- 239000000203 mixture Substances 0.000 claims description 3
- 230000000737 periodic effect Effects 0.000 claims 1
- 230000010355 oscillation Effects 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 230000036544 posture Effects 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 238000013016 damping Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000002360 explosive Substances 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 206010000060 Abdominal distension Diseases 0.000 description 1
- 235000001543 Corylus americana Nutrition 0.000 description 1
- 240000007582 Corylus avellana Species 0.000 description 1
- 235000007466 Corylus avellana Nutrition 0.000 description 1
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 244000025221 Humulus lupulus Species 0.000 description 1
- 208000024330 bloating Diseases 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003921 oil Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
2. St*1nsdorfttr. 11
81-H.O99P 26.11.1968
Anordnung zum Synthetisieren von Sprachaignalen
Die Erfindung bezieht sich auf eine Anordnung zum Synthetisieren
von Sprachsignalen, und zwar insbesondere, auf eine solche Anordnung, bei der die Sprachsignale auf künstlichem Wege
durch Zusammensetzung vergespeicherter akustischer Grundelemente
zusammengesetzt werden, was im folgenden als Vorspeioher- ^
und-Suaammensetz-System bezeichnet werden soll.
Bei einem solohen System wird als vorgespeicherte Einheit
üblicherweise ein ganzes Wort verwendet. Daher bedarf es sur
Steigerung des Umfangeβ an synthetisierbaren Sprachsignelen und
zur Erweiterung des Einsatztereichee einen aolchen Systeme von
einem begrenzten Spezialgebiet auf einen allgemeineren Rahmen einer drastischen Vergi'ößerung der Anzahl der gespeicherten
Grunöelemente oder Worte. Eine solche VorcröDerung der vorge-
81-(Po3. H 288MfOr(O) 909830/08β*
BAD
speicberten Worte führt nun aber unvermeidlich zu einer Aufblähung und Kompilierung des Systems und steigert aufierdcM
die für das Auslesen eines gesuchten Wortes erforderliche In· griffezeit· j
Als möglichen Ausweg zur Lösung dieser Probleme könnte
daran denken, anstelle ganzer Worte nur einzelne Silben als vorgespeicherte akustische Grundelemente zu verwenden· Jedoofc
leidet diese Methode bekanntlich daran, daß die Qualität der synthetisierten Sprachsignale sowohl hinsiohtlioh deren Klarheit als auch hinaichtlich deren Natürlichkeit sehr tu wtineehen
übrig läßt. Ein Grund für diese verminderte Qualität der synthetisierten Sprachsignale liegt darin, da8 sich ein durch Zusammensetzen von Silben aufgebautes Wort in den charakteristischen Merkmalen der es aufbauenden Silben, wie z.B. den Foreant-Prequenzen, der Intensität der HUllkurre, der Pitoh-Frequena
und der Dauer, sehr stark von dem gleichen Wort unterecheiivt,
wenn dieses in natürlicher Sprechweise im Zusammenhang *l*4
finer besonderen Bedeutung aufgesprochen wird« Der ·1μ1§Ι
zur Überwindung dieses Problems besteht wieder in einer
fierirag der Anzahl der vorgespeicherten akustlsohen
te, was jedoch dem mit der Verwendung von Silben als gespeicherte Grundelemente angestrebten Zweck gerade zuwiderläuft·
Der Hauptzweck der Erfindung besteht daher darin, eine verbesserte Anordnung zur Synthetisierung von Spracheignalen
nach dem Torspeicher-und-Zusammensete-Syatem zu schaffen, bei
90§S30/0IS4
dem die oben erwähnten Mangel beseitigt sind. Ziel der Erfindung
ist es dabei, die Mannigfaltigkeit der aynthetieierbaren Sprachsignale
zu vergrößern^ die Anzahl der als Grundelenentβ für den
Aufb&u der synthetisierten Sprachsignale zu speichernden Sprachelomente
auf ein Minimum zu reduzieren, die Qualität' der eynthetir.ierten
Sprache insbesondere hinsichtlich deren Natürlichkeit
zu verbessern und insgesamt den Platssbedarf für die gesamte
Anordnung zu verringern.
Erfindungsgemäß werden als vorzuspeiohemde akustische
Grundelemente stimmhafte Laute, von denen jeder eine konstante Wiederholun^srate hat, und Konsonanten unter Einschluß von laeal-Inuten,
stimmlosen !bauten und st!anhaften Konsonanten verweadet.
Jeder stimmhafte Laut wird durch wahlweises Auslesen and Zu·*»«
men set sen einer Anzahl von gedämpften Sinus Schwingungen vereolileßerier
Pro qu ens, θ ie zuvor auf einem Aufzeichnungsträger auf geaeicfcnet
sind, in variierenden und durch ein Steuersignal feetlegbaren
Zeitintcrvallen erzeugt. Der konsonantische Anteil der eynthetisierten Sprachsignale dagegen wird entweder «αβ einer An« W
zahl natürlich ausgesprochener Konsonanten oder eyntlietiaierter
Konuonanten zusammengesetzt, welche die charakteristischen Merkmale
der natürlichen Konsonanten wiedergeben. Diese das Spraohsignal
aufbauenden Konsonanten werden auf einem Aufzeichnungsträger
vorgespeichert und unter Steuerung durch ein Steuersignal, das sowohl den Auslesezeitpunkt als auch die Auslesedauer bestimmt,
ausgelesen.
909830/0864
IO I I
Zur Erläuterung der Einzelheiten der Erfindung wird in der
folgenden Beschreibung auf die Zeichnung bezug genommen· Ee !eigen
t
Fig. la, 1b und 1c Darstellungen der Wellenform eines Sprachsignale
und deren charakteristischen
Spektrums;
Pig. 2a» 2b, 2c und 2d Darstellungen der Wellenform einer
speziellen Sinusschwingung und deren charakteristischen Spektrums;
φ ■ Fig. 3 und 4 schematise!^ Darstellungen zur Veranaobauli-
chung der Synthese von Wellenformea mittels
eines Magnettrommelspeichersι
Pig. 5 ein Blockschaltbild für eine eifindungsgemäß· Anordnung
zur Spraeheynthetiaieruag; und
Fig. 6 und 7 Sohaltbilder zur Irläuterua« der Arbeitsweise
wesentlicher Teile dieser Ausfuhru»gsfarm einer
erfinduttgsgemäßen Anordnung.
Grundsätzlich entsteht Sprache dann« wenn entweder ein durch
Vibration der Stimmbänder erzeugter und annähernd periodisch wie-φ
derholten intermittierenden dreieoklgen Wellen entspree*e»der
stimmhafter Laut oder ein duroh einen auf eine Zusamoenslehunii
dee Yokaltraktes zurückgehenden turbulenten Luftstrom erzeugter
unrl angenähert weißem Rauschen entsprechender stimmloser Laut
durch einen in dem Vokaltrakt, d.h. einem zwischen der Stimmritse
und den lappen liegenden artikulatorisohen Organ auegebildeten
Hohlraum hindurchgeht.
909830/0864
1811OAO
nale darstellt, entspricht der mit der Bezügezahl 1
bezeichnete Abschnitt einem stimmhaften lAut, la de» die fiederholunßsrate einer Vokalbasis konstant ist, und der mit der Bezugs zahl 2 bezeichnete Abschnitt einem Konsonanten. DiePrequeneapektren der beiden den Abschnitten 1 und 2 In Fig· 1a Beigeordnet cn Laute kennzeichnen sich, wie aus Yig· Ib bsi*, fig. Ie er*
sichtlich ist, du roh ihre Hiillkurven 3, die ein Maß für die Re* ^
sonajizlcenngrößen des artikulatorisehen Raumes darstellen, und
durch ihre Internstruktur, die ein Maß für die tenngrößen der
Vokaibasis darstellt, wobei die ersteren außerdem hauptsächlich
durch verschiedene einzelne ResonansskenngrOBen, d.h. die foraanten, 4, 41, 4", 5 und 5' bestimmt norden» und die letitere hauptsächlich durch ein harmonisches Linienepektrum 6 gekennzeichnet
ist, das die Periodizität und die Zufälligkeit eine· kontinuierlichen Spektrums aufweist.
Erfindungegemäfl vrlrd die Synthetielertmg eines atlmmhaften M
lauteo mit einer konstanten Wiederholungsratev der beispielsweise ein charakteristische» Spektrum aufweist, «it ds in flf· 1»
veranschaulicht ist, aus einer Anzahl von vorgeipeioherten gt* '
dämpften Sinusschwingungen verschiedener fr«quens erleichtert.
AIo näohateo soll nun das Grundprinzip einer solchen Synthese naher erläutert werden·
909830/086^
■ BADORlSfNAL
stellt ist, ergibt ein einseines Resonanzfrequenzspektruia, 91·
es in Fig. 2b gezeigt ist. Dabei läßt sich diese gedämpft« Si«
nueochwinguns durch den Ausdruok «- *tn co .^
darstellen, in dem ^Cden Dämpfungsfaktor, t die Zelt und t*>^ die
Kreisfrequenz für die Sinusschwingung bedeuten· Wird die gedämpf
te SinuaSchwingung mit einer konstanten Periode T wiederholt,
wie dies in Pig. 2c veranschaulicht ist» so geht ihr Frequensopektrum in ein harmonisches Linienepektrum über, wie ea in Hg·
2'd dargestellt ist. Aus der akustischen Theorie der Spracherzeugung ist bekannt, daß eich die In flg. 1b dargestellte Hüllkur«
ve 3 durch kontinuierliche Aneinanderreihung einzelner Resonanskennlinien geninnen läßt, wie sie in Fig. 2b dargestellt ein*.
rahor läßt sich ein solcher stimmhafter laut mit einer konstftnten Pitch-Periode oder Viederholungsperiode für die Vokalbaele
wie etwa der Vokal "e" dadurch synthetisieren, daß «an eine Yorgespeicherte gedämpfte Sinusschwingung von der Formant-Frequen*
dea betreffenden Vokals äquivalenter Porfflant-Prequens mit einer
vorgegebenen Periode mehrfach wiederholt und dabei die Amplituden der wiederholten Schwingung so steuert« daß die nftflltetflMB-den Bedingungen erfüllt wardens Die relative Amplitude dee «weiten ?ormanten beträgt (^/^' » 1^1* aie relative Amplitude de·
dritten Formanten ('^1/^2)2 (ω 2/^3)2, wobei ^1, ^2 und ^3 .J^
v;oils die Kreisfrequenzen des ersten, des zweiten bzw. de·1 dritten P ο man ten des Laute a bedeuten· :
909830/0f64
1811OAO
haften Laut mit einer konstanten ViederholungsfrequenB, d.h.
einem Laut mit einem speziellen Prequenzspektrum, und eine«
weiteren Laut mit einem anderen Frequenzspektrum mit hinreichender Glätte bzw. Veiohbeit durch die folgenden Schritte synthetiuieren: Quantisierung der Änderung in der frequenz der charakteristischen Pormanten der jeneiligen Laute zwischen diesen bei·
den stimmhaften Lauten, Synthetisierung von Lauten durch Zusaa-
^onsetsimg gedämpfter 8inueschwingungen in der oben beoohriebeet
nen Weiee und anschließende Verbindung der so gebildeten Laute w
miteinander«
Dene ntsprechend braucht die Ansah! der akustischen GrunA*
elemente, die in der erflndungegemäBen Anordnung sur Bpracheynthetlsiening vorgespeichert werden nüssen» nur so grot zu «eint
laß sie die für den Aufbau eines Sprachsignale unter ElnsohluB
des ersten( des zweiten und des dritten Foment en wesentlichen
Frequenabänder alt hinrelohenden Spielraun abdeokt« Ein Seispiel
flir e^ne solche' Anzahlt wie sie bei einer AusfUhrungeforra einer
erfindungsgemaeen Anordnung realisiert worden let, ist in der ^
nachstehenden Tabelle 1 dargestellt.
Tabelle 1: Beispiel far die Anzahl der in Fora gediapfter
Sirusschwingungen vorgespeicherten akustisohen Orundelemente
909830/0864
BAD ORIGINAL
18 Π 040
Formant Frequenzbereich Quantisierungs·
stufe
1. 200 *v 950 Hz
2. 800—2400 Hz
3. 2200-3500 Ez insgosaiat200'"N'3500 Hz
50 Hz
Kanal- Bit-Anzahl anzahl
16
Logarithmischer 16
Maßstab
Maßstab
η η β
40
4 4
3 11
Was nun die konsonantischen Anteile der Sprache (Nasallaute,
stimmlose Konsonanten und vokalisohe oder stimmhafte Konsonanten)
anbelangt, so ist es lediglioh erforderlich. Signale vorzuspeichern,
die den Kenngrößen der jeweiligen Konsonanten entsprechen. Die Anzahl derartiger Signale beträgt höchstens 16,
wie dies in der nachstehenden Tabelle 2 dargestellt iflt·
Tabelle 2t Beispiel für die Anzahl der g«speiohtrten konsonantischen
Grundelemente·
Rciblaute
Explosivlaute
Nasallaute
Kontronaat Anzahl Konsonant Anzahl Konsonant Anzahl der
der Grund- der Grund- Grundelemente
elemente elemente
1 | P | 1 | ra | 1 |
1 | t | CVl | η | 1 |
5 | k | 3 | I | 1 |
Pamer.tspreelnsnd liegt die Gesamtanzahl für Ale zu speichernden akustischen Grundelemente in der GröOenordnung von 50«,
909830/0864
1911040
Sur Verbesserung der Hatürlicfeteeit der auf diese Weise aufgebauten Sprache ist es erforderlich, die Periode für die oben
beschriebene wiederholte Erzeugung der gedämpften Sinusschwingungen in Übereinstimmung Kit der Pitch-Periode der zu synthetisierenden Sprachsignale au steuern.
Ira folgenden wird eine gangbare Methode für eine derartige
Steuerung unter Bezugnahme auf Pig. 2 näher beschrieben! in der
ein Kagnettrommelapeicher echenatisch veranschaulicht ist, in den ~
die oben beschriebenen gedämpften Sinusschwingungen eingespeichert sind.
nimmt man an, daß der unterste Wert für die Pitch-Prequen«
der SU synthetisierenden Sprachsignale bei 50 Ha liegt, so müa-εεη. die gedämpften Sinus schwingungen über 20 ms hinweg ge spei«
chert werden, was einer Periode fUr die Umdrehung der Magnettrommel entepricht. Dies bedeutet, daß die Zeitkonstante für die Dämpfung der Sinusschwingungen, für den Höchstfall auf etwa 20 ms an*
zusetzen ist· Diese Annahme ist mit Rücksicht auf die Bandbreite ™
der Vokalformanten angemessen. Hund um den Umfang der Magnettrommel sind beispielsweise sehn Leseköpfe mit gleichen gegenseitigem
Λbatand verteilt angeordnet, so daß der zeitliche Abstand zwischen zwei benachbarten Leseköpfen 2 me beträgt· Dieser Zeitabctand bedeutet gleichzeitig die Minimal größe für die Steuersohritte für die Pitch-Periode, und die Pitch-Prequenz wird dann entsprechend der Auswahl der leseköpfe in den nochstehenden zehn
Stufen geregelt: 50 Hz, 55,5 Hz, 62,5 Hz, 71,5 Hz, 83,5 Hz, 100 Hz,
909830/0864
BAD
1911040
125 Kz, 166 Hz, 250 Ez und 500 Hz. Dioae Schrittweiten lassen
s:Lch selbstverständlich durch eine Vergrößerung der Anzahl H
der leseköpfe entsprechend verkUrsen.
Unter Bezugnahme auf die Darstellung in Fig· 3 sei angenommen»
daß der Lesekopf 1Q su einem bestimmten Zeitpunkt im
Lessvorgang begriffen ist und daß daa Zeitintervall TQ den zeitlichen
Abstand zwischen der Analesung duroh den Lesekopf I0 und
der Auslesung durch den leeekopf X1 bedeutet. Beginnt der näohste
. AusieseVorgang dann, wenn der Anfang des aufgezeichneten Signals
die Stellung des Lesekopfea I-J+^ erreicht, so wird das Zeitintervall
zwischen zwei Auslesungen um f'· k Sekunden länger. Beginnt
aie nächste Auslesung dagegen an der Stelle de3 Lesekopfea I1.^,
so wird des Zeitintervall zwischen awei aufeinanderfolgenden Auslosungen
um f. k Sekunden kürzer. Dabei bezeichnet Tdas Zeitintervall,
das verstreicht, b'.v sich eine Mantellinle der rotierenden
liagnettrommel von einem Lesekopf zu dem nächstfolgen-
β·η Leeekopf rreitergedreht hat. Nimmt man nun an» daß das aufgezeichnete
Signal durch einen Lesekopf kontinuierlich während einer vollen Umdrehung der Magnettrommel, d.h. 20 ms lang, ausgelesen
wird» so ersieht man aus Pig. 4, daß eich der Anfange*
ahscb'/iitt jeder Ausleneperiode mit einem Teil des von dem vorangehenden
Lesekopf auo^eleaenen b'ignales und der Sndabsohnitt Je-
. der Ausleseperiocle mit einem Abschnitt in dem von dem nachfolgenden
Lesekopf ausgelesenen Signal überschneiden, so daß der über- .
. gang r.Y/iochen den physikalischen Kenngrößen sich weicher vollzieht,
woraus sich eine, varbeaaerte Qualität der synthetisierten
Sprachsignale ergibt. 9Q9830/0864
iAi ORIG'i
Ale nächstes sollen der Aufbau und die Arbeitsweise einer
Anordnung r.ur Spraohsynthelisierung mittels Vorspeiciierung und
Zusammensetzung der vorgespeicherten Signale gemäß der Erfindung anhand einer bestimmten Ausführimgoforra einer erfindungsgemäöen
Anordnung im eineeinen dargelegt werden.
In Pig. 5, die ein Blockschaltbild einer Au3führungsform
der Erfindung darstellt, 1st ein mebrkanaliges System mit η Auscangekanälen
veranschaulicht· Die Bestandteile des in ein Sprachei-gn&l
umzuwandelnden Satzes, die in einem Hauptgerät 10, beicpielsT7ei»e
einem üblichen großen schnellen Elektronenrechner, Ausgewählt werden, werden unmittelbar in ausgangseeitige Spraoh-B
teuer signale'*t1, 12, ...In für einen Hagnettrommelspeicher 20
umgesetzt, der ein sogenanntes Ausspracheverzeichnis, d.h. einen &£ts von Steuersignalen für die zu artikulierenden Spraohelemen-
" · ' to enthält, und anschließend auf Steuersignaldekoder 101, 102,·.·
1On fUr die jeweiligen Kanäle verteilt, in denen die aufgeteilten
Steuersignale in eine örupjte greifbarerer Steuerdgnale 21,
22, ·..2n für die Auslesung Her aufgezeichneten akustieohen örundcleaente
dekodiert werden..
Ein Teil der dekodierten Signale wird Torschaltungsmatrizen
201, 202, ...2On für die Auswahl der aufgezeichneten Sprachtlemtnte
zugeführt, während der übrige Teil Gruppen von Analogmultiplikatoren
(311, 312, 313), 321, 322, 333) *..(3n1, 3n2,3n3)
zur Steuerung der relativen Amplituden der ausgelesenen Signale
909830/0864
BAD ORIGINAL
1511040
- iZ -
st. Auf diese Weise wird ein fjpcziellee akuotiechas Grundelement
durch einen speziellen Leoekopf auf der Speichertrommel
30 für diese akustischen Grund elemente in einem besonderen Zeitpunkt
ausgelesen; und anschlieGsnd wird die relative Amplitude
in der der ausgeleaenen Signale erforderlichen ..'eise gesteuert·
Die in ihrer Amplitude gesteuerten Auagangs3ignale werden SumciierverBtärJcera
313, 324·,...5n4 in den jeweils zugehörigen Kanälen
zugeführt, darin untereinander aufsummiert und anschließend
in ITultiplikatoren 315, 325,...3n5 ao in ihrer Intensität
gerogelt, wie dies fUr ein Phonem und ein integriertes Spraohsignal
erforderlich ist.
Anschließend werden diese Ausgangssignale in Summierverstfcrkera
316, 326,...3n6 mit Konsonanten kombiniert und werden
so zu resultierenden Ausgangsaprachaignalen 31» 32,..·3η· Dae
oben beschriebene Verfahren wird beispielsweise alle 10 ms wiederholt,
und auf diese Weise erhalt man ausgangsseitig ein kontinuierliches
Sprachsignal.
Als nächstes sollen die wesentlichen Bauteile des oben ervfilmten
Systems im einzelnen beschrieben werden· Wie bereite
oben erläutert, wird ein Sprachsignal erfindungsge:aöß in zwei
feile aufgeteilt, nämlich einen ersten Teil, der die Yokale und libergangslaute unter Einschluß der Halbvokale und Fließlaute
enthält, und einen zweiten Teil, der die Konsonanten, und
iwar stimmlose Konsonanten, stimmhafte Konsonanten und Hasallaute
enthält. Bei der Sprachsignalsynthese wird der erste Teil
830/0864
1811 ΟΛΟ
durch- wiederholte Auslesung von vorgespeicherten gedämpften Sinne
Schwingungen i» variierenden Perioden erzeugt, während der
zweiLta Teil durch unmittelbare Auolesucg der jeweils erforderlichen
Wellenformen aua den aufgezeichneten konsonantischen
vfellsn-formen gewonnen wird, und schließlich werden beide Teile
mit <: ir ander kombiniert, Nun ist es bereits bekannt, daß sich
Reibelaute und Explosivlaute durch Vergrößerung der Überlappung zwischen dem konsonantischen Teil des Sprachsignale und dessen
die Vokale und Ubergangslaute. enthaltendem Toil und Explosionslaute außerdem durch Versteilerung des die Vokale und die Uberjsangalaute
enthaltenden Teiles dee Sprachsignale gewinnen lassen·
Demzufolge laßt oich jede beliebige üilbe aus den beiden
oben beschriebenen Teilen eines Sprachsignals synthetisieren.
Von diesen beiden Teilen jedes Sprachsignale verlangt lediglich der erste Teil eine wiederholte Auelesung in variierenden
Periodeny und diese variablen Perioden sind außerdem allen
ersten, zweiten und dritten Formanten gemeinsam.
Daher kann bei der nun folgenden Erläuterung der Auslesung
der aufgezeichneten akustischen Grundelemente auf einen gesonderten
Kanal Bezug genommen werden. Die auf der Magnettrommel 30 aufgezeichneten akustischen Grundelemente lassen sich in zwei
Kategorien aufgliedern, nämlich eine erste Gruppe von gedämpften Sinusschwingungen, die zur Synthese des oben erwähnten ersten»
die Vokale und übergängslaute enthaltenden Teiles des Sprach-
909830/0864
BAD ORIGINAL
- Ί4 -
signals dienen» und eine zweite Gruppe von konsonantischen WeI-Io
r, formen. Die erste Gruppe ist in drei einander in Rand be r eichen
überlappende Gebiete aufgeteilt, nämlich ι den.ersten Porraantbi»reioh
(16 Kanäle zwischen 200 und 950 Hz), den zweiten Formantbereich (16 Kanäle zwischen 800 und 2400 Hz) und den dritten
?ormantbereich (8 Kanäle zwischen 2200 und 3500 Hz). Zur Vereinfachung
des Aufbaues der Steuerung sind die Spuren auf der Mag« nettrommel 30 entsprechend den beiden oben erwähnten Kategoriern
unterteilt, wobei die erste Jv.tegorie weiter in drei Zonen,, nümlieh
eine erste, eine zweite und eine dritte Zone unterteilt lot. Auf diese Weise sind die Aufzeiohnungsspuren auf der Trommel
auf vier Zonen verteilt.
Dies bedeutet wiederum, daß dis Speichertrommel 400 für
die akufttiochen Grundelemente in Tier Zonen 401 9 402« 403 und
404 unterteilt iet, wie dies in Fig. 6 dargestellt ist. Die Aus» gan£3&ignale von Leseköpfen für die jeweiligen Kanäle in diesen
vier Zonen werden iorsohaltunssmatrisea 411, 4Ϊ29 413 und 414
fUr iie Auswahl dieser Auegangseignal® zugeführt. Ton diesen
vier Torschaltiinßsmatrizen werden die Matrizen 411 # 412 und
fUr die Bildung der ?ornianten gemeinsam mit einem Iiesekopf^Auswahlsignal
451 gespeist, während die verbleibende Matrix 414 mit c ir cm Signal 452 für die Ausvjahl des Lesekopfes für die Auslösung
der Konsonanten versorgt wird.
Um zu bestimmen, welcher *anal, d.h. welohe i'requeniB, in
iflen jeweilii^en Zonen ausgewählt werden soll, werden den ent-
909830/0364
1511040
sprechenden Matrizen Frequenz-Auswahleignale. 461 f 462 und 463
zugefUIirt, da die ersten, zweiten und dritten Formanten unabhängig voneinander gesteuert «erden sollen. Entsprechend diesen
Steuersignalen erhält man an Ausgangsklemmen 471 v 472 und 473
der 2orochaltungsmat rissen 411, 412 und 413 gedämpfte Sinusschwingungen verschiedener Irequcna (entsprechend der jeweiligen Pormant-Prequens) in wiederholter Äugleeung mit speziellen
Perioden (entsprechend den jeweiligen Pitch-Perioden). Die Aue- ^
^cn^ssignale der fcatrizen 412 und 413 werden bezüglich ihrer relativen Amplitude gegenüber dem Ausgangesignal der Matrix 411
in Analog-Hultiplikatoren 422 und 423 mit Bezug auf Steuersignale 465 und 466 geregelt und anschließend gemeinsam mit dem
Auagangssignal der Matrix 411 in eines 3ummierveretärlcer 431
auf summiert. Bas Auogangasignal des Summierverstärkers 431 wird
a^BercJom in einem Analog-liuliplikator 441 in seiner Amplitude
mit Bezug auf ein Steuersignal 481 in der T/eis· geregelt, deJ
es eine gute Wirkung fUr den Yokalklang und die Spr?..ohe ergibt,
und anschließend Über eine Ausgangsklemne 490 als kontinuierli- (1
ches Sprachsignal nach außen abßegfcen· ·' '
Wird ein Konsonant verlangt, so wird das durch die **atrlx
414 ausgewählte konsonantische Signal den den Vokalen und übergang alauten entsprechenden Signal in einen Summierrerstärker
i:uaddiertf nachdem es in einem Analog-Hultiplikator 424 eine
passende steuerung seiner relativen Amplitude gegenüber dem die Vokale und übergangslaute enthaltenden Signal nit Bezug auf ein
Steuersignal 468 erfahren hat.
909830/0864
BAD ORIGINAL
In Pige 7 ist ein Ausschnitt aus einer der in Pig. 6 dar-3?orschP.ltung3iaatrizen
411, 412, 413 und 414 für die der rorgespeicherten akustischen Grundelemeate im einzelnen
Jargesteirt. Da die Toi^chaltungsmatrizen 411, 412, 413
und 414 einander in ihrer Arbeitsweise im wesentliche» entsprechen»
kann sich die nachstehende Beschreibung auf lediglich eine
davon beschränken.
Für die Darstellung von J.(1ig. 7 sei angenommen, daß 1 aufgezeichnete
Spuren 1, 2...1 auf der Magnettrommel 400 wahlweise durch N Leseköpfe 1, 2...H ausgelesen werden sollen.
Das Signal 451 (fUr die Matrizen 411, 412 uad 413) oder das
Signal 452 (für die Matrix 414)» das die Leaeköpfe bezeichnet{,
durch welche die aufgezeichneten Signale ausgelesen werden sollen»
wird einem Dekoderpuffer 500 zugeftShrt, in dem ee dekodiert wird.
Der Dekoderpuffer 500 speist von den Ausgangs leitungen 501 bits
5ON die zu den ausgewählten Lesekßpfen führenden Ausgangsleitungen
mit dem Ausgangseignal "1" und alle übrigen mit dem Ausgangs«
signal "Ο". .
Inzvvisohen wird das Signal 461 (für die *atrix 411), das
Signal 462 (für die Matrix 412) öder das Signal 463 CfUr die
*atrix 413), das die Kanüle angibt, derer» Ausgangesignale abgenommen
werden sollen» einem »weiten Dekoderpuffer 600 zugeführt
und du$}n dekodiert. Der Dekoderpuffer 600 speist von Auegangeleitungen 601, 602...601 die ausgewählten leitungen mit dem Sig-
909830/0864
1911OAO
nal "1" unö. alle übrigen -Leitungen mit dem Signal "Ö"· ta·
mm die aus den einzelnen Spuren auf der Magnettronael ausgelassen analogen Signale anbelangt , so werden die AuegangsaignaJ.e der den eraten I»eseköofen zugeordneten Spuren Klematn 11,
12,....,bsw.1l, die Ausgangssignale für die dtn zweiten £eaeköpfen sageordneten Spuren Klemmen 21, 22,...., be«· 21 und die
Aus gang s signale ftir die den N-ten-Ieeeköpfen zugeordneten Spuren
Klemmen ΗΊ» N2,..,bzw· Hl zugeführt.
Wie aus Fig. 7 ersichtlich, werden digitalen UWD-Schaltun-
£cn 111, 121,...111; 211, 221,...211 bzw. 111, 121,...IH mit
Torschaltungeauewahlaignalen 301, 502,...501 und 601, 502,...6Ol
geapeist. Als FoI^e davon Offnet von den VzI Torschaltung«
nur die Torschaltung, die Im speziellen Fall das Signal "I" su*
geführt erhält, und gibt nur die jeweils zugehörigen Torsohaltung von don nachfolgenden analogen Toreohaltungtn 112» 122,.,.
112} 212, 222,.*.212ι H12, 122,...112 ein Ausgangssignal ti· ab.
Auf diese V/eise wird das von tie π speziellen ^eeekoof aus der
speziellen Spur aus£eleeene Ausgangesignal ausgewählt. ^
Außerdem gibt das dekodierte Ausgangssignal des Dedekoder«
verstärkern 500 nicht nur den auszuwählenden Lee elco pf an, sondern
auch den Zeitptmkt, zu dem ein Signal von diesem Lesekopf ausgelesen werden soll (da das Signal stets vom otartpunkt der AufzeichnunH ^us ausgelesen wird, kann der Startzeitpunkt ohne weite·
res aus dem ^eitimpula auf der lagnettronaiiel beatirjat werden)·
Nimmt man daher an, daß die digitalen UKD-.Schaltungen 11, 211,·..
1111, wenn sie sofort geöffnet werden, das Ausgangssignal ·Τ·
909830/0864
BAD ORIGINAL
während einer vollständigen Umdrehung der Trommel (die £Ugehöri~
ge Periode To beträgt beispielsweise 20 ms) beibehalten« dann
laßt die zugehörige Auswähltorschaltungematrix eine Aueleaung
zu, wie sie in *ig. 4 veranschaulicht lot.
Die Ausleseausoangssignale «erden in einem Endverstärker 700
auf summiert und nach außen abgeben. De Been Auegangsaignal ent·
Bericht einem der in ?ig. 6 eingezeichneten AusgangeSignale 471*
472 oder 473.
FUr die Torsehaltungsmatrix für die Konsonantenauavahl wird
die Au ale sung einer epezlellen Spur durch einen speziellen *<eeekopf fortlaufend nährend einer desa jeweiligen Konsonanten eigenen
Dauer verlangt. Dies wird durch !steuerung der Auelesedauer mit
Hilfe des von den Dekoderpuffer 5 0 dekodierten Signals erreicht,
während die Auslesedauer fUr die Vokale konstant ist und bei»
epielsweiae 20 ms betrugt; Das Ausgangssignal für dl· lonaonantenauewahl entspricht dem Signal 474 in Fig« 6.
Ks liegt auf der Hand, daß daa oben beschriebene *rinslp der
Erfindung sich in gleicher V.'elae sowohl auf digitale Aufzeiohnungsmetboden für akuatieohe GrUkidelemente als ftuoh auf einen ans
einer Anzahl von ächteberregiatern bestehenden eykliachen Spei-*
eher anwenden läßt. Jedoch versteht es eioh dabei von selbst, daß
flir den Tall einer digitalen Aufseiohnung ein Digital-Analog-Wandler erforderlich lstt.uo die aus der Aualesung resultierenden Ausßangssignale in Analogsignale zu Überfuhren.
909830/0864
Claims (2)
1. Anordnung zum Synthetisieren von Spraohsignalen naoh der Tor·
cpeicher- und •Zusaiamensetz-Hethode,
einen
gekennzeichnet durch/eine Anzahl von gedämpften Sinueechningun-
CQn verschiedener Frequenz enthaltenden Speicher»
eine Einrichtung zum selektiven und periodischen Auslesen ri«de
ctens einer dieser Sinusschwingungen mit variabler Auslesenrio- ^
de unter Steuerung durch ein Steuersignal,
einen eine Anzahl von kontinuierlichen Signalen mit jeweils civ.om Konsonanten entsprechenden Kenngrößen enthaltenden Speicher
und eine Einrichtung zum selektiven Auslesen mindestens eines die«
cer kontinuierlichen Signale zu einem speziellen Zeitpunkt unter
steuerung durch ein Steuersignal.
2. Anordnung nach Anspruch 1,
gekennzeichnet durch eine zusätzliche Einrichtung wie Zusanunen·
setzen der von den beiden Aueleseelnriohtungen abgegebenen Aue- fl
gangssignale·
909830/0864
BAD ORIGINAL
Leerseite
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7609367 | 1967-11-29 |
Publications (3)
Publication Number | Publication Date |
---|---|
DE1811040A1 true DE1811040A1 (de) | 1969-07-24 |
DE1811040B2 DE1811040B2 (de) | 1973-07-12 |
DE1811040C3 DE1811040C3 (de) | 1974-02-14 |
Family
ID=13595216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1811040A Expired DE1811040C3 (de) | 1967-11-29 | 1968-11-26 | Anordnung zum Synthetisieren von Sprachsignalen |
Country Status (4)
Country | Link |
---|---|
US (1) | US3532821A (de) |
DE (1) | DE1811040C3 (de) |
FR (1) | FR1593788A (de) |
GB (1) | GB1225142A (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE1297311B (de) * | 1964-03-18 | 1969-06-12 | Krefft Gmbh W | Einrichtung zum Zubereiten, Portionieren und Verteilen von Speisen |
DE2625795A1 (de) * | 1975-06-09 | 1976-12-30 | Camin Ind Corp | Uhr |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3689696A (en) * | 1970-01-09 | 1972-09-05 | Inoue K | Speech synthesis from a spectrographic trace |
FR2098528A5 (de) * | 1970-07-17 | 1972-03-10 | Lannionnais Electronique | |
US3828132A (en) * | 1970-10-30 | 1974-08-06 | Bell Telephone Labor Inc | Speech synthesis by concatenation of formant encoded words |
FR2130952A5 (de) * | 1971-03-26 | 1972-11-10 | Thomson Csf | |
US3723667A (en) * | 1972-01-03 | 1973-03-27 | Pkm Corp | Apparatus for speech compression |
US3798372A (en) * | 1972-05-12 | 1974-03-19 | D Griggs | Apparatus and method for retardation of recorded speech |
US3865982A (en) * | 1973-05-15 | 1975-02-11 | Belton Electronics Corp | Digital audiometry apparatus and method |
JPS55128146U (de) * | 1979-02-28 | 1980-09-10 | ||
DE3024062A1 (de) * | 1980-06-26 | 1982-01-07 | Siemens AG, 1000 Berlin und 8000 München | Halbleiterbauelement zur synthetischen spracherzeugung |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2243089A (en) * | 1939-05-13 | 1941-05-27 | Bell Telephone Labor Inc | System for the artificial production of vocal or other sounds |
US2771509A (en) * | 1953-05-25 | 1956-11-20 | Bell Telephone Labor Inc | Synthesis of speech from code signals |
US2793249A (en) * | 1953-12-04 | 1957-05-21 | Vilbig Friedrich | Synthesizer for sound or voice reproduction |
US3158685A (en) * | 1961-05-04 | 1964-11-24 | Bell Telephone Labor Inc | Synthesis of speech from code signals |
US3398241A (en) * | 1965-03-26 | 1968-08-20 | Ibm | Digital storage voice message generator |
-
1968
- 1968-11-24 GB GB1225142D patent/GB1225142A/en not_active Expired
- 1968-11-25 US US778560A patent/US3532821A/en not_active Expired - Lifetime
- 1968-11-26 DE DE1811040A patent/DE1811040C3/de not_active Expired
- 1968-11-28 FR FR1593788D patent/FR1593788A/fr not_active Expired
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE1297311B (de) * | 1964-03-18 | 1969-06-12 | Krefft Gmbh W | Einrichtung zum Zubereiten, Portionieren und Verteilen von Speisen |
DE2625795A1 (de) * | 1975-06-09 | 1976-12-30 | Camin Ind Corp | Uhr |
Also Published As
Publication number | Publication date |
---|---|
US3532821A (en) | 1970-10-06 |
FR1593788A (de) | 1970-06-01 |
GB1225142A (de) | 1971-03-17 |
DE1811040C3 (de) | 1974-02-14 |
DE1811040B2 (de) | 1973-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
DE2115258C3 (de) | Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern | |
DE2740520A1 (de) | Verfahren und anordnung zur synthese von sprache | |
DE2945413C1 (de) | Verfahren und Vorrichtung zur Synthetisierung von Sprache | |
DE69720861T2 (de) | Verfahren zur Tonsynthese | |
DE1811040A1 (de) | Anordnung zum Synthetisieren von Sprachsignalen | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE69631037T2 (de) | Sprachsynthese | |
DE2736082A1 (de) | Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer) | |
DE3228756A1 (de) | Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen | |
DE1965480A1 (de) | Geraet fuer kuenstliche Erzeugung von Worten durch Umwandlung eines in Buchstaben gedruckten Textes in Aussprache | |
EP1105867B1 (de) | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten | |
DE2519483A1 (de) | Verfahren und anordnung zur sprachsynthese | |
DE4033350B4 (de) | Verfahren und Vorrichtung für die Sprachverarbeitung | |
DE3006339A1 (de) | Verfahren und einrichtung zur sprachsynthese | |
EP0058130B1 (de) | Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens | |
DE4111781A1 (de) | Computersystem zur spracherkennung | |
DE60316678T2 (de) | Verfahren zum synthetisieren von sprache | |
DE3232835C2 (de) | ||
DE60311482T2 (de) | Verfahren zur steuerung der dauer bei der sprachsynthese | |
DE60025120T2 (de) | Amplitudensteuerung für die Sprachsynthese | |
DE19939947C2 (de) | Digitales Sprachsyntheseverfahren mit Intonationsnachbildung | |
EP0094681B1 (de) | Schaltungsanordnung zur elektronischen Sprachsynthese | |
DE19837661C2 (de) | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten | |
DE4110300A1 (de) | Verfahren zur erweiterung des wortschatzes fuer sprecherunabhaengige spracherkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
E77 | Valid patent as to the heymanns-index 1977 | ||
EHJ | Ceased/non-payment of the annual fee |