DE1811040C3 - Anordnung zum Synthetisieren von Sprachsignalen - Google Patents

Anordnung zum Synthetisieren von Sprachsignalen

Info

Publication number
DE1811040C3
DE1811040C3 DE1811040A DE1811040A DE1811040C3 DE 1811040 C3 DE1811040 C3 DE 1811040C3 DE 1811040 A DE1811040 A DE 1811040A DE 1811040 A DE1811040 A DE 1811040A DE 1811040 C3 DE1811040 C3 DE 1811040C3
Authority
DE
Germany
Prior art keywords
speech
memory
basic
signals
arrangement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE1811040A
Other languages
English (en)
Other versions
DE1811040B2 (de
DE1811040A1 (de
Inventor
Akira Musashino Ichikawa
Kazuo Kokubunji Nakata
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of DE1811040A1 publication Critical patent/DE1811040A1/de
Publication of DE1811040B2 publication Critical patent/DE1811040B2/de
Application granted granted Critical
Publication of DE1811040C3 publication Critical patent/DE1811040C3/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

stimmhaften Laut, in dem die Wiederholungsrale UiIIi-T Vokiilbasis konstant ist, und der mit der Be-•'ugszahl 2 bezeichnete Abschnitt einem KonMinanten. Die Ireuuenzspcktren der beiden den Abschnitten 1 und 2 in Fig. la zugeordneten Laute kennzeichnen sich, wie aus Fig. Ib bzw. 1 c ersichtlich ist, durch ihre Hüllkurven 3, die ein Maß tür die Resouanzkenngroßen des artikulatorischen Raumes darstellen, und durch ihre Internstruktur, die ein Maß tür die Kenngrößen der Vokalbasis darstellt, wobei die ersteren außerdem hauptsächlich durch verschiedene einzelne Resonanzkenngrößen, d. h. die Formanten, 4, 4', 4", 5 und 5' bestimmt werden und die letztere hauptsächlich durch ein harmonisches Linienspektrum 6 gekennzeichnet ist, das die Periodiziiät und die Zufälligkeit eines kontinuierlichen Spektrums aufweist.
Erfindungsgemäß wird die Synthetisierung eines stimmhaften Lautes mit einer konstanten Wiederholungsrate., der beispielsweise ein charakteristisches Spektrum aufweist, wie es in F i g. 1 b veranschaulicht ist, aus einer Anzahl von vorgespeicherten gedampften Sinusschwingungen verschiedener Frequenz erleichtert.
Als nächstes soll nun das Grundprinzip einer solchen Synthese näher erläutert werden.
Eine gedämpfte Sinusschwingung, wie sie in F i g. 2 a dargestellt ist, ergibt ein einzelne Resonanzfrequenzspektrum, wie es in Fig. 2b gezeigt ist. Dabei läßt sich diese gedämpfte Sinusschwingung durch den Ausdruck e -■:' sin wf t darstellen, in dem" \ den Dämpfungsfaktor, / die Zeit und ω, die Kreisfrequenz für die Sinusschwingung bedeuten. Wird die gedämpfte Sinusschwingung mit einer konstanten Periode T wiederholt, wie dies in Fig. 2c veranschaulicht ist, so geht ihr Frequenzspektrum in ein harmonisches Linienspektrum über, wie es in Fig. 2d dargestellt is' Aus der akustischen Theorie der Spracherzeugung ist bekannt, daß sich die in F i g. 1 b dargestellte Hüllkurve 3 durch kontinuierliche Aneinanderreihung einzelner Resonanzkennlinien gewinnen läßt, wie sie in Fig. 2b dargestellt sind. Daher läßt sich ein solcher stimmhafter Laut mit einer konstanten Pitch-Periode oder Wiederholungsperiode für die Vokalbasis wie etwa der Vokal »e« dadurch synthetisieren, daß man eine vorgespeicherte gedämpfte Sinusschwingung von der Formant-Frequenz des betreffenden Vokals äquivalenter Formant-Frequenz mit einer vorgegebenen Periode mehrfach wiederholt und dabei die Amplituden der wiederholten Schwingung so steuert, daß die nachstehenden Bedingungen erfüllt werden: Die relative Amplitude des zweiten Formanten beträgt (W1Zw2)2 und die relative Amplitude des dritten Formanten (W1Zw2)2 -(w,/w3)ä, wobei W1, w2 und OJ3 jeweils die Kreisfrequenzen des ersten, des zweiten bzw. des dritten Formanten des Lautes bedeuten.
Außerdem läßt sich ein Ubergangslaut zwischen einem stimmhaften Laut mit einer konstanten Wiederholungsfrequenz, d. h. einem Laut mit einem speziellen Frequenzspektrum, und einem weiteren Laut mit einem anderen Frequenzspektrum mit hinreichender Glätte bzw. Weichheit durch die folgenden Schritte synthetisieren: Quantisierung der Änderung in der Frequenz der charakteristischen Formanten der jeweiligen Laute zwischen diesen beiden stimmhaften Lauten; Synthetisierung von Lauten durch Zusammensetzung gedämpfter Sinusschwin
gungen in der oben beschriebenen Weise und anschließende Verbindung der so gebildeten Laute miteinander.
Dementsprechend braucht die Anzahl der aku- ^tischen Grundeleuieitte- die in der errindungsgemäßen Anordnung zur Spraehsynthetisierung vorgespeichert werden müssen, nur so groß zu sein, dv-ß sie die für den Aufbau eines Sprachsignals unter Einschluß des ersten, des zweiten und des dritten Formanten wesentlichen Frequenzbänder mit hinreichendem Spielraum abdeckt. Ein Beispiel für eine solche Anzahl, wie sie bei einer Ausführungsform einer erfindungsgemäßen Anordnung realisiert worden ist, ist in der nachstehenden Tabelle 1 dargestellt.
Tabelle 1
Beispiel für die Anzahl der in Form gedämpfter Sinusschwingungen vorgespeicherten akustischen
Grundelemente
For-
niant
Γ-requenzhereich Quantisieruiigs-
stufe
Kanal-
anzah!
BiI-
Anzah
3.
30
200 bis 950 Hz
800 bis 2400 Hz
2200 bis 3500 Hz
in.seesamt
200 bis 3500 Hz
50Hz
Logarith
mischer Maß
stab
Logamh-
mischer Maß
stab
16
16
S
4
4
3
40 • 11
Was nun die konsonantischen Anteile der Sprache (Nasallaute, stimmlose Konsonanten und vokalische oder stimmhafte Konsonanten) anbelangt, so ist es lediglich erforderlich, Signale vorzuspeichern, die den Kenngrößen der jeweiligen Konsonanten entsprechen. Die Anzahl derartiger Signale beträgt höchstens 16. wie dies in der nachstehenden Tabelle 2 dargestellt ist.
Tabelle 2
Beispiel für die Anzahl der gespeicherten konsonantischen Grundelcmente
Reiblaute 50 iCon- Anzahl Explosivlaute Anzahl Nasallaute Anzahl
son&nt der der der
Grund- Kon Grund- Kon Grund-
55 S eleme; (e sonant elemcnte sonant elemenle
S 1 1 1
h 1 P 2 m I
5 t 3 η ί
k N
Dementsprechend liegt die Gesamtzahl für die zu speichernden akustischen Grundelernente. in der Größenordnung von 50.
Zur Verbesserung der Natürlichkeit der auf diese Weise aufgebaui°n Sprache ist es erforderlich, die Periode für die oben beschriebene wiederholte Erzeugung der gedämpften Sinusschwingungen in Übereinstimmung mit der Pitch-Periode der zu synthetisierenden Sprachsignale zu steuern.
Im folgenden wird eine gangbare Methode für eine
derartige Steuerung unter Bezugnahme auf F i g. 3 näher beschrieben, in der ein Magnettrommelspeicher schematisch veranschaulicht ist, in den die oben beschriebenen gedämpften Sinusschwingungen eingespeichert sind.
Nimmt man an, daß der unterste Wert für die Pitch-Frequenz der zu synthetisierenden Sprachsignale bei 50Hz liegt, so müssen die gedämpften Sinusschwingungen über 20 ms hinweg gespeichert werden, was einer Periode für die Umdrehung der Magnettrommel entspricht. Dies bedeutet, daß die Zeitkonstante für die Dämpfung der Sinusschwingungen für den Höchstfall auf etwa 20 ms anzusetzen ist. Diese Annahme ist mit Rücksicht auf die Bandbreite der Vokalformanten angemessen. Rund um den Umfang der Magnettrommel sind beispielsweise zehn Leseköpfe mit gleichem gegenseitigem Abstand verteilt angeordnet, so daß der zeitliche Abstand zwischen zwei benachbarten Leseköpfen 2 ms beträgt. Dieser Zeitabstand bedeutet gleichzeitig die Minimalgrößc für die Steuerschritte für die Pitch-Periode, und die Pitch-Frequenz wird dann entsprechend der Auswahl der Leseköpfe in den nachstehenden zehn Stufen geregelt: 50, 55,5, 62,5, 71,5, 8.1.5, 100, 125, 166, 250 und 500Hz. Diese Schrittweiten lassen sich selbstverständlich durch eine Vergrößerung der Anzahl N der Leseköpfe entsprechend verkürzen.
Unter Bezugnahme auf die Darstellung in Fig. 3 sei angenommen, daß der Lesekopf I0 zu einem bestimmten Zeitpunkt im Lesevorgang begriffen ist und daß das Zeitintervall T0 den zeitlichen Abstand zwischen ,der Auslesung durch den Lesekopf /„ und der Auslcsung durch den Lesekopf /, bedeutet. Beginnt der nächste Auslegevorgang dann, wenn der Anfang des aufgezeichneten Signals die Stellung des Lesekopfes /,. j erreicht, so wird das Zeitintervall zwischen zwei Auslesungen um τ ■ k Sekunden langer. Beginnt die nächste Auslesung dagegen an der Stelle des Lesekopfes /,_*, so wird das Zeitintervall zwischen zwei aufeinanderfolgenden Auslesungen um τ ■ k Sekunden kurzer. Dabei bezeichnet τ das Zeitintervall, das verstreicht, bis sich eine Mantellinie der rotierenden Magnettrommel von einem Lesekopf zu dem nächstfolgenden Lesekopf weitergedrehi hat. Nimmt man nun an, daß das aufgezeichnete Signal durch einen Lesekopf kontinuierlich während einer vollen Umdrehung der Magnettrommel, d. h. 20 ms lang, ausgelesen wird, so ersieht man aus F i g. 4, daß sich der Anfangsabschnitt jeder Ausleseperiode mit einem Teil des von dem vorangehenden Lesekopf ausgelesenen Signals und der Endabschnitt jeder Ausleseperiode mit einem Abschnitt in dem von dem nachfolgenden Lesekopf ausgelesenen Signal überschneiden, so daß der Übergang zwischen den physikalischen Kenngrößen sich weicher vollzieht, woraus sich eine verbesserte Qualität der synthetisierten Sprachsignale ergibt.
Als nächstes sollen der Aufbau und die Arbeitsweise einer Anordnung zur Sprachsynthetisierung mittels Vorspeicherung und Zusammensetzung der vorgespeicherten Signale gemäß der Erfindung an Hand einer bestimmten Ausführungsform einer erfindungsgemäßen Anordnung im einzelnen dargelegt werden:
In Fig. 5, die ein Blockschaltbild einer Ausführungsform der Erfindung darstellt, ist ein mehrkanaliges System mit η Ausgangskanälen veranschaulicht. Die Bestandteile des in ein Sprachsignal umzuwandelnden Satzes, die in einem Hauptgerät 10 beispielsweise einem üblichen großen schnellen Elektronenrechner, ausgewählt werden, werden unmittelbar in ausgangsseitige Sprachsteuersignale 11, 12 bis 1 η für einen Magnettrommelspeicher 20 umgesetzt der ein sogenanntes ^ Ausspracheverzeichnis, d. h einen Satz von Steuersignalen für die zu artikulierenden Sprachelemente, enthält, und anschließend aui
ίο Steuersignaldekoder 101, 102 bis 10« für die jeweiligen Kanäle verteilt, in denen die aufgeteilten Steuersignale in eine Gruppe greifbarerer Steuersignale 21, 22 bis Zn für die Auslesung der aufgezeichneten akustischen Grundelemente dekodiert werden.
Ein Teil der dekodierten Signale wird Torschaltungsmatrizen 201, 202 bis 20/i für die Auswahl der aufgezeichneten Sprachelemente zugeführt, während der übrige Teil Gruppen von Analogmultiplikatoren (311, 312, 313), (321, 322, 333) bis (3nl, 3;i2, 3 η 3) zur Steuerung der relativen Amplituden der ausgelesenen Signale speist. Auf diese Weise wird ein spezielles akustisches Grundelement durch einen speziellen Lesekopf auf der Speichertrommel 30 für diese akustischen Grundelemente in einem besonderen Zeitpunkt ausgelesen, und anschließend wird die relative Amplitude in der der aufgelesenen Signale erforderlichen Weise gesteuert. Die in ihrer Amplitude gesteuerten Ausgangssignale werden Summierverstärkern 314, 324 bis 3n4 in den jeweils zugehörigen Kanälen zugeführt, darin untereinander aufsummiert und anschließend in Multiplikatoren 315, 325 bis 3/ί 5 so in ihrer Intensität geregelt, wie dies für ein Phonem und ein integriertes Sprachsignal erforderlich ist.
Anschließend werden diese Ausgangssignale in Summierverstärkern 316, 326 bis 3/i6 mit Konsonanten kombiniert und werden so zu resultierenden Ausgangssprachsignalen 31, 32 bis 3n. Das oben beschriebene Verfahren wird beispielsweise alle 10 ms wiederholt, und auf diese Weise erhält man ausgangsseitig ein kontinuierliches Sprachsignal.
Als nächstes sollen die wesentlichen Bauteile des obenerwähnten Systems im einzelnen beschrieben werden. Wie bereits oben erläutert, wird ein Sprachsignal erfindungsgemäß in zwei Teile aufgeteilt, nämlich einen ersten Teil, der die Vokale und Übergangslaute unter Einschluß der Hall-vokale und Fließlaute enthält, und einen zweiten Teil, der die Konsonanten, und zwar stimmlose Konsonanten, stimmhafte Konsonanten und Nasallaute enthält. Bei der Sprachsignalsynthese wird der erste Teil durch wiederholte Auslesung von vorgespeicherten gedämpften Sinusschwingungen in variierenden Perioden erzeugt, während der zweite Teil durch unmittelbare Auslesung der jeweils erforderlichen Wellenformen aus den aufgezeichneten konsonantischen Wellenformen gewonnen wird, und schließlich werden beide Teile miteinander kombiniert. Nun ist es bereits bekannt, daß sich Reibelaute und Explosivlaute durch Vergröße-
rung der Überlappung zwischen dem konsonantischen Teil des Sprachsignals und dessen die Vokale und Übergangslaute enthaltendem Teil und Explosivlaute außerdem durch Versteilerung des die Vokale und die Übergangslaute enthaltenden Teiles des Sprachsignals gewinnen lassen. Demzufolge läßt sich jede beliebige Silbe aus den beiden oben beschriebenen Teilen eines Sprachsignals synthetisieren.
Von diesen beiden Teilen jedes SDrachsieriak vpr-
langt lediglich der erste Teil eine wiederholte Aus- Wird ein Konsonant verlangt, so wird das durch lcsung in variierenden Perioden, und diese variablen die Matrix 414 ausgewählte konsonantische Signal Perioden sind außerdem allen ersten, zweiten und dem den Vokalen und Ubergangslautcn cntsprechcndrittcn Formanten gemeinsam. den Signal in einen Summierverstärker 440 zuaddiert, Daher kann bei der nun folgenden Erläuterung der 5 nachdem es in einem Analog-Multiplikator 424 eine Auslesung der aufgezeichneten akustischen Grund- passende Steuerung seiner relativen Amplitude gcclcmente auf einen gesonderten Kanal Bezug genom- gciiiibcr dem die Vokale und Übcrgangslautc cnthalmen werden. Die auf der Magnettrommel 30 aufge- lcnden Signal mit Bezug auf ein Steuersignal 468 erzeichneten akustischen Grundelemente lassen sich in fahren hat.
zwei Kategorien aufgliedern, nämlich eine erste io In Fi g. 7 ist ein Ausschnitt aus einer der in F i g. 6 Gruppe von gedämpften Sinusschwingungen, die zur dargestellten Torschaltungsmatrizen 411, 412, 413 Synthese des obenerwähnten ersten, die Vokale und und 414 für die Auswahl der vorgespeicherten aku-Übcrgangslaute enthaltenden Teils des Sprachsignals stischen Grundelemente im einzelnen dargestellt. Da dienen, und eine zweite Gruppe von konsonantischen die Torschaltungsmatrizen 411,412,413 und 414 ein ■ Wellenformen. Die erste Gruppe ist in drei einander 15 ander in ihrer Arbeitsweise im wesentlichen eiH-in Randbereichen überlappende Gebiete aufgi UiIt. sprechen, kann sich die nachstehende Beschreibung nämlich: den ersten Formantbereich (16 Kanäle zwi- auf lediglich eine davon beschränken, sehen 200 und 950 Hz), den zweiten Formantbereich Für die Darstellung von F i g. 7 sei angenommen, (16 Kanäle zwischen 800 und 2400 Hz) und den daß / aufgezeichnete Spuren 1, 2 bis / auf der Madritten Formantbereich (8 Kanäle zwischen 2200 ao gnettrotnmel 400 wahlweise durch N Leseköpfe 1, 2 und 3500 Hz). Zur Vereinfachung des Aufbaues der bis N ausgelesen werden sollen.
Steuerung sind die Spuren auf der Magnettrommel 30 Das Signal 451 (für die Matrizen 411, 412 und
entsprechend den beiden obenerwähnten Kategorien 413) oder das Signal 452 (für die Matrix 414), das
unterteilt, wobei die erste Kategorie weiter in drei die Leseköpfe bezeichnet, durch welche die aufgc-
Zonen. nämlich eine erste, eine zweite und eine dritte 25 zeichneten Signale ausgelesen werden sollen, wird
Zone, unterteilt ist. Auf diese Weise sind die Aufzeich- einem Dekoderpuffer 500 zugeführt, in dem es dc-
nungsspuren auf der Trommel 30 auf vier Zonen ver- kodiert wird. Der DekoderpufTer 500 speist von den
teilt. Ausgangslcitungen 501 bis 50/V die zu den ausge-
Dics bedeutet wiederum, daß die Speichertrommel wählten Leseköpfen führenden Ausgangsleitungen
400 für die akustischen Grundelemente in vier Zonen 30 mit dem Ausgangssignal »1« und alle übrigen mit
401. 402, 403 und 404 unterteilt ist. wie dies in dem Ausgangssignal »0«.
F i g. 6 dargestellt ist. Die Ausgangssignale von Lese- Inzwischen wird das Signal 461 (für die Matrix
köpfen für die jeweiligen Kanäle in diesen vier Zonen 411), das Signal 462 (für die Matrix 412) oder das
werden Torschaltungsmatrizen 411, 412, 413 und Signal 463 (für die Matrix 413), das die Kanäle an-
414 für die Auswahl dieser Ausgangssignale züge- 35 gibt, deren Ausgangssignale abgenommen werden
führt. Von diesen vier Torschaltungsrnatrizen sollen, einem zweiten DekoderpufTer 600 zugeführt
werden die Matrizen 411, 412 und 413 für die BiI- und darin dekodiert. Der Dekoderpuffer 600 speist
dung der Formanten gemeinsam mit einem Lesekopf- von Ausgangsleitungen 601, 602 bis 60/ die ausge-
Auswahlsignal 45 gespeist, während die verbleibende wählten Leitungen mit dem Signal*!« und alle
Matrix 414 mit einem Signal 452 für die Auswahl des 4° übrigen Leitungen mit dem Signal »0«. Was nun die
Lesekopfes für die Auslesung der Konsonanten ver- aus den einzelnen Spuren auf der Magnettrommel
sorgt wird. ausgelesenen analogen Signale anbelangt, so werden
Um zu bestimmen, welcher Kanal, d.h. welche die Ausgangssignale der den ersten Leseköpfen zuge-
Frequenz, in den jeweiligen Zonen ausgewählt werden ordneten Spuren Klemmen 11, 12 . . . bzw. 1/, die
soll, werden den entsprechenden Matrizen Frequenz- 45 Ausgangssignale für die den zweiten Leseköpfen zu-
Auswahlsignale461, 462 und 463 zugeführt, da die geordneten Spuren Klemmen 21, 22 . . .bzw. 2/ und
ersten, zweiten und dritten Formanten unabhängig die Ausgangssignale für die den /V-ten Leseköpfen
voneinander gesteuert werden sollen. Entsprechend zugeordneten Spuren Klemmen Nl, jV2...bzw. Nl
diesen Steuersignalen erhält man an Ausgangsklem- zugeführt.
men 471, 472 und 473 der Torschaltungsmatrizen 5° Wie aus F i g. 7 ersichtlich, werden digitale UND-
411, 412 und 413 gedämpfte Sinusschwingungen ver- Schaltungen 111, 121 bis IZl; 211, 221 bis 2/1
schiedener Frequenz (entsprechend der jeweiligen bzw. NIl, NU bis iV/1 mit Torschaltungsauswahl-
Formant-Frequenz) in wiederholter Auslesung mit Signalen 501, 502 bis 5ON und 601, 602 bis 60/
speziellen Perioden (entsprechend den jeweiligen gespeist. Als Folge davon öffnet von den /VlTor-
Pitch-Perioden). Die Ausgangssignale der Matrizen 55 schaltungen nur die Torschaltung, die im speziellen
412 und 413 werden bezüglich ihrer relativen Ampli- Fall das Signal »1« zugeführt erhält, und gibt nur an
tude gegenüber dem Ausgangssignal der Matrix 411 die jeweils zugehörige Torschaltung von den nachfol-
in Analog-Multipiikatoren 422 und 423 mit Bezug genden Torschaltungen 112, 122 bis 1/2; 212,
auf Steuersignale 465 und 466 geregelt und an- bis 2/2; N12, N22 bis N12 ein Ausgangssignal »1«
schließend gemeinsam mit dem Ausgangssignal der 60 ab. Auf diese Weise wird das von dem speziellen
Matrix 411 in einem Summierverstärker 431 aufsum- Lesekopf aus der speziellen Spur ausgelesene Aus-
miert. Das Ausgangssignal des Summierverstärkers gangssignal ausgewählt.
431 wird außerdem in einem Analog-Multiplikator Außerdem gibt das dekodierte Ausgangssignal des
441 in seiner Amplitude mit Bezug auf ein Steuer- Dekoderverstärkers 500 nicht nur den auszuwählen-
signal 481 in der Weise geregelt, daß es eine gute 65 den Lesekopf an, sondern auch den Zeitpunkt, zu
Wirkung für den Vokalklang und die Sprache ergibt, dem ein Signal von diesem Lesekopf ausgelesen
und anschließend über eine Ausgangsklemnie 490 als werden soll (da das Signal stets vom Startpunkt der
kontinuierliches Sprachsignal nach außen abgegeben. Aufzeichnung aus ausgelesen wird, kann der Start-
Zeitpunkt ohne weiteres aus dem Zeitimpuls auf der Magnettrommel bestimmt werden). Nimmt man daher an, daß die digitalen UND-Schaltungen' 111, 211 bis /VlI, wenn sie sofort geöffnet werden, das Ausgangssignal»I« während einer vollständigen Umdrehung der Trommel (die zugehörige Periode Tc beträgt beispielsweise 20 ms) beibehalten, dann läßt die zugenörige Auswahltorschaltungsmatrix eine Auslesung zu, wie sie in F i g. 4 veranschaulicht ist.
Die Ausleseausgangssignale werden in einem Endverstärker 700 aufsummiert und nach außen abgegeben. Dessen Ausgangssignal entspricht einem der in F i g. ö eingezeichneten Ausgangssignale 471, 472 oder 473.
Für die Torschallungsmatrix für die Konsonantenauswahl wird die Auslesung einer speziellen Spur durch einen speziellen Lesekopf fortlaufend während
10
einer dem jeweiligen Konsonanten eigenen Dauer verlangt. Dies wird durch Steuerung der Auslesedauer mit Hilfe des von dem Dekoderpuffer500 dekodierten Signals erreicht, während die Auslesedauer für die Vokale konstant ist und beispielsweise 20 ms beträgt. Das Ausgangssignal für die Konsonantenauswahl entspricht dem Signal 474 in F i g. 6.
Es liegt auf der Hand, daß das oben beschriebene Prinzip der Erfindung sich in gleicher Weise sowohl
ίο auf digitale Aufzeichnungsmethoden für akustische Grundelemente als auch auf einen aus einer Anzahl von Schieberegistern bestehenden zyklischen Speicher anwenden läßt. Jedoch versteht es sich dabei von selbst, daß für den Fall einer digitalen Aufzeichnung
ein Digital-Analog-Wandler erforderlich ist, um die aus der Auslesung resultierenden Ausgangssiynale in Analogsignale zu überführen.
Hierzu 3 Blatt Zeichnungen

Claims (1)

  1. Anordnung der eingangs erwähnten Art so auszubil-
    Patentanspruch: den, daü sie bei weitgehender Erhaltung der Natür
    lichkeit der gesprochenen Sprache eine Sprachsignal-
    Anordnung zum Synthetisieren von Sprachsi- synthese mit einem Minimum an für die Vurspeichegnalen mit einem Speicher, der eine Mehrzahl 5 rung von akustischen Grundbausteinen erforderlicher von einzeln abfragbaren akustischen Grundbau- Speicherstellen ermöglicht.
    steinen für den Aufbau von stimmhaften und Diese Aufgabe wird erfindungsgemäß dadurch ge
    stimmlosen Lauten enthält, und mit einer Steuer- löst, daß die im Speicher enthaltenen Grundbausteint schaltung, die Zeitpunkt und Zeitdauer für die für den Aufbau der stimmhaften Laute gedämpfte Abfrage der einzelnen Grundbausteine aus dem io Sinusschwingungen verschiedener Frequenz sind unc Speicher bestimmt, d adu rch ge ke η η ze i ch - daß die Steuerschaltung für jeden zu erzeugender "net, daß die im Speicher enthaltenen Grund- stimmhaften Laut die mehrfache Abfrage der Sinusbausteine für den Aufbau der stimmhaften Laut; schwingung entsprechender Formantfrequenz mi gedämpfte Sinusschwingungen verschiedener Fre- konstanter, der Pitchfrequenz der zu synthetisierenquenz sind und daß die Steuerschaltung für jeden 15 den Sprachsignale entsprechender Folgefrequenz unc zu erzeugenden stimmhaften Laut die mehrfache quadratisch mit der Formantfrequenz abnehmende! Abfrage der Sinusschwingung entsprechender Amplitude veranlaßt.
    Formari'.frequenz mit konstanter, der Pitchfre- Das Grundprinzip der Erfindung liegt also zurr
    quenz der zu synthetisierenden Sprachsignale einen in einer speziellen Art von akustischen Grundentsprechender Folgefrequenz und quadratisch 20 bausteinen für den Aufbau der stimmhaften Laute mit der Formantfrequenz abnehmender Ampli- und zum anderen in einer ganz bestimmten Steuerung tude veranlaßt. der Wiedergabe dieser Grundbausteine bei dei
    Sprachsignalerzeugung. In Kombination dieser beiden Maßnahmen führt die Erfindung zu einer Anord-25 nung zum Synthetisieren von Sprachsignalen, die ir
    sich die Vorteile vereinigt, daß sie zum ersten zi
    einer größtmöglichen Verringerung der Anzahl dei für die Sprachsignalsynthese vorzuspeichernden akustischen Grundbausteine führt, zum zweiten mittel!
    Die Erfindung bcieht s"h auf eine Anordnung 30 einer überlappenden Abfrage der einzelnen Grundzum Synthetisieren von Sprachsignalen mit einem bausteine eine für die Praxis befriedigende Annähe-Speicher, der eine Mehrzahl .on einzeln abfragbaren rung der synthetisierten Sprachsignale an das natürakustischen Grundbausteinen für den Aufbau von liehe Sprachbild gestattet und zum dritten den Einstimmhaften und stimmlosen Lauten enthält, und mit satz von Speicherelementen für die Vorspeicherunj einer Steuerschaltung, die Zeitpunkt und Zeitdauer 35 der akustischen Grundbausteine zuläßt, mit derer für die Abfrage der einzelnen Grundbausteine aus Hilfe eine gleichzeitige Synthese mehrerer Sprachdem Speicher bestimmt. signale möglich wird.
    Eine Anordnung dieser Art ist in der »NTZ«, Zur Erläuterung der Einzelheiten der Erfindun|
    Heft 8 von 1964, auf den Seiten 413 bis 424 beschrie- wird in der folgenden Beschreibung auf die Zeichben. Diese bekannte Anordnung zum Synthetisieren 40 nung Bezug genommen. Es zeigen
    von Sprachsignalen besitzt zwei Hauptbestandteile. F i g. 1 a, Ib und 1 c Darstellungen der Wellen-
    Der eine davon ist ein Speicher, in dem unterschied- form eines Sprachsignals und deren charakteristische! liehe akustische Grundbausteine enthalten sind, aus Spektren,
    denen sich einerseits stimmhafte und andererseits Fig. 2a, 2b, 2c und 2d Darstellungen der WeI
    stimmlose Laute aufbauen lassen und die in Verbin- 45 lenform einer speziellen Sinusschwingung und derer dung miteinander die zu synthetisierenden Sprach- charakteristischer Spektren,
    signale liefern. Den zweiten Hauptbestandteil der be- Fig. 3 und 4 schematische Darstellungen zur Ver
    kannten Anordnung bildet eine Steuerschaltung, die anschaulichung der Synthese von Wellenformen mit Zeitpunkt und Zeitdauer für die Abfrage der einzel- tels eines Magnettrommelspeichers,
    nen akustischen Grundbausteine aus dem sie enthal- 50 F i g. 5 ein Blockschaltbild für eine erfindungsge tenden Speicher bestimmt, also den Aufbau der ein- mäße Anordnung zur Sprachsynthetisierung und
    zelnen Laute und ihre gegenseitige Kombination F i g. 6 und 7 Schaltbilder zur Erläuterunj
    steuert. Die bekannte Anordnung enthält dabei für der Arbeitsweise wesentlicher Teile dieser Ausfüh den Aufbau sowohl der Vokale als auch der Konso- rungsform einer erfindungsgemäßen Anordnung,
    nanten in der zu synthetisierenden Sprache die ent- 55 Grundsätzlich entsteht Sprache dann, wenn entwe sprechenden Phoneme gespeichert, woraus sich na- der ein durch Vibration der Stimmbänder erzeugte turgemäß ein sehr großer Bedarf an Speicherplätzen und annähernd periodisch wiederholten intermittit ergibt. Entsprechend aufwendig wird gleichzeitig renden dreieckigen Wellen entsprechender stimm auch der Aufbau der den Zugriff zu diesen Speicher- hafter Laut oder ein durch einen auf eine Zusammen platzen ermöglichenden Steuerschaltung. 60 ziehung des Vokaltraktes zurückgehenden turbulen
    In der deutschen Patentschrift 1 201 414 ist weiter- ten Luftstrom erzeugter und angenähert weißem Rau hin eine Schaltung zur Steuerung der Amplitudenver- sehen entsprechender stimmloser Laut durch einen ii teilung eines Tonfrequenzspektrums beschrieben, die dem Vokaltrakt, d. h. einem zwischen der Stimmritzi zur Sprachsignalerzeugung in einem Formantenvoco- und den Lippen liegenden artikulatorischen Orgai der dient. Die Tonsignalerzeugung erfolgt dabei mit 65 ausgebildeten Hohlraum hindurchgeht.
    Hilfe von Formantenschaltungen, deren Resonanz- In Fig. la, die einen Ausschnitt aus der Wellen
    frequenz und Bandbreite einstellbar sind. form eines Sprachsignals darstellt, entspricht der mi
    Der Erfindung liegt die Aufgabe zugrunde, eine der Bezugszahl 1 bezeichnete Abschnitt einen
DE1811040A 1967-11-29 1968-11-26 Anordnung zum Synthetisieren von Sprachsignalen Expired DE1811040C3 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7609367 1967-11-29

Publications (3)

Publication Number Publication Date
DE1811040A1 DE1811040A1 (de) 1969-07-24
DE1811040B2 DE1811040B2 (de) 1973-07-12
DE1811040C3 true DE1811040C3 (de) 1974-02-14

Family

ID=13595216

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1811040A Expired DE1811040C3 (de) 1967-11-29 1968-11-26 Anordnung zum Synthetisieren von Sprachsignalen

Country Status (4)

Country Link
US (1) US3532821A (de)
DE (1) DE1811040C3 (de)
FR (1) FR1593788A (de)
GB (1) GB1225142A (de)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1297311B (de) * 1964-03-18 1969-06-12 Krefft Gmbh W Einrichtung zum Zubereiten, Portionieren und Verteilen von Speisen
US3689696A (en) * 1970-01-09 1972-09-05 Inoue K Speech synthesis from a spectrographic trace
FR2098528A5 (de) * 1970-07-17 1972-03-10 Lannionnais Electronique
US3828132A (en) * 1970-10-30 1974-08-06 Bell Telephone Labor Inc Speech synthesis by concatenation of formant encoded words
FR2130952A5 (de) * 1971-03-26 1972-11-10 Thomson Csf
US3723667A (en) * 1972-01-03 1973-03-27 Pkm Corp Apparatus for speech compression
US3798372A (en) * 1972-05-12 1974-03-19 D Griggs Apparatus and method for retardation of recorded speech
US3865982A (en) * 1973-05-15 1975-02-11 Belton Electronics Corp Digital audiometry apparatus and method
US3998045A (en) * 1975-06-09 1976-12-21 Camin Industries Corporation Talking solid state timepiece
JPS55128146U (de) * 1979-02-28 1980-09-10
DE3024062A1 (de) * 1980-06-26 1982-01-07 Siemens AG, 1000 Berlin und 8000 München Halbleiterbauelement zur synthetischen spracherzeugung

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2243089A (en) * 1939-05-13 1941-05-27 Bell Telephone Labor Inc System for the artificial production of vocal or other sounds
US2771509A (en) * 1953-05-25 1956-11-20 Bell Telephone Labor Inc Synthesis of speech from code signals
US2793249A (en) * 1953-12-04 1957-05-21 Vilbig Friedrich Synthesizer for sound or voice reproduction
US3158685A (en) * 1961-05-04 1964-11-24 Bell Telephone Labor Inc Synthesis of speech from code signals
US3398241A (en) * 1965-03-26 1968-08-20 Ibm Digital storage voice message generator

Also Published As

Publication number Publication date
DE1811040B2 (de) 1973-07-12
DE1811040A1 (de) 1969-07-24
FR1593788A (de) 1970-06-01
US3532821A (en) 1970-10-06
GB1225142A (de) 1971-03-17

Similar Documents

Publication Publication Date Title
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE2945413C1 (de) Verfahren und Vorrichtung zur Synthetisierung von Sprache
DE2115258C3 (de) Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern
DE68919637T2 (de) Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen.
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
EP0886853B1 (de) Auf mikrosegmenten basierendes sprachsyntheseverfahren
DE2551632C2 (de) Verfahren zum Zusammensetzen von Sprachnachrichten
DE1811040C3 (de) Anordnung zum Synthetisieren von Sprachsignalen
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DE69720861T2 (de) Verfahren zur Tonsynthese
DE1965480C3 (de) Gerat zur Umwandlung eines in graphischen Zeichen gedruckten Textes in gesprochene Worte
DE2736082A1 (de) Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer)
DE69631037T2 (de) Sprachsynthese
DE3228756A1 (de) Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen
WO2000011647A1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
DE3006339C2 (de) Sprachsyntesizer
DE4441906C2 (de) Anordnung und Verfahren für Sprachsynthese
DE60305944T2 (de) Verfahren zur synthese eines stationären klangsignals
DE3232835C2 (de)
EP0157903B1 (de) Verfahren und Anordnung für die Sprachsynthese
DE19837661C2 (de) Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten
EP0094681B1 (de) Schaltungsanordnung zur elektronischen Sprachsynthese
AT311077B (de) Einrichtung zur Synthetisierung von Audio-Informationen
DE2016572A1 (de) Verfahren und Einrichtung zur Sprachsynthese

Legal Events

Date Code Title Description
C3 Grant after two publication steps (3rd publication)
E77 Valid patent as to the heymanns-index 1977
EHJ Ceased/non-payment of the annual fee