DE1811040A1 - Anordnung zum Synthetisieren von Sprachsignalen - Google Patents

Anordnung zum Synthetisieren von Sprachsignalen

Info

Publication number
DE1811040A1
DE1811040A1 DE19681811040 DE1811040A DE1811040A1 DE 1811040 A1 DE1811040 A1 DE 1811040A1 DE 19681811040 DE19681811040 DE 19681811040 DE 1811040 A DE1811040 A DE 1811040A DE 1811040 A1 DE1811040 A1 DE 1811040A1
Authority
DE
Germany
Prior art keywords
signals
signal
speech
arrangement
consonants
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19681811040
Other languages
English (en)
Other versions
DE1811040C3 (de
DE1811040B2 (de
Inventor
Akira Ichikawa
Kazuo Nakata
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of DE1811040A1 publication Critical patent/DE1811040A1/de
Publication of DE1811040B2 publication Critical patent/DE1811040B2/de
Application granted granted Critical
Publication of DE1811040C3 publication Critical patent/DE1811040C3/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

P«f«nfinwHlt· 4».<n,ft Dlpl.-Ing. ft. Beetz u. 191 1- U H W DtpL-ing» Lamprecht
2. St*1nsdorfttr. 11
81-H.O99P 26.11.1968
HITACHI, LTD., Tokyo (Japan)
Anordnung zum Synthetisieren von Sprachaignalen
Die Erfindung bezieht sich auf eine Anordnung zum Synthetisieren von Sprachsignalen, und zwar insbesondere, auf eine solche Anordnung, bei der die Sprachsignale auf künstlichem Wege durch Zusammensetzung vergespeicherter akustischer Grundelemente zusammengesetzt werden, was im folgenden als Vorspeioher- ^ und-Suaammensetz-System bezeichnet werden soll.
Bei einem solohen System wird als vorgespeicherte Einheit üblicherweise ein ganzes Wort verwendet. Daher bedarf es sur Steigerung des Umfangeβ an synthetisierbaren Sprachsignelen und zur Erweiterung des Einsatztereichee einen aolchen Systeme von einem begrenzten Spezialgebiet auf einen allgemeineren Rahmen einer drastischen Vergi'ößerung der Anzahl der gespeicherten Grunöelemente oder Worte. Eine solche VorcröDerung der vorge-
81-(Po3. H 288MfOr(O) 909830/08β*
BAD
speicberten Worte führt nun aber unvermeidlich zu einer Aufblähung und Kompilierung des Systems und steigert aufierdcM die für das Auslesen eines gesuchten Wortes erforderliche In· griffezeit· j
Als möglichen Ausweg zur Lösung dieser Probleme könnte daran denken, anstelle ganzer Worte nur einzelne Silben als vorgespeicherte akustische Grundelemente zu verwenden· Jedoofc leidet diese Methode bekanntlich daran, daß die Qualität der synthetisierten Sprachsignale sowohl hinsiohtlioh deren Klarheit als auch hinaichtlich deren Natürlichkeit sehr tu wtineehen übrig läßt. Ein Grund für diese verminderte Qualität der synthetisierten Sprachsignale liegt darin, da8 sich ein durch Zusammensetzen von Silben aufgebautes Wort in den charakteristischen Merkmalen der es aufbauenden Silben, wie z.B. den Foreant-Prequenzen, der Intensität der HUllkurre, der Pitoh-Frequena und der Dauer, sehr stark von dem gleichen Wort unterecheiivt, wenn dieses in natürlicher Sprechweise im Zusammenhang *l*4 finer besonderen Bedeutung aufgesprochen wird« Der ·1μ1§Ι zur Überwindung dieses Problems besteht wieder in einer fierirag der Anzahl der vorgespeicherten akustlsohen te, was jedoch dem mit der Verwendung von Silben als gespeicherte Grundelemente angestrebten Zweck gerade zuwiderläuft·
Der Hauptzweck der Erfindung besteht daher darin, eine verbesserte Anordnung zur Synthetisierung von Spracheignalen nach dem Torspeicher-und-Zusammensete-Syatem zu schaffen, bei
90§S30/0IS4
dem die oben erwähnten Mangel beseitigt sind. Ziel der Erfindung ist es dabei, die Mannigfaltigkeit der aynthetieierbaren Sprachsignale zu vergrößern^ die Anzahl der als Grundelenentβ für den Aufb&u der synthetisierten Sprachsignale zu speichernden Sprachelomente auf ein Minimum zu reduzieren, die Qualität' der eynthetir.ierten Sprache insbesondere hinsichtlich deren Natürlichkeit zu verbessern und insgesamt den Platssbedarf für die gesamte Anordnung zu verringern.
Erfindungsgemäß werden als vorzuspeiohemde akustische Grundelemente stimmhafte Laute, von denen jeder eine konstante Wiederholun^srate hat, und Konsonanten unter Einschluß von laeal-Inuten, stimmlosen !bauten und st!anhaften Konsonanten verweadet. Jeder stimmhafte Laut wird durch wahlweises Auslesen and Zu·*»« men set sen einer Anzahl von gedämpften Sinus Schwingungen vereolileßerier Pro qu ens, θ ie zuvor auf einem Aufzeichnungsträger auf geaeicfcnet sind, in variierenden und durch ein Steuersignal feetlegbaren Zeitintcrvallen erzeugt. Der konsonantische Anteil der eynthetisierten Sprachsignale dagegen wird entweder «αβ einer An« W zahl natürlich ausgesprochener Konsonanten oder eyntlietiaierter Konuonanten zusammengesetzt, welche die charakteristischen Merkmale der natürlichen Konsonanten wiedergeben. Diese das Spraohsignal aufbauenden Konsonanten werden auf einem Aufzeichnungsträger vorgespeichert und unter Steuerung durch ein Steuersignal, das sowohl den Auslesezeitpunkt als auch die Auslesedauer bestimmt, ausgelesen.
909830/0864
IO I I
Zur Erläuterung der Einzelheiten der Erfindung wird in der folgenden Beschreibung auf die Zeichnung bezug genommen· Ee !eigen t
Fig. la, 1b und 1c Darstellungen der Wellenform eines Sprachsignale und deren charakteristischen
Spektrums;
Pig. 2a» 2b, 2c und 2d Darstellungen der Wellenform einer
speziellen Sinusschwingung und deren charakteristischen Spektrums;
φ Fig. 3 und 4 schematise!^ Darstellungen zur Veranaobauli-
chung der Synthese von Wellenformea mittels eines Magnettrommelspeichersι
Pig. 5 ein Blockschaltbild für eine eifindungsgemäß· Anordnung zur Spraeheynthetiaieruag; und
Fig. 6 und 7 Sohaltbilder zur Irläuterua« der Arbeitsweise
wesentlicher Teile dieser Ausfuhru»gsfarm einer
erfinduttgsgemäßen Anordnung.
Grundsätzlich entsteht Sprache dann« wenn entweder ein durch Vibration der Stimmbänder erzeugter und annähernd periodisch wie-φ derholten intermittierenden dreieoklgen Wellen entspree*e»der stimmhafter Laut oder ein duroh einen auf eine Zusamoenslehunii dee Yokaltraktes zurückgehenden turbulenten Luftstrom erzeugter unrl angenähert weißem Rauschen entsprechender stimmloser Laut durch einen in dem Vokaltrakt, d.h. einem zwischen der Stimmritse und den lappen liegenden artikulatorisohen Organ auegebildeten Hohlraum hindurchgeht.
909830/0864
1811OAO
Zn Fig» 1a, die einen Ausschnitt aus der Wellenfora eines
nale darstellt, entspricht der mit der Bezügezahl 1 bezeichnete Abschnitt einem stimmhaften lAut, la de» die fiederholunßsrate einer Vokalbasis konstant ist, und der mit der Bezugs zahl 2 bezeichnete Abschnitt einem Konsonanten. DiePrequeneapektren der beiden den Abschnitten 1 und 2 In Fig· 1a Beigeordnet cn Laute kennzeichnen sich, wie aus Yig· Ib bsi*, fig. Ie er* sichtlich ist, du roh ihre Hiillkurven 3, die ein Maß für die Re* ^ sonajizlcenngrößen des artikulatorisehen Raumes darstellen, und durch ihre Internstruktur, die ein Maß für die tenngrößen der Vokaibasis darstellt, wobei die ersteren außerdem hauptsächlich durch verschiedene einzelne ResonansskenngrOBen, d.h. die foraanten, 4, 41, 4", 5 und 5' bestimmt norden» und die letitere hauptsächlich durch ein harmonisches Linienepektrum 6 gekennzeichnet ist, das die Periodizität und die Zufälligkeit eine· kontinuierlichen Spektrums aufweist.
Erfindungegemäfl vrlrd die Synthetielertmg eines atlmmhaften M lauteo mit einer konstanten Wiederholungsratev der beispielsweise ein charakteristische» Spektrum aufweist, «it ds in flf· 1» veranschaulicht ist, aus einer Anzahl von vorgeipeioherten gt* ' dämpften Sinusschwingungen verschiedener fr«quens erleichtert.
AIo näohateo soll nun das Grundprinzip einer solchen Synthese naher erläutert werden·
Bine gedämpfte Sinusschwingung, wie eie in ϊίβ· 2a darge-
909830/086^
■ BADORlSfNAL
stellt ist, ergibt ein einseines Resonanzfrequenzspektruia, 91· es in Fig. 2b gezeigt ist. Dabei läßt sich diese gedämpft« Si« nueochwinguns durch den Ausdruok «- *tn co .^ darstellen, in dem ^Cden Dämpfungsfaktor, t die Zelt und t*>^ die Kreisfrequenz für die Sinusschwingung bedeuten· Wird die gedämpf te SinuaSchwingung mit einer konstanten Periode T wiederholt, wie dies in Pig. 2c veranschaulicht ist» so geht ihr Frequensopektrum in ein harmonisches Linienepektrum über, wie ea in Hg· 2'd dargestellt ist. Aus der akustischen Theorie der Spracherzeugung ist bekannt, daß eich die In flg. 1b dargestellte Hüllkur« ve 3 durch kontinuierliche Aneinanderreihung einzelner Resonanskennlinien geninnen läßt, wie sie in Fig. 2b dargestellt ein*. rahor läßt sich ein solcher stimmhafter laut mit einer konstftnten Pitch-Periode oder Viederholungsperiode für die Vokalbaele wie etwa der Vokal "e" dadurch synthetisieren, daß «an eine Yorgespeicherte gedämpfte Sinusschwingung von der Formant-Frequen* dea betreffenden Vokals äquivalenter Porfflant-Prequens mit einer vorgegebenen Periode mehrfach wiederholt und dabei die Amplituden der wiederholten Schwingung so steuert« daß die nftflltetflMB-den Bedingungen erfüllt wardens Die relative Amplitude dee «weiten ?ormanten beträgt (^/^' » 1^1* aie relative Amplitude de·
dritten Formanten ('^1/^2)2 (ω 2/^3)2, wobei ^1, ^2 und ^3 .J^ v;oils die Kreisfrequenzen des ersten, des zweiten bzw. de·1 dritten P ο man ten des Laute a bedeuten· :
Außerdem Ifißt sich ein Ubergangelaut zwischen eine· atlsm-
909830/0f64
1811OAO
haften Laut mit einer konstanten ViederholungsfrequenB, d.h. einem Laut mit einem speziellen Prequenzspektrum, und eine« weiteren Laut mit einem anderen Frequenzspektrum mit hinreichender Glätte bzw. Veiohbeit durch die folgenden Schritte synthetiuieren: Quantisierung der Änderung in der frequenz der charakteristischen Pormanten der jeneiligen Laute zwischen diesen bei· den stimmhaften Lauten, Synthetisierung von Lauten durch Zusaa-
^onsetsimg gedämpfter 8inueschwingungen in der oben beoohriebeet nen Weiee und anschließende Verbindung der so gebildeten Laute w
miteinander«
Dene ntsprechend braucht die Ansah! der akustischen GrunA* elemente, die in der erflndungegemäBen Anordnung sur Bpracheynthetlsiening vorgespeichert werden nüssen» nur so grot zu «eint laß sie die für den Aufbau eines Sprachsignale unter ElnsohluB des ersten( des zweiten und des dritten Foment en wesentlichen Frequenabänder alt hinrelohenden Spielraun abdeokt« Ein Seispiel flir e^ne solche' Anzahlt wie sie bei einer AusfUhrungeforra einer
erfindungsgemaeen Anordnung realisiert worden let, ist in der ^ nachstehenden Tabelle 1 dargestellt.
Tabelle 1: Beispiel far die Anzahl der in Fora gediapfter Sirusschwingungen vorgespeicherten akustisohen Orundelemente
909830/0864
BAD ORIGINAL
18 Π 040
Formant Frequenzbereich Quantisierungs·
stufe
1. 200 *v 950 Hz
2. 800—2400 Hz
3. 2200-3500 Ez insgosaiat200'"N'3500 Hz
50 Hz
Kanal- Bit-Anzahl anzahl
16
Logarithmischer 16
Maßstab
η η β
40
4 4
3 11
Was nun die konsonantischen Anteile der Sprache (Nasallaute, stimmlose Konsonanten und vokalisohe oder stimmhafte Konsonanten) anbelangt, so ist es lediglioh erforderlich. Signale vorzuspeichern, die den Kenngrößen der jeweiligen Konsonanten entsprechen. Die Anzahl derartiger Signale beträgt höchstens 16, wie dies in der nachstehenden Tabelle 2 dargestellt iflt·
Tabelle 2t Beispiel für die Anzahl der g«speiohtrten konsonantischen Grundelemente·
Rciblaute
Explosivlaute
Nasallaute
Kontronaat Anzahl Konsonant Anzahl Konsonant Anzahl der
der Grund- der Grund- Grundelemente
elemente elemente
1 P 1 ra 1
1 t CVl η 1
5 k 3 I 1
Pamer.tspreelnsnd liegt die Gesamtanzahl für Ale zu speichernden akustischen Grundelemente in der GröOenordnung von 50«,
909830/0864
1911040
Sur Verbesserung der Hatürlicfeteeit der auf diese Weise aufgebauten Sprache ist es erforderlich, die Periode für die oben beschriebene wiederholte Erzeugung der gedämpften Sinusschwingungen in Übereinstimmung Kit der Pitch-Periode der zu synthetisierenden Sprachsignale au steuern.
Ira folgenden wird eine gangbare Methode für eine derartige Steuerung unter Bezugnahme auf Pig. 2 näher beschrieben! in der ein Kagnettrommelapeicher echenatisch veranschaulicht ist, in den ~ die oben beschriebenen gedämpften Sinusschwingungen eingespeichert sind.
nimmt man an, daß der unterste Wert für die Pitch-Prequen« der SU synthetisierenden Sprachsignale bei 50 Ha liegt, so müa-εεη. die gedämpften Sinus schwingungen über 20 ms hinweg ge spei« chert werden, was einer Periode fUr die Umdrehung der Magnettrommel entepricht. Dies bedeutet, daß die Zeitkonstante für die Dämpfung der Sinusschwingungen, für den Höchstfall auf etwa 20 ms an* zusetzen ist· Diese Annahme ist mit Rücksicht auf die Bandbreite ™ der Vokalformanten angemessen. Hund um den Umfang der Magnettrommel sind beispielsweise sehn Leseköpfe mit gleichen gegenseitigem Λbatand verteilt angeordnet, so daß der zeitliche Abstand zwischen zwei benachbarten Leseköpfen 2 me beträgt· Dieser Zeitabctand bedeutet gleichzeitig die Minimal größe für die Steuersohritte für die Pitch-Periode, und die Pitch-Prequenz wird dann entsprechend der Auswahl der leseköpfe in den nochstehenden zehn Stufen geregelt: 50 Hz, 55,5 Hz, 62,5 Hz, 71,5 Hz, 83,5 Hz, 100 Hz,
909830/0864
BAD
1911040
125 Kz, 166 Hz, 250 Ez und 500 Hz. Dioae Schrittweiten lassen s:Lch selbstverständlich durch eine Vergrößerung der Anzahl H der leseköpfe entsprechend verkUrsen.
Unter Bezugnahme auf die Darstellung in Fig· 3 sei angenommen» daß der Lesekopf 1Q su einem bestimmten Zeitpunkt im Lessvorgang begriffen ist und daß daa Zeitintervall TQ den zeitlichen Abstand zwischen der Analesung duroh den Lesekopf I0 und der Auslesung durch den leeekopf X1 bedeutet. Beginnt der näohste . AusieseVorgang dann, wenn der Anfang des aufgezeichneten Signals die Stellung des Lesekopfea I-J+^ erreicht, so wird das Zeitintervall zwischen zwei Auslesungen um f'· k Sekunden länger. Beginnt aie nächste Auslesung dagegen an der Stelle de3 Lesekopfea I1.^, so wird des Zeitintervall zwischen awei aufeinanderfolgenden Auslosungen um f. k Sekunden kürzer. Dabei bezeichnet Tdas Zeitintervall, das verstreicht, b'.v sich eine Mantellinle der rotierenden liagnettrommel von einem Lesekopf zu dem nächstfolgen- β·η Leeekopf rreitergedreht hat. Nimmt man nun an» daß das aufgezeichnete Signal durch einen Lesekopf kontinuierlich während einer vollen Umdrehung der Magnettrommel, d.h. 20 ms lang, ausgelesen wird» so ersieht man aus Pig. 4, daß eich der Anfange* ahscb'/iitt jeder Ausleneperiode mit einem Teil des von dem vorangehenden Lesekopf auo^eleaenen b'ignales und der Sndabsohnitt Je-
. der Ausleseperiocle mit einem Abschnitt in dem von dem nachfolgenden Lesekopf ausgelesenen Signal überschneiden, so daß der über- .
. gang r.Y/iochen den physikalischen Kenngrößen sich weicher vollzieht, woraus sich eine, varbeaaerte Qualität der synthetisierten Sprachsignale ergibt. 9Q9830/0864
iAi ORIG'i
Ale nächstes sollen der Aufbau und die Arbeitsweise einer Anordnung r.ur Spraohsynthelisierung mittels Vorspeiciierung und Zusammensetzung der vorgespeicherten Signale gemäß der Erfindung anhand einer bestimmten Ausführimgoforra einer erfindungsgemäöen Anordnung im eineeinen dargelegt werden.
In Pig. 5, die ein Blockschaltbild einer Au3führungsform der Erfindung darstellt, 1st ein mebrkanaliges System mit η Auscangekanälen veranschaulicht· Die Bestandteile des in ein Sprachei-gn&l umzuwandelnden Satzes, die in einem Hauptgerät 10, beicpielsT7ei»e einem üblichen großen schnellen Elektronenrechner, Ausgewählt werden, werden unmittelbar in ausgangseeitige Spraoh-B teuer signale'*t1, 12, ...In für einen Hagnettrommelspeicher 20 umgesetzt, der ein sogenanntes Ausspracheverzeichnis, d.h. einen &£ts von Steuersignalen für die zu artikulierenden Spraohelemen-
" · ' to enthält, und anschließend auf Steuersignaldekoder 101, 102,·.· 1On fUr die jeweiligen Kanäle verteilt, in denen die aufgeteilten Steuersignale in eine örupjte greifbarerer Steuerdgnale 21, 22, ·..2n für die Auslesung Her aufgezeichneten akustieohen örundcleaente dekodiert werden..
Ein Teil der dekodierten Signale wird Torschaltungsmatrizen 201, 202, ...2On für die Auswahl der aufgezeichneten Sprachtlemtnte zugeführt, während der übrige Teil Gruppen von Analogmultiplikatoren (311, 312, 313), 321, 322, 333) *..(3n1, 3n2,3n3) zur Steuerung der relativen Amplituden der ausgelesenen Signale
909830/0864
BAD ORIGINAL
1511040
- iZ -
st. Auf diese Weise wird ein fjpcziellee akuotiechas Grundelement durch einen speziellen Leoekopf auf der Speichertrommel 30 für diese akustischen Grund elemente in einem besonderen Zeitpunkt ausgelesen; und anschlieGsnd wird die relative Amplitude in der der ausgeleaenen Signale erforderlichen ..'eise gesteuert· Die in ihrer Amplitude gesteuerten Auagangs3ignale werden SumciierverBtärJcera 313, 324·,...5n4 in den jeweils zugehörigen Kanälen zugeführt, darin untereinander aufsummiert und anschließend in ITultiplikatoren 315, 325,...3n5 ao in ihrer Intensität gerogelt, wie dies fUr ein Phonem und ein integriertes Spraohsignal erforderlich ist.
Anschließend werden diese Ausgangssignale in Summierverstfcrkera 316, 326,...3n6 mit Konsonanten kombiniert und werden so zu resultierenden Ausgangsaprachaignalen 31» 32,..·3η· Dae oben beschriebene Verfahren wird beispielsweise alle 10 ms wiederholt, und auf diese Weise erhalt man ausgangsseitig ein kontinuierliches Sprachsignal.
Als nächstes sollen die wesentlichen Bauteile des oben ervfilmten Systems im einzelnen beschrieben werden· Wie bereite oben erläutert, wird ein Sprachsignal erfindungsge:aöß in zwei feile aufgeteilt, nämlich einen ersten Teil, der die Yokale und libergangslaute unter Einschluß der Halbvokale und Fließlaute enthält, und einen zweiten Teil, der die Konsonanten, und iwar stimmlose Konsonanten, stimmhafte Konsonanten und Hasallaute enthält. Bei der Sprachsignalsynthese wird der erste Teil
830/0864
1811 ΟΛΟ
durch- wiederholte Auslesung von vorgespeicherten gedämpften Sinne Schwingungen i» variierenden Perioden erzeugt, während der zweiLta Teil durch unmittelbare Auolesucg der jeweils erforderlichen Wellenformen aua den aufgezeichneten konsonantischen vfellsn-formen gewonnen wird, und schließlich werden beide Teile mit <: ir ander kombiniert, Nun ist es bereits bekannt, daß sich Reibelaute und Explosivlaute durch Vergrößerung der Überlappung zwischen dem konsonantischen Teil des Sprachsignale und dessen die Vokale und Ubergangslaute. enthaltendem Toil und Explosionslaute außerdem durch Versteilerung des die Vokale und die Uberjsangalaute enthaltenden Teiles dee Sprachsignale gewinnen lassen· Demzufolge laßt oich jede beliebige üilbe aus den beiden oben beschriebenen Teilen eines Sprachsignals synthetisieren.
Von diesen beiden Teilen jedes Sprachsignale verlangt lediglich der erste Teil eine wiederholte Auelesung in variierenden Periodeny und diese variablen Perioden sind außerdem allen ersten, zweiten und dritten Formanten gemeinsam.
Daher kann bei der nun folgenden Erläuterung der Auslesung der aufgezeichneten akustischen Grundelemente auf einen gesonderten Kanal Bezug genommen werden. Die auf der Magnettrommel 30 aufgezeichneten akustischen Grundelemente lassen sich in zwei Kategorien aufgliedern, nämlich eine erste Gruppe von gedämpften Sinusschwingungen, die zur Synthese des oben erwähnten ersten» die Vokale und übergängslaute enthaltenden Teiles des Sprach-
909830/0864
BAD ORIGINAL
- Ί4 -
signals dienen» und eine zweite Gruppe von konsonantischen WeI-Io r, formen. Die erste Gruppe ist in drei einander in Rand be r eichen überlappende Gebiete aufgeteilt, nämlich ι den.ersten Porraantbi»reioh (16 Kanäle zwischen 200 und 950 Hz), den zweiten Formantbereich (16 Kanäle zwischen 800 und 2400 Hz) und den dritten ?ormantbereich (8 Kanäle zwischen 2200 und 3500 Hz). Zur Vereinfachung des Aufbaues der Steuerung sind die Spuren auf der Mag« nettrommel 30 entsprechend den beiden oben erwähnten Kategoriern unterteilt, wobei die erste Jv.tegorie weiter in drei Zonen,, nümlieh eine erste, eine zweite und eine dritte Zone unterteilt lot. Auf diese Weise sind die Aufzeiohnungsspuren auf der Trommel auf vier Zonen verteilt.
Dies bedeutet wiederum, daß dis Speichertrommel 400 für die akufttiochen Grundelemente in Tier Zonen 401 9 402« 403 und 404 unterteilt iet, wie dies in Fig. 6 dargestellt ist. Die Aus» gan£3&ignale von Leseköpfen für die jeweiligen Kanäle in diesen vier Zonen werden iorsohaltunssmatrisea 411, 4Ϊ29 413 und 414 fUr iie Auswahl dieser Auegangseignal® zugeführt. Ton diesen vier Torschaltiinßsmatrizen werden die Matrizen 411 # 412 und fUr die Bildung der ?ornianten gemeinsam mit einem Iiesekopf^Auswahlsignal 451 gespeist, während die verbleibende Matrix 414 mit c ir cm Signal 452 für die Ausvjahl des Lesekopfes für die Auslösung der Konsonanten versorgt wird.
Um zu bestimmen, welcher *anal, d.h. welohe i'requeniB, in iflen jeweilii^en Zonen ausgewählt werden soll, werden den ent-
909830/0364
1511040
sprechenden Matrizen Frequenz-Auswahleignale. 461 f 462 und 463 zugefUIirt, da die ersten, zweiten und dritten Formanten unabhängig voneinander gesteuert «erden sollen. Entsprechend diesen Steuersignalen erhält man an Ausgangsklemmen 471 v 472 und 473 der 2orochaltungsmat rissen 411, 412 und 413 gedämpfte Sinusschwingungen verschiedener Irequcna (entsprechend der jeweiligen Pormant-Prequens) in wiederholter Äugleeung mit speziellen Perioden (entsprechend den jeweiligen Pitch-Perioden). Die Aue- ^ ^cn^ssignale der fcatrizen 412 und 413 werden bezüglich ihrer relativen Amplitude gegenüber dem Ausgangesignal der Matrix 411 in Analog-Hultiplikatoren 422 und 423 mit Bezug auf Steuersignale 465 und 466 geregelt und anschließend gemeinsam mit dem Auagangssignal der Matrix 411 in eines 3ummierveretärlcer 431 auf summiert. Bas Auogangasignal des Summierverstärkers 431 wird a^BercJom in einem Analog-liuliplikator 441 in seiner Amplitude mit Bezug auf ein Steuersignal 481 in der T/eis· geregelt, deJ es eine gute Wirkung fUr den Yokalklang und die Spr?..ohe ergibt, und anschließend Über eine Ausgangsklemne 490 als kontinuierli- (1 ches Sprachsignal nach außen abßegfcen· ·' '
Wird ein Konsonant verlangt, so wird das durch die **atrlx 414 ausgewählte konsonantische Signal den den Vokalen und übergang alauten entsprechenden Signal in einen Summierrerstärker i:uaddiertf nachdem es in einem Analog-Hultiplikator 424 eine passende steuerung seiner relativen Amplitude gegenüber dem die Vokale und übergangslaute enthaltenden Signal nit Bezug auf ein Steuersignal 468 erfahren hat.
909830/0864
BAD ORIGINAL
In Pige 7 ist ein Ausschnitt aus einer der in Pig. 6 dar-3?orschP.ltung3iaatrizen 411, 412, 413 und 414 für die der rorgespeicherten akustischen Grundelemeate im einzelnen Jargesteirt. Da die Toi^chaltungsmatrizen 411, 412, 413 und 414 einander in ihrer Arbeitsweise im wesentliche» entsprechen» kann sich die nachstehende Beschreibung auf lediglich eine davon beschränken.
Für die Darstellung von J.(1ig. 7 sei angenommen, daß 1 aufgezeichnete Spuren 1, 2...1 auf der Magnettrommel 400 wahlweise durch N Leseköpfe 1, 2...H ausgelesen werden sollen.
Das Signal 451 (fUr die Matrizen 411, 412 uad 413) oder das Signal 452 (für die Matrix 414)» das die Leaeköpfe bezeichnet{, durch welche die aufgezeichneten Signale ausgelesen werden sollen» wird einem Dekoderpuffer 500 zugeftShrt, in dem ee dekodiert wird. Der Dekoderpuffer 500 speist von den Ausgangs leitungen 501 bits 5ON die zu den ausgewählten Lesekßpfen führenden Ausgangsleitungen mit dem Ausgangseignal "1" und alle übrigen mit dem Ausgangs« signal "Ο". .
Inzvvisohen wird das Signal 461 (für die *atrix 411), das Signal 462 (für die Matrix 412) öder das Signal 463 CfUr die *atrix 413), das die Kanüle angibt, derer» Ausgangesignale abgenommen werden sollen» einem »weiten Dekoderpuffer 600 zugeführt und du$}n dekodiert. Der Dekoderpuffer 600 speist von Auegangeleitungen 601, 602...601 die ausgewählten leitungen mit dem Sig-
909830/0864
1911OAO
nal "1" unö. alle übrigen -Leitungen mit dem Signal "Ö"· ta· mm die aus den einzelnen Spuren auf der Magnettronael ausgelassen analogen Signale anbelangt , so werden die AuegangsaignaJ.e der den eraten I»eseköofen zugeordneten Spuren Klematn 11, 12,....,bsw.1l, die Ausgangssignale für die dtn zweiten £eaeköpfen sageordneten Spuren Klemmen 21, 22,...., be«· 21 und die Aus gang s signale ftir die den N-ten-Ieeeköpfen zugeordneten Spuren Klemmen ΗΊ» N2,..,bzw· Hl zugeführt.
Wie aus Fig. 7 ersichtlich, werden digitalen UWD-Schaltun- £cn 111, 121,...111; 211, 221,...211 bzw. 111, 121,...IH mit Torschaltungeauewahlaignalen 301, 502,...501 und 601, 502,...6Ol geapeist. Als FoI^e davon Offnet von den VzI Torschaltung« nur die Torschaltung, die Im speziellen Fall das Signal "I" su* geführt erhält, und gibt nur die jeweils zugehörigen Torsohaltung von don nachfolgenden analogen Toreohaltungtn 112» 122,.,. 112} 212, 222,.*.212ι H12, 122,...112 ein Ausgangssignal ti· ab. Auf diese V/eise wird das von tie π speziellen ^eeekoof aus der
speziellen Spur aus£eleeene Ausgangesignal ausgewählt. ^
Außerdem gibt das dekodierte Ausgangssignal des Dedekoder« verstärkern 500 nicht nur den auszuwählenden Lee elco pf an, sondern auch den Zeitptmkt, zu dem ein Signal von diesem Lesekopf ausgelesen werden soll (da das Signal stets vom otartpunkt der AufzeichnunH ^us ausgelesen wird, kann der Startzeitpunkt ohne weite· res aus dem ^eitimpula auf der lagnettronaiiel beatirjat werden)· Nimmt man daher an, daß die digitalen UKD-.Schaltungen 11, 211,·.. 1111, wenn sie sofort geöffnet werden, das Ausgangssignal ·Τ·
909830/0864
BAD ORIGINAL
während einer vollständigen Umdrehung der Trommel (die £Ugehöri~ ge Periode To beträgt beispielsweise 20 ms) beibehalten« dann laßt die zugehörige Auswähltorschaltungematrix eine Aueleaung zu, wie sie in *ig. 4 veranschaulicht lot.
Die Ausleseausoangssignale «erden in einem Endverstärker 700 auf summiert und nach außen abgeben. De Been Auegangsaignal ent· Bericht einem der in ?ig. 6 eingezeichneten AusgangeSignale 471* 472 oder 473.
FUr die Torsehaltungsmatrix für die Konsonantenauavahl wird die Au ale sung einer epezlellen Spur durch einen speziellen *<eeekopf fortlaufend nährend einer desa jeweiligen Konsonanten eigenen Dauer verlangt. Dies wird durch !steuerung der Auelesedauer mit Hilfe des von den Dekoderpuffer 5 0 dekodierten Signals erreicht, während die Auslesedauer fUr die Vokale konstant ist und bei» epielsweiae 20 ms betrugt; Das Ausgangssignal für dl· lonaonantenauewahl entspricht dem Signal 474 in Fig« 6.
Ks liegt auf der Hand, daß daa oben beschriebene *rinslp der Erfindung sich in gleicher V.'elae sowohl auf digitale Aufzeiohnungsmetboden für akuatieohe GrUkidelemente als ftuoh auf einen ans einer Anzahl von ächteberregiatern bestehenden eykliachen Spei-* eher anwenden läßt. Jedoch versteht es eioh dabei von selbst, daß flir den Tall einer digitalen Aufseiohnung ein Digital-Analog-Wandler erforderlich lstt.uo die aus der Aualesung resultierenden Ausßangssignale in Analogsignale zu Überfuhren.
909830/0864

Claims (2)

1511040 - 19 -Patentansprüche
1. Anordnung zum Synthetisieren von Spraohsignalen naoh der Tor·
cpeicher- und •Zusaiamensetz-Hethode,
einen gekennzeichnet durch/eine Anzahl von gedämpften Sinueechningun-
CQn verschiedener Frequenz enthaltenden Speicher»
eine Einrichtung zum selektiven und periodischen Auslesen ri«de ctens einer dieser Sinusschwingungen mit variabler Auslesenrio- ^ de unter Steuerung durch ein Steuersignal,
einen eine Anzahl von kontinuierlichen Signalen mit jeweils civ.om Konsonanten entsprechenden Kenngrößen enthaltenden Speicher
und eine Einrichtung zum selektiven Auslesen mindestens eines die« cer kontinuierlichen Signale zu einem speziellen Zeitpunkt unter steuerung durch ein Steuersignal.
2. Anordnung nach Anspruch 1,
gekennzeichnet durch eine zusätzliche Einrichtung wie Zusanunen· setzen der von den beiden Aueleseelnriohtungen abgegebenen Aue- fl gangssignale·
909830/0864
BAD ORIGINAL
Leerseite
DE1811040A 1967-11-29 1968-11-26 Anordnung zum Synthetisieren von Sprachsignalen Expired DE1811040C3 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7609367 1967-11-29

Publications (3)

Publication Number Publication Date
DE1811040A1 true DE1811040A1 (de) 1969-07-24
DE1811040B2 DE1811040B2 (de) 1973-07-12
DE1811040C3 DE1811040C3 (de) 1974-02-14

Family

ID=13595216

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1811040A Expired DE1811040C3 (de) 1967-11-29 1968-11-26 Anordnung zum Synthetisieren von Sprachsignalen

Country Status (4)

Country Link
US (1) US3532821A (de)
DE (1) DE1811040C3 (de)
FR (1) FR1593788A (de)
GB (1) GB1225142A (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1297311B (de) * 1964-03-18 1969-06-12 Krefft Gmbh W Einrichtung zum Zubereiten, Portionieren und Verteilen von Speisen
DE2625795A1 (de) * 1975-06-09 1976-12-30 Camin Ind Corp Uhr

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3689696A (en) * 1970-01-09 1972-09-05 Inoue K Speech synthesis from a spectrographic trace
FR2098528A5 (de) * 1970-07-17 1972-03-10 Lannionnais Electronique
US3828132A (en) * 1970-10-30 1974-08-06 Bell Telephone Labor Inc Speech synthesis by concatenation of formant encoded words
FR2130952A5 (de) * 1971-03-26 1972-11-10 Thomson Csf
US3723667A (en) * 1972-01-03 1973-03-27 Pkm Corp Apparatus for speech compression
US3798372A (en) * 1972-05-12 1974-03-19 D Griggs Apparatus and method for retardation of recorded speech
US3865982A (en) * 1973-05-15 1975-02-11 Belton Electronics Corp Digital audiometry apparatus and method
JPS55128146U (de) * 1979-02-28 1980-09-10
DE3024062A1 (de) * 1980-06-26 1982-01-07 Siemens AG, 1000 Berlin und 8000 München Halbleiterbauelement zur synthetischen spracherzeugung

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2243089A (en) * 1939-05-13 1941-05-27 Bell Telephone Labor Inc System for the artificial production of vocal or other sounds
US2771509A (en) * 1953-05-25 1956-11-20 Bell Telephone Labor Inc Synthesis of speech from code signals
US2793249A (en) * 1953-12-04 1957-05-21 Vilbig Friedrich Synthesizer for sound or voice reproduction
US3158685A (en) * 1961-05-04 1964-11-24 Bell Telephone Labor Inc Synthesis of speech from code signals
US3398241A (en) * 1965-03-26 1968-08-20 Ibm Digital storage voice message generator

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1297311B (de) * 1964-03-18 1969-06-12 Krefft Gmbh W Einrichtung zum Zubereiten, Portionieren und Verteilen von Speisen
DE2625795A1 (de) * 1975-06-09 1976-12-30 Camin Ind Corp Uhr

Also Published As

Publication number Publication date
US3532821A (en) 1970-10-06
FR1593788A (de) 1970-06-01
GB1225142A (de) 1971-03-17
DE1811040C3 (de) 1974-02-14
DE1811040B2 (de) 1973-07-12

Similar Documents

Publication Publication Date Title
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE2115258C3 (de) Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern
DE2740520A1 (de) Verfahren und anordnung zur synthese von sprache
DE2945413C1 (de) Verfahren und Vorrichtung zur Synthetisierung von Sprache
DE69720861T2 (de) Verfahren zur Tonsynthese
DE1811040A1 (de) Anordnung zum Synthetisieren von Sprachsignalen
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE69631037T2 (de) Sprachsynthese
DE2736082A1 (de) Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer)
DE3228756A1 (de) Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen
DE1965480A1 (de) Geraet fuer kuenstliche Erzeugung von Worten durch Umwandlung eines in Buchstaben gedruckten Textes in Aussprache
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
DE2519483A1 (de) Verfahren und anordnung zur sprachsynthese
DE4033350B4 (de) Verfahren und Vorrichtung für die Sprachverarbeitung
DE3006339A1 (de) Verfahren und einrichtung zur sprachsynthese
EP0058130B1 (de) Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens
DE4111781A1 (de) Computersystem zur spracherkennung
DE60316678T2 (de) Verfahren zum synthetisieren von sprache
DE3232835C2 (de)
DE60311482T2 (de) Verfahren zur steuerung der dauer bei der sprachsynthese
DE60025120T2 (de) Amplitudensteuerung für die Sprachsynthese
DE19939947C2 (de) Digitales Sprachsyntheseverfahren mit Intonationsnachbildung
EP0094681B1 (de) Schaltungsanordnung zur elektronischen Sprachsynthese
DE19837661C2 (de) Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten
DE4110300A1 (de) Verfahren zur erweiterung des wortschatzes fuer sprecherunabhaengige spracherkennung

Legal Events

Date Code Title Description
C3 Grant after two publication steps (3rd publication)
E77 Valid patent as to the heymanns-index 1977
EHJ Ceased/non-payment of the annual fee