DE2203921C3 - Elektrisches Verfahren und Einrichtung zur Sprachsynthese - Google Patents
Elektrisches Verfahren und Einrichtung zur SprachsyntheseInfo
- Publication number
- DE2203921C3 DE2203921C3 DE19722203921 DE2203921A DE2203921C3 DE 2203921 C3 DE2203921 C3 DE 2203921C3 DE 19722203921 DE19722203921 DE 19722203921 DE 2203921 A DE2203921 A DE 2203921A DE 2203921 C3 DE2203921 C3 DE 2203921C3
- Authority
- DE
- Germany
- Prior art keywords
- speech
- sound
- given
- address
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 26
- 238000003786 synthesis reaction Methods 0.000 title abstract description 21
- 238000010291 electrical method Methods 0.000 title description 2
- 238000001308 synthesis method Methods 0.000 claims description 4
- 230000015654 memory Effects 0.000 abstract description 14
- 238000000034 method Methods 0.000 abstract description 11
- 101100412394 Drosophila melanogaster Reg-2 gene Proteins 0.000 abstract description 6
- 230000008569 process Effects 0.000 abstract description 3
- 238000004519 manufacturing process Methods 0.000 abstract description 2
- 101001044053 Mus musculus Lithostathine-1 Proteins 0.000 abstract 4
- 230000001419 dependent effect Effects 0.000 abstract 1
- 230000002045 lasting effect Effects 0.000 abstract 1
- 238000005070 sampling Methods 0.000 abstract 1
- 238000001228 spectrum Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 230000003936 working memory Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 101001030591 Homo sapiens Mitochondrial ubiquitin ligase activator of NFKB 1 Proteins 0.000 description 1
- 102100038531 Mitochondrial ubiquitin ligase activator of NFKB 1 Human genes 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 230000001766 physiological effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
5. Einrichtung zur Durchführung des Sprachsyntheseveriahrens
nach den Ansprüchen 1 bis 4, dadurch gekennzeichnet, daß die Einrichtung aus folgenden Gruppen aufgebaut ist: μ
a. Einem Speicher (SlN; F i g. 2) für die Speicherung der Abtastwerte einer Bezugssinuswelle,
b. einer Anordnung (LS, GBA, ADD 1, REG I) zur Bildung der Speicheradresse, an der ein h
Abtastwert der Bezugssinuswelle aus dem Speicher (SIN) ausgelesen werden soll, so daß
die Abtastwerte in einer solchen Reihenfolge erscheinen, daß sie dem Aufbau der Sinuswellen
der Sprachgrund- oder Pseudo-Sprachgrundfrequenzen der Unterabschnitte des Sprachsignals
und deren Harmonischen entsprechen,
c. einem Speicher (LS) zur Speicherung von information, die sich auf die Amplituden der
Sprachgrund- oder Pseudo-SprachErundfrequenzen und deren Harmonischen aller Unterabschnitte
des zu bildenden Sprachlautes bezieht, und
d. einer Anordnung (LS, SlN. ADD/MULT,
REG 2, D/A) zur erneuten Bildung eines Unterabschnitts des Sprachsignals durch Addition
der Abtastwerte der Sinuswellen der Sprachgrund- oder Pseudo-Sprachgrundfrequenzen
und der Harmonischen, die diesen entsprechen, wobei diese Abtastwerte mit ihren
Fourier-Koeffizienten (A 1 bis A n) gewichtet sind, die ferner die Bildung der Unterabschnitte
so oft wiederholt, wie es zur Bildung eines vollständigen Abschnitts erforderlich ist, wobei
sie im Falle stimmhafter Laute die Sprachgrundfrequenz nicht und im Falle stimmloser
Laute für jeden Unterabschnitt die Pseudo-Sprachgrundfrequenz auf Zufallshasis verändert
Die Erfindung betrifft ein elektrisches Verfahren und eine Einrichtung zur Sprachsynthese, bei denen die
Sprachsignale aus Abschnitten aufgebaut werden, deren Dauer das Vielfache der Sprachgrundperiode beträgt
Die Entstehung der Sprachlaute resultiert entweder aus den Schwingungen der Stimmbänder oder aus der
Turbulenz der Luft die durch die Mundhöhlen strömt oder aus beiden Vorgängen gemeinfjn. Die Analyse
der Sprachlaute zeigt daß ihr Spektrum aus einer Grundfrequenz und ihren Harmonischen gebildet wird:
Dieses sind die sogenannten stimmhaften Laute. Die Analyse der Sprachlaute zeigt ferner, daß es andererseits
solche Laute gibt für die keine bestimmte Grundfrequenz existiert und deren Spektrum als
zufällige Verteilung erscheint Dieses heißt mit anderen Worten, daß das Spektrum dieser Laute aus einer
Anzahl von Frequenzen mit einem zufälligen Verhältnis zwischen diesen und iiiren Harmonischen gebildet wird.
Diese Laute sind stimmlose Laute und sie entsprechen einer zeitlichen Überlagerung der stimmhaften Laute.
Aus dieser Charakteristik der Sprache sind eine Reihe von Verfahren und Vorrichtungen für die Sprachsynthese
hervorgegangen. Die Sprachsynthese wird hierbei im allgemeinen so vollzogen, daß das Sprachspektrum in
einer Anzahl von Kanälen, elwa 50, zerlegt wird und das Spektrum in jedem Kanal mit der mittleren Energie
moduliert wird, die während der Analyse in diesem Kanal gemessen wurde. Nach diesem Verfahren enthält
jeder Kanal Harmonische der Sprachgrundfrequenz, wenn der Sprachlaut, der gebildet werden soll,
stimmhaft ist oder weißes Rauschen, wenn der Sprachlaut stimmlos ist. Hieraus ist zu sehen, daß
zahlreiche Bandfilter erforderlich sind, die infolge ihrer Herstellungskosten und Kosten für einen genauen
Abgleich zu wirtschaftlich ungünstigen Synlheseeinrichtungen führen.
Es wurden daher auch schon Lösungen vorgeschlagen,
die diesen Nachteil vermeiden sollten. Diese
Lösungen beruhten entweder darauf, daß sie die Zahl
der notwendigen Bandfilter verringerten oder daß sie die konventionellen Analogschaltkreise durch Digitalschaltkreise ersetzten. Die letzte Lösung ist hierbei
besonders interessant, obwohl sie nicht immer leicht zu verwirklichen ist da die Digitalisierung der Filter nur
dann wirkungsvoll ist, wenn eine Zeitmultiplextechnik
zu dem Zwecke eingesetzt wird, daß nur ein Filter die gesamte Anordnung der Kanäle bedient Wenn alle
Kanäle mit dem gleichen Signal gespeist werden, ist die Anwendung dieser Multiplextechnik relativ einfach, sie
ist aber außerordentlich kompiex in den Fällen, in denen
die Kanäle mit unterschiedlichen Informationsteilen beschickt werden müssen.
Der Erfindung liegt die Aufgabe zugrunde, diesen vorstehend genannten Nachteil zu vermeiden.
Eine Einrichtung zur Durchführung dieses Sprachsyntheseverfahrens ist im Patentanspruch 5 angegeben.
Weiterbildungen der Erfindung sind den Unteransprüchen zu entnehmen.
Auf die vorstehend durch die Erfindung angegebene Weise wird der Vorteil erzielt daß sowohl für
stimmhafte als auch für stimmlose Sprachabschnitte eine direkte Synthese möglich ist ohne daß ein
Bandfiltersatz notwendig ist Ferner ist auch die verwendete Digitalisierung für Sprachausgabegeräte
elektronischer Datenverarbeitungsanlagen besonders geeignet
Im folgenden wird die Erfindung an Hand eines durch Zeichnungen erläuterten Ausführungsbeispieles näher
beschrieben. Es zeigen
Fig. la und Ib ein Amplituden/Zeitdiagramm der
Abschnitte stimmhafter und stimmloser Sprachlaute und
F i g. 2 das Blockschaltbild einer Sprachsyntheseeinrichtung gemäß der Erfindung.
periodische 1 unktion s(t) mit der Periode T = "j1 in
eine Reihe von Sinusfunktionen mit den Perioden T, 2 T, ..^nT jeweils zerlegt werden, wobei »n« eine ganze
Zahl ist und die Maximalamplituden dieser Sinusfunktionen durch die Fourier-Koeffizienten bestimmt sind.
Dieses führt zu folgendem Ausdruck:
s(t) =2 YAn im nut + A'ncosnin] y\)
Dieses ir·, eine Fourie--Reihe, bei welcher der
konstante Term Null ist Diese Bedingung ist für die Anwendung des Ausdrucks (1) auf die Sprachsynthese
(Fig. la und Ib) hervorragend geeignet.
In dem Ausdruck (1) sind An und A'n die
Fourier-Koeffizienten. Die Anwendung dieses Ausdrucks kann auf jedes Signal mit endlicher Dauer
erstreckt werden, wenn angenommen wird, daß dieses Signal in identischer Form unbestimmt oft wiederholt
wird.
Diese Beziehungen können für die Synthese von Sprachsignalen ausgewertet werden. Dieses Verfahren
wird leichter verständlich, wenn die zeitliche Darstellung des Sprachsignals, wie es die Fig. 1 zeigt näher
untersucht wird. Zuiiächst sind, da die Struktur der
Stimmbänder abrupte Obergange nicht zuläßt, die Grundfrequenzen zweier aufeinanderfolgender stimmhafter Laute nur sehr wenig voneinander verschieden,
wodurch sich der melodische Charakter dieser Lautart ergibt Aber darüber hinaus hat ein derartiger
stimmhafter Sprachlaut einen periodischen Charakter: Wie das Beispiel in F i g. 1 zeigt, hat ein Signal mit einer
Grundperiode von 8 ms (Millisekunden), das hier dreimal wiederholt ist, einen periodischen Signalabschnitt, der drei Unterabschnitte enthält In jedem Fall
ist die Zahl der Wiederholungen eine endliche Zahl. Daher kann nach dem Fourier-Ausdruck das stimmhafte
to Signal mit Hilfe der Komponenten seines Spektrums,
die mit den Fourier-Koeffizienten moduliert sind, aufgebaut oder synthetisiert werden.
Die Verarbeitung stimmloser Laute, die offensichtlich
komplexer ist kann nach einem ähnlichen Verfahren
erfolgen. Diese Feststellung ist ein wesentliches
Element, mit dessen Hilfe es möglich ist eine rationelle Verarbeitung der Signale durchzuführen, gleichgültig,
ob diese Signale stimmhaft stimmlos oder gemischt sind. Da die bekannten Verfahren im allgemeinen im
Frequenzgebiet betrieben werden, heutigen sie solche
Schaltungsanordnungen, die weißes Raus .hen für die Synthese stimmloser Laute liefern. Das Studium der
physiologischen Eigenschaften des menschlichen Ohres zeigt jedoch, daß es für die Verständlichkeit dieser
stimmlosen Laute nicht notwendig ist daß gleichzeitig Signale mit zufälliger Frequenzverteilung vorliegen. Mit
anderen Worten: Die stimmlosen Laute können auch dann gut verstanden werden, wenn zufällige Frequenzen zeitlich nacheinander auftreten. Die Fig. Ib
jo macht dieses an Hand der Darstellung eines stimmlosen,
Zeitvarianten Lautes deutlich. Die Figur zeigt, daß ein solcher Laut betrachtet werden kann als eine Nebeneinanderstellung von Pseudoperioden stimmhafter Laute,
deren (Pseudo-) Grundfrequenzen sich in einer zufälli-
j-, gen Reihenfolge abrupt verändern. Das als Beispiel
gewählte Signal wurde in Unterabschnitte eingeteilt mit einer Dauer (oder Pseudo-Grundperiode) von 2 ms,
1 ms, 13 ms, usw Die letzteren liegen nebeneinander
und bedecken einen Abschnitt der oben definierten ArI,
der im gewühlten Beispiel etwa 225 ms lang ist Daher kann das Signal der Pseudoperioden nach dem
Fourier-Theorem verarbeitet werden, wobei eine Abstraktion bezüglich der umgebenden Pseudoperioden gemacht werden muß. Das Signal besteht
3 daher aus einer Pseudo-Grundfrequenz und deren Harmonischen.
Die Pseudo-Grundfrequenzen folgen einander in einer zufälligen Verteilung.
-,ο aufzubauen, wenn man die Fourier-Koeffizenten und
Sinus- oder Kosinuskomponenten kennt. In Wirklichkeit genügen bereits die Sinuskomponenten für die
Sy.uhtse, da das menschliche Ohr bezüglich der Phasenlage der hörbaren Signale unempfindlich ist.
r> Daher werden auch in der nun folgenden Beschreibung
nur die Sinuskomponenten betrachtet. Darüber hinaus ist es infolge der Eigenschaften des menschlichen Ohres
in der Praxis nicht notwendig, eine unendliche Anzahl von harmonischen Sinuswellen zur Verfügung zu haben.
bo Es genügt bereits, wenn für jede Gnindfrequenz 50 bis
100 Harmonische vorhanden sind. Es scheint jedoch so,
daß eine extrem große Anzahl von Generatoren erforderlich und der Aufbau der Syntheseeinrichtung
besonders komplex if
h', Dieses trifft jedoch nicht ganz zu, wenn eine
Digitaltechnik verwendet wird,dank deren die harmonischen Sinuswellen von einer einzigen Bezugssinuswelle
abgetastet werden können, indem eine relativ einfache
l.ogikschaltung für die Adressierung der Abtastungen
verwendet wird. Hierzu wird eine Bezugssinuswelle der Periode Tan K Punkten abgetastet, die einen zeitlichen
Abstand ro = besitzen. Die Abtastwertc werden
dann digital codiert und in einem Festwertspeicher ROM gespeichert, wobei jede Adresse der Phasenlage
einer Sinuswelle entspricht, woraus sich erklärt, daß in der folgenden Beschreibung der Term »Adresse« oder
»»Phase« ohne Unterschied verwendet wird, da hier äquivalente Notationen vorliegen. Dann ist es möglich,
entweder durch Programmierung oder mit Hilfe einer relativ einfachen Adressierungslogikschaltung die nacheinander
abgeleiteten Abtastwerte für die Synthese einer Sinuswelle gegebener Frequenz auszuwählen. Bei
einer Taktfrequenz von ^ und bei der sequentiellen Ableitung der obengenannten K Abtastwerte besitzt die
synthetisierte Sinuswelle eine Frequenz
Kx
das ist die Frequenz der Bezugssinuswelle.
Wenn nur einer von N Abtastwerten abgeleitet wird, und zwar weiterhin mit Hilfe der gleichen Taktfrequenz,
so führt dieses zur Bildung einer Sinuswelle der
Frequenz Fl = .'. , entsprechend der f/V-l)-ten
ft '(ι
Harmonischen der Bezugsfrequenz.
Daher sind für die Synthese von Sprachsignalen nur die Grund- oder Pseudo-Grundfrequenzen erforderlich,
wobei diese genannten Frequenzen nur in einer relativ begrenzten Anzahl vorhanden sein müssen: etwa 20 von
ihnen genügen bereits. Wenn die Abtas'werte der genannten Sinuswellen gespeichert werden, kann jede
ihrer Harmonischen wiedergewonnen werden, was zu einer wesentlichen Auswahl von Frequenzen führt,
selbst für die Bildung stimmloser Laute.
Es ist ferner möglich, auch nur eine Bezugssinuswelle zu speichern, mit der Bedingung, daß sie mit Hilfe einer
- IJIl. A L. » »t I 1_ * » * * J A 11a
au.->n_iv_iiCu«j iiOitv.ii /~.iy»S3i7CigC SCgCIiCtCl ""ΓΟ- Λϋϊ
Frequenzen, die so gewonnen werden können, stehen zueinander in einem harmonischen Verhältnis. Die Wahl
des Schrittes c der die Abtastgeschwindigkeit legt dann fest, wie genau die Frequenz der auf diese Weise
gebildeten Sinuswelle ist.
Wenn das System einmal initialisiert worden ist, genügt es in der Praxis, die Information der Phase θ zu
besitzen, die für den Adressierungsschritt oder den Vermehrungswert indikativ ist, der zur Adresse des
zuletzt abgeleiteten Abtastwertes hinzugefügt oder vom Festwertspeicher ROM ausgelesen werden muß.
um die Adresse des folgenden Abtastwertes der Sinuswelle zu erhalten, die gebildet werden soll. Da der
Wert θ die Frequenz der zu synthetisierenden Sinuswelle bestimmt genügt es, ihn mit dem Wert 2, 3,
usw. zu multiplizieren, um die erste, zweite, usw. Harmonische der vorangegangenen Sinuswelle zu
bilden. Neben dem Beginnen mit einem θ ist es möglich, hieraus einen anderen Schritt abzuleiten, indem ein
Basiswert B zu θ hinzuaddiert wird. Wenn daher die Werte B in zufälliger Ordnung nachfolgen, folgen auch
die Frequenzen der ersten Sinuswelle, die nacheinander dadurch gebildet werden, daß als neuer Schritt der Wert
θ + B genommen wird, in einer zufälligen Ordnung.
Es ist daher möglich, das gewünschte Sprachsignal
mit Hilfe von digitalen Abtastwerten durch Synthese aufzubauen, wobei jeder der Abtastwerte erreichnct
wird, indem jede sinnvolle Sinuswellc, insbesondere die
Grundfrcqucn/. und deren Harmonische, mit den entsprechenden Fourier-Kocffizicntcn gewichtct und
die Resultate der genannten Produkte addiert werden. Diese Operationen können vereinfacht werden, indem
berücksichtigt wird, daß der /te Abtastwert der /ten Harmonischen mil dem (i χ /Men Ablast wert der
entsprechenden Grundfrequenz identisch ist. F.ine F.inrichtung, in der die vorstehenden Gesichtspunkte
berücksichtigt werden, kann realisiert werden.
Die Basis R kann dazu verwendet werden, den Wert
der Grund- oder Pseudo-Grundfrequenz eines Lautes zu definieren, der durch Synthese gebildet werden soll.
Ks kann hierbei als Ursprung entweder eine frühere Analyse, im Falle eines stimmhaften lautes, oder eine
Zufallssignalquclle, im Falle eines stimmhaften Lautes, zugrunde liegen.
Fig. 2 zeigt nun die eriinciungsgemäue r'iiiiii-Miiitig.
Ein Arbeitsspeicher IS speichert die sprachcodierten Daten, die über den Kanaleingang (das sind mehrere
Eingangskanäle) empfangen werden. Diese Daten sind für den stimmhaften oder stimmlosen Charakter des
Signals kennzeichnend, das durch Synthese gebildet werden soll. Sie sind ferner kennzeichnend für seine
Grundfrequenz (und daher für die entsprechenden Werte θ und B)und für die Werte der Koeffizienten An
und A'.,: Der Festwertspeicher SIN enthält die Abtastwerte der Bezugssinuswelle. Am Anfang einer
Rechenoperation für die Berechnung eines Abtastwertes des zu bildenden Signals uitd dann insbesondere
alle 100 μ5 wird ein neuer Wert der Phase θ erreichnet.
aus dem Wert Θ, der vom Arbeitsspeicher LS geliefert wird und aus dem Wert von B der Gnindfrequenz. Die
Stufe ADD 1 dient zur Durchführung der Rechenoperation θ + B.
Der auf diese Weise errechnete Wert von θ wird anschließend in das Register REG i eingegeben. Er wird
dann wieder in den Addierer ADD t zurückgebracht, um während der folgenden Operation mit dem Wert θ
einerseits erneut verwendet zu werden. Andererseits di^H*. ?r ^'JO^ Q'c ^1***** AHrpccp 7iir Arimssieninp des
Speichers SIN, aus dem ein Abtastwert der Bezugssinuswelle abgerufen wird. Dieser Abtastwert wird in den
Addierer-Multipliziercr ADD/MULT übertragen. Danach
wird der Fourier-Koeffizient A 1 aus dem Arbeitsspeicher Z-S abgerufen und ebenfalls in den
Addierer-Multiplizierer ADD/MULT übertragen und dort mit dem bereits vorhandenen Abtastwert der
Bezugssinuswelle multipliziert. Das Ergebnis wird schließlich in das Register REG 2 übertragen. Gleichzeitig
wird die Phase θ in dem Addierer ADD 1 zu sich selbst hinzuaddiert. Das Ergebnis 20 wird im AnschluD
daran zu dem Eingang von ADD I übertragen, wie schon vorher zu sehen war, und dazu benutzt, den erster
Abtastwert der ersten Harmonischen aus dem Speicher SiN abzurufen. Dieser Abtastwert wird in ADD/MUL1
mit dem Koeffizienten A 2, der vom Arbeitsspeicher Li
abgerufen wurde, gewichtes Das Ergebnis diesel Operation wird zu dem im Register REG 2 befindlicher
Wert hinzuaddiert. Ferner wird der Wert θ in ADD i zi
20 addiert. Das Ergebnis 30 wird dann wieder zu derr
Eingang von ADD 1 zuruckübertragen und ferner dazi
benutzt, den ersten Abtastwert der zweiten Harmoni sehen aus dem Speicher SIN abzurufen. Dieser Wer
wird wieder in ADD/MULT mit dem vom Arbeits
speicher LS abgelesenen Koeffizienten, diesesma! ist e:
A 3, gewichteL Das Ergebne wird wieder zu dem bereit:
im Register REG 2 befindlichen Wert hinzuaddiert. Die
oben stehende Operation, die der Akkumulierung der
gewichteten Abtastwerte der harmonischen Sinuswcllcn
dient, muß so lange fortgesetzt werden, bis die vorgesehenen k Harmonischen erschöpfend bearbeitet
sind. In der Praxis sind 50 bis 100 Harmonische r.ireichend, so daß die gesamte Operation für die
angegebene Anordnung 100 μί dauert. Schließlich
enthält das Register RFXj 2 den Digitalwert des ersten Abtastwertes des Sprachsignals, ein Wert, der dann zu
einem Digital-/Analogwandler D/A für die Analogumwandlung und Glättung der Kurve übertragen wird. Alle
vorangegangenen Operationen müssen dann wieder für die Synthese des zweiten Punktes des Sprachsignais
aufgenommen werden. Zuerst muß hierzu eine neue Adresse H I der Sprachgrundfrequenz bestimmt wer-
den, die im Prinzip dadurch gewonnen wird, daß nur der geeignete Basiswert B zu dem vorhergehenden Wert θ
addiert wird. Diese Basis bleibt für einen gesamten Abschnitt eines stimmhaften Sprachsignals konstant, sie
"ι muß jedoch auf Zufallsbasis für jeden Unterabschnitt
eines stimmlosen Sprachabschnittes modifiziert werden. Daher wird die Größe B für stimmhafte Sprachabschnitte
von dem Arbeitsspeicher LSund für stimmlose
Sprachabschnitte von einem Zufallsbasisgenerator
κι GBA geliefert. Dies heißt in anderen Worten, daß der
von GBA gelieferte Wert von B für jede Pseudoperiode des stimmlosen Sprachsignals anders ist und daß auf
diese Weise in der Verteilung der genannten Basen keine Periodizität auftreten kann. Im gewählten Beispiel
ι ί dauert der Prozeß sowohl für stimmhafte als auch
stimmlose Sprachabschnitte etwa 25 ms.
Claims (4)
1. Elektrisches Sprachsyntheseveriahren, bei dem
die Sprachsignale aus Abschnitten aufgebaut wer- -. den. deren Dauer das Vielfache der Sprachgrundperiode
beträgt, dadurch gekennzeichnet, daß alle Sprachlaute in ähnlicher Weise nach dem
Founer-Theorem gebildet werden, wobei jeder
Sprachabschnitt in benachbarte Unterabschnitte i<
> unterteilt ist, deren Dauer entweder durch die Sprachgrundperiode oder die Pseudo-Sprachgrundperiode
bestimmt ist, je nachdem, ob der Sprachlaut,
der gebildet werden soll, stimmhaft oder stimmlos isL ι
>
2. Sprachsyntheseverfahren nach Anspruch 1.
dadurch gekennzeichnet, daß im Falle stimmloser Sprachabschnitte sich die Dauer aufeinanderfolgender
Pseudo-Penoden auf Zufallsbasis ändert.
3. Sprachsynihesevcnähren nach Ansprach 2, _τ,
dadurch gekennzeichnet, daß alle Unterabschnitte aus Abtastwerten mit gleichem zeitlichen Abstand
gebildet sind, die dadurch gewonnen werden, daß nacheinander die entsprechenden Abtastwerte einer
Sinuswelle der Sprachgrund- odsr Pseudo-Sprach- r, grundperiode, je nachdem, ob der Sprachlaut, der
gebildet werden soll, stimmhaft oder stimmlos ist und die Abtastwerte einer Anzahl der Harmonischen
der Sprachgrundperiode, die mit den entsprechenden Fourk r-Koeffizienten gewichtet sind, ad- «>
diert werden.
4. Sprachsyntheseverfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß
folgende Verfahrensschritte durchgeführt werden:
r>
Bestimmung des stimmhaften oder stimmlosen Charakters des Sprachlautes, der gebildet
werden soll.
Bestimmung der Sprachgrundfrequenz oder der Pseudo-Sprachgrundfrequenz des zu bildenden w
Sprachlautes, Gewichtung der Abtastwerte gleichen Rangs der Sprachgrund- oder Pseudo-Sprachgrundsinuswelle
und einer Anzahl ihrer Harmonischen mit dem entsprechenden Fourier-Koeffizienten,
4Ί Addition der gewichteten Abtastwerte und
Wiederholung der vorstehend genannten Gewichtungs- und Additionsoperationen für die Bildung aufeinanderfolgender Abtastwerte des gleichen Abschnittes eines Sprachsignals, wäh- -*. rend der Wert der Sprachgrundfrequenz für einen stimmhaften Sprachlaut konstant gehalten und für einen stimmlosen Laut in jedem Unterabschnitt auf Zufallsbasis modifiziert wird. ν
Wiederholung der vorstehend genannten Gewichtungs- und Additionsoperationen für die Bildung aufeinanderfolgender Abtastwerte des gleichen Abschnittes eines Sprachsignals, wäh- -*. rend der Wert der Sprachgrundfrequenz für einen stimmhaften Sprachlaut konstant gehalten und für einen stimmlosen Laut in jedem Unterabschnitt auf Zufallsbasis modifiziert wird. ν
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR7104512A FR2126558A5 (de) | 1971-02-02 | 1971-02-02 |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2203921A1 DE2203921A1 (de) | 1972-08-17 |
DE2203921B2 DE2203921B2 (de) | 1979-01-18 |
DE2203921C3 true DE2203921C3 (de) | 1979-09-20 |
Family
ID=9071699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19722203921 Expired DE2203921C3 (de) | 1971-02-02 | 1972-01-28 | Elektrisches Verfahren und Einrichtung zur Sprachsynthese |
Country Status (4)
Country | Link |
---|---|
JP (1) | JPS5215321B1 (de) |
DE (1) | DE2203921C3 (de) |
FR (1) | FR2126558A5 (de) |
GB (1) | GB1345828A (de) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3809788A (en) * | 1972-10-17 | 1974-05-07 | Nippon Musical Instruments Mfg | Computor organ using parallel processing |
-
1971
- 1971-02-02 FR FR7104512A patent/FR2126558A5/fr not_active Expired
-
1972
- 1972-01-20 JP JP733872A patent/JPS5215321B1/ja active Pending
- 1972-01-21 GB GB290872A patent/GB1345828A/en not_active Expired
- 1972-01-28 DE DE19722203921 patent/DE2203921C3/de not_active Expired
Also Published As
Publication number | Publication date |
---|---|
GB1345828A (en) | 1974-02-06 |
JPS5215321B1 (de) | 1977-04-28 |
DE2203921B2 (de) | 1979-01-18 |
DE2203921A1 (de) | 1972-08-17 |
FR2126558A5 (de) | 1972-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2362050C3 (de) | Elektronisches Musikinstrument | |
DE2431161C2 (de) | Tonerzeugungseinrichtung für ein elektronisches Musikinstrument | |
DE3688600T2 (de) | Musikinstrument mit digitalem Filter mit programmierten variablen Koeffizienten. | |
DE602005002197T2 (de) | Schnelles kohärentes Verfahren für Kodierungen mit periodischen Linienspektren | |
DE2151281A1 (de) | Generator mit Frequenzsynthese | |
DE2404431B2 (de) | Elektronisches Musikinstrument | |
DE69720861T2 (de) | Verfahren zur Tonsynthese | |
DE2618178A1 (de) | Ultraschallsende- und empfangsgeraet | |
DE69629934T2 (de) | Umgekehrte transform-schmalband/breitband tonsynthese | |
DE4334603C2 (de) | Verfahren und Vorrichtung zum Kombinieren von von Meßfühlern abgegebenen Signalen | |
DE2833669A1 (de) | Vorrichtung zur datenaufzeichnung auf einem lichtempfindlichen traeger | |
DE2429871C3 (de) | Verfahren zum Erzeugen von elektrischen Klangsignalen entsprechend Klängen bestimmter Klanghöhe jedoch unterschiedlicher Lautstärkewerte | |
DE3226619C2 (de) | ||
DE1905680A1 (de) | Anlage zur Signalverarbeitung | |
DE2203921C3 (de) | Elektrisches Verfahren und Einrichtung zur Sprachsynthese | |
DE1762492C3 (de) | Verfahren und Schaltung zur Hör barmachung der menschlichen Stimme den hochgradig Schwerhörigen | |
DE3246712C2 (de) | ||
DE2901969A1 (de) | Elektronisches musikinstrument mit einer einrichtung zur erzeugung variabler impulse | |
DE3037276C2 (de) | Tonsynthesizer | |
DE1541624A1 (de) | Verfahren zur Frequenzumsetzung | |
DE2051589B2 (de) | Elektrischer Synthesator | |
DE2657430A1 (de) | Einrichtung zum synthetisieren der menschlichen sprache | |
DE69029044T2 (de) | Aktives system zur vibrationsreduktion | |
DE2453873A1 (de) | Fourier-analysator | |
DE2431989A1 (de) | Verfahren und einrichtung zur erzeugung kuenstlichen nachhalls |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OD | Request for examination | ||
C3 | Grant after two publication steps (3rd publication) | ||
8339 | Ceased/non-payment of the annual fee |