DE2203921B2 - Elektrisches Verfahren und Einrichtung zur Sprachsynthese - Google Patents
Elektrisches Verfahren und Einrichtung zur SprachsyntheseInfo
- Publication number
- DE2203921B2 DE2203921B2 DE19722203921 DE2203921A DE2203921B2 DE 2203921 B2 DE2203921 B2 DE 2203921B2 DE 19722203921 DE19722203921 DE 19722203921 DE 2203921 A DE2203921 A DE 2203921A DE 2203921 B2 DE2203921 B2 DE 2203921B2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- sound
- given
- address
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 25
- 238000003786 synthesis reaction Methods 0.000 title abstract description 20
- 238000010291 electrical method Methods 0.000 title description 2
- 101100412394 Drosophila melanogaster Reg-2 gene Proteins 0.000 claims abstract description 7
- 101001044053 Mus musculus Lithostathine-1 Proteins 0.000 claims abstract description 6
- 238000001308 synthesis method Methods 0.000 claims description 6
- 238000000034 method Methods 0.000 abstract description 12
- 230000008569 process Effects 0.000 abstract description 4
- 230000001419 dependent effect Effects 0.000 abstract description 2
- 238000004519 manufacturing process Methods 0.000 abstract description 2
- 238000005070 sampling Methods 0.000 abstract description 2
- 230000002045 lasting effect Effects 0.000 abstract 1
- 238000001228 spectrum Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 101001030591 Homo sapiens Mitochondrial ubiquitin ligase activator of NFKB 1 Proteins 0.000 description 1
- 102100038531 Mitochondrial ubiquitin ligase activator of NFKB 1 Human genes 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 230000001766 physiological effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Die Erfindung betrifft ein elektrisches Verfahren und eine Einrichtung zur Sprachsynthese, bei denen die
Sprachsignale aus Abschnitten aufgebaut werden, deren Dauer das Vielfache der Sprachgrundperiode beträgt.
Die Entstehung der Sprachlaute resultiert entweder aus den Schwingungen der Stimmbänder oder aus der
Turbulenz der Luft, die durch die Mundhöhlen strömt oder aus beiden Vorgängen gemeinsam. Die Analyse
der Sprachlaute zeigt, daß ihr Spektrum aus einer Grundfrequenz und ihren Harmonischen gebildet wird:
Dieses sind die sogenannten stimmhaften Laute. Die Analyse der Sprachlaute zeigt ferner, daß es andererseits
solche Laute gibt, für die keine bestimmte Grundfrequenz existiert und deren Spektrum als
zufällige Verteilung erscheint. Dieses heißt mit anderen Worten, daß das Spektrum dieser Laute aus einer
Anzahl von Frequenzen mit einem zufälligen Verhältnis zwischen diesen und ihren Harmonischen gebildet wird.
Diese Laute sind stimmlose Laute und sie entsprechen einer zeitlichen Überlagerung der stimmhaften Laute.
Aus dieser Charakteristik der Sprache sind eine Reihe von Verfahren und Vorrichtungen für die Sprachsynthese
hervorgegangen. Die Sprachsynthese wird hierbei im allgemeinen so vollzogen, daß das Sprachspektrum in
einer Anzahl von Kanälen, etwa 50, zerlegt wird und das Spektrum in jedem Kanal mit der mittleren Energie
moduliert wird, die während der Analyse in diesem Kanal gemessen wurde. Nach diesem Verfahren enthält
jeder Kanal Harmonische der Sprachgrundfrequenz, wenn der Sprachlaut, der gebildet werden soll,
stimmhaft ist oder weißes Rauschen, wenn der Sprachlaut stimmlos ist. Hieraus ist zu sehen, daß
zahlreiche Bandfilter erforderlich sind, die infolge ihrer Herstellungskosten und Kosten für einen genauen
Abgleich zu wirtschaftlich ungünstigen Syntheseeinrichtungen führen.
Es wurden daher auch schon Lösungen vorgeschlagen, die diesen Nachteil vermeiden sollten. Diese
Lösungen beruhten entweder darauf, daß sie die Zahl der notwendigen Bandfilter verringerten oder daß sie
die konventionellen Analogschaltkreise durch Digitalschaltkreise ersetzten. Die letzte Lösung ist hierbei
besonders interessant, obwohl sie nicht immer leicht zu verwirklichen ist, da die Digitalisier ung der Filter nur
dann wirkungsvoll ist, wenn eine Zeitmultiplextechnik zu dem Zwecke eingesetzt wird, daß nur ein Filter die
gesamte Anordnung der Kanäle bedient. Wenn alle Kanäle mit dem gleichen Signal gespeist werden, ist die
Anwendung dieser Multiplextechnik relativ einfach, sie
ist aber außerordentlich komplex in den Fällen, in denen die Kanäle mit unterschiedlichen Informationsteilen
beschickt werden müssen.
Der Erfindung liegt die Aufgabe zugrunde, diesen vorstehend genannten Nachteil zu vermeiden.
Die Lösung ist im Patentanspruch 1 angegeben.
Eine Einrichtung zur Durchführung dieses Sprachsyntheseverfahrens ist im Patentanspruch 5 angegeben.
Weiterbildungen der Erfindung sind oen Unteransprüchen
zu entnehmen.
Auf die vorstehend durch die Erfindung angegebene Weise wird der Vorteil erzielt, daß sowohl für
stimmhafte als auch für stimmlose Sprachabschnitte eine direkte Synthese möglich ist, ohne daß ein
Bandfiltersatz notwendig ist. Ferner ist auch die verwendete Digitalisierung für Sprachausgabegerä'e
elektronischer Datenverarbeitungsanlagen besonders geeignet.
Im folgenden wird die Erfindung an Hand eines durch Zeichnungen erläuterten Ausführungsbeispieles nS.her
beschrieben. Es zeigen
Fig. la und Ib ein Amplituden-/Zeitdiagramm der
Abschnitte stimmhafter und stimmloser Sprachlaute und
Fig.2 das Blockschaltbild einer Sprachsyntheseeinrichtung
gemäß der Erfindung.
Nach dem bekannten Fourier-Theorem kann jede
periodische Funktion s(t) mit der Periode T = ~ 7 in
eine Reihe von Sinusfunktionen mit den Perioden T, 2 T, .... π Γ jeweils zerlegt werden, wobei »n« eine ganze
Zahl ist und die Maximalamplituden dieser Sinusfunktionen durch die Fourier-Koeffizienten bestimmt sind.
Dieses führt zu folgendem Ausdruck:
.s'(f) =2^ [An sin nut + A'n cos iiUi~\
Dieses ist eine Fourier-Reihe, bei welcher der konstante Term Null ist. Diese Bedingung ist für die
Anwendung des Ausdrucks (1) auf die Sprachsynthese (Fig. la und Ib) hervorragend geeignet.
In dem Ausdruck (1) sind An und A'n die Fourier-Koeffizienten. Die Anwendung dieses Ausdrucks
kann auf jedes Signal mit endlicher Dauer erstreckt werden, wenn angenommen wird, daß dieses
Signal in identischer Form unbestimmt oft wiederholt wird.
Diese Beziehungen können für die Synthese von Sprachsignalen ausgewertet werden. Dieses Verfahren
wird leichter verständlich, wenn die zeitliche Darstellung des Sprachsignals, wie es die Fig. 1 zeigt, näher
untersucht wird. Zunächst sind, da die Struktur der Stimmbänder abrupte Übergänge nicht zuläßt, die
Grundfrequenzen zweier aufeinanderfolgender stimmhafter Laute nur sehr wenig voneinander verschieden,
wodurch sich der melodische Charakter dieser Lautart ergibt Aber darüber hinaus hat ein derartiger
stimmhafter Sprachlaut einen periodischen Charakter: Wie das Beispiel in F i g. 1 zeigt, hat ein Signal mit einer
Grundperiode von 8 ms (Millisekunden), das hier dreimal wiederholt ist, einen periodischen Signalabschnitt,
der drei Unterabschnitte enthält In jedem Fall ist die Zahl der Wiederholungen eine endliche Zahl.
Daher kann nach dem Fourier-Ausdruck das stimmhafte Signal mit Hilfe der Komponenten seines Spektrums,
die mit den Fourier-Koeffizienten moduliert sind, aufgebaut oder synthetisiert werden.
Die Verarbeitung stimmloser Laute, die offensichtlich komplexer ist, kann nach einem ähnlichen Verfahren
erfolgen. Diese Feststellung ist ein wesentliches Element, mit dessen Hilfe es möglich ist, eine rationelle
Verarbeitung der Signale durchzuführen, gleichgültig, ob diese Signale stimmhaft, stimmlos oder gemischt
sind. Da die bekannten Verfahren im allgemeinen im Frequenzgebiet betrieben werden, benötigen sie solche
Schaltungsanordnungen, die weißes Rauschen für die Synthese stimmloser Laute liefern. Das Studium der
physiologischen Eigenschaften des menschlichen Ohres zeigt jedoch, daß es für die Verständlichkeit dieser
stimmlosen Laute nicht notwendig ist daß gleichzeitig Signale mit zufälliger Frequenzverteilung vorliegen. Mit
anderen Worten: Die stimmlosen Laute können auch dann gut verstanden werden, wenn zufällige Frequenzen
zeitlich nacheinander auftreten. Die Fig. Ib macht dieses an Hand der Darstellung eines stimmlosen,
Zeitvarianten Lautes deutlich. Die Figur zeigt, daß ein solcher Laut betrachtet werden kann als eine Nebeneinanderstellung
von Pseudoperioden stimmhafter Laute, deren (Pseudo-) Grundfrequenzen sich in einer zufälligen
Reihenfolge abrupt verändern. Das als Beispiel gewählte Signal wurde in Unterabschnitte eingeteilt mit
einer Dauer (oder Pseudo-Grundperiode) von 2 ms,
1 ms, 1,5 ms, usw Die letzteren liegen nebeneinander
und bedecken einen Abschnitt der oben definierten Art, der im gewählten Beispiel etwa 225 ms lang ist Daher
kann das Signal der Pseudoperioden nach dem Fourier-Theorem verarbeitet werden, wobei eine
Abstraktion bezüglich der umgebenden Pseudoperioden gemacht werden muß. Das Signal besteht
daher aus einer Pseudo-Grundfrequenz und deren Harmonischen.
Die Pseudo-Grundfrequenzen folgen einander in einer zufälligen Verteilung.
Es ist daher möglich, stimmhafte Sprachsignale aufzubauen, wenn man die Fourier-Koeffizenten und
Sinus- oder Kosinuskomponenten kennt. In Wirklichkeit genügen bereits die Sinuskomponenten für die
Synthese, da das menschliche Ohr bezüglich der Phasenlage der hörbaren Signale unempfindlich ist.
Daher werden auch in der nun folgenden Beschreibung nur die Sinuskomponenten betrachtet. Darüber hinaus
ist es infolge der Eigenschaften des menschlichen Ohres in der Praxis nicht notwendig, eine unendliche Anzahl
von harmonischen Sinuswellen zur Verfügung zu haben. Es genügt bereits, wenn für jede Grundfrequenz 50 bis
100 Harmonische vorhanden sind. Es scheint jedoch so, daß eine extrem große Anzahl von Generatoren
erforderlich und der Aufbau der Syntheseeinrichtung besonders komplex ist.
Dieses trifft jedoch nicht ganz zu, wenn eine Digitaltechnik verwendet wird, dank deren die harmonischen
Sinuswellen von einer einzigen Bezugssinuswelle abgetastet werden können, indem eine relativ einfache
Logikschaltung für die Adressierung der Abtastungen verwendet wird. Hierzu wird eine Bezugssinuswelle der
Periode Tan K Punkten abgetastet, die einen zeitlichen
Abstand ro = „ besitzen. Die Abtastwerte werden
κ
dann dipital codiert und in einem Festwertspeicher ROM gespeichert, wobei jede Adresse der Phasenlage
einer Sinuswelle entspricht, woraus sich erklärt, daß in der folgenden Beschreibung der Term »Adresse« oder
»Phase« ohne Unterschied verwendet wird, da hier äquivalente Notationen vorliegen. Dann ist es möglich,
entweder durch Programmierung oder mit Hilfe einer relativ einfachen Adressierungslogikschaltung die nacheinander
abgeleiteten Abtastwerte für die Synthese einer Sinuswelle gegebener Frequenz auszuwählen. Bei r>
einer Taktfrequenz von ' und bei der sequentiellen
Ableitung der obengenannten K Abtastwerte besitzt die synthetisierte Sinuswelle eine Frequenz
FO =
Kr0
20
das ist die Frequenz der Bezugssinuswelle.
Wenn nur einer von N Abtastwerten abgeleitet wird, und zwar weiterhin mit Hilfe der gleichen Taktfrequenz,
so führt dieses zur Bildung einer Sinuswelle der
N
Frequenz Fl = jr- , entsprechend der (TV-l)-ten
Frequenz Fl = jr- , entsprechend der (TV-l)-ten
Harmonischen der Bezugsfrequenz. »
Daher sind für die Synthese von Sprachsignalen nur die Grund- oder Pseudo-Grundfrequenzen erforderlich,
wobei diese genannten Frequenzen nur in einer relativ begrenzten Anzahl vorhanden sein müssen: etwa 20 von
ihnen genügen bereits. Wenn die Abtastwerte der J5
genannten Sinuswellen gespeichert werden, kann jede ihrer Harmonischen wiedergewonnen werden, was zu
einer wesentlichen Auswahl von Frequenzen führt, selbst für die Bildung stimmloser Laute.
Es ist ferner möglich, auch nur eine Bezugssinuswelle zu speichern, mit der Bedingung, daß sie mit Hilfe einer
ausreichend hohen Abtastfolge abgetastet wird. Alle Frequenzen, die so gewonnen werden können, stehen
zueinander in einem harmonischen Verhältnis. Die Wahl des Schrittes oder die Abtastgeschwindigkeit legt dann
fest, wie genau die Frequenz der auf diese Weise gebildeten Sinuswelle ist.
Wenn das System einmal initialisiert worden ist, genügt es in der Praxis, die Information der Phase θ zu
besitzen, die für den Adressierungsschritt oder den >n
Vermehrungswert indikativ ist, der zur Adresse des zuletzt abgeleiteten Abtastwertes hinzugefügt oder
vom Festwertspeicher ROM ausgelesen werden muß, um die Adresse des folgenden Abtastwertes der
Sinuswelle zu erhalten, die gebildet werden soll. Da der Wert θ die Frequenz der zu synthetisierenden
Sinuswelle bestimmt, genügt es, ihn mit dem Wert 2, 3, usw. zu multiplizieren, um die erste, zweite, usw.
Harmonische der vorangegangenen Sinuswelle zu bilden. Neben dem Beginnen mit einem θ ist es möglich,
hieraus einen anderen Schritt abzuleiten, indem ein Basiswert B zu θ hinzuaddiert wird. Wenn daher die
Werte B in zufälliger Ordnung nachfolgen, folgen auch die Frequenzen der ersten Sinuswelle, die nacheinander
dadurch gebildet werden, daß als neuer Schritt der Wert b5
θ + B genommen wird, in einer zufälligen Ordnung.
Es ist daher möglich, das gewünschte Sprachsignal mit Hilfe von digitalen Abtastwerten durch Synthese
aufzubauen, wobei jeder der Abtastwerte erreichnet wird, indem jede sinnvolle Sinuswelle, insberondere die
Grundfrequenz und deren Harmonische, mit den entsprechenden Fourier-Koeffizienten gewichtet und
die Resultate der genannten Produkte addiert werden. Diese Operationen können vereinfacht werden, indem
berücksichtigt wird, daß der /te Abtastwert der /-ten Harmonischen mit dem (i χ /J-ten Abtastwert der
entsprechenden Grundfrequenz identisch ist. Eine Einrichtung, in der die vorstehenden Gesichtspunkte
berücksichtigt werden, kann realisiert werden.
Die Basis B kann dazu verwendet werden, den Wert der Grund- oder Pseudo-Grundfrequenz eines Lautes
zu definieren, der durch Synthese gebildet werden soll. Es kann hierbei als Ursprung entweder eine frühere
Analyse, im Falle eines stimmhaften Lautes, oder eine Zufallssignalquelle, im Falle eines stimmhaften Lautes,
zugrunde liegen.
F i g. 2 zeigt nun die erfindungsgemäße Einrichtung. Ein Arbeitsspeicher LS speichert die sprachcodierten
Daten, die über den Kanaleingang (das sind mehrere Eingangskanäle) empfangen werden. Diese Daten sind
für den stimmhaften oder stimmlosen Charakter des Signals kennzeichnend, das durch Synthese gebildet
werden soll. Sie sind ferner kennzeichnend für seine Grundfrequenz (und daher für die entsprechenden
Werte θ und B)\md für die Werte der Koeffizienten An
und A'n. Der Festwertspeicher SIN enthält die Abtastwerte der Bezugssinuswelle. Am Anfang einer
Rechenoperation für die Berechnung eines Abtastwertes des zu bildenden Signals und dann insbesondere
alle 100 μ5 wird ein neuer Wert der Phase θ erreichnet,
aus dem Wert Θ, der vom Arbeitsspeicher LS geliefert wird und aus dem Wert von B der Grundfrequenz. Die
Stufe ADD 1 dient zur Durchführung der Rechenoperation θ + B.
Der auf diese Weise errechnete Wert von θ wird anschließend in das Register REG 1 eingegeben. Er wird
dann wieder in den Addierer ADDi zurückgebracht, um während der folgenden Operation mit dem Wert θ
einerseits erneut verwendet zu werden. Andererseits dient er auch als erste Adresse zur Adressierung des
Speichers SIN, aus dsm ein Abtastwert der Bezugssinuswelle abgerufen wird. Dieser Abtastwert wird in den
Addierer-Multiplizierer ADD/MULT übertragen. Danach wird der Fourier-Koeffizient A 1 aus dem
Arbeitsspeicher LS abgerufen und ebenfalls in den Addierer-Multiplizierer ADD/MULT übertragen und
dort mit dem bereits vorhandenen Abtastwert der Bezugssinuswelle multipliziert Das Ergebnis wird
schließlich in das Register REG 2 übertragen. Gleichzeitig wird die Phase θ in dem Addierer ADD 1 zu sich
selbst hinzuaddiert. Das Ergebnis 20 wird im Anschluß daran zu dem Eingang von ADDi übertragen, wie
schon vorher zu sehen war, und dazu benutzt, den ersten Abtastwert der ersten Harmonischen aus dem Speicher
SIN abzurufen. Dieser Abtastwert wird in ADD/MUL1 mit dem Koeffizienten A 2, der vom Arbeitsspeicher LS
abgerufen wurde, gewichtet Das Ergebnis dieser Operation wird zu dem im Register REG 2 befindlichen
Wert hinzuaddiert. Ferner wird der Wert θ in ADD I zu
20 addiert Das Ergebnis 30 wird dann wieder zu dem Eingang von ADD 1 zurückübertragen und ferner dazu
benutzt, den ersten Abtastwert der zweiten Harmonischen aus dem Speicher SIN abzurufen. Dieser Wert
wird wieder in ADD/MULT mit dem vom Arbeitsspeicher LS abgelesenen Koeffizienten, diesesmal ist es
A 3, gewichtet Das Ergebnis wird wieder zu dem bereits
im Register REG 2 befindlichen Wert hinzuaddiert. Die oben stehende Operation, die der Akkumulierung der
gewichteten Abtastwerte der harmonischen Sinuswellen dient, muß so lange fortgesetzt werden, bis die
vorgesehenen k Harmonischen erschöpfend bearbeitet sind. In der Praxis sind 50 bis 100 Harmonische
ausreichend, so daß die gesamte Operation für die angegebene Anordnung 100μ5 dauert. Schließlich
enthält das Register REG 2 den Digitalwert des ersten Abtastwertes des Sprachsignals, ein Wert, der dann zu
einem Digital-/Analogwandler D/A für die Analogumwandlung und Glättung der Kurve übertragen wird. Alle
vorangegangenen Operationen müssen dann wieder für die Synthese des zweiten Punktes des Sprachsignals
aufgenommen werden. Zuerst muß hierzu eine neue Adresse Ö 1 der Sprachgrundfrequenz bestimmt wer-
den, die im Prinzip dadurch gewonnen wird, daß nur der geeignete Basiswert ßzu dem vorhergehenden Wert Θ
addiert wird. Diese Basis bleibt für einen gesamten Abschnitt eines stimmhaften Sprachsignals konstant, sie
muß jedoch auf Zufallsbasis für jeden Unterabschnitt eines stimmlosen Sprachabschnittes modifiziert werden.
Daher wird die Größe B für stimmhafte Sprachabschnitte von dem Arbeitsspeicher LS und für stimmlose
Sprachabschnitte von einem Zufallsbasisgenerator GBA geliefert. Dies heißt in anderen Worten, daß der
von GBA gelieferte Wert von B für jede Pseudoperiode des stimmlosen Sprachsignals anders ist und daß auf
diese Weise in der Verteilung der genannten Basen keine Periodizilät auftreten kann. Im gewählten Beispiel
dauert der Prozeß sowohl für stimmhafte als auch stimmlose SprachabschniUe etwa 25 ms.
Hierzu I Blatt Zeichnungen
Claims (5)
1. Elektrisches Sprachsyntheseverfahren, bei dem die Sprachsignale aus Abschnitten aufgebaut werden,
deren Dauer das Vielfache der Sprachgrundperiode beträgt, dadurch gekennzeichnet,
daß alle Sprachlaute in ähnlicher Weise nach dem Fourier-Theorem gebildet werden, wobei jeder
Sprachabschnitt in benachbarte Unterabschnitte unterteilt ist, deren Dauer entweder durch die
Sprachgrundperiode oder die Pseudo-Sprachgrundperiode bestimmt ist, je nachdem, ob der Sprachlaut,
der gebildet werden soll, stimmhaft oder stimmlos ist
2. Sprachsyntheseverfahren nach Anspruch 1, dadurch gekennzeichnet, daß im Falle stimmloser
Sprachabschnitte sich die Dauer aufeinanderfolgender Pseudo-Perioden auf Zufallsbasis ändert
3. Sprachsyntheseverfahren nach Anspruch 2, dadurch gekennzeichnet, daß alle Unterabschnitte
aus Abtastwerten mit gleichem zeillichen Abstand gebildet sind, die dadurch gewonnen werden, daß
nacheinander die entsprechenden Abtastwerte einer Sinuswelle der Sprachgrund- oder Pseudo-Sprachgrundperiode,
je nachdem, ob der Sprachlaut, der gebildet werden soll, stimmhaft oder stimmlos ist
und die Abtastwerte einer Anzahl der Harmonischen der Sprachgrundperiode, die mit den entsprechenden
Fourier-Koeffizienten gewichtet sind, ad- «1 diert werden.
4. Sprachsyntheseverfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß
folgende Verfahrensschritte durchgeführt werden:
i">
Bestimmung des stimmhaften oder stimmlosen Charakters des Sprachlautes, der gebildet
werden soll,
Bestimmung der Sprachgrundfrequenz oder der Pseudo-Sprachgrundfrequenz des zu bildenden
Sprachlautes, Gewichtung der Abtastwerte gleichen Rangs der Sprachgrund- oder Pseudo-Sprachgrundsinuswelle
und einer Anzahl ihrer Harmonischen mit dem entsprechenden Fourier-Koeffizienten,
4) Addition der gewichteten Abtastwerte und
Wiederholung der vorstehend genannten Gewichtungs- und Additionsoperationen für die Bildung aufeinanderfolgender Abtastwerte des gleichen Abschnittes eines Sprachsignals, wäh- -,o rend der Wert der Sprachgrundfrequenz für einen stimmhaften Sprachlaut konstant gehalten und für einen stimmlosen Laut in jedem Unterabschnitt auf Zufallsbasis modifiziert wird. >r>
Wiederholung der vorstehend genannten Gewichtungs- und Additionsoperationen für die Bildung aufeinanderfolgender Abtastwerte des gleichen Abschnittes eines Sprachsignals, wäh- -,o rend der Wert der Sprachgrundfrequenz für einen stimmhaften Sprachlaut konstant gehalten und für einen stimmlosen Laut in jedem Unterabschnitt auf Zufallsbasis modifiziert wird. >r>
5. Einrichtung zur Durchführung des Sprachsyntheseverfahrens nach den Ansprüchen 1 bis 4,
dadurch gekennzeichnet, daß die Einrichtung aus folgenden Gruppen aufgebaut ist: wi
a. Einem Speicher (SlN; F i g. 2) für die Speicherung der Abtastwerte einer Bezugssinuswelle,
b. einer Anordnung (LS, GBA, ADD 1, REG 1) zur Bildung der Speicheradresse, an der ein h-,
Abtastwert der Bezugssinuswelle aus dem Speicher (SlN) ausgelesen werden soll, so daß
die Abtastwerte in einer solchen Reihenfolge erscheinen, daß sie dem Aufbau der Sinuswellen
der Sprachgrund- oder Pseudo-Sprachgrundfrequenzen der Unterabschnitte des Sprachsignals
und deren Harmonischen entsprechen,
c. einem Speicher (LS) zur Speicherung von Information, die sich auf die Amplituden der
Sprachgrund- oder Pseudo-Sprachgrundfrequenzen und deren Harmonischen aller Unterabschnitte
des zu bildenden Sprachlautes bezieht, und
& einer Anordnung (LS, SlN, ADD/MULT, REG 2, D/A) zur erneuten Bildung eines
Unterabschnitts des Sprachsignals durch Addition der Abtastwerte der Sinuswellen der
Sprachgrund- oder Pseudo-Sprachgrundfrequenzen und der Harmonischen, die diesen entsprechen, wcbei diese Abtastwerte mit ihren
Fourier-Koeffizienten (A 1 bis A n) gewichtet sind, die ferner die Bildung der Unterabschnitte
so oft wiederholt, wie es zur Bildung eines vollständigen Abschnitts erforderlich ist, wobei
sie im Falle stimmhafter Laute die Sprachgrundfrequenz nicht und im Falle stimmloser
Laute für jeden Unterabschnitt die Pseudo-Sprachgrundfrequenz auf Zufallsbasis verändert.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR7104512A FR2126558A5 (de) | 1971-02-02 | 1971-02-02 |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2203921A1 DE2203921A1 (de) | 1972-08-17 |
DE2203921B2 true DE2203921B2 (de) | 1979-01-18 |
DE2203921C3 DE2203921C3 (de) | 1979-09-20 |
Family
ID=9071699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19722203921 Expired DE2203921C3 (de) | 1971-02-02 | 1972-01-28 | Elektrisches Verfahren und Einrichtung zur Sprachsynthese |
Country Status (4)
Country | Link |
---|---|
JP (1) | JPS5215321B1 (de) |
DE (1) | DE2203921C3 (de) |
FR (1) | FR2126558A5 (de) |
GB (1) | GB1345828A (de) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3809788A (en) * | 1972-10-17 | 1974-05-07 | Nippon Musical Instruments Mfg | Computor organ using parallel processing |
-
1971
- 1971-02-02 FR FR7104512A patent/FR2126558A5/fr not_active Expired
-
1972
- 1972-01-20 JP JP733872A patent/JPS5215321B1/ja active Pending
- 1972-01-21 GB GB290872A patent/GB1345828A/en not_active Expired
- 1972-01-28 DE DE19722203921 patent/DE2203921C3/de not_active Expired
Also Published As
Publication number | Publication date |
---|---|
GB1345828A (en) | 1974-02-06 |
JPS5215321B1 (de) | 1977-04-28 |
DE2203921A1 (de) | 1972-08-17 |
DE2203921C3 (de) | 1979-09-20 |
FR2126558A5 (de) | 1972-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2362050C3 (de) | Elektronisches Musikinstrument | |
DE2431161C2 (de) | Tonerzeugungseinrichtung für ein elektronisches Musikinstrument | |
DE68919637T2 (de) | Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen. | |
DE2524497C3 (de) | Verfahren und Schaltungsanordnung zur Sprachsynthese | |
DE2551632C2 (de) | Verfahren zum Zusammensetzen von Sprachnachrichten | |
DE2644885C2 (de) | ||
DE3688600T2 (de) | Musikinstrument mit digitalem Filter mit programmierten variablen Koeffizienten. | |
DE2364336A1 (de) | Elektronisches musikinstrument | |
DE2404431A1 (de) | Elektronisches musikinstrument | |
DE69720861T2 (de) | Verfahren zur Tonsynthese | |
DE2920298A1 (de) | Binaere interpolatorschaltung fuer ein elektronisches musikinstrument | |
DE1965480C3 (de) | Gerat zur Umwandlung eines in graphischen Zeichen gedruckten Textes in gesprochene Worte | |
DE69629934T2 (de) | Umgekehrte transform-schmalband/breitband tonsynthese | |
DE2622423B2 (de) | Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form | |
DE69702261T2 (de) | Sprachkodierung | |
DE3013250A1 (de) | Digitalsignalgenerator | |
DE3019823A1 (de) | Datenumsetzer und damit ausgestattete sprachsyntheseanordnung | |
DE2429871C3 (de) | Verfahren zum Erzeugen von elektrischen Klangsignalen entsprechend Klängen bestimmter Klanghöhe jedoch unterschiedlicher Lautstärkewerte | |
DE3228757A1 (de) | Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen | |
DE3226619C2 (de) | ||
DE1811040C3 (de) | Anordnung zum Synthetisieren von Sprachsignalen | |
DE3037276C2 (de) | Tonsynthesizer | |
DE3246712C2 (de) | ||
DE2901969A1 (de) | Elektronisches musikinstrument mit einer einrichtung zur erzeugung variabler impulse | |
DE2203921C3 (de) | Elektrisches Verfahren und Einrichtung zur Sprachsynthese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OD | Request for examination | ||
C3 | Grant after two publication steps (3rd publication) | ||
8339 | Ceased/non-payment of the annual fee |