DE2203921A1 - Verfahren und Anordnung zur Sprachsynthese - Google Patents
Verfahren und Anordnung zur SprachsyntheseInfo
- Publication number
- DE2203921A1 DE2203921A1 DE19722203921 DE2203921A DE2203921A1 DE 2203921 A1 DE2203921 A1 DE 2203921A1 DE 19722203921 DE19722203921 DE 19722203921 DE 2203921 A DE2203921 A DE 2203921A DE 2203921 A1 DE2203921 A1 DE 2203921A1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- sound
- samples
- given
- address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 30
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims abstract description 15
- 230000015654 memory Effects 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims abstract description 4
- 238000001308 synthesis method Methods 0.000 claims description 6
- 108700012361 REG2 Proteins 0.000 claims description 5
- 101150108637 REG2 gene Proteins 0.000 claims description 5
- 101100120298 Rattus norvegicus Flot1 gene Proteins 0.000 claims description 5
- 101100412403 Rattus norvegicus Reg3b gene Proteins 0.000 claims description 5
- 101100490488 Mus musculus Add3 gene Proteins 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 abstract description 2
- 238000005070 sampling Methods 0.000 abstract description 2
- 101001044053 Mus musculus Lithostathine-1 Proteins 0.000 abstract 4
- 101100412394 Drosophila melanogaster Reg-2 gene Proteins 0.000 abstract 2
- 230000001419 dependent effect Effects 0.000 abstract 1
- 230000002045 lasting effect Effects 0.000 abstract 1
- 238000001228 spectrum Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 102100034033 Alpha-adducin Human genes 0.000 description 2
- 101000799076 Homo sapiens Alpha-adducin Proteins 0.000 description 2
- 101000629598 Rattus norvegicus Sterol regulatory element-binding protein 1 Proteins 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000003936 working memory Effects 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 230000001766 physiological effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Böblingen, den 27. Januar 1972 jo-sz
Anmelderin: International Business Machines
Corporation, Armonk, N.Y. 10504
Amtliches Aktenzeichen: Neuanmeldung Aktenzeichen der Anmelderin: Docket FR 970 011
Die Erfindung betrifft Verfahren und Anordnungen zur Sprachsynthese,
bei denen die Sprachsignale aus Abschnitten aufgebaut werden, deren Dauer das Vielfache der Sprachgrundperiode beträgt.
Die Entstehung der Sprachlaute resultiert entweder aus den Schwingungen
der Stimmbänder oder aus der Turbulenz der Luft, die durch die Mundhöhlen strömt oder aus beiden Vorgängen gemeinsam. Die
Analyse der Sprachlaute zeigt, daß ihr Spektrum aus einer Grundfrequenz und ihren Harmonischen gebildet wird: Dieses sind die
sog. stimmhaften Laute. Die Analyse der Sprachlaute zeigt ferner, daß es andererseits solche Laute gibt, für die keine bestimmte
Grundfrequenz existiert und deren Spektrum als zufällige Verteilung erscheint. Dieses heißt mit anderen Worten, daß das Spektrum
dieser Laute aus einer Anzahl von Frequenzen mit einem zufälligen Verhältnis zwischen diesen und ihren Harmonischen gebildet wird.
Diese Laute sind stimmlose Laute und sie entsprechen einer zeitlichen überlagerung der stimmhaften Laute.
209834/0762
Aus dieser Charakteristik der Sprache sind eine Reihe von Verfahren
und Vorrichtungen für die Sprachsynthese hervorgegangen. Die Sprachsynthese wird hierbei im allgemeinen so vollzogen, daß
das Sprachspektrum in einer Anzahl von Kanälen, etwa 50, zerlegt wird und das Spektrum in jedem Kanal mit der mittleren Energie
moduliert wird, die während der Analyse in diesem Kanal gemessen wurde. Nach diesem Verfahren enthält jeder Kanal Harmonische der
Sprachgrundfrequenz, wenn der Sprachlaut, der gebildet werden soll, stimmhaft ist oder weißes Rauschen, wenn der Sprachlaut
stimmlos ist. Hieraus ist zu sehen, daß zahlreiche Bandfilter erforderlich sind, die infolge ihrer Herstellungskosten und Kosten
für einen genauen Abgleich zu wirtschaftlich ungünstigen Syntheseeinrichtungen führen.
Es wurden daher auch schon Lösungen vorgeschlagen, die diesen Nachteil vermeiden sollten. Diese Lösungen beruhten entweder
darauf, daß sie die Zahl der notwendigen Bandfilter verringerten oder daß sie die konventionellen Analogschaltkreise durch Digitalschaltkreise
ersetzten. Die letzte Lösung ist hierbei besonders interessant, obwohl sie nicht immer leicht zu verwirklichen ist,
da die Digitalisierung der Filter nur dann wirkungsvoll ist, wenn eine Zeitmultiplextechnik zu dem Zwecke eingesetzt wird, daß nur
ein Filter die gesamte Anordnung der Kanäle bedient. Wenn alle Kanäle mit dem gleichen Signal gespeist werden, ist die Anwendung
dieser Multiplextechnik relativ einfach, sie ist aber außerordentlich komplex in den Fällen, in denen die Kanäle mit unterschiedlichen
Informationsteilen beschickt werden müssen.
Die Aufgabe der Erfindung besteht nun darin, diesen vorstehend genannten Nachteil zu vermeiden.
Für ein Sprachsyntheseverfahren, bei dem die Sprachsignale aus Abschnitten aufgebaut werden, deren Dauer das Vielfache der Sprachgrundperiode
beträgt, besteht die Erfindung darin, daß alle Sprachlaute in ähnlicher Weise nach dem Fourier-Theorem gebildet werden,
wobei jeder Sprachabschnitt in benachbarte Unterabschnitte unter-
Docket fr 970 on 209834/0762
teilt ist, deren Dauer entweder durch die Sprachgrundperiode oder die Pseudo-Sprachgrundperiode bestimmt ist, je nach dem,
ob der Sprachlaut, der gebildet werden soll, stimmhaft oder stimmlos ist.
Für eine Einrichtung zur Durchführung dieses Sprachsyntheseverfahrens
besteht die Erfindung darin, daß die Einrichtung aus folgenden Gruppen aufgebaut ist:
a. Einem Speicher für die Speicherung der Abtastwerte einer Bezugssinuswelle,
b. einer^nordnung zur Bildung der Speicheradresse, an der
ein Abtastwert der Bezugssinuswelle aus dem Speicher ausgelesen werden soll, so daß die Abtastwerte in einer
solchen Reihenfolge erscheinen, daß sie dem Aufbau der Sinuswellen der Sprachgrund- oder Pseudo-Sprachgrundfrequenzen
der Unterabschnitte des Sprachsignals und deren Harmonischen entsprechen,
c. einem Speicher zur Speicherung von Information, die sich auf die Amplituden der Sprachgrund- oder Pseudo-Sprachgrundfrequenzen
und deren Harmonischen aller Unterabschnitte des zu bildenden Sprachlautes bezieht
und
d. einer/Anordnung zur erneuten Bildung eines Unterabschnitts
des Sprachsignals durch Addition der Abtastwerte der Sinuswellen der Sprachgrund- oder Pseudo-Sprachgrundfrequenzen
und der Harmonischen, die diesen entsprechen, wobei diese Abtastwerte mit ihren Fourier-Koeffizienten
gewichtet sind, die ferner die Bildung der Unterabschnitte so oft wiederholt, wie es zur Bildung
eines vollständigen Abschnitts erforderlich ist, wobei sie im Falle stimmhafter Laute die Sprachgrundfrequenz
nicht und im Falle stimmloser Laute für jeden
Docket FR 970 011
20983 4/0762
Unterabschnitt die Pseudo-Sprachgrundfrequenz auf Zufallsbasis
verändert.
Weitere Merkmale, vorteilhafte Ausgestaltungen und Weiterbildungen
des Gegenstands der Erfindung sind den Unteransprüchen zu entnehmenο
Auf die vorstehend durch die Erfindung angegebene Weise wird der Vorteil erzielt, daß sowohl für stimmhafte, als auch für stimmlose
Sprachabschnitte eine direkte Synthese möglich ist, ohne daß ein Bandfiltersatz notwendig ist. Ferner ist auch die verwendete
Digitalisierung für Sprachausgabegeräte elektronischer Datenverarbeitungsanlagen besonders geeignet.
Im folgenden wird die Erfindung an Hand eines durch Zeichnungen erläuterten Ausführungsbeispieles näher beschrieben. Es zeigen:
Fign. la und Ib ein Amplituden-/Zeitdiagramm der Abschnitte
stimmhafter und stimmloser Sprachlaute und
Fig. 2 das Blockschaltbild einer Sprachsyntheseeinrichtung gemäß der Erfindung.
Nach dem bekannten Fourier-Theorem kann jede periodische Funktion s(t) mit der Periode T = ~ in eine Reihe von Sinusfunktionen mit
den Perioden T, 2T, ..., nT jeweils zerlegt werden, wobei "n" eine ganze Zahl ist und die Maximalamplituden dieser Sinusfunktionen
durch die Fourier-Koeffizienten bestimmt sind. Dieses
führt zu folgendem Ausdruck:
+ oo
s(t) = \ [An sin nßt + A'n cos nfit] (1)
η = 1
= \ [An sin nnt + A'n cos nfitTj
Docket fr 970 on 209834/0762
Dieses ist eine Fourier-Reihe, bei welcher der konstante Term
Null ist. Diese Bedingung ist für die Anwendung des Ausdrucks (1) auf die Sprachsynthese (Fign. la und Ib) hervorragend geeignet.
In dem Ausdruck (1) sind An und A1η die Fourier-Koeffizienten.
Die Anwendung dieses Ausdrucks kann auf jedes Signal mit endlicher Dauer erstreckt werden, wenn angenommen wird, daß dieses
Signal in identischer Form unbestimmt oft wiederholt wird.
Diese Beziehungen können für die Synthese von Sprachsignalen ausgewertet werden. Dieses Verfahren wird leichter verständlich,
wenn die zeitliche Darstellung des Sprachsignals, wie es die Fig. 1 zeigt, näher untersucht wird. Zunächst sind, da die
Struktur der Stimmbänder abrupte Übergänge nicht zuläßt, die Grundfrequenzen zweier aufeinanderfolgender stimmhafter Laute
nur sehr wenig voneinander verschieden, wodurch sich der melodische Charakter dieser Lautart ergibt. Aber darüber hinaus hat
ein derartiger stimmhafter Sprachlaut einen periodischen Charakter: Wie das Beispiel in Fig. 1 zeigt, hat ein Signal mit einer
Grundperiode von 8 ms (Millisekunden), das hier dreimal wiederholt ist, einen periodischen Signalabschnitt, der drei Unterabschnitte
enthält. In jedem Fall ist die Zahl der Wiederholungen eine endliche Zahl. Daher kann nach dem Fourier-Ausdruck das
stimmhafte Signal mit Hilfe der Komponenten seines Spektrums, die mit den Fourier-Koeffizienten moduliert sind, aufgebaut
oder synthetisiert werden.
Die Verarbeitung stimmloser Laute, die offensichtlich komplexer ist, kann nach einem ähnlichen Verfahren erfolgen. Diese Feststellung
ist ein wesentliches Element, mit dessen Hilfe es möglich ist, eine rationelle Verarbeitung der Signale durchzuführen,
gleichgültig, ob diese Signale stimmhaft, stimmlos oder gemischt sind. Da die bekannten Verfahren im allgemeinen im Frequenzgebiet
betrieben werden, benötigen sie solche Schaltungsanordnungen, die weißes Rauschen für die Synthese stimmloser
Laute liefern. Das Studium der physiologischen Eigenschaften
Docket fr 970 on 2 0 9 8 3 4/0762
des menschlichen Ohres zeigen jedoch, daß es für die Verständlichkeit
dieser stimmlosen Laute nicht notwendig ist, daß gleichzeitig Signale mit zufälliger Frequenzverteilung vorliegen. Mit
anderen Worten: Die stimmlosen Laute können auch dann gut verstanden werden, wenn zufällige Frequenzen zeitlich nacheinander
auftreten. Die Fig. Ib macht dieses an Hand der Darstellung eines stimmlosen, Zeitvarianten Lautes deutlich. Die Figur zeigt, daß
ein solcher Laut betrachtet werden kann als eine Nebeneinanderstellung von Pseudoperioden stimmhafter Laute, deren (Pseudo-)
Grundfrequenzen sich in einer zufälligen Reihenfolge abrupt verändern. Das als Beispiel gewählte Signal wurde in Unterabschnitte
eingeteilt mit einer Dauer (oder Pseudo-Grundperiode) von 2 ms,
1 ms, 1,5 ms, usw Die letzteren liegen nebeneinander und
bedecken einen Abschnitt der oben definierten Art, der im gewählten
Beispiel etwa 225 ms lang ist. Daher kann das Signal der Pseudoperioden nach dem Fourier-Theorem verarbeitet werden,
wobei eine Abstraktion bezüglich der umgebenden Pseudoperioden gemacht werden muß. Das Signal besteht daher aus einer Pseudo-Grundfrequenz
und deren Harmonischen.
Die Pseudo-Grundfrequenzen folgen einander in einer zufälligen
Verteilung.
Es ist daher möglich, stimmhafte Sprachsignale aufzubauen, wenn man die Fourier-Koeffizienten und Sinus- oder Kosinuskomponenten
kennt. In Wirklichkeit genügen bereits die Sinuskomponenten für die Synthese, da das menschliche Ohr bezüglich der Phasenlage
der hörbaren Signale unempfindlich ist. Daher werden auch in der nun folgenden Beschreibung nur die Sinuskomponenten betrachtet.
Darüber hinaus ist es infolge der Eigenschaften des menschlichen Ohres in der Praxis nicht notwendig, eine unendliche Anzahl
von harmonischen Sinuswellen zur Verfügung zu haben. Es genügt bereits, wenn für jede Grundfrequenz 50 bis 100 Harmonische
vorhanden sind. Es scheint jedoch so, daß eine extrem große Anzahl
von Generatoren erforderlich und der Aufbau der Syntheseeinrichtung besonders komplex ist.
Docket FR 970 011 2 0 9834/0762
Dieses trifft jedoch nicht ganz zu, wenn eine Digitaltechnik verwendet
wird, dank deren die harmonischen Sinuswellen von einer einzigen Bezugssinuswelle abgetastet werden können, indem eine
relativ einfache Logikschaltung für die Adressierung der Abtastungen verwendet wird. Hierzu wird eine Bezugssinuswelle der Periode
T T an K Punkten abgetastet, die einen zeitlichen Abstand τΛ = τι
besitzen. Die Abtastwerte werden dann digital codiert und in einem Festwertspeicher ROM gespeichert, wobei jede Adresse der
Phasenlage einer Sinuswelle entspricht, woraus sich erklärt, daß in der folgenden Beschreibung der Term "Adresse" oder "Phase"
ohne Unterschied verwendet wird, da hier äquivalente Notationen vorliegen. Dann ist es möglich, entweder durch Programmierung
oder mit Hilfe einer relativ einfachen Adressierungslogikschaltung
die nacheinander abgeleiteten Abtastwerte für die Synthese einer Sinuswelle gegebener Frequenz auszuwählen. Bei einer Taktfrequenz
von — und bei der sequentiellen Ableitung der obenge-
O
nannten K Abtastwerte besitzt die synthetisierte Sinuswelle eine
nannten K Abtastwerte besitzt die synthetisierte Sinuswelle eine
Frequenz FO = =— = =, das ist die Frequenz der Beζugssinuswelle.
Kx0 .
Wenn nur einer von N Abtastwerten abgeleitet wird, und zwar weiterhin
mit Hilfe der gleichen Taktfrequenz, so führt.dieses zur
N Bildung einer Sinuswelle der Frequenz Fl = ^—, entsprechend der
0 (N-I)-ten Harmonischen der Bezugsfrequenz.
Daher sind für die Synthese von Sprachsignalen nur die Grundoder Pseudo-Grundfrequenzen erforderlich, wobei diese genannten
Frequenzen nur in einer relativ begrenzten Anzahl vorhanden sein müssen: etwa 2O von ihnen genügen bereits. Wenn die Abtastwerte
der genannten Sinuswellen gespeichert werden, kann jede ihrer Harmonischen wiedergewonnen werden, was zu einer wesentlichen
Auswahl von Frequenzen führt, selbst für die Bildung stimmloser Laute.
Es ist ferner möglich, auch nur eine Bezugssinuswelle zu speichern,
mit der Bedingung, daß sie mit Hilfe einer ausreichend
Docket FR 970 Oll 2 0 9 8 3 4/0762
hohen Abtastfolge abgetastet wird. Alle Frequenzen, die so gewonnen
werden können, stehen zueinander in einem harmonischen Verhältnis. Die Wahl des Schrittes oder die Abtastgeschwindigkeit
legt dann fest, wie genau die Frequenz der auf diese Weise qebildeten
Sinuswelle ist.
Wenn das System einmal initialisiert worden ist, genügt es in der Praxis, die Information der Phase 0 zu besitzen, die für den
Adressierungsschritt oder den Vermehrungswert indikativ ist, der zur Adresse des zuletzt abgeleiteten Abtastwertes hinzugefügt
oder vom Festwertspeicher ROM ausgelesen werden muß, um die Adresse des folgenden Abtastwertes der Sinuswelle zu erhalten,
die gebildet werden soll. Da der Wert Θ die Frequenz der zu. synthetisierenden
Sinuswelle bestimmt, genügt es, ihn mit dem Wert 2, 3, usw. zu multiplizieren, um die erste, zweite, usw. Harmonische
der vorangegangenen Sinuswelle zu bilden. Neben dem Beginnen mit einem θ ist es möglich, hieraus einen anderen Schritt
abzuleiten, indem ein Basiswert B zu Θ hinzuaddiert wird. Wenn daher die Werte B in zufälliger Ordnung nachfolgen, folgen auch
die Frequenzen der ersten Sinuswelle, die nacheinander dadurch gebildet werden, daß als neuer Schritt der Wert Θ + B genommen
wird, in einer zufälligen Ordnung.
Es ist daher möglich, das gewünschte Sprachsignal mit Hilfe von digitalen Abtastwerten durch Synthese aufzubauen, wobei leder
der Abtastwerte errechnet wird, indem jede sinnvolle Sinuswelle, insbesondere die Grundfrequenz und deren Harmonische, mit den entsprechenden
Fourier-Koeffizienten gewichtet und die Resultate der genannten Produkte addiert werden. Diese Operationen können
vereinfacht werden, indem berücksichtigt wird, daß der j-te Abtastwert
der i-ten Harmonischen mit dem (i χ j)-ten Abtastwert der entsprechenden Grundfrequenz identisch ist. Eine Einrichtung,
in der die vorstehenden Gesichtspunkte berücksichtigt werden, kann realisiert werden.
Die Basis B kann dazu verwendet werden, den Wert der Grund- oder
Docket fr 970 on 209834/0762
Pseudo-Grundfrequenz eines Lautes zu definieren, der durch. Synthese
gebildet werden soll. Es kann hierbei als Ursprung entweder eine frühere Analyse, im Falle eines stimmhaften Lautes, oder
eine Zufallssignalquelle, im Falle eines stimmhaften Lautes, zugrundeliegen.
Fig. 2 zeigt nun die erfindungsgemäße Einrichtung. Ein Arbeitsspeicher
LS speichert die sprachcodierten Daten, die über den Kanaleingang (das sind mehrere Eingangskanäle) empfangen werden.
Diese Daten sind für den stimmhaften oder stimmlosen Charakter des Signals kennzeichnend, das durch Synthese gebildet werden
soll. Sie sind ferner kennzeichnend für seine Grundfrequenz (und daher für die entsprechenden Werte von θ und B) und für die Werte
der Koeffizienten An und A'n. Der Festwertspeicher SIN enthält die Abtastwerte der Bezugssinuswelle. Am Anfang einer Rechenoperation
für die Berechnung eines Abtastwertes des zu bildenden Signals und dann insbesondere alle 100 \is wird ein neuer Wert der
Phase Θ errechnet, aus dem Wert Θ, der vom Arbeitsspeicher LS geliefert wird und aus dem Wert von B der Grundfrequenz. Die
Stufe ADDl dient zur Durchführung der Rechenoperation Θ + B.
Der auf diese Weise errechnete Wert von Θ wird anschließend in
das Register REGl eingegeben. Er wird dann wieder in.den Addierer ADDl zurückgebracht, um während der folgenden Operation mit
dem Wert Θ einerseits erneut verwendet zu werden. Andererseits dient er auch als erste Adresse zur Adressierung des Speichers
SIN, aus dem ein Abtastwert der Bezugssinuswelle abgerufen wird. Dieser Abtastwert wird in den Addierer-Multiplizierer ADD/MULT
übertragen. Danach wird der Fourier-Koeffizient Al aus dem Arbeitsspeicher
LS abgerufen und ebenfalls in den Addierer-Multiplizierer
ADD/MüLT übertragen und dort mit dem bereits vorhandenen Abtastwert der Bezugssinuswelle multipliziert. Das Ergebnis
wird schließlich in das Register REG2 übertragen. Gleichzeitig wird die Phase Θ in dem Addierer ADDl zu sich selbst hinzuaddiert.
Das Ergebnis 2Θ wird im Anschluß daran zu dem Eingang von ADDl
Docket fr 970 on 20983A/0762
- ίο -
übertragen, wie schon vorher zu sehen war, und dazu benutzt, den ersten Abtastwert der ersten Harmonischen aus dem Speicher SIN
abzurufen. Dieser Abtastwert wird in ADD/MüLT mit dem Koeffizienten
A2, der vom Arbeitsspeicher LS abgerufen wurde, gewichtet. Das Ergebnis dieser Operation wird zu dem im Register REG2
befindlichen Wert hinzuaddiert. Ferner wird der Wert Θ in ADDl zu 2Θ addiert. Das Ergebnis 3Θ wird dann wieder zu dem Eingang
von ADDl zurückübertragen und ferner dazu benutzt, den ersten Abtastwert der zweiten Harmonischen aus dem Speicher SIN abzurufen.
Dieser Wert wird wieder in ADD/MüLT mit dem vom Arbeitsspeicher LS abgelesenen Koeffizienten, diesesmal ist es A3, gewich
tet. Das Ergebnis wird wieder zu dem bereits im Register REG2 befindlichen Wert hinzuaddiert. Die oben stehende Operation, die
der Akkumulierung der gewichteten Abtastwerte der harmonischen Sinuswellen dient, muß solange fortgesetzt werden, bis die vorgesehenen
k Harmonischen erschöpfend bearbeitet sind. In der Praxis sind 50 bis 100 Harmonische ausreichend, so daß die gesamte
Operation für die angegebene Anordnung 100 ps dauert.
Schließlich enthält das Register REG2 den Digitalwert des ersten Abtastwertes des Sprachsignals, ein Wert, der dann zu einem Digital-/Analogwandler
D/A für die Analogumwandlung und Glättung der Kurve übertragen wird. Alle vorangegangenen Operationen müssen
dann wieder für die Synthese des zweiten Punktes des Sprachsignals aufgenommen werden. Zuerst muß hierzu eine neue Adresse Θ1
der Sprachgrundfrequenz bestimmt werden, die im Prinzip dadurch gewonnen wird, daß nur der geeignete Basiswert B zu dem vorhergehenden
Wert θ addiert wird. Diese Basis bleibt für einen gesamten Abschnitt eines stimmhaften Sprachsignals konstant, sie
muß jedoch auf Zufallsbasis für jeden Unterabschnitt eines stimmlosen Sprachabschnittes modifiziert werden. Daher wird die Größe
B für stimmhafte Sprachabschnitte von dem Arbeitsspeicher LS und für stimmlose Sprachabschnitte von einem Zufallsbasisgenerator
GBA geliefert. Dies heißt in anderen Worten, daß der von GBA gelieferte Wert von B für jede Pseudoperiode des stimmlosen Sprachsignals
anders ist und daß auf diese Weise in der Verteilung der genannten Basen keine Periodizität auftreten kann. Im gewählten
Docket FR 970 011 2 0 9834/0762
Beispiel dauert der Prozeß sowohl für stimmhafte als auch stimmlose
Sprachabschnitte etwa 25 ms.
Docket fr 970 on 209834/0762
Claims (5)
- - 12 -PATENTANSPRÜCHESprachsyntheseverfahren, bei dem die Sprachsignale aus Abschnitten aufgebaut werden, deren Dauer das Vielfache der Sprachgrundperiode beträgt, dadurch gekennzeichnet, daß alle Sprachlaute in ähnlicher Weise nach dem Fourier-Theorem gebildet werden, wobei jeder Sprachabschnitt in benachbarte Unterabschnitte unterteilt ist, deren Dauer entweder durch die Sprachgrundperiode oder die Pseudo-Sprachgrundperiode bestimmt ist, je nach dem, ob der Sprachlaut, der gebildet werden soll, stimmhaft oder stimmlos ist.
- 2. Sprachsyntheseverfahren nach Anspruch 1, dadurch gekennzeichnet, daß im Falle stimmloser Sprachabschnitte sich die Dauer aufeinanderfolgender Pseudo-Perioden auf Zufallsbasis ändert.
- 3. Sprachsyntheseverfahren nach Anspruch 2, dadurch gekennzeichnet, daß alle Unterabschnitte aus Abtastwerten mit gleichem zeitlichen Abstand gebildet sind, die dadurch gewonnen werden, daß nacheinander die entsprechenden Abtastwerte einer Sinuswelle der Sprachgrund- oder Pseudo-Sprachgrundperiode, je nach dem, ob der Sprachlaut, der gebildet werden soll, stimmhaft oder stimmlos ist und die Abtastwerte einer Anzahl der Harmonischen der Sprachgrundperiode, die mit den entsprechenden Fourier-Koeffizienten gewichtet sind, addiert werden.
- 4. Sprachsyntheseverfahren nach einem oder mehreren der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß folgende Verfahrensschritte durchgeführt werden:Docket fr 970 on 2 0 9 8 3 A / 0 7 6 2Bestimmung des stimmhaften oder stimmlosen Charakters des Sprachlautes, der gebildet werden soll,Bestimmung der Sprachgrundfrequenz oder der Pseudo-Sprachgrundfrequenz des zu bildenden Sprachlautes, Gewichtung der Abtastwerte gleichen Rangs der Sprachgrund- oder Pseudo-Sprachgrundsinuswelle und einer Anzahl ihrer Harmonischen mit dem entsprechenden Fourier-Koeffizienten,Addition der gewichteten Abtastwerte undWiederholung der vorstehend genannten Gewichtungsund Additionsoperationen für die Bildung aufeinanderfolgender Abtastwerte des gleichen Abschnittes eines Sprachsignals, während der Wert der Sprachgrundfrequenz für einen stimmhaften Sprachlaut konstant gehalten und für einen stimmlosen Laut in jedem Unterabschnitt auf Zufallsbasis modifiziert wird.
- 5. Einrichtung zur Durchführung des Sprachsyntheseverfahrens nach den Ansprüchen 1 bis 4, dadurch gekennzeichnet, daß die Einrichtung aus folgenden Gruppen aufgebaut ist:a. Einem Speicher (SIN; Fig. 2) für die Speicherung der Abtastwerte einer Bezugssinuswelle,b. einerAnordnung (LS, GBA, ADDl, REGl) zur Bildung der Speicheradresse, an der ein Abtastwert der Bezugssinuswelle aus dem Speicher (SIN) ausgelesen werden soll, so daß die Abtastwerte in einer solchen Reihenfolge erscheinen, daß sie dem Aufbau der Sinuswellen der Sprachgrund- oder Pseudo-Sprachgrundfrequenzen der Unterabschnitte des Sprachsignals und deren Harmonischen entsprechen,209834/0762Docket FR 970 Ollc. einem Speicher (LS) zur Speicherung von Information, die sich auf die Amplituden der Sprachgrundoder Pseudo-Sprachgrundfrequenzen und deren Harmonischen aller Unterabschnitte des zu bildenden Sprachlautes bezieht undd. einerAnordnung (LS, SIN, ADD/MULT, REG2, D/A) zur erneuten Bildung eines Unterabschnitts des Sprachsignals durch Addition der Abtastwerte der Sinuswellen der Sprachgrund- oder Pseudo-Sprachgrundfrequenzen und der Harmonischen, die diesen entsprechen, wobei diese Abtastwerte mit ihren Fourier-Koeffizienten (Al bis An) gewichtet sind, die ferner die Bildung der Unterabschnitte so oft wiederholt, wie es zur Bildung eines vollständigen Abschnitts erforderlich ist, wobei sie im Falle stimmhafter Laute die Sprachgrundfrequenz nicht und im Falle stimmloser Laute für jeden Unterabschnitt die Pseudo-Sprachgrundfrequenz auf Zufallsbasis verändert.Docket FR 970 011 209834/0762
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR7104512A FR2126558A5 (de) | 1971-02-02 | 1971-02-02 |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2203921A1 true DE2203921A1 (de) | 1972-08-17 |
DE2203921B2 DE2203921B2 (de) | 1979-01-18 |
DE2203921C3 DE2203921C3 (de) | 1979-09-20 |
Family
ID=9071699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19722203921 Expired DE2203921C3 (de) | 1971-02-02 | 1972-01-28 | Elektrisches Verfahren und Einrichtung zur Sprachsynthese |
Country Status (4)
Country | Link |
---|---|
JP (1) | JPS5215321B1 (de) |
DE (1) | DE2203921C3 (de) |
FR (1) | FR2126558A5 (de) |
GB (1) | GB1345828A (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2350143A1 (de) * | 1972-10-17 | 1974-05-02 | Nippon Musical Instruments Mfg | Elektronisches musikinstrument |
-
1971
- 1971-02-02 FR FR7104512A patent/FR2126558A5/fr not_active Expired
-
1972
- 1972-01-20 JP JP733872A patent/JPS5215321B1/ja active Pending
- 1972-01-21 GB GB290872A patent/GB1345828A/en not_active Expired
- 1972-01-28 DE DE19722203921 patent/DE2203921C3/de not_active Expired
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2350143A1 (de) * | 1972-10-17 | 1974-05-02 | Nippon Musical Instruments Mfg | Elektronisches musikinstrument |
Also Published As
Publication number | Publication date |
---|---|
DE2203921C3 (de) | 1979-09-20 |
FR2126558A5 (de) | 1972-10-06 |
JPS5215321B1 (de) | 1977-04-28 |
GB1345828A (en) | 1974-02-06 |
DE2203921B2 (de) | 1979-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2362050C3 (de) | Elektronisches Musikinstrument | |
DE2524497C3 (de) | Verfahren und Schaltungsanordnung zur Sprachsynthese | |
DE2431161C2 (de) | Tonerzeugungseinrichtung für ein elektronisches Musikinstrument | |
DE60103086T2 (de) | Verbesserung von quellcodierungssystemen durch adaptive transposition | |
DE2659096C2 (de) | ||
DE2644885C2 (de) | ||
DE2551632C2 (de) | Verfahren zum Zusammensetzen von Sprachnachrichten | |
DE2404431A1 (de) | Elektronisches musikinstrument | |
DE2364336A1 (de) | Elektronisches musikinstrument | |
DE69720861T2 (de) | Verfahren zur Tonsynthese | |
DE2920298A1 (de) | Binaere interpolatorschaltung fuer ein elektronisches musikinstrument | |
DE1965480C3 (de) | Gerat zur Umwandlung eines in graphischen Zeichen gedruckten Textes in gesprochene Worte | |
DE2622423B2 (de) | Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form | |
DE3013250A1 (de) | Digitalsignalgenerator | |
DE3019823A1 (de) | Datenumsetzer und damit ausgestattete sprachsyntheseanordnung | |
DE1811040C3 (de) | Anordnung zum Synthetisieren von Sprachsignalen | |
DE3226619A1 (de) | Modulationseffektvorrichtung | |
DE1905680A1 (de) | Anlage zur Signalverarbeitung | |
DE3037276C2 (de) | Tonsynthesizer | |
DE2901969A1 (de) | Elektronisches musikinstrument mit einer einrichtung zur erzeugung variabler impulse | |
DE3246712C2 (de) | ||
DE2203921A1 (de) | Verfahren und Anordnung zur Sprachsynthese | |
DE3100934A1 (de) | Verfahren zur erzeugung einer seriellen tastenimpulsinformation mit einer ersten abtastwiederholfrequenz in abhaengigkeit von einer asynchron mit einer zweiten abtastwiederholfrequenz erzeugten seriellen multiplex-tasten-impulsformation sowie schnittstelleneinrichtung zur durchfuehrung des verfahrens | |
DE2657430A1 (de) | Einrichtung zum synthetisieren der menschlichen sprache | |
DE2826570C2 (de) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OD | Request for examination | ||
C3 | Grant after two publication steps (3rd publication) | ||
8339 | Ceased/non-payment of the annual fee |