DE2203921C3 - Elektrisches Verfahren und Einrichtung zur Sprachsynthese - Google Patents

Elektrisches Verfahren und Einrichtung zur Sprachsynthese

Info

Publication number
DE2203921C3
DE2203921C3 DE19722203921 DE2203921A DE2203921C3 DE 2203921 C3 DE2203921 C3 DE 2203921C3 DE 19722203921 DE19722203921 DE 19722203921 DE 2203921 A DE2203921 A DE 2203921A DE 2203921 C3 DE2203921 C3 DE 2203921C3
Authority
DE
Germany
Prior art keywords
speech
sound
given
address
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE19722203921
Other languages
English (en)
Other versions
DE2203921B2 (de
DE2203921A1 (de
Inventor
Philippe De La Gaude Backer
Augustin Tourettes Sur Loup Nemeth
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE2203921A1 publication Critical patent/DE2203921A1/de
Publication of DE2203921B2 publication Critical patent/DE2203921B2/de
Application granted granted Critical
Publication of DE2203921C3 publication Critical patent/DE2203921C3/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

5. Einrichtung zur Durchführung des Sprachsyntheseveriahrens nach den Ansprüchen 1 bis 4, dadurch gekennzeichnet, daß die Einrichtung aus folgenden Gruppen aufgebaut ist: μ
a. Einem Speicher (SlN; F i g. 2) für die Speicherung der Abtastwerte einer Bezugssinuswelle,
b. einer Anordnung (LS, GBA, ADD 1, REG I) zur Bildung der Speicheradresse, an der ein h Abtastwert der Bezugssinuswelle aus dem Speicher (SIN) ausgelesen werden soll, so daß die Abtastwerte in einer solchen Reihenfolge erscheinen, daß sie dem Aufbau der Sinuswellen der Sprachgrund- oder Pseudo-Sprachgrundfrequenzen der Unterabschnitte des Sprachsignals und deren Harmonischen entsprechen,
c. einem Speicher (LS) zur Speicherung von information, die sich auf die Amplituden der Sprachgrund- oder Pseudo-SprachErundfrequenzen und deren Harmonischen aller Unterabschnitte des zu bildenden Sprachlautes bezieht, und
d. einer Anordnung (LS, SlN. ADD/MULT, REG 2, D/A) zur erneuten Bildung eines Unterabschnitts des Sprachsignals durch Addition der Abtastwerte der Sinuswellen der Sprachgrund- oder Pseudo-Sprachgrundfrequenzen und der Harmonischen, die diesen entsprechen, wobei diese Abtastwerte mit ihren Fourier-Koeffizienten (A 1 bis A n) gewichtet sind, die ferner die Bildung der Unterabschnitte so oft wiederholt, wie es zur Bildung eines vollständigen Abschnitts erforderlich ist, wobei sie im Falle stimmhafter Laute die Sprachgrundfrequenz nicht und im Falle stimmloser Laute für jeden Unterabschnitt die Pseudo-Sprachgrundfrequenz auf Zufallshasis verändert
Die Erfindung betrifft ein elektrisches Verfahren und eine Einrichtung zur Sprachsynthese, bei denen die Sprachsignale aus Abschnitten aufgebaut werden, deren Dauer das Vielfache der Sprachgrundperiode beträgt
Die Entstehung der Sprachlaute resultiert entweder aus den Schwingungen der Stimmbänder oder aus der Turbulenz der Luft die durch die Mundhöhlen strömt oder aus beiden Vorgängen gemeinfjn. Die Analyse der Sprachlaute zeigt daß ihr Spektrum aus einer Grundfrequenz und ihren Harmonischen gebildet wird: Dieses sind die sogenannten stimmhaften Laute. Die Analyse der Sprachlaute zeigt ferner, daß es andererseits solche Laute gibt für die keine bestimmte Grundfrequenz existiert und deren Spektrum als zufällige Verteilung erscheint Dieses heißt mit anderen Worten, daß das Spektrum dieser Laute aus einer Anzahl von Frequenzen mit einem zufälligen Verhältnis zwischen diesen und iiiren Harmonischen gebildet wird. Diese Laute sind stimmlose Laute und sie entsprechen einer zeitlichen Überlagerung der stimmhaften Laute.
Aus dieser Charakteristik der Sprache sind eine Reihe von Verfahren und Vorrichtungen für die Sprachsynthese hervorgegangen. Die Sprachsynthese wird hierbei im allgemeinen so vollzogen, daß das Sprachspektrum in einer Anzahl von Kanälen, elwa 50, zerlegt wird und das Spektrum in jedem Kanal mit der mittleren Energie moduliert wird, die während der Analyse in diesem Kanal gemessen wurde. Nach diesem Verfahren enthält jeder Kanal Harmonische der Sprachgrundfrequenz, wenn der Sprachlaut, der gebildet werden soll, stimmhaft ist oder weißes Rauschen, wenn der Sprachlaut stimmlos ist. Hieraus ist zu sehen, daß zahlreiche Bandfilter erforderlich sind, die infolge ihrer Herstellungskosten und Kosten für einen genauen Abgleich zu wirtschaftlich ungünstigen Synlheseeinrichtungen führen.
Es wurden daher auch schon Lösungen vorgeschlagen, die diesen Nachteil vermeiden sollten. Diese
Lösungen beruhten entweder darauf, daß sie die Zahl der notwendigen Bandfilter verringerten oder daß sie die konventionellen Analogschaltkreise durch Digitalschaltkreise ersetzten. Die letzte Lösung ist hierbei besonders interessant, obwohl sie nicht immer leicht zu verwirklichen ist da die Digitalisierung der Filter nur dann wirkungsvoll ist, wenn eine Zeitmultiplextechnik zu dem Zwecke eingesetzt wird, daß nur ein Filter die gesamte Anordnung der Kanäle bedient Wenn alle Kanäle mit dem gleichen Signal gespeist werden, ist die Anwendung dieser Multiplextechnik relativ einfach, sie ist aber außerordentlich kompiex in den Fällen, in denen die Kanäle mit unterschiedlichen Informationsteilen beschickt werden müssen.
Der Erfindung liegt die Aufgabe zugrunde, diesen vorstehend genannten Nachteil zu vermeiden.
Die Lösung ist fan Patentanspruch 1 angegeben.
Eine Einrichtung zur Durchführung dieses Sprachsyntheseverfahrens ist im Patentanspruch 5 angegeben.
Weiterbildungen der Erfindung sind den Unteransprüchen zu entnehmen.
Auf die vorstehend durch die Erfindung angegebene Weise wird der Vorteil erzielt daß sowohl für stimmhafte als auch für stimmlose Sprachabschnitte eine direkte Synthese möglich ist ohne daß ein Bandfiltersatz notwendig ist Ferner ist auch die verwendete Digitalisierung für Sprachausgabegeräte elektronischer Datenverarbeitungsanlagen besonders geeignet
Im folgenden wird die Erfindung an Hand eines durch Zeichnungen erläuterten Ausführungsbeispieles näher beschrieben. Es zeigen
Fig. la und Ib ein Amplituden/Zeitdiagramm der Abschnitte stimmhafter und stimmloser Sprachlaute und
F i g. 2 das Blockschaltbild einer Sprachsyntheseeinrichtung gemäß der Erfindung.
Nach dem bekannten Fourier-Theorem kann jede
periodische 1 unktion s(t) mit der Periode T = "j1 in
eine Reihe von Sinusfunktionen mit den Perioden T, 2 T, ..^nT jeweils zerlegt werden, wobei »n« eine ganze Zahl ist und die Maximalamplituden dieser Sinusfunktionen durch die Fourier-Koeffizienten bestimmt sind. Dieses führt zu folgendem Ausdruck:
s(t) =2 YAn im nut + A'ncosnin] y\)
Dieses ir·, eine Fourie--Reihe, bei welcher der konstante Term Null ist Diese Bedingung ist für die Anwendung des Ausdrucks (1) auf die Sprachsynthese (Fig. la und Ib) hervorragend geeignet.
In dem Ausdruck (1) sind An und A'n die Fourier-Koeffizienten. Die Anwendung dieses Ausdrucks kann auf jedes Signal mit endlicher Dauer erstreckt werden, wenn angenommen wird, daß dieses Signal in identischer Form unbestimmt oft wiederholt wird.
Diese Beziehungen können für die Synthese von Sprachsignalen ausgewertet werden. Dieses Verfahren wird leichter verständlich, wenn die zeitliche Darstellung des Sprachsignals, wie es die Fig. 1 zeigt näher untersucht wird. Zuiiächst sind, da die Struktur der Stimmbänder abrupte Obergange nicht zuläßt, die Grundfrequenzen zweier aufeinanderfolgender stimmhafter Laute nur sehr wenig voneinander verschieden, wodurch sich der melodische Charakter dieser Lautart ergibt Aber darüber hinaus hat ein derartiger stimmhafter Sprachlaut einen periodischen Charakter: Wie das Beispiel in F i g. 1 zeigt, hat ein Signal mit einer Grundperiode von 8 ms (Millisekunden), das hier dreimal wiederholt ist, einen periodischen Signalabschnitt, der drei Unterabschnitte enthält In jedem Fall ist die Zahl der Wiederholungen eine endliche Zahl. Daher kann nach dem Fourier-Ausdruck das stimmhafte
to Signal mit Hilfe der Komponenten seines Spektrums, die mit den Fourier-Koeffizienten moduliert sind, aufgebaut oder synthetisiert werden.
Die Verarbeitung stimmloser Laute, die offensichtlich komplexer ist kann nach einem ähnlichen Verfahren erfolgen. Diese Feststellung ist ein wesentliches Element, mit dessen Hilfe es möglich ist eine rationelle Verarbeitung der Signale durchzuführen, gleichgültig, ob diese Signale stimmhaft stimmlos oder gemischt sind. Da die bekannten Verfahren im allgemeinen im Frequenzgebiet betrieben werden, heutigen sie solche Schaltungsanordnungen, die weißes Raus .hen für die Synthese stimmloser Laute liefern. Das Studium der physiologischen Eigenschaften des menschlichen Ohres zeigt jedoch, daß es für die Verständlichkeit dieser stimmlosen Laute nicht notwendig ist daß gleichzeitig Signale mit zufälliger Frequenzverteilung vorliegen. Mit anderen Worten: Die stimmlosen Laute können auch dann gut verstanden werden, wenn zufällige Frequenzen zeitlich nacheinander auftreten. Die Fig. Ib
jo macht dieses an Hand der Darstellung eines stimmlosen, Zeitvarianten Lautes deutlich. Die Figur zeigt, daß ein solcher Laut betrachtet werden kann als eine Nebeneinanderstellung von Pseudoperioden stimmhafter Laute, deren (Pseudo-) Grundfrequenzen sich in einer zufälli-
j-, gen Reihenfolge abrupt verändern. Das als Beispiel gewählte Signal wurde in Unterabschnitte eingeteilt mit einer Dauer (oder Pseudo-Grundperiode) von 2 ms,
1 ms, 13 ms, usw Die letzteren liegen nebeneinander
und bedecken einen Abschnitt der oben definierten ArI, der im gewühlten Beispiel etwa 225 ms lang ist Daher kann das Signal der Pseudoperioden nach dem Fourier-Theorem verarbeitet werden, wobei eine Abstraktion bezüglich der umgebenden Pseudoperioden gemacht werden muß. Das Signal besteht 3 daher aus einer Pseudo-Grundfrequenz und deren Harmonischen.
Die Pseudo-Grundfrequenzen folgen einander in einer zufälligen Verteilung.
Es ist daher möglich, stimmhafte Sprachsignale
-,ο aufzubauen, wenn man die Fourier-Koeffizenten und Sinus- oder Kosinuskomponenten kennt. In Wirklichkeit genügen bereits die Sinuskomponenten für die Sy.uhtse, da das menschliche Ohr bezüglich der Phasenlage der hörbaren Signale unempfindlich ist.
r> Daher werden auch in der nun folgenden Beschreibung nur die Sinuskomponenten betrachtet. Darüber hinaus ist es infolge der Eigenschaften des menschlichen Ohres in der Praxis nicht notwendig, eine unendliche Anzahl von harmonischen Sinuswellen zur Verfügung zu haben.
bo Es genügt bereits, wenn für jede Gnindfrequenz 50 bis 100 Harmonische vorhanden sind. Es scheint jedoch so, daß eine extrem große Anzahl von Generatoren erforderlich und der Aufbau der Syntheseeinrichtung besonders komplex if
h', Dieses trifft jedoch nicht ganz zu, wenn eine Digitaltechnik verwendet wird,dank deren die harmonischen Sinuswellen von einer einzigen Bezugssinuswelle abgetastet werden können, indem eine relativ einfache
l.ogikschaltung für die Adressierung der Abtastungen verwendet wird. Hierzu wird eine Bezugssinuswelle der Periode Tan K Punkten abgetastet, die einen zeitlichen
Abstand ro = besitzen. Die Abtastwertc werden
dann digital codiert und in einem Festwertspeicher ROM gespeichert, wobei jede Adresse der Phasenlage einer Sinuswelle entspricht, woraus sich erklärt, daß in der folgenden Beschreibung der Term »Adresse« oder »»Phase« ohne Unterschied verwendet wird, da hier äquivalente Notationen vorliegen. Dann ist es möglich, entweder durch Programmierung oder mit Hilfe einer relativ einfachen Adressierungslogikschaltung die nacheinander abgeleiteten Abtastwerte für die Synthese einer Sinuswelle gegebener Frequenz auszuwählen. Bei
einer Taktfrequenz von ^ und bei der sequentiellen Ableitung der obengenannten K Abtastwerte besitzt die synthetisierte Sinuswelle eine Frequenz
Kx
das ist die Frequenz der Bezugssinuswelle.
Wenn nur einer von N Abtastwerten abgeleitet wird, und zwar weiterhin mit Hilfe der gleichen Taktfrequenz, so führt dieses zur Bildung einer Sinuswelle der
Frequenz Fl = .'. , entsprechend der f/V-l)-ten
ft '(ι
Harmonischen der Bezugsfrequenz.
Daher sind für die Synthese von Sprachsignalen nur die Grund- oder Pseudo-Grundfrequenzen erforderlich, wobei diese genannten Frequenzen nur in einer relativ begrenzten Anzahl vorhanden sein müssen: etwa 20 von ihnen genügen bereits. Wenn die Abtas'werte der genannten Sinuswellen gespeichert werden, kann jede ihrer Harmonischen wiedergewonnen werden, was zu einer wesentlichen Auswahl von Frequenzen führt, selbst für die Bildung stimmloser Laute.
Es ist ferner möglich, auch nur eine Bezugssinuswelle zu speichern, mit der Bedingung, daß sie mit Hilfe einer
- IJIl. A L. » »t I 1_ * » * * J A 11a
au.->n_iv_iiCu«j iiOitv.ii /~.iy»S3i7CigC SCgCIiCtCl ""ΓΟ- Λϋϊ Frequenzen, die so gewonnen werden können, stehen zueinander in einem harmonischen Verhältnis. Die Wahl des Schrittes c der die Abtastgeschwindigkeit legt dann fest, wie genau die Frequenz der auf diese Weise gebildeten Sinuswelle ist.
Wenn das System einmal initialisiert worden ist, genügt es in der Praxis, die Information der Phase θ zu besitzen, die für den Adressierungsschritt oder den Vermehrungswert indikativ ist, der zur Adresse des zuletzt abgeleiteten Abtastwertes hinzugefügt oder vom Festwertspeicher ROM ausgelesen werden muß. um die Adresse des folgenden Abtastwertes der Sinuswelle zu erhalten, die gebildet werden soll. Da der Wert θ die Frequenz der zu synthetisierenden Sinuswelle bestimmt genügt es, ihn mit dem Wert 2, 3, usw. zu multiplizieren, um die erste, zweite, usw. Harmonische der vorangegangenen Sinuswelle zu bilden. Neben dem Beginnen mit einem θ ist es möglich, hieraus einen anderen Schritt abzuleiten, indem ein Basiswert B zu θ hinzuaddiert wird. Wenn daher die Werte B in zufälliger Ordnung nachfolgen, folgen auch die Frequenzen der ersten Sinuswelle, die nacheinander dadurch gebildet werden, daß als neuer Schritt der Wert θ + B genommen wird, in einer zufälligen Ordnung.
Es ist daher möglich, das gewünschte Sprachsignal mit Hilfe von digitalen Abtastwerten durch Synthese aufzubauen, wobei jeder der Abtastwerte erreichnct wird, indem jede sinnvolle Sinuswellc, insbesondere die Grundfrcqucn/. und deren Harmonische, mit den entsprechenden Fourier-Kocffizicntcn gewichtct und die Resultate der genannten Produkte addiert werden. Diese Operationen können vereinfacht werden, indem berücksichtigt wird, daß der /te Abtastwert der /ten Harmonischen mil dem (i χ /Men Ablast wert der entsprechenden Grundfrequenz identisch ist. F.ine F.inrichtung, in der die vorstehenden Gesichtspunkte berücksichtigt werden, kann realisiert werden.
Die Basis R kann dazu verwendet werden, den Wert der Grund- oder Pseudo-Grundfrequenz eines Lautes zu definieren, der durch Synthese gebildet werden soll. Ks kann hierbei als Ursprung entweder eine frühere Analyse, im Falle eines stimmhaften lautes, oder eine Zufallssignalquclle, im Falle eines stimmhaften Lautes, zugrunde liegen.
Fig. 2 zeigt nun die eriinciungsgemäue r'iiiiii-Miiitig. Ein Arbeitsspeicher IS speichert die sprachcodierten Daten, die über den Kanaleingang (das sind mehrere Eingangskanäle) empfangen werden. Diese Daten sind für den stimmhaften oder stimmlosen Charakter des Signals kennzeichnend, das durch Synthese gebildet werden soll. Sie sind ferner kennzeichnend für seine Grundfrequenz (und daher für die entsprechenden Werte θ und B)und für die Werte der Koeffizienten An und A'.,: Der Festwertspeicher SIN enthält die Abtastwerte der Bezugssinuswelle. Am Anfang einer Rechenoperation für die Berechnung eines Abtastwertes des zu bildenden Signals uitd dann insbesondere alle 100 μ5 wird ein neuer Wert der Phase θ erreichnet. aus dem Wert Θ, der vom Arbeitsspeicher LS geliefert wird und aus dem Wert von B der Gnindfrequenz. Die Stufe ADD 1 dient zur Durchführung der Rechenoperation θ + B.
Der auf diese Weise errechnete Wert von θ wird anschließend in das Register REG i eingegeben. Er wird dann wieder in den Addierer ADD t zurückgebracht, um während der folgenden Operation mit dem Wert θ einerseits erneut verwendet zu werden. Andererseits di^H*. ?r ^'JO^ Q'c ^1***** AHrpccp 7iir Arimssieninp des Speichers SIN, aus dem ein Abtastwert der Bezugssinuswelle abgerufen wird. Dieser Abtastwert wird in den Addierer-Multipliziercr ADD/MULT übertragen. Danach wird der Fourier-Koeffizient A 1 aus dem Arbeitsspeicher Z-S abgerufen und ebenfalls in den Addierer-Multiplizierer ADD/MULT übertragen und dort mit dem bereits vorhandenen Abtastwert der Bezugssinuswelle multipliziert. Das Ergebnis wird schließlich in das Register REG 2 übertragen. Gleichzeitig wird die Phase θ in dem Addierer ADD 1 zu sich selbst hinzuaddiert. Das Ergebnis 20 wird im AnschluD daran zu dem Eingang von ADD I übertragen, wie schon vorher zu sehen war, und dazu benutzt, den erster Abtastwert der ersten Harmonischen aus dem Speicher SiN abzurufen. Dieser Abtastwert wird in ADD/MUL1 mit dem Koeffizienten A 2, der vom Arbeitsspeicher Li abgerufen wurde, gewichtes Das Ergebnis diesel Operation wird zu dem im Register REG 2 befindlicher Wert hinzuaddiert. Ferner wird der Wert θ in ADD i zi 20 addiert. Das Ergebnis 30 wird dann wieder zu derr Eingang von ADD 1 zuruckübertragen und ferner dazi benutzt, den ersten Abtastwert der zweiten Harmoni sehen aus dem Speicher SIN abzurufen. Dieser Wer wird wieder in ADD/MULT mit dem vom Arbeits speicher LS abgelesenen Koeffizienten, diesesma! ist e: A 3, gewichteL Das Ergebne wird wieder zu dem bereit:
im Register REG 2 befindlichen Wert hinzuaddiert. Die oben stehende Operation, die der Akkumulierung der gewichteten Abtastwerte der harmonischen Sinuswcllcn dient, muß so lange fortgesetzt werden, bis die vorgesehenen k Harmonischen erschöpfend bearbeitet sind. In der Praxis sind 50 bis 100 Harmonische r.ireichend, so daß die gesamte Operation für die angegebene Anordnung 100 μί dauert. Schließlich enthält das Register RFXj 2 den Digitalwert des ersten Abtastwertes des Sprachsignals, ein Wert, der dann zu einem Digital-/Analogwandler D/A für die Analogumwandlung und Glättung der Kurve übertragen wird. Alle vorangegangenen Operationen müssen dann wieder für die Synthese des zweiten Punktes des Sprachsignais aufgenommen werden. Zuerst muß hierzu eine neue Adresse H I der Sprachgrundfrequenz bestimmt wer-
den, die im Prinzip dadurch gewonnen wird, daß nur der geeignete Basiswert B zu dem vorhergehenden Wert θ addiert wird. Diese Basis bleibt für einen gesamten Abschnitt eines stimmhaften Sprachsignals konstant, sie "ι muß jedoch auf Zufallsbasis für jeden Unterabschnitt eines stimmlosen Sprachabschnittes modifiziert werden. Daher wird die Größe B für stimmhafte Sprachabschnitte von dem Arbeitsspeicher LSund für stimmlose Sprachabschnitte von einem Zufallsbasisgenerator
κι GBA geliefert. Dies heißt in anderen Worten, daß der von GBA gelieferte Wert von B für jede Pseudoperiode des stimmlosen Sprachsignals anders ist und daß auf diese Weise in der Verteilung der genannten Basen keine Periodizität auftreten kann. Im gewählten Beispiel
ι ί dauert der Prozeß sowohl für stimmhafte als auch stimmlose Sprachabschnitte etwa 25 ms.

Claims (4)

Patentansprüche:
1. Elektrisches Sprachsyntheseveriahren, bei dem die Sprachsignale aus Abschnitten aufgebaut wer- -. den. deren Dauer das Vielfache der Sprachgrundperiode beträgt, dadurch gekennzeichnet, daß alle Sprachlaute in ähnlicher Weise nach dem Founer-Theorem gebildet werden, wobei jeder Sprachabschnitt in benachbarte Unterabschnitte i< > unterteilt ist, deren Dauer entweder durch die Sprachgrundperiode oder die Pseudo-Sprachgrundperiode bestimmt ist, je nachdem, ob der Sprachlaut, der gebildet werden soll, stimmhaft oder stimmlos isL ι >
2. Sprachsyntheseverfahren nach Anspruch 1. dadurch gekennzeichnet, daß im Falle stimmloser Sprachabschnitte sich die Dauer aufeinanderfolgender Pseudo-Penoden auf Zufallsbasis ändert.
3. Sprachsynihesevcnähren nach Ansprach 2, _τ, dadurch gekennzeichnet, daß alle Unterabschnitte aus Abtastwerten mit gleichem zeitlichen Abstand gebildet sind, die dadurch gewonnen werden, daß nacheinander die entsprechenden Abtastwerte einer Sinuswelle der Sprachgrund- odsr Pseudo-Sprach- r, grundperiode, je nachdem, ob der Sprachlaut, der gebildet werden soll, stimmhaft oder stimmlos ist und die Abtastwerte einer Anzahl der Harmonischen der Sprachgrundperiode, die mit den entsprechenden Fourk r-Koeffizienten gewichtet sind, ad- «> diert werden.
4. Sprachsyntheseverfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß folgende Verfahrensschritte durchgeführt werden:
r>
Bestimmung des stimmhaften oder stimmlosen Charakters des Sprachlautes, der gebildet werden soll.
Bestimmung der Sprachgrundfrequenz oder der Pseudo-Sprachgrundfrequenz des zu bildenden w Sprachlautes, Gewichtung der Abtastwerte gleichen Rangs der Sprachgrund- oder Pseudo-Sprachgrundsinuswelle und einer Anzahl ihrer Harmonischen mit dem entsprechenden Fourier-Koeffizienten, 4Ί Addition der gewichteten Abtastwerte und
Wiederholung der vorstehend genannten Gewichtungs- und Additionsoperationen für die Bildung aufeinanderfolgender Abtastwerte des gleichen Abschnittes eines Sprachsignals, wäh- -*. rend der Wert der Sprachgrundfrequenz für einen stimmhaften Sprachlaut konstant gehalten und für einen stimmlosen Laut in jedem Unterabschnitt auf Zufallsbasis modifiziert wird. ν
DE19722203921 1971-02-02 1972-01-28 Elektrisches Verfahren und Einrichtung zur Sprachsynthese Expired DE2203921C3 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR7104512A FR2126558A5 (de) 1971-02-02 1971-02-02

Publications (3)

Publication Number Publication Date
DE2203921A1 DE2203921A1 (de) 1972-08-17
DE2203921B2 DE2203921B2 (de) 1979-01-18
DE2203921C3 true DE2203921C3 (de) 1979-09-20

Family

ID=9071699

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19722203921 Expired DE2203921C3 (de) 1971-02-02 1972-01-28 Elektrisches Verfahren und Einrichtung zur Sprachsynthese

Country Status (4)

Country Link
JP (1) JPS5215321B1 (de)
DE (1) DE2203921C3 (de)
FR (1) FR2126558A5 (de)
GB (1) GB1345828A (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3809788A (en) * 1972-10-17 1974-05-07 Nippon Musical Instruments Mfg Computor organ using parallel processing

Also Published As

Publication number Publication date
GB1345828A (en) 1974-02-06
JPS5215321B1 (de) 1977-04-28
DE2203921B2 (de) 1979-01-18
DE2203921A1 (de) 1972-08-17
FR2126558A5 (de) 1972-10-06

Similar Documents

Publication Publication Date Title
DE2362050C3 (de) Elektronisches Musikinstrument
DE2431161C2 (de) Tonerzeugungseinrichtung für ein elektronisches Musikinstrument
DE3688600T2 (de) Musikinstrument mit digitalem Filter mit programmierten variablen Koeffizienten.
DE602005002197T2 (de) Schnelles kohärentes Verfahren für Kodierungen mit periodischen Linienspektren
DE2151281A1 (de) Generator mit Frequenzsynthese
DE2404431B2 (de) Elektronisches Musikinstrument
DE69720861T2 (de) Verfahren zur Tonsynthese
DE2618178A1 (de) Ultraschallsende- und empfangsgeraet
DE69629934T2 (de) Umgekehrte transform-schmalband/breitband tonsynthese
DE4334603C2 (de) Verfahren und Vorrichtung zum Kombinieren von von Meßfühlern abgegebenen Signalen
DE2833669A1 (de) Vorrichtung zur datenaufzeichnung auf einem lichtempfindlichen traeger
DE2429871C3 (de) Verfahren zum Erzeugen von elektrischen Klangsignalen entsprechend Klängen bestimmter Klanghöhe jedoch unterschiedlicher Lautstärkewerte
DE3226619C2 (de)
DE1905680A1 (de) Anlage zur Signalverarbeitung
DE2203921C3 (de) Elektrisches Verfahren und Einrichtung zur Sprachsynthese
DE1762492C3 (de) Verfahren und Schaltung zur Hör barmachung der menschlichen Stimme den hochgradig Schwerhörigen
DE3246712C2 (de)
DE2901969A1 (de) Elektronisches musikinstrument mit einer einrichtung zur erzeugung variabler impulse
DE3037276C2 (de) Tonsynthesizer
DE1541624A1 (de) Verfahren zur Frequenzumsetzung
DE2051589B2 (de) Elektrischer Synthesator
DE2657430A1 (de) Einrichtung zum synthetisieren der menschlichen sprache
DE69029044T2 (de) Aktives system zur vibrationsreduktion
DE2453873A1 (de) Fourier-analysator
DE2431989A1 (de) Verfahren und einrichtung zur erzeugung kuenstlichen nachhalls

Legal Events

Date Code Title Description
OD Request for examination
C3 Grant after two publication steps (3rd publication)
8339 Ceased/non-payment of the annual fee