-
-
Verfahren zur Sprachsynthese
-
Die Erfindung bezieht sich auf ein Verfahren zur Sprachsynthese, insbesondere
zur Anwendung in Kraftfahrzeugen, bei dem jeder stimmhafte Sprechlaut durch Addition
von periodischen ersten Teilsignalen nachgebildet wird, deren Frequenz ein ganzzahliges
Vielfaches der Sprachgrundfrequenz ist und deren Spektren zumindest annähernd mit
denen einzelner Formanten dieses Sprechlauts übereinstimmen, und jeder stimmlose
Sprechlaut durch Addition von zweiten Teilsignalen mit einem vorgegebenen Spektrum
nachgebildet wird, von denen jedes die Eigenschaft von farbigem Rauschen hat.
-
Es sind bereits Verfahren zum Analysieren und Synthetisieren von Sprache,
sogenannte Vocoder-Verfahren, bekannt, bei denen ein Analysator eine laufende Spektralanalyse
der zu verarbeitenden Sprache durchführt und den anfallenden Sprachspektren bestimmte
Steuerdaten entnimmt, aus denen dann der Syntheseteil des Vocoders wieder die Sprache
erzeugt. Werden die Steuerdaten abgespeichert, so kann aus ihnen mit Hilfe des Syntheseteils
jederzeit die Sprache synthetisiert werden.
-
Bei bekannten Vocoder-Verfahren bestehen die Steuerdaten aus Informationen
über die Mittenfrequenzen, Amplituden und Bandbreiten der drei ersten Formanten
sowie über Art und Frequenz
der Anregungsfunktion. Die Folge ist,
daß der Syntheseteil beispielsweise des Kanalvocoders je nach Güte 12 bis 24 hochwertige
Bandpässe enthält und der Syntheseteil beispielsweise des Formantvocoders im allgemeinen
drei steuerbare Bandpässe, die in ihren Mittenfrequenzen über relativ weite Bereiche
schnell regelbar sein müssen. Auch andere Vocoder, so beispielsweise der spracherregte
Vocoder, enthalten in ihren Synthesestufen hochwertige Filter.
-
Neben diesen Vocoder-Verfahren sind auch Verfahren bekannt, bei denen
die Sprache im Zeitbereich in analoger Form beispielsweise in Magnetton- oder Lichttonträger
eingespeichert und ausgelesen wird. Ferner sind Verfahren bekannt, bei denen die
Sprache im Zeitbereich in digitaler Form gespeichert und ausgelesen wird, wobei
zur Digitalisierung die Puls-Code-Modulation oder die Deltamodulation verwendet
wird.
-
Alle diese und andere bekannte Verfahren sind mit Nachteilen behaftet,
die ihre Realisierung in einer kostengünstiger. Serienproduktion verhindert haben.
So ist es bei den analogen Verfahren nachteilig, daß sie nicht ohne bewegliche Teile
realisierbar sind, die Funktionselemente einem mechanischen Verschleiß unterliegen
und die Zugriffszeit zu den Wörtern des auszugebenden Sprachschatzes zu lang ist.
Diese Nachteile entfallen zwar bei den digitalen Speicherverfahren im Zeitbereich,
jedoch verursacht hier der relativ hohe Speicherplatzbedarf von ca. 20 000 bit für
jede Sekunde des Sprachsignals technische und wirtschaftliche Probleme. Bei den
Vocoder-Verfahren sind es schließlich die hochwertigen Filter, die bisher eine kostengünstige
Serienproduktion von Synthesestufen zur Sprachausgabe verhinderten. Auch der Einsatz
digitaler Filter hat hier keine Änderung gebracht.
-
Diese Nachteile der bekannten Verfahren sollen durch die Erfindung
überwunden werden. Es ist daher Aufgabe der Erfindung, ein Sprachsyntheseverfahren
zu schaffen, das die Erzeugung von Sprache guter Verständlichkeit und hoher Qualität
mit einem geringstmöglichen Herstellungsaufwand gestattet. Insbesondere soll das
Syntheseverfahren sp konzipiert sein, daß die notwendigen Steuerdaten nur einen
beschränkten Speicherplatz benötigen und die Aufbereitung und Auswechslung der Steuerdaten
einfach und unkompliziert durchzuführen ist. Auch soll das Verfahren die Erstellung
von Geräten geringen Bauvolumens ermöglichen, die zudem dem rauhen Betrieb im Kraftfahrzeug
gewachsen sein müssen.
-
Ausgehend von dem Verfahren der eingangs beschriebenen Gattung wird
diese Aufgabe erfindungsgemäß dadurch gelöst, daß erste Teilsignale verwendet werden,
deren Frequenzen sich in unmittelbarer Nähe von Formantmittenfrequenzen befinden,
und jedes dieser ersten Teilsignale dergestalt amplitudenmoduliert wird, daß sich
im Spektrum eines jeden ersten Teilsignals Seitenlinien ausbilden, deren gegenseitiger
Frequenzabstand gleich der Sprachgrundfrequenz ist.
-
Die Erfindung geht von der Erkenntnis aus, daß zur Charakterisierung
eines stimmhaften Sprechlautes die ersten zwei oder drei Formanten desselben genügen
und die eigentlichen Träger der Information nur wenige Spektrallinien in der Umgebung
dieser Formanten sind, während die Amplituden aller anderen Spektrallinien lediglich
stetig abnehmen, je weiter sie von den Formanten entfernt sind. Dieser Verlauf der
Spektrallinien-Amplituden zwischen den Formanten stellt somit nur einen Übergang
zwischen den Formanten dar, wobei jeweils nur ein relatives Minimum der Werte durchlaufen
wird. Das heißt nicht, daß diese Spektrallinien zwischen den Formanten
einfach
weggelassen werden dürften, sondern nur, daß ihre Amplituden nur wenige Informationen
enthalten. Demzufolge genügt es, die Lage dieser Formanten durch Erzeugung derjenigen
Spektrallinien des Spektrums festzulegen, die relative Maxima bei den entsprechenden
Mittenfrequenzen der Formanten bilden, also zwei oder drei periodische erste Teilsignale
zu erzeugen, denen gemeinsam ist, daß ihre Frequenzen durch den jeweiligen Wert
der Sprachgrundfrequenz teilbar sind und sich in unmittelbarer Nähe von Mittenfrequenzen
der Formanten befinden. Um das Spektrum zwischen diesen zwei oder drei weit voneinander
entfernten Linien aufzufüllen, sind weitere Spektrallinien zu erzeugen, wozu diese
ersten Teilsignale amplitudenmoduliert werden. Damit ergibt sich ein äquidistantes
Linienspektrum mit einer der Sprachgrundfrequenz gleichen Grundfrequenz sowie mit
relativen Maxima bei den Formantfrequenzen und relativen Minima zwischen den Formanten.
Es ähnelt damit weitgehend dem Spektrum des Originallautes. Der Höreindruck des
auf diese Weise erzeugten Zeitsignals kommt damit dem Originallaut sehr nahe, dies
im übrigen insbesondere dann, wenn gemäß einer vorteilhaften Ausführungsform den
ersten drei Formanten eines Sprechlauts zugeordnete erste Teilsignale erzeugt werden.
-
GemäB einer vorteilhaften Ausführungsform der Erfindung erfolgt die
Erzeugung weiterer Spektrallinien durch Modulation der Amplituden der ersten Teilsignale
mit einer Sägezahnfunktion. Eine solche sägezahnförmige Modulation bringt gegenüber
anderen, ebenfalls möglichen Modulationen mit anderen Funktionen den Vorteil mit
sich, daß sie ein Linienspektrum besitzt, in dem alle ganzzahligen Vielfachen der
Grundschwingung auftreten. Wird in vorteilhafter Weiterbildung dieser Ausführungsform
die Frequenz der Grundschwingung der Sägezahnfunktion gleich der Sprachgrundfrequenz
ge-
wählt, so bilden sich im Spektrum oberhalb und unterhalb einer
jeden Teilsignalträgerlinie ein oberes und ein unteres Seitenband aus, von denen
jedes aus in der Amplitude stetig abnehmenden Spektrallinien des Abstandes der Sprachgrundfrequenz
besteht. Durch die BerUhrung oder Durchdringung benachbarter Seitenbänder können
infolgedessen keine störenden Mischfrequenzen entstehen, da alle im Spektrum vorkommenden
Frequenzen ganzzahlige Vielfache der Sprachgrundfrequenz sind.
-
Nach einem weiteren Gedanken der Erfindung kann der Herstellungsaufwand
für die Sprachsynthese weiter dadurch verringert werden, daß zweite Teilsignale
verwendet werden, deren Frequenz etwa gleich der Mittenfrequenz eines Rauschfrequenzbereichs
ist, und jedes dieser zweiten Teilsignale mit einem Rauschsignal amplitudenmoduliert
wird. Es besteht damit die Möglichkeit, die zur Erzeugung der stimmhaften Sprechlaute
benötigten Einrichtungen und insbesondere die Amplitudenmodulationsstufen auch'zur
Erzeugung der stimmlosen Sprechlaute verwenden zu können.
-
Der weitere Gedanke der Erfindung geht hierbei von der Erkenntnis
aus, daß es zur Charakterisierung eines stimmlosen Sprechlauts genügt, die ungefähre
Lage der Mittenfrequenz des bzw. der Rauschfrequenzbereiche zu kennen, aus denen
das Spektrum des Sprechlauts besteht. Ist bzw. sind diese Mittenfrequenzen von Rauschkonzentrationen
bekannt, läßt sich jede Rauschkonzentration im Spektrum durch eine Amplitudenmodulation
einer sinusförmigen Trägerschwingung entsprechender Mittenfrequenz mit einem niederfrequenten
Rauschen endlicher Bandbreite nachbilden. Dieses Rauschen findet sich dann als oberes
und unteres Seitenband zur Trägerschwingung im Spektrum wieder, wobei die Frequenzlage
des Rauschens nach höheren Frequenzen verschoben ist.
-
Der Höreindruck der so erhaltenen amplitudenmodulierten zweiten Teilsignale
kann insofern noch zu wünschen übrig lassen, als sich die sinusförmige Trägerschwingung
unter Umständen als Pfeifton bemerkbar macht. Dieser Nachteil kann in vorteilhafter
Weise dadurch beseitigt werden, daß jedem amplitudenmodulierten zweiten Teilsignal
ein invertiertes Signal gleicher Frequenz und zumindest annähernd gleicher Amplitude
zugemischt wird. Dadurch wird die Trägerschwingung zumindest weitgehend ausgelöscht
und es bleibt allein das Rauschen der gewünschten Frequenzlage übrig.
-
Gibt es mehrere Rauschkonzentrationen im Spektrum eines stimmlosen
Sprechlautes, so werden diese einzeln nachgebildet und die so erhaltenen Teilsignale
werden addiert.
-
Die Erfindung sei anhand der Zeichnung, die ein Ausführungsbeispiel
einer nach dem erfindungsgemäßen Verfahren arbeitenden Einrichtung enthält, näher
erläutert.
-
In einem Speicher 1 befinden sich die zur Erzeugung der stimmhaften
und stimmlosen Sprechlaute erforderlichen Steuerdaten und zwar im einzelnen für
jeden stimmhaften Sprechlaut F Höhe der Sprachgrundfrequenz 0 L Position des ersten
Formanten M Position des zweiten Formanten N Position des dritten Formanten A Amplitude
des ersten Formanten F Amplitude des zweiten Formanten C Amplitude des dritten Formanten
und für jeden stimmlosen Sprechlaut f Mittenfrequenz einer ersten Rauschkonzentrax
tion
f Mittenfrequenz einer zweiten Rauschkonzentray tion f Mittenfrequenz
einer dritten Rauschkonzentraz tion a Amplitude der ersten Rauschkonzentration b
Amplitude der zweiten Rauschkonzentration c Amplitude der dritten Rauschkonzentration
sowie ein oder mehrere Zeichen zur Unterscheidung, ob ein stimmhafter oder ein stimmloser
Sprechlaut erzeugt werden soll und das mit "sh" (stimmhaft) und "sl" (stimmlos)
gekennzeichnet sei.
-
Unter der begründeten Annahme, daß zur Charakterisierung eines stimmhaften
Sprechlautes die ersten drei Formanten genügen, ergeben sich eine obere Grenze des
nachzubildenden Frequenzbereichs von 2 500 Hz und für den ungünstigeren Fall einer
sehr tiefen Männerstimme mit einer Sprachgrundfrequenz von 78 Hz insgesamt 32 darzustellende
Spektrallinienfrequenzen als mögliche Formantenpositionen auf der Frequenzachse.
Daraus resultiert, daß zur Darstellung der Position jedes Formanten jeweils 5 Bits
benötigt werden.
-
Unter weiterer Berücksichtigung, daß zur Darstellung der Sprachgrundfrequenzhöhe
6 Bits, der Amplitude jedes Formanten 3 Bits, der Mittenfrequenz jeder Rauschkonzentration
5 Bits, der Amplitude jeder Rauschkonzentration 3 Bits und des Unterscheidungszeichens
1 Bit ausreichen, ergibt sich demnach ein Steuerdatensatz von 31 Bits für jeden
stimmhaften Sprechlaut und ein solcher von 25 Bits - wegen der hier nicht benötigten
Sprachgrundfrequenz - für jeden stimmlosen Sprechlaut. Da aufgrund der Dynamik des
Sprachsignals Frequenz und Amplitude 50 Mal in der Sekunde nachgebildet werden müssen,
resultiert daraus ein Datenfluß von 1 500
Bits/Sekunde bei dem
erfindungsgemäßen Verfahren, ein Wert, der deutlich kleiner ist als der bekannter
Verfahren.
-
Zur Erzeugung eines Sprechlautes werden die für diesen Sprechlaut
relevanten Daten aus dem Speicher 1 an die Syntheseeinrichtung 2 gegeben, die aus
den Daten den gewünschten Sprechlaut erzeugt und diesen einer Sprachausgabeeinrichtung
3 zuführt.
-
Die Syntheseeinrichtung 2 besteht im wesentlichen aus einer Teilsignale
erzeugenden Stufe 4, einer Modulationsstufe 5, einer Amplitudenregelstufe 6 und
einem Summierverstärker 7 als Ausgangsstufe.
-
Die ersten Teilsignale werden bei dem vorliegenden Ausführungsbeispiel
dadurch erzeugt, daß die Fositionsdaten L,M und N der drei Formanten eines stimmhaften
Sprechlautes zusammen mit der Sprachgrundfrequenz F des Sprechlautes je-0 weils
in einem Multiplizierer 8, 9 bzw. 10 miteinander verknüpft und die Produkte LFo,
MF und NF jeweils an einen 0 0 Pulsselektor 11, 12 bzw. 13 weitergegeben werden.
Die drei Pulsselektoren 11, 12 bzw. 13 erzeugen nach Maßgabe der Produkte aus einer
Pulsfolge hoher Pulsfolgefrequenz eines Pulsgenerators 14 jeweils eine Pulsfolge
niedrigerer Pulsfolgefrequenz. Mit jeder Pulsfolge wird ein Sinusgenerator 15, 16
bzw. 17 beaufschlagt, der eine Frequenzharmonisierung durchführt. Am Ausgang jedes
Sinusgenerators steht dann ein Teilsignal F1 bzw. F2 bzw. F3 zur Verfügung, deren
Frequenz jeweils gleich einer Formantenmittenfrequenz ist. Es sei an dieser Stelle
darauf hingewiesen, daß die Teilsignale F1, F2 und F3 auch auf andere Weise aus
den Daten L, M, N und F0 gewonnen werden können, ohne daß dies Einfluß hat auf
das
erfindungsgemäße Syntheseverfahren.
-
Da es sich bei den ersten Teilsignalen um solche zur Bildung eines
stimmhaften Sprechlautes handelt, ist der Schalter 18 so angesteuert, daß er den
Sägezehngenerstor19 über einen Tiefpass 20 auf die den drei Teilsignalen F1, F2
und F3 zugeordneten Modulatoren 21, 22 und 23 der Modulationsstufe 5 schaltet. Bei
den Modulatoren 21, 22 und 23 handelt es sich um Amplitudenmodulatoren üblichen
Aufbaus, die die Teilsignale F1=sin olt, F2= sin ozt und F3= sin &3t jeweils
mit einem Sägezahnsignal mit der Grundschwingung F in der Ampli 0 tude modulieren.
Die amplitudenmodulierten Teilsignale gelangen jeweils über einen Summierer 24,
25 bzw. 26, der bei der Erzeugung stimmhafter Sprechlaute unwirksam ist, zu der
Amplitudenstufe 6, wo sie in ihrer Amplitude nach Maßgabe der Formantenamplituden-Daten
A, E und C geregelt werden.
-
Diese so gebildeten Teilsignale werden in dem Summier stärker 7 zusammengefaßt.
-
Bei der Bildung zweiter Teilsignale, die zur Synthese stimmloser Sprechlaute
benötigt werden, werden die Pulsselektoren 11, 12 und 13 jeweils mit den Mittenfrequenzen
der Rauschkonzentrationen fxS f und f beaufschlagt. Die Pulsseleky toren 11, 12
und 13 bilden nach Maßgabe dieser Daten aus der Pulsfolge des Pulsgenerators 14
drei Pulsfolgen niedrigerer Pulsfolgefrequenz, die mittels der Sinusgeneratoren
15, 16 und 17 harmonisiert werden, so daß am Ausgang der drei Sinusgeneratoren zweite
Teilsignale f1= sin Qxts f sin Coyt und f3= sin #zt zur Verfügung stehen.
-
Der Schalter 18 ist nunmehr so angesteuert, daß er den Rauschgenerator
27 über einen Tiefpass 28 auf die den drei Teilsignalen f1, f2 und 3 zugeordneten
Modulatoren 21, 22 und 23 schaltet. Dadurch werden die drei Teilsignale f1, f2 und
f3
in den Modulatoren mit einem niederfrequenten, bandbegrenzten
Rauschen moduliert. Da das am Ausgang jedes Modulators erscheinende Teilsignal noch
den sinusförmigen Träger enthält, der, wie bereits erwähnt, den Höreindruck des
Teilsignals durch Pfeifen stören kann, wird zur Eliminierung des Trägers in einem
Summierer 24, 25 bzw. 26 zu jedem amplitudenmodulierten Teilsignal f1, f2 bzw. 3
ein in der Amplitude invertierter Träger f'1= -sin uxt bzw. f'2= -sin o t bzw.
-
y fg3= -sin Çzt addiert. Diese amplitudeninvertierten Träger f'1,
f'z und f'3 werden mittels invertierender Verstärker 29, 30 und 31 aus den Teilsignalen
f1, f2 und 3 gewonnen.
-
Die von den Trägern befreiten Teilsignale werden auf die Amplitudenregelstufe
6 gegeben, wo sie in ihrer Amplitude nach Maßgabe der Rauschkonzentrationsamplituden-Daten
a, b und c geregelt werden. Mit den Ausgangssignalen der Amplitudenregelstufe 6
wird der Summierverstärker 7 beaufschlagt, dessen Ausgang mit der Sprachausgabeeinrichtung
3 verbunden ist.