DE3028000A1

DE3028000A1 - Verfahren zur sprachsynthese

Info

Publication number: DE3028000A1
Application number: DE19803028000
Authority: DE
Inventors: Martin Prof. Dr.-Ing. 6145 Lindenfels Timme
Original assignee: Mannesmann VDO AG
Current assignee: Mannesmann VDO AG
Priority date: 1980-07-24
Filing date: 1980-07-24
Publication date: 1982-02-25

Description

Verfahren zur Sprachsynthese
Die Erfindung bezieht sich auf ein Verfahren zur Sprachsynthese, insbesondere zur Anwendung in Kraftfahrzeugen, bei dem jeder stimmhafte Sprechlaut durch Addition von periodischen ersten Teilsignalen nachgebildet wird, deren Frequenz ein ganzzahliges Vielfaches der Sprachgrundfrequenz ist und deren Spektren zumindest annähernd mit denen einzelner Formanten dieses Sprechlauts übereinstimmen, und jeder stimmlose Sprechlaut durch Addition von zweiten Teilsignalen mit einem vorgegebenen Spektrum nachgebildet wird, von denen jedes die Eigenschaft von farbigem Rauschen hat.
Es sind bereits Verfahren zum Analysieren und Synthetisieren von Sprache, sogenannte Vocoder-Verfahren, bekannt, bei denen ein Analysator eine laufende Spektralanalyse der zu verarbeitenden Sprache durchführt und den anfallenden Sprachspektren bestimmte Steuerdaten entnimmt, aus denen dann der Syntheseteil des Vocoders wieder die Sprache erzeugt. Werden die Steuerdaten abgespeichert, so kann aus ihnen mit Hilfe des Syntheseteils jederzeit die Sprache synthetisiert werden.
Bei bekannten Vocoder-Verfahren bestehen die Steuerdaten aus Informationen über die Mittenfrequenzen, Amplituden und Bandbreiten der drei ersten Formanten sowie über Art und Frequenz der Anregungsfunktion. Die Folge ist, daß der Syntheseteil beispielsweise des Kanalvocoders je nach Güte 12 bis 24 hochwertige Bandpässe enthält und der Syntheseteil beispielsweise des Formantvocoders im allgemeinen drei steuerbare Bandpässe, die in ihren Mittenfrequenzen über relativ weite Bereiche schnell regelbar sein müssen. Auch andere Vocoder, so beispielsweise der spracherregte Vocoder, enthalten in ihren Synthesestufen hochwertige Filter.
Neben diesen Vocoder-Verfahren sind auch Verfahren bekannt, bei denen die Sprache im Zeitbereich in analoger Form beispielsweise in Magnetton- oder Lichttonträger eingespeichert und ausgelesen wird. Ferner sind Verfahren bekannt, bei denen die Sprache im Zeitbereich in digitaler Form gespeichert und ausgelesen wird, wobei zur Digitalisierung die Puls-Code-Modulation oder die Deltamodulation verwendet wird.
Alle diese und andere bekannte Verfahren sind mit Nachteilen behaftet, die ihre Realisierung in einer kostengünstiger. Serienproduktion verhindert haben. So ist es bei den analogen Verfahren nachteilig, daß sie nicht ohne bewegliche Teile realisierbar sind, die Funktionselemente einem mechanischen Verschleiß unterliegen und die Zugriffszeit zu den Wörtern des auszugebenden Sprachschatzes zu lang ist. Diese Nachteile entfallen zwar bei den digitalen Speicherverfahren im Zeitbereich, jedoch verursacht hier der relativ hohe Speicherplatzbedarf von ca. 20 000 bit für jede Sekunde des Sprachsignals technische und wirtschaftliche Probleme. Bei den Vocoder-Verfahren sind es schließlich die hochwertigen Filter, die bisher eine kostengünstige Serienproduktion von Synthesestufen zur Sprachausgabe verhinderten. Auch der Einsatz digitaler Filter hat hier keine Änderung gebracht.
Diese Nachteile der bekannten Verfahren sollen durch die Erfindung überwunden werden. Es ist daher Aufgabe der Erfindung, ein Sprachsyntheseverfahren zu schaffen, das die Erzeugung von Sprache guter Verständlichkeit und hoher Qualität mit einem geringstmöglichen Herstellungsaufwand gestattet. Insbesondere soll das Syntheseverfahren sp konzipiert sein, daß die notwendigen Steuerdaten nur einen beschränkten Speicherplatz benötigen und die Aufbereitung und Auswechslung der Steuerdaten einfach und unkompliziert durchzuführen ist. Auch soll das Verfahren die Erstellung von Geräten geringen Bauvolumens ermöglichen, die zudem dem rauhen Betrieb im Kraftfahrzeug gewachsen sein müssen.
Ausgehend von dem Verfahren der eingangs beschriebenen Gattung wird diese Aufgabe erfindungsgemäß dadurch gelöst, daß erste Teilsignale verwendet werden, deren Frequenzen sich in unmittelbarer Nähe von Formantmittenfrequenzen befinden, und jedes dieser ersten Teilsignale dergestalt amplitudenmoduliert wird, daß sich im Spektrum eines jeden ersten Teilsignals Seitenlinien ausbilden, deren gegenseitiger Frequenzabstand gleich der Sprachgrundfrequenz ist.
Die Erfindung geht von der Erkenntnis aus, daß zur Charakterisierung eines stimmhaften Sprechlautes die ersten zwei oder drei Formanten desselben genügen und die eigentlichen Träger der Information nur wenige Spektrallinien in der Umgebung dieser Formanten sind, während die Amplituden aller anderen Spektrallinien lediglich stetig abnehmen, je weiter sie von den Formanten entfernt sind. Dieser Verlauf der Spektrallinien-Amplituden zwischen den Formanten stellt somit nur einen Übergang zwischen den Formanten dar, wobei jeweils nur ein relatives Minimum der Werte durchlaufen wird. Das heißt nicht, daß diese Spektrallinien zwischen den Formanten einfach weggelassen werden dürften, sondern nur, daß ihre Amplituden nur wenige Informationen enthalten. Demzufolge genügt es, die Lage dieser Formanten durch Erzeugung derjenigen Spektrallinien des Spektrums festzulegen, die relative Maxima bei den entsprechenden Mittenfrequenzen der Formanten bilden, also zwei oder drei periodische erste Teilsignale zu erzeugen, denen gemeinsam ist, daß ihre Frequenzen durch den jeweiligen Wert der Sprachgrundfrequenz teilbar sind und sich in unmittelbarer Nähe von Mittenfrequenzen der Formanten befinden. Um das Spektrum zwischen diesen zwei oder drei weit voneinander entfernten Linien aufzufüllen, sind weitere Spektrallinien zu erzeugen, wozu diese ersten Teilsignale amplitudenmoduliert werden. Damit ergibt sich ein äquidistantes Linienspektrum mit einer der Sprachgrundfrequenz gleichen Grundfrequenz sowie mit relativen Maxima bei den Formantfrequenzen und relativen Minima zwischen den Formanten. Es ähnelt damit weitgehend dem Spektrum des Originallautes. Der Höreindruck des auf diese Weise erzeugten Zeitsignals kommt damit dem Originallaut sehr nahe, dies im übrigen insbesondere dann, wenn gemäß einer vorteilhaften Ausführungsform den ersten drei Formanten eines Sprechlauts zugeordnete erste Teilsignale erzeugt werden.
GemäB einer vorteilhaften Ausführungsform der Erfindung erfolgt die Erzeugung weiterer Spektrallinien durch Modulation der Amplituden der ersten Teilsignale mit einer Sägezahnfunktion. Eine solche sägezahnförmige Modulation bringt gegenüber anderen, ebenfalls möglichen Modulationen mit anderen Funktionen den Vorteil mit sich, daß sie ein Linienspektrum besitzt, in dem alle ganzzahligen Vielfachen der Grundschwingung auftreten. Wird in vorteilhafter Weiterbildung dieser Ausführungsform die Frequenz der Grundschwingung der Sägezahnfunktion gleich der Sprachgrundfrequenz ge- wählt, so bilden sich im Spektrum oberhalb und unterhalb einer jeden Teilsignalträgerlinie ein oberes und ein unteres Seitenband aus, von denen jedes aus in der Amplitude stetig abnehmenden Spektrallinien des Abstandes der Sprachgrundfrequenz besteht. Durch die BerUhrung oder Durchdringung benachbarter Seitenbänder können infolgedessen keine störenden Mischfrequenzen entstehen, da alle im Spektrum vorkommenden Frequenzen ganzzahlige Vielfache der Sprachgrundfrequenz sind.
Nach einem weiteren Gedanken der Erfindung kann der Herstellungsaufwand für die Sprachsynthese weiter dadurch verringert werden, daß zweite Teilsignale verwendet werden, deren Frequenz etwa gleich der Mittenfrequenz eines Rauschfrequenzbereichs ist, und jedes dieser zweiten Teilsignale mit einem Rauschsignal amplitudenmoduliert wird. Es besteht damit die Möglichkeit, die zur Erzeugung der stimmhaften Sprechlaute benötigten Einrichtungen und insbesondere die Amplitudenmodulationsstufen auch'zur Erzeugung der stimmlosen Sprechlaute verwenden zu können.
Der weitere Gedanke der Erfindung geht hierbei von der Erkenntnis aus, daß es zur Charakterisierung eines stimmlosen Sprechlauts genügt, die ungefähre Lage der Mittenfrequenz des bzw. der Rauschfrequenzbereiche zu kennen, aus denen das Spektrum des Sprechlauts besteht. Ist bzw. sind diese Mittenfrequenzen von Rauschkonzentrationen bekannt, läßt sich jede Rauschkonzentration im Spektrum durch eine Amplitudenmodulation einer sinusförmigen Trägerschwingung entsprechender Mittenfrequenz mit einem niederfrequenten Rauschen endlicher Bandbreite nachbilden. Dieses Rauschen findet sich dann als oberes und unteres Seitenband zur Trägerschwingung im Spektrum wieder, wobei die Frequenzlage des Rauschens nach höheren Frequenzen verschoben ist.
Der Höreindruck der so erhaltenen amplitudenmodulierten zweiten Teilsignale kann insofern noch zu wünschen übrig lassen, als sich die sinusförmige Trägerschwingung unter Umständen als Pfeifton bemerkbar macht. Dieser Nachteil kann in vorteilhafter Weise dadurch beseitigt werden, daß jedem amplitudenmodulierten zweiten Teilsignal ein invertiertes Signal gleicher Frequenz und zumindest annähernd gleicher Amplitude zugemischt wird. Dadurch wird die Trägerschwingung zumindest weitgehend ausgelöscht und es bleibt allein das Rauschen der gewünschten Frequenzlage übrig.
Gibt es mehrere Rauschkonzentrationen im Spektrum eines stimmlosen Sprechlautes, so werden diese einzeln nachgebildet und die so erhaltenen Teilsignale werden addiert.
Die Erfindung sei anhand der Zeichnung, die ein Ausführungsbeispiel einer nach dem erfindungsgemäßen Verfahren arbeitenden Einrichtung enthält, näher erläutert.
In einem Speicher 1 befinden sich die zur Erzeugung der stimmhaften und stimmlosen Sprechlaute erforderlichen Steuerdaten und zwar im einzelnen für jeden stimmhaften Sprechlaut F Höhe der Sprachgrundfrequenz 0 L Position des ersten Formanten M Position des zweiten Formanten N Position des dritten Formanten A Amplitude des ersten Formanten F Amplitude des zweiten Formanten C Amplitude des dritten Formanten und für jeden stimmlosen Sprechlaut f Mittenfrequenz einer ersten Rauschkonzentrax tion f Mittenfrequenz einer zweiten Rauschkonzentray tion f Mittenfrequenz einer dritten Rauschkonzentraz tion a Amplitude der ersten Rauschkonzentration b Amplitude der zweiten Rauschkonzentration c Amplitude der dritten Rauschkonzentration sowie ein oder mehrere Zeichen zur Unterscheidung, ob ein stimmhafter oder ein stimmloser Sprechlaut erzeugt werden soll und das mit "sh" (stimmhaft) und "sl" (stimmlos) gekennzeichnet sei.
Unter der begründeten Annahme, daß zur Charakterisierung eines stimmhaften Sprechlautes die ersten drei Formanten genügen, ergeben sich eine obere Grenze des nachzubildenden Frequenzbereichs von 2 500 Hz und für den ungünstigeren Fall einer sehr tiefen Männerstimme mit einer Sprachgrundfrequenz von 78 Hz insgesamt 32 darzustellende Spektrallinienfrequenzen als mögliche Formantenpositionen auf der Frequenzachse. Daraus resultiert, daß zur Darstellung der Position jedes Formanten jeweils 5 Bits benötigt werden.
Unter weiterer Berücksichtigung, daß zur Darstellung der Sprachgrundfrequenzhöhe 6 Bits, der Amplitude jedes Formanten 3 Bits, der Mittenfrequenz jeder Rauschkonzentration 5 Bits, der Amplitude jeder Rauschkonzentration 3 Bits und des Unterscheidungszeichens 1 Bit ausreichen, ergibt sich demnach ein Steuerdatensatz von 31 Bits für jeden stimmhaften Sprechlaut und ein solcher von 25 Bits - wegen der hier nicht benötigten Sprachgrundfrequenz - für jeden stimmlosen Sprechlaut. Da aufgrund der Dynamik des Sprachsignals Frequenz und Amplitude 50 Mal in der Sekunde nachgebildet werden müssen, resultiert daraus ein Datenfluß von 1 500 Bits/Sekunde bei dem erfindungsgemäßen Verfahren, ein Wert, der deutlich kleiner ist als der bekannter Verfahren.
Zur Erzeugung eines Sprechlautes werden die für diesen Sprechlaut relevanten Daten aus dem Speicher 1 an die Syntheseeinrichtung 2 gegeben, die aus den Daten den gewünschten Sprechlaut erzeugt und diesen einer Sprachausgabeeinrichtung 3 zuführt.
Die Syntheseeinrichtung 2 besteht im wesentlichen aus einer Teilsignale erzeugenden Stufe 4, einer Modulationsstufe 5, einer Amplitudenregelstufe 6 und einem Summierverstärker 7 als Ausgangsstufe.
Die ersten Teilsignale werden bei dem vorliegenden Ausführungsbeispiel dadurch erzeugt, daß die Fositionsdaten L,M und N der drei Formanten eines stimmhaften Sprechlautes zusammen mit der Sprachgrundfrequenz F des Sprechlautes je-0 weils in einem Multiplizierer 8, 9 bzw. 10 miteinander verknüpft und die Produkte LFo, MF und NF jeweils an einen 0 0 Pulsselektor 11, 12 bzw. 13 weitergegeben werden. Die drei Pulsselektoren 11, 12 bzw. 13 erzeugen nach Maßgabe der Produkte aus einer Pulsfolge hoher Pulsfolgefrequenz eines Pulsgenerators 14 jeweils eine Pulsfolge niedrigerer Pulsfolgefrequenz. Mit jeder Pulsfolge wird ein Sinusgenerator 15, 16 bzw. 17 beaufschlagt, der eine Frequenzharmonisierung durchführt. Am Ausgang jedes Sinusgenerators steht dann ein Teilsignal F1 bzw. F2 bzw. F3 zur Verfügung, deren Frequenz jeweils gleich einer Formantenmittenfrequenz ist. Es sei an dieser Stelle darauf hingewiesen, daß die Teilsignale F1, F2 und F3 auch auf andere Weise aus den Daten L, M, N und F0 gewonnen werden können, ohne daß dies Einfluß hat auf das erfindungsgemäße Syntheseverfahren.
Da es sich bei den ersten Teilsignalen um solche zur Bildung eines stimmhaften Sprechlautes handelt, ist der Schalter 18 so angesteuert, daß er den Sägezehngenerstor19 über einen Tiefpass 20 auf die den drei Teilsignalen F1, F2 und F3 zugeordneten Modulatoren 21, 22 und 23 der Modulationsstufe 5 schaltet. Bei den Modulatoren 21, 22 und 23 handelt es sich um Amplitudenmodulatoren üblichen Aufbaus, die die Teilsignale F1=sin olt, F2= sin ozt und F3= sin &3t jeweils mit einem Sägezahnsignal mit der Grundschwingung F in der Ampli 0 tude modulieren. Die amplitudenmodulierten Teilsignale gelangen jeweils über einen Summierer 24, 25 bzw. 26, der bei der Erzeugung stimmhafter Sprechlaute unwirksam ist, zu der Amplitudenstufe 6, wo sie in ihrer Amplitude nach Maßgabe der Formantenamplituden-Daten A, E und C geregelt werden.
Diese so gebildeten Teilsignale werden in dem Summier stärker 7 zusammengefaßt.
Bei der Bildung zweiter Teilsignale, die zur Synthese stimmloser Sprechlaute benötigt werden, werden die Pulsselektoren 11, 12 und 13 jeweils mit den Mittenfrequenzen der Rauschkonzentrationen fxS f und f beaufschlagt. Die Pulsseleky toren 11, 12 und 13 bilden nach Maßgabe dieser Daten aus der Pulsfolge des Pulsgenerators 14 drei Pulsfolgen niedrigerer Pulsfolgefrequenz, die mittels der Sinusgeneratoren 15, 16 und 17 harmonisiert werden, so daß am Ausgang der drei Sinusgeneratoren zweite Teilsignale f1= sin Qxts f sin Coyt und f3= sin #zt zur Verfügung stehen.
Der Schalter 18 ist nunmehr so angesteuert, daß er den Rauschgenerator 27 über einen Tiefpass 28 auf die den drei Teilsignalen f1, f2 und 3 zugeordneten Modulatoren 21, 22 und 23 schaltet. Dadurch werden die drei Teilsignale f1, f2 und f3 in den Modulatoren mit einem niederfrequenten, bandbegrenzten Rauschen moduliert. Da das am Ausgang jedes Modulators erscheinende Teilsignal noch den sinusförmigen Träger enthält, der, wie bereits erwähnt, den Höreindruck des Teilsignals durch Pfeifen stören kann, wird zur Eliminierung des Trägers in einem Summierer 24, 25 bzw. 26 zu jedem amplitudenmodulierten Teilsignal f1, f2 bzw. 3 ein in der Amplitude invertierter Träger f'1= -sin uxt bzw. f'2= -sin o t bzw.
y fg3= -sin Çzt addiert. Diese amplitudeninvertierten Träger f'1, f'z und f'3 werden mittels invertierender Verstärker 29, 30 und 31 aus den Teilsignalen f1, f2 und 3 gewonnen.
Die von den Trägern befreiten Teilsignale werden auf die Amplitudenregelstufe 6 gegeben, wo sie in ihrer Amplitude nach Maßgabe der Rauschkonzentrationsamplituden-Daten a, b und c geregelt werden. Mit den Ausgangssignalen der Amplitudenregelstufe 6 wird der Summierverstärker 7 beaufschlagt, dessen Ausgang mit der Sprachausgabeeinrichtung 3 verbunden ist.

Claims

Patentansprüche 1. Verfahren zur Sprachsynthese, insbesondere zur Anwendung in in Kraftfahrzeugen, bei dem jeder stimmhafte Sprechlaut durch Addition von periodischen ersten Teilsignalen nachgebildet wird, deren Frequenz ein ganzzahliges Vielfaches der Sprachgrundfrequenz ist und deren Spektren zumindest annähernd mit denen einzelner Formanten dieses Sprache lauts übereinstimmen, und jeder stimmiose Sprechlaut durch Addition von zweiten Teilsignalen mit einem vorgegebenen Spektrum nachgebildet wird, von denen jedes die Eigenschaft von farbigem Rauschen hat, dadurch gekennzeichnet, daß erste Teilsignale (F1, F2, F3) verwendet werden, deren Frequenzen sich in unmittelbarer Nähe von Formantmittenfrequenzen befinden, und jedes dieser ersten Teilsignale (F1, F2, F3) dergestalt amplitudenmoduliert wird, daß sich im Spektrum eines jeden ersten Teilsignals (F1, F2, F3) Seitenlinien ausbilden, deren gegenseitiger Frequenzabstand gleich der Sprachgrundfrequenz (Fo) ist.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß drei den ersten drei Formanten eines Sprechlauts zugeordnete erste Teilsignale (F1, F2, F3) erzeugt werden.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die ersten Teilsignale (F1, F2, F3) mit einer Sägezahnfunktion amplitudenmoduliert werden.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß die Frequenz der Grundschwingung der Sägezahnfunktion gleich der Sprachgrundfrequenz (Fo) gewählt wird.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch ge- kennzeichnet, daß zweite Teilsignale (fl, f2, f3) verwendet werden, deren Frequenz etwa gleich der Mittenfrequenz eines Rauschfrequenzbereichs ist, und jedes dieser zweiten Teilsignale (f1, f2, f3) mit einem Rauschsignal amplitudenmoduliert wird.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß jedem amplitudenmodulierten zweiten Teilsignal ein in-1 1 1 vertiertes Signal (f1, f2, f3) gleicher Frequenz und zumindest annähernd gleicher Amplitude zugemischt wird.