DE102009032236A1

DE102009032236A1 - Sprachsyntheseverfahren

Info

Publication number: DE102009032236A1
Application number: DE102009032236A
Authority: DE
Inventors: Hans-Dieter Dr. Bauer; Axel Plinge
Original assignee: Forschungsgesellschaft fuer Arbeitsphysiologie und Arbeitsschutz eV
Current assignee: Forschungsgesellschaft fuer Arbeitsphysiologie und Arbeitsschutz eV
Priority date: 2008-12-29
Filing date: 2009-07-08
Publication date: 2010-07-01

Abstract

Die vorliegende Erfindung betrifft ein Sprachsyntheseverfahren, wobei zwei oder mehr Formantwellenformen jeweils durch Modulation eines bei einer Formantfrequenz oszillierenden Quellensignals mit einer Umhüllenden-Funktion erzeugt werden, die zwei oder mehr Formantwellenformen addiert werden und die addierten Formantwellenformen gemäß einer Pitch-Intervalllänge und gemäß suprasegmentaler Verkettungsregeln zu einem suprasegmentalen Sprachsignal verkettet werden. Um Sprachsignale mit weitestgehender Natürlichkeit synthetisieren zu können, wird mit der Erfindung vorgeschlagen, dass die Quellensignale bei der Erzeugung der Formantwellenformen frequenzmoduliert werden.

Description

Die vorliegende Erfindung betrifft ein Sprachsyntheseverfahren, wobei zwei oder mehr Formantwellenformen jeweils durch Modulation eines bei einer Formantfrequenz oszillierenden Quellensignals mit einer Umhüllenden-Funktion erzeugt werden, die zwei oder mehr Formantwellenformen addiert werden und die addierten Formantwellenformen gemäß einer Pitchintervalllänge und gemäß suprasegmentaler Verkettungsregeln zu einem suprasegmentalen Sprachsignal verkettet werden.
Des Weiteren betrifft die Erfindung einen Sprachsynthesizer mit Mitteln zur Erzeugung von zwei oder mehr Formantwellenformen jeweils durch Modulation eines bei einer Formantfrequenz oszillierenden Quellensignals mit einer Umhüllenden-Funktion, Mitteln zur Addition der zwei oder mehr Formantwellenformen und Mitteln zur Überlagerung und Verkettung der addierten Formantwellenformen gemäß einer Pitchintervalllänge zu einem Sprachsignal.
Übliche Verfahren für die Synthese stimmhaft angeregter Sprachsignale gehen von einem stationären Anregungsquellen-Filter-Modell aus. Formantvokoder, die mit stationären Filteransätzen arbeiten – sei es in Seriellstrukturen mit Transversalfilter per Linear Predictive Coding (LPC) oder in Parallelstrukturen mit anderen Koeffizienten gesteuert – können nur in begrenztem Maße die Natürlichkeit der synthetischen Sprache sicherstellen. Natürlichkeit ergibt sich dort quasi zufällig bei günstiger Wahl der Parameter oder erfordert die Einführung spezieller technischer Randbedingungen, z. B. Multi-Puls LPC.
Kausale Regeln, welche Natürlichkeit bei der Erzeugung synthetischer Sprache sicherstellen, werden nicht identifiziert.
Die Ursache für starke Unnatürlichkeit bei der Synthese von Sprachsignalen liegen im Auftreten von mit natürlicher Sprache konkurrierenden Perzepten:

1. Wahrnehmung von unnatürlicher Tonalität mit Tonhöhen in den Bereichen der Formantfrequenzen; sich daraus entwickelndes „Zwitschern” bei schnellen suprasegmentalen Änderungen der Formantfrequenzen;
2. Wahrnehmung von Tonalität mit Tonhöhen im Frequenzbereich der stimmlichen Anregung;
3. Wahrnehmung von Intonations-Betonungs/Rhythmusstörungen bei suprasegmentaler Verkettung von Anregungsperioden-Sequenzen durch inadäquat kontrollierte Modulation der Interferenzenergie bei Variation der Stimmtonhöhe;
4. Wahrnehmung von Identitätsänderungen bei Vokalen durch suprasegmental variierende Stimmtonhöhe bei gleichzeitig konstant gehaltenen Formantfrequenzen.

Bei Reizung des Ohres mit einem Sinussignal wird ein reiner Ton wahrgenommen. Die Qualität dieser Empfindung bezeichnet man mit Tonalität. Sprache enthält keine Tonalität und darf bei synthetischer Herstellung auch keine solche enthalten. Tonwahrnehmungen innerhalb von Sequenzen synthetischer Sprache sind Störungen. Frequenzänderungen von Komplexen, welche Tonalitätsstörungen beinhalten, können besonders störendes „Zwitschern” erzeugen.
Zur Vermeidung dieser „Unnatürlichkeits-Störungen” sind Syntheseregeln einzuführen, die auf Vorgänge bei der natürlichen Vokalartikulation zurückzuführen sind. Sie stellen modelltechnisch gesehen Verfeinerungen der bekannten Quelle-Filter-Synthesemodelle dar. Es liegt eine ungeeignete Vereinfachung bei den klassischen Methoden und Modellen darin, dass das oder die Artikulations-Hohlraumfilter im Verlauf einer stimmhaften Periode nicht nur als fast-stationär, sondern auch als verlustfrei oder zumindest als mit nur konstanten Verlusten behaftet angesehen werden kann, so dass eine lineare Differenzialgleichung mit periodenzeit-invarianten, festen Resonanzfrequenzen und festen Abklingzeiten fälschlicherweise zur Beschreibung verwendet wird. Auch Modelle für das menschliche Hören, deren zentrale Hypothese darin besteht, dass lediglich die Schallleistungsverteilung auf der Basilarmembran die Basis für eine kognitive Signalauswertung ist, leisten der Anschauung Vorschub, dass einfache, stationäre Spracherzeugungsmodelle zur Beschreibung ausreichend seien. Es wird nicht berücksichtigt, dass auch Signalfeinstrukturen in der Pitchperiode differenzierte Wirkungen hervorrufen können.
Vor diesem Hintergrund ist es die Aufgabe der vorliegenden Erfindung, ein Sprachsyntheseverfahren sowie einen Sprachsyntheziser zur Verfügung zu stellen, welche die oben genannten Nachteile nicht aufweisen und eine Synthese von weitestgehend als natürlich empfundenen Sprachsignalen ermöglichen.
Diese Aufgabe wird bei einem Syntheseverfahren der eingangs genannten Art dadurch gelöst, dass die Quellensignale bei der Erzeugung der Formantwellenformen frequenzmoduliert werden.
Erfindungsgemäß wird somit Tonalität bei repetitiven Wellenformen, die primär aus Sinussignal-Paketen bestehen, durch Frequenzmodulation weitestgehend beseitigt. Mit Hilfe der Frequenzmodulation werden die bei der jeweiligen Formantfrequenz oszillierenden Quellensignale nach einer vorgegebenen Funktion gewobbelt. Hierdurch liegt eine Frequenzmodulation der ursprünglich frequenzkonstanten Wellenform vor. Die hierdurch variierende Frequenz des Quellensignals verhindert, dass die Basilarmembran im Zeitmittel nur eine schmale Verteilung von Zeitintervallen im akustischen Nerv produziert. Die Verteilung wird durch die Frequenzmodulation verbreitert. Die Frequenzlage des cortikal extrahierten Maximums der Verteilung wird (kontrollierbar) undefinierter. Durch eine geeignete Parameterwahl ist zu erreichen, dass die cortikale Zuordnung der kognitiven Wahrnehmungsklasse „einzelner reiner Ton” nicht mehr möglich ist. Die Wahrnehmung von Tonalität kann weitestgehend geschwächt werden, und es kann insbesondere erreicht werden, dass die Existenz von Tonalitätswahrnehmungen gänzlich verschwindet.
Nach einer vorteilhaften Ausgestaltung der Erfindung ist die Frequenzmodulation der Quellensignale zyklostationär. Diese Art der Frequenzmodulation ist praktisch besonders leicht realisierbar und erzeugt die gewünschte Natürlichkeit der synthetisierten Sprache.
Tonalität kann auch bei intermittierend angebotenen Sinuspaketen quasi hinter der Repetitionstonhöhe herausgehört werden. Das gilt besonders auch bei den stimmperiodisch repetierten Sinus-Bursts von Formantwellenformen. Das Perzept Tonalität kann somit über kurze Pausen integriert werden. Bei verkürzter Tastzeit schwächt sich dieses Perzept ab und verschwindet quasi in der Stärke der Perioditäts-Pitch-Wahrnehmung.
Nach einer weiteren vorteilhaften Ausgestaltung der Erfindung ist vorgesehen, dass bei der Überlagerung und Verkettung der Formantwellenformen keine störenden Interferenz-bedingten Umhüllendenschwankungen auftreten. Das bedeutet, dass die Überlappung aufeinander folgender Pitchwellenformen kontrolliert werden muss, was durch Pitch-abhängige Adaption der Wellenpaketlänge, durch Modifikation der Längen H und A (vgl. 1) erreicht wird. Vorzugsweise erfolgt die Verkettung der frequenzmodulierten Wellenpakete derart durch pitchadaptive Umhüllendenformung, dass keine wahrnehmbaren Störungen durch Modulation im Überlagerungsbereich der Wellenzüge auftreten.
Gemäß einer weiteren vorteilhaften Ausgestaltung der Erfindung hängt der Modulationshub der Frequenzmodulation bei der Erzeugung der Formantwellenformen von der jeweiligen mittleren Formantfrequenz ab. Da das erfindungsgemäß frequenzgewobbelte Sinuspaket einen optimal klassifizierbaren Vokalformanten darstellen soll, kann die Frequenz eines Quellensignals nicht beliebig weit von der ursprünglichen Sinusfrequenz ausgelenkt werden. Es darf nicht passieren, dass der kognitive Bereich des „guten Vokalprototypen” verlassen wird. Dies kann durch entsprechende Vorgaben von Bereichsfunktionen erreicht werden. Bei natürlicher Artikulation enthält eine Formantfrequenz innerhalb einer Periode starke Mikro-Schwankungen. Dies mag der Grund dafür sein, dass bei natürlicher Artikulation Tonalität niemals ein Problem ist. Die Ausdehnung der Existenzbereiche der Vokale, soweit diese von zwei Formanten ohne Variation der Frequenz der Quellensignale aufgespannt werden, kann durch psychophysische Versuche zuvor ermittelt werden. Diese Ausdehnung der jeweiligen Existenzbereiche beider Formanten hängt im Wesentlichen von der mittleren Lage der Formanten auf der Basilarmembran ab. Bei der Synthese von 2-formantigen Vokalen können für die beiden oszillierenden Quellensignale beispielsweise die folgenden zwei Bereichsfunktionen vorgegeben werden: Eine für erste Formanten im Bereich von bis zu 1000 Hz und eine für zweite Formanten im Bereich von 500 Hz bis 4 kHz. Der erlaubte Wobbelbereich nimmt stark mit steigender Frequenz zu.
Zweckmäßigerweise beträgt der Modulationshub der Frequenzmodulation bis zu 20%, vorzugsweise bis zu 10% der jeweiligen mittleren Formantfrequenz. Bevorzugt ist der Modulationshub der Frequenzmodulation bei der Synthese weiblicher Sprache kleiner als bei der Synthese männlicher Sprache. Die typische Abweichung für männliche Sprecher liegt beispielsweise für breite u-Formanten unter 200 Hz bei konstant 10%, fällt dann (prozentual) linear bis 1 kHz und steigt bis 4 kHz wieder leicht an. Bei hohem Pitch weiblicher Sprecher kann weniger Frequenzmodulation verwendet werden. Es wird beispielsweise die bei Männern gewählte prozentuale Abweichung halbiert.
Eine weitere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass bei der Überlagerung und Verkettung der addierten Formantwellenformen die Pitchintervalllänge variiert wird. Bei suprasegmentalen Verkettungen von stimmhaften Segmenten wird bevorzugt eine randomisierte Variation der Pitchintervalllänge eingeführt, wobei die maximal vorkommende Abweichung vorab festlegbar ist. Diese Ausgestaltung dient der Vermeidung des Auftretens von Tonalität bei äquivalenter Synthese stimmhafter Pitch-Anregungs-Intervalle. Eine exakt wiederholte Pitchwellenform erzeugt bei neuronaler Auswertung der Repetitionsintervalle eine sehr schmale und energiereiche Häufigkeitsverteilung der Pitchintervall-zugeordneten Impulsspikes im akustischen Nerv; denkbar als Kreuzkorrelation. Die resultierende Stärke der Wiederhol-Häufigkeitsverteilung bei einer Synthese mit exakt gleichen Pitch-Wiederholintervallen ist sprachuntypisch, da eine < 1%-ige Genauigkeit der Repetition über mehrere Perioden beim natürlichen Sprechen nicht vorkommt. Insgesamt soll somit eine Langzeitkonstanz bei suprasegmentalen Pitchkonturen vermieden werden. Nach vorteilhafter Ausgestaltung der Erfindung wird die Pitchintervalllänge so variiert, dass ihr momentaner Wert mit stochastischen Schwankungen versehen wird, die maximal 1% bis 2% bei der Synthese männlicher Sprecher, aber nur < 0,5% bei der Synthese weiblicher Sprecher betragen.
Eine weitere vorteilhafte Ausgestaltung sieht zusätzlich eine Regel vor, nach der eine absolute Konstanz des stilisiert synthetisierten Pitchverlaufs (ohne die vorgenannten stochastischen Schwankungen) über ein typisches Silbenintervall (ca. 200 ms) untersagt wird; die Abweichung von einem Horizontalverlauf muss hier > 3% betragen.
Es wird weiter vorgeschlagen, dass die Umhüllenden-Funktionen aus drei zeitlich aufeinander folgenden Segmenten, nämlich einem Einschwingsegment, in dem die Amplitude des Quellensignals von Null ausgehend ansteigt, einem Haltesegment, in dem die Amplitude des Quellensignals konstant ist, und einem Ausschwingsegment, in dem die Amplitude des Quellensignals wieder auf Null abfällt, besteht. Die Fensterung des Quellensignals durch das Einschwingsegment wird vorzugsweise als Funktion der Formantfrequenz gewählt. Die zugrunde liegende Modellvorstellung ist, dass bei natürlicher Artikulation das Einschwingsegment durch das abrupte Schließen der Glottis ausgelöst wird. Die Umhüllendenanstiegssteilheit ist durch die „Filtergüte” des Hohlraums bei geschossener Glottis gegeben. Die Güte variiert mit der Formantresonanzfrequenz. Vorzugsweise ist auch die zeitliche Länge des Haltesegmentes von der Frequenz abhängig. Diese Phase wird approximativ als weitgehend konstanter Zustand der Hohlraumschwingung bei geschlossener Glottis aufgefasst. Auch das Ausschwingsegment wird analog zum Einschwingvorgang mit einem Fenster versehen, dessen Länge vorzugsweise von der Frequenz des Quellensignals abhängig gemacht wird. Während des Ausschwingsegmentes ändert sich der Zustand des Systems, so dass mit unterschiedlichen, variierenden Verlusten gerechnet werden muss, die ihrerseits das Ausschwingsegment beeinflussen können. Diese Systemannahme wird verwendet, um später das Ausschwingsegment als Funktion der Pitchfrequenz naturnah zu variieren. Um unerwünschte Tonalität zu verhindern und maximale Natürlichkeit zu erreichen, sollten die Segmente der Umhüllenden-Funktion als Funktion der Frequenzen der Quellensignale beispielsweise wie folgt verändert werden: Für das Haltesegment werden lineare Segmentfunktionen in drei Trägerfrequenzbereichen verwendet. Das Ausschwingsegment wird als prozentualer Anteil der Pitchperiode festgelegt. Der prozentuale Anteil ist eine Funktion der Frequenz des Quellensignals, die vorzugsweise unter 800 Hz konstant gewählt wird und darüber linear bis 4 kHz abfällt.
Gemäß einer weiteren vorteilhaften Ausgestaltung der Erfindung hängen die Dauer des Einschwingsegments, des Haltesegments und/oder des Ausschwingsegments von der Pitchintervalllänge ab. Zweckmäßigerweise wird bei sinkender Pitchintervalllänge zunächst die Dauer des Ausschwingsegmentes bis auf einen Minimalwert verkürzt und dann die Dauer des Haltesegments verkürzt, so dass Interferenzen von Formantwellenformen aufeinander folgender Pitchintervalle vermieden werden. Durch eine kaskadierende Verkürzungsstrategie wird erreicht, dass zunächst keine ungewollte Bandbreitenerhöhung stattfindet. Nach Verkürzung des Ausschwingsegmentes wird bei weiterem Anstieg der Anregungsfrequenz das Haltesegment der Formantwellenform verkürzt, im Grenzfall verschwindet das Haltesegment vollständig. Die Dauer des Einschwingsegmentes entspricht vorzugsweise einer ganzzahligen Anzahl von Nulldurchgängen der Oszillationen des Quellensignals. Die Anzahl der Nulldurchgänge ist als Funktion der Formant-Mittelfrequenz festgelegt. Sie steigt vorzugsweise bis 1 kHz an, um ein realitätsnahes Einschwingverhalten niedriger Formanten zu erhalten. Von 1 bis 2,6 kHz steigt sie vorzugsweise flacher weiter bis 3 kHz an und fällt danach mit hoher Steigung wieder ab. Es wird so verhindert, dass Perioden mit resultierendem unnatürlich überdeutlichem Perzept des zweiten Formanten auftreten – wenn denn ein naturnahes Perzept und kein überdeutliches gewünscht wird. Wenn allerdings letzteres doch gewünscht wird, um die Verständlichkeit in Gegenwart von Lärm zu erhöhen, kann auch eine „Überdeutlich”-Einstellung gewählt werden.
Nach klassischen Modellen gibt es keine in der Pitchperiode variierende Verlust- oder Absorptionsfunktionen. Dann sind die unabhängig gedachten Formantwellenformen linear zu superponieren. In diesen Fällen würden bei großer Überlappung zwischen den Perioden bei fester Artikulationskonfiguration Anregungsfrequenz-abhängige Interferenzmodulationen als Funktion des Anregungsfrequenzverlaufes resultieren. Das ist bei realer Sprache nicht festzustellen. Zur Unterdrückung solcher Interferenzmodulationen von Formantwellenformen aufeinander folgender Pitchintervalle wird daher vorzugsweise eine Wellen-Dämpfung durchgeführt, welche beispielsweise als Funktion der Glottis-Öffnung das Halte- und das Ausschwingsegment beeinflusst. Von Vorteil ist, wenn das Ausschwingsegment der Umhüllenden-Funktion so ausgebildet ist, dass die Amplitude zum Ende des Pitchintervalls auf höchstens 35%, vorzugsweise auf höchsten 25% der während des Haltesegments konstanten Amplitude abgefallen ist. Der Wert der Endamplitude wird vorzugsweise Pitch-adaptiv festgesetzt.
Es wird weiter als vorteilhaft erachtet, wenn das Sprachsignal eine Hochpassfilterung erfährt. Vorzugsweise erfolgt eine Hochpassfilterung mittels eines IIR-Filters mit einer Cutoff-Frequenz von 100 Hz. Hierdurch können unerwünschte niederfrequente Signalanteile eliminiert werden, die durch Superposition von Wellenformen bei variabler Pitchintervalllänge entstehen.

Sofern gemäß der Erfindung 2-Formant-Vokale synthetisiert werden sollen, muss noch der relative Amplitudenunterschied der beiden festgelegt werden. Das Pegelverhältnis wird als zweidimensionale Funktion abhängig von den Frequenzen der ersten und der zweiten Formanten (F1 bzw. F2) definiert. Die unten dargestellte Tabelle zeigt Werte für typische Vokallagen. Auf dieser Basis können für Zwischenlagen Verhältniswerte aus den tabellierten Stützstellen interpoliert werden. Dazu wird einmalig die Triangulation der F1/F2-Stützpunkte berechnet und dann jeder benötigte Wert als Punkt auf einer Ecke-Seiten-Strecke des umgebenden Dreiecks berechnet. Die Werte werden dabei durch Abgleich des sich ergebenden Synthese-Spektrums mit dem Spektrum von natürlichen Lauten nach der Vorgabe aller anderen Parameter ermittelt. Der F1/F2-Wert für „i” (200/2800) wurde mit –12 dB eher hoch geschätzt, um die Synthese nicht unnötig schlecht verständlich zu gestalten. Die folgende Tabelle gibt passende Vorgaben an:

I Vokal	F1 [Hz]	F2 [Hz]	E2/E1 [dB]
U	250	700	–12.00
O	380	600	–6.00
A	800	1250	–6.00
I	200	2800	–12.00
Ä	578	2019	–4.00
E	330	2300	–9.00
Ü	210	1700	–15.00
Ö	365	1400	–10.00
@	500	1200	–9.00
0	550	600	–9.00

Klassische Formantvokoderansätze haben als Erkenntnis die Beschreibung populär gemacht, dass für die Kognition von stimmhaft angeregten Lauten, besonders Vokalen, die Dimensionalität des Klang-Klassifizierraums eine Größenordnung von nicht mehr als 2 besitzt. Wobei die kognitiv klangwirksamen höheren Formantlagen zum Teil durch perzeptive Fusion von mehreren Artikulations-Resonanz-Formanten entstehen. Um eine für Sprachausgabe akzeptable Natürlichkeit zu erreichen, müssen nicht nur die Maxima der Synthesefilter exakt definiert sein, sondern auch die spektralen Abklingfunktionen. Unklar ist, welches kognitive Teil-Perzept durch unterschiedliche Resonanz-„Füße” beeinflusst wird. Untersuchungen haben gezeigt, dass durch die Energieverteilung in den spektralen Tälern des Sprachsignals wesentlich die Wahrnehmungsstärke der Anregungs-Repetition, also der Stimmtonhöhe (pitch) bestimmt wird. Z. B. trägt bei „ä” die Spektrumsgegend unterhalb des zweiten Formanten besonders stark zum Gesamtperzept des „ä” bei. Auch beim „a” ist substantielle Tal-Energie erforderlich, um akzeptable Natürlichkeit zu bekommen. Um nicht hohl zu klingen, benötigt das „a” substantielle Energie unterhalb des ersten Formanten. Um also die Wahrnehmungen „Hohlheit” und „fehlende Repetitions-Stärke” zu vermeiden, wird gemäß der Erfindung vorzugsweise, vor allem für bessere Natürlichkeit bei den Vokalen „ä” und „a”, eine dritte Synthesekomponente eingeführt: Außer dem ersten und dem zweiten Formanten wird in begrenzten Bereichen der Vokal-Ebene, die aus eben diesen aufgespannt wird, zusätzliche Signalintensität mit lageabhängigem Pegel und Frequenzgehalt hinzugefügt. Diese dritte Komponente kann ein gefilterter Kunstglottisimpuls sein, der aus einem Basisimpuls erzeugt wird. Er enthält somit spektral bestimmte repetitive Tal-Energien, die unterschiedliche resonanzfreie, bandbegrenzte Pitch-Linienspektren in definierten unterschiedlichen Bereichen der F1/F2-Ebene (Vokalkarte) aufweisen. Dazu kann ein Anregungsimpuls mit einem FIR-Filter gefiltert werden. Um ein vorgegebenes Zielspektrum zu erreichen, wird dieses FIR-Filter nach der Vorgabe H(f) abzüglich des Eigenspektrums des Impulses H_l(f) gewählt, so dass das Spektrum des gefilterten Impulses möglichst genau der Vorgabe entspricht. Das vorgegebene Spektrum kann beispielsweise im Falle des „a” ein Tiefpass mit einer Eckfrequenz bei 400 Hz sein. Als Impuls kann eine einzelne Sinus-Schwingung mit T = 2 ms gewählt werden.
Das erfindungsgemäße Verfahren ermöglicht die Synthese „superdeutlicher” Vokale, was z. B. vorteilhaft zur Erzeugung von Testsignalen für die Anpassung von Hörgeräten ist. Weiterhin sind solche Vokale für Personen mit Hördefiziten besser verständlich. Durch die beschriebene erfindungsgemäße Vorgehensweise wird es nämlich möglich, das Signal-Rausch-Verhältnis der merkmalstragenden Komponenten des Sprachsignals und damit die neuronale Korrelationsstärke pro Vokalklasse zu maximieren. Die spektrale Talabsenkung und damit der spektrale Modulationsgrad werden so weit getrieben, wie dies die Natürlichkeits-Randbedingungen zulassen. Die Vokal-definierenden Formanten werden mit Formant-Fenstern mit maximaler temporaler Länge bei adäquater Frequenzmodulation erzeugt. Durch die Zeitverlängerung bei höheren Formanten relativ zu natürlichen Fensterlängen und durch die Konzentration der merkmalstragenden Energien mit maximaler Ausdehnung in den perzeptiv effektiven spektralen Merkmals-Detektions-Bereichen lassen sich superdeutliche bzw. super(rausch)störungsresistente Vokalprototypen erzeugen, wobei sich ein besonderer Vorteil bei Sprachausgabe mit solchermaßen erzeugten Vokalen in gestörten Umgebungen ergibt.
Mit der Erfindung wird ferner vorgeschlagen, dass bei Änderung der Pitchintervalllänge die (mittleren) Formantfrequenzen pitch-abhängig variiert werden, und zwar in der Weise, dass die Formantfrequenzen bei Verkürzung der Pitchintervalllänge erhöht werden. Hierdurch können natürlich intonierte, rhythmusbehaftete, suprasegmentale Sequenzen erzeugt werden, in denen eine naturnahe perzeptive Vokalstabilität gewährleistet ist. Für eine als natürlich empfundene Synthese werden allein die messbaren erforderlichen Formantänderungen als Funktion von Pitchänderungen benötigt, die für den optimalen Identitätserhalt des Vokalbildes erforderlich sind. Wenn bei deutlichen Variationen, besonders bei Hebungen, der Stimmtonhöhe die mittlere Formantfrequenzlage konstant beibehalten wird, kann dies nicht nur zu einem Eindruck von Unnatürlichkeit führen, die Wahrnehmung kann bei erheblichen Verschiebungen der mittleren Pitchlage eine Klassengrenze überspringen, so dass der Vokal perzeptiv in eine andere Klasse mutieren kann (Mann-Frau-Kind-Sopran). Im Bereich der umgangssprachlich auftretenden Pitch-Intonationsvariationen, einschließlich der Mann-Frau-Unterschiede, findet man also, dass zur Verhinderung dieser Störungen der Vokal-Wahrnehmungskonstanz die Formantlagen im suprasegmentalen Zeitmaßstab nach eindeutigen Funktionen verändert werden müssen. Der perzeptive und kognitive Mechanismus, der der festgestellten Vokalkonstanz zugrunde liegt, ist bislang nicht vollständig aufgeklärt. Es gibt nach derzeitigen Evaluierungen mehrere Mechanismen und Transformationen, deren Wirksamkeit vermutet werden muss. Bei Synthese isolierter Vokale mit einfacher, fast konstant gehaltener, einsegmentiger Pitchkontur kann die Formantfrequenz in gleicher Art und Weise wie bei komplexen suprasegmentalen Pitchkonturen mitvariiert werden. Bei Einführung von intonationsbedingten komplizierteren Pitchkonturen ist es wesentlich, dass die Formantfrequenzen in die gleiche Richtung variiert werden, die von der Pitchänderung vorgegeben wird. Dazu kann beispielsweise eine Mitkopplung von 1 bis 5% Formantfrequenzänderung bei 10% Pitchänderung im Suprasegment verwendet werden. Bei Plosiven ist die spektrale Bewegung der Formanten hin zum zentralen Plosiv-Frequenz-Schwerpunkt bzw. Maximum quasi als Nachahmung der Koartikulation natürlichkeits- und klarheitsfördernd und kann mit diesem Verfahren über die Formantkorrektur-Funktion, die bislang für die Pitchanpassung zuständig ist, ebenfalls eingeführt werden.
Die zentralen Merkmale der vorliegenden Erfindung werden im Folgenden anhand der Figur beispielhaft erläutert. Dabei zeigt die 1 eine Darstellung der erfindungsgemäßen Frequenzmodulation des Quellensignals bei der Erzeugung einer Formantwellenform.
1 zeigt im oberen Teil eine Umhüllende 1 einer Formantwellenform. Die Formantwellenform wird durch Modulation eines bei einer Formantfrequenz oszillierenden Quellensignals mit der Umhüllenden-Funktion 1 erzeugt. Rechts und links der Umhüllenden 1 sind gepunktet zeitlich vorangehende bzw. folgende Umhüllende 2, 3 weiterer Formantwellenformen des Sprachsignals dargestellt. Derartige verkettete und überlagerte Wellenformen bilden insgesamt das synthetisierte Sprachsignal. Die Formantwellenform besteht aus den zeitlich aufeinander folgenden Segmenten Einschwingsegment E, Haltesegment H und Ausschwingsegment A, welche gemäß dem oben beschriebenen Verfahren erzeugt werden, wobei das Ausschwingsegment A einer vorangehenden Formantwellenform das Einschwingsegment E der folgenden Formantwellenform, je nach Pitchintervalllänge, zeitlich überlappt.
Die beiden unteren Grafiken zeigen Ausführungsbeispiele für Funktionen, mit denen das Quellensignal bei der Erzeugung der Formantwellenform frequenzmoduliert, um das Auftreten von Tonalität zu verhindern. Es wird um die Mitte des Haltesegmentes H zentriert eine vollständige (obere Funktion) oder eine halbe (untere Funktion) Sinusschwingung verwendet, die im gezeigten Fall bis etwa y = 75% in das Einschwingsegment E hineinragt. Der Modulationshub x beträgt in den Ausführungsbeispielen etwa 10%.

Claims

Sprachsyntheseverfahren, wobei – zwei oder mehr Formantwellenformen jeweils durch Modulation eines bei einer Formantfrequenz oszillierenden Quellensignals mit einer Umhüllenden-Funktion erzeugt werden, – die zwei oder mehr Formantwellenformen addiert werden und – die addierten Formantwellenformen gemäß einer Pitchintervalllänge und gemäß suprasegmentaler Verkettungsregeln zu einem suprasegmentalen Sprachsignal verkettet werden, dadurch gekennzeichnet, dass die Quellensignale bei der Erzeugung der Formantwellenformen frequenzmoduliert werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Frequenzmodulation der Quellensignale zyklostationär ist.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Verkettung der frequenzmodulierten Wellenpakete derart durch pitchadaptive Umhüllendenformung erfolgt, dass keine wahrnehmbaren Störungen durch Modulation im Überlagerungsbereich der Wellenzüge auftreten.
Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass der Modulationshub der Frequenzmodulation bei der Erzeugung der Formantwellenformen von der jeweiligen mittleren Formantfrequenz abhängt.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass der Modulationshub der Frequenzmodulation bis zu 20%, vorzugsweise bis zu 10% der jeweiligen mittleren Formantfrequenz beträgt.
Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass der Modulationshub der Frequenzmodulation bei der Synthese weiblicher Sprache kleiner ist als bei der Synthese männlicher Sprache.
Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, das bei der Überlagerung und Verkettung der addierten Formantwellenformen die Pitchintervalllänge variiert wird.
Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die Pitchintervalllänge zufällig variiert wird.
Verfahren nach Anspruch 7 oder 8, dadurch gekennzeichnet, dass die Pitchintervalllänge so variiert wird, dass der stilisierte Momentanwert um vorzugsweise 1% bis 2% bei der Synthese männlicher Stimmen und bis zu 0.5% bei der Synthese weiblicher Stimmen vom lokalen Mittelwert abweicht.
Verfahren nach Anspruch 8 oder 9, dadurch gekennzeichnet, dass horizontale, d. h. konstante Pitch-Stilisierungssegmente vermieden werden und dass vorzugsweise bei der Synthese von fast konstantem Pitchverlauf über typische Silbensegmentlängen von etwa 200 ms eine Pitchsteigung von mindestens 3% gewählt wird.
Verfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass die Umhüllenden-Funktion aus drei zeitlich aufeinander folgenden Segmenten, nämlich einem Einschwingsegment, in dem die Amplitude des Quellensignals von Null ausgehend ansteigt, einem Haltesegment, in dem die Amplitude des Quellensignals konstant ist, und einem Ausschwingsegment, in dem die Amplitude des Quellensignals wieder auf Null abfällt, besteht.
Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass die Dauer des Einschwingsegments, des Haltesegments und/oder des Ausschwingsegments von der Pitchintervalllänge abhängen.
Verfahren nach Anspruch 12, dadurch gekennzeichnet, dass bei sinkender Pitchintervalllänge zunächst die Dauer des Ausschwingsegments bis auf einen Minimalwert verkürzt wird und dann die Dauer des Haltesegments verkürzt wird, so dass Interferenzen von Formantwellenformen aufeinander folgender Pitchintervalle vermieden werden.
Verfahren nach einem der Ansprüche 9 bis 13, dadurch gekennzeichnet, dass die Dauer des Einschwingsegments einer ganzzahligen Anzahl von Nulldurchgängen der Oszillation des Quellensignals entspricht.
Verfahren nach einem der Ansprüche 9 bis 14, dadurch gekennzeichnet, dass das Ausschwingsegment der Umhüllenden-Funktion so ausgebildet ist, dass die Amplitude zum Ende des Pitchintervalls auf höchstens 35%, vorzugsweise auf höchstens 25% der während des Haltesegments konstanten Amplitude abgefallen ist.
Verfahren nach einem der Ansprüche 1 bis 15, gekennzeichnet durch eine Hochpassfilterung des verketteten Sprachsignals.
Verfahren nach Anspruch 16, dadurch gekennzeichnet, dass die Hochpassfilterung mittels eines IIR-Filters mit einer Cutoff-Frequenz von 100 Hz erfolgt.
Verfahren nach einem der Ansprüche 1 bis 17, dadurch gekennzeichnet, dass bei Änderung der Pitchintervalllänge die Formantfrequenzen pitch-abhängig variiert werden, und zwar in der Weise, dass die Formantfrequenzen bei Verkürzung der Pitchintervalllänge erhöht werden.
Sprachsynthesizer mit – Mitteln zur Erzeugung von zwei oder mehr Formantwellenformen jeweils durch Modulation eines bei einer Formantfrequenz oszillierenden Quellensignals mit einer Umhüllenden-Funktion, – Mitteln zur Addition der zwei oder mehr Formantwellenformen, und – Mitteln zur Überlagerung und Verkettung der addierten Formantwellenformen gemäß einer Pitchintervalllänge zu einem Sprachsignal, dadurch gekennzeichnet, dass der Sprachsynthesizer zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 17 eingerichtet ist.