-
Die
vorliegende Erfindung betrifft ein Sprachsyntheseverfahren, wobei
zwei oder mehr Formantwellenformen jeweils durch Modulation eines
bei einer Formantfrequenz oszillierenden Quellensignals mit einer
Umhüllenden-Funktion
erzeugt werden, die zwei oder mehr Formantwellenformen addiert werden
und die addierten Formantwellenformen gemäß einer Pitchintervalllänge und
gemäß suprasegmentaler
Verkettungsregeln zu einem suprasegmentalen Sprachsignal verkettet
werden.
-
Des
Weiteren betrifft die Erfindung einen Sprachsynthesizer mit Mitteln
zur Erzeugung von zwei oder mehr Formantwellenformen jeweils durch Modulation
eines bei einer Formantfrequenz oszillierenden Quellensignals mit
einer Umhüllenden-Funktion,
Mitteln zur Addition der zwei oder mehr Formantwellenformen und
Mitteln zur Überlagerung
und Verkettung der addierten Formantwellenformen gemäß einer
Pitchintervalllänge
zu einem Sprachsignal.
-
Übliche Verfahren
für die
Synthese stimmhaft angeregter Sprachsignale gehen von einem stationären Anregungsquellen-Filter-Modell
aus. Formantvokoder, die mit stationären Filteransätzen arbeiten – sei es
in Seriellstrukturen mit Transversalfilter per Linear Predictive
Coding (LPC) oder in Parallelstrukturen mit anderen Koeffizienten
gesteuert – können nur
in begrenztem Maße
die Natürlichkeit
der synthetischen Sprache sicherstellen. Natürlichkeit ergibt sich dort
quasi zufällig
bei günstiger
Wahl der Parameter oder erfordert die Einführung spezieller technischer
Randbedingungen, z. B. Multi-Puls LPC.
-
Kausale
Regeln, welche Natürlichkeit
bei der Erzeugung synthetischer Sprache sicherstellen, werden nicht
identifiziert.
-
Die
Ursache für
starke Unnatürlichkeit
bei der Synthese von Sprachsignalen liegen im Auftreten von mit
natürlicher
Sprache konkurrierenden Perzepten:
- 1. Wahrnehmung
von unnatürlicher
Tonalität
mit Tonhöhen
in den Bereichen der Formantfrequenzen; sich daraus entwickelndes „Zwitschern” bei schnellen
suprasegmentalen Änderungen
der Formantfrequenzen;
- 2. Wahrnehmung von Tonalität
mit Tonhöhen
im Frequenzbereich der stimmlichen Anregung;
- 3. Wahrnehmung von Intonations-Betonungs/Rhythmusstörungen bei
suprasegmentaler Verkettung von Anregungsperioden-Sequenzen durch
inadäquat
kontrollierte Modulation der Interferenzenergie bei Variation der
Stimmtonhöhe;
- 4. Wahrnehmung von Identitätsänderungen
bei Vokalen durch suprasegmental variierende Stimmtonhöhe bei gleichzeitig
konstant gehaltenen Formantfrequenzen.
-
Bei
Reizung des Ohres mit einem Sinussignal wird ein reiner Ton wahrgenommen.
Die Qualität dieser
Empfindung bezeichnet man mit Tonalität. Sprache enthält keine
Tonalität
und darf bei synthetischer Herstellung auch keine solche enthalten.
Tonwahrnehmungen innerhalb von Sequenzen synthetischer Sprache sind
Störungen.
Frequenzänderungen
von Komplexen, welche Tonalitätsstörungen beinhalten,
können
besonders störendes „Zwitschern” erzeugen.
-
Zur
Vermeidung dieser „Unnatürlichkeits-Störungen” sind Syntheseregeln
einzuführen, die
auf Vorgänge
bei der natürlichen
Vokalartikulation zurückzuführen sind.
Sie stellen modelltechnisch gesehen Verfeinerungen der bekannten
Quelle-Filter-Synthesemodelle dar. Es liegt eine ungeeignete Vereinfachung
bei den klassischen Methoden und Modellen darin, dass das oder die
Artikulations-Hohlraumfilter im Verlauf einer stimmhaften Periode
nicht nur als fast-stationär,
sondern auch als verlustfrei oder zumindest als mit nur konstanten
Verlusten behaftet angesehen werden kann, so dass eine lineare Differenzialgleichung
mit periodenzeit-invarianten, festen Resonanzfrequenzen und festen
Abklingzeiten fälschlicherweise
zur Beschreibung verwendet wird. Auch Modelle für das menschliche Hören, deren zentrale
Hypothese darin besteht, dass lediglich die Schallleistungsverteilung
auf der Basilarmembran die Basis für eine kognitive Signalauswertung
ist, leisten der Anschauung Vorschub, dass einfache, stationäre Spracherzeugungsmodelle
zur Beschreibung ausreichend seien. Es wird nicht berücksichtigt, dass
auch Signalfeinstrukturen in der Pitchperiode differenzierte Wirkungen
hervorrufen können.
-
Vor
diesem Hintergrund ist es die Aufgabe der vorliegenden Erfindung,
ein Sprachsyntheseverfahren sowie einen Sprachsyntheziser zur Verfügung zu
stellen, welche die oben genannten Nachteile nicht aufweisen und
eine Synthese von weitestgehend als natürlich empfundenen Sprachsignalen
ermöglichen.
-
Diese
Aufgabe wird bei einem Syntheseverfahren der eingangs genannten
Art dadurch gelöst, dass
die Quellensignale bei der Erzeugung der Formantwellenformen frequenzmoduliert
werden.
-
Erfindungsgemäß wird somit
Tonalität
bei repetitiven Wellenformen, die primär aus Sinussignal-Paketen bestehen,
durch Frequenzmodulation weitestgehend beseitigt. Mit Hilfe der
Frequenzmodulation werden die bei der jeweiligen Formantfrequenz
oszillierenden Quellensignale nach einer vorgegebenen Funktion gewobbelt.
Hierdurch liegt eine Frequenzmodulation der ursprünglich frequenzkonstanten
Wellenform vor. Die hierdurch variierende Frequenz des Quellensignals
verhindert, dass die Basilarmembran im Zeitmittel nur eine schmale
Verteilung von Zeitintervallen im akustischen Nerv produziert. Die
Verteilung wird durch die Frequenzmodulation verbreitert. Die Frequenzlage
des cortikal extrahierten Maximums der Verteilung wird (kontrollierbar)
undefinierter. Durch eine geeignete Parameterwahl ist zu erreichen,
dass die cortikale Zuordnung der kognitiven Wahrnehmungsklasse „einzelner
reiner Ton” nicht mehr
möglich
ist. Die Wahrnehmung von Tonalität
kann weitestgehend geschwächt
werden, und es kann insbesondere erreicht werden, dass die Existenz
von Tonalitätswahrnehmungen gänzlich verschwindet.
-
Nach
einer vorteilhaften Ausgestaltung der Erfindung ist die Frequenzmodulation
der Quellensignale zyklostationär.
Diese Art der Frequenzmodulation ist praktisch besonders leicht
realisierbar und erzeugt die gewünschte
Natürlichkeit
der synthetisierten Sprache.
-
Tonalität kann auch
bei intermittierend angebotenen Sinuspaketen quasi hinter der Repetitionstonhöhe herausgehört werden.
Das gilt besonders auch bei den stimmperiodisch repetierten Sinus-Bursts
von Formantwellenformen. Das Perzept Tonalität kann somit über kurze
Pausen integriert werden. Bei verkürzter Tastzeit schwächt sich
dieses Perzept ab und verschwindet quasi in der Stärke der Perioditäts-Pitch-Wahrnehmung.
-
Nach
einer weiteren vorteilhaften Ausgestaltung der Erfindung ist vorgesehen,
dass bei der Überlagerung
und Verkettung der Formantwellenformen keine störenden Interferenz-bedingten
Umhüllendenschwankungen
auftreten. Das bedeutet, dass die Überlappung aufeinander folgender
Pitchwellenformen kontrolliert werden muss, was durch Pitch-abhängige Adaption
der Wellenpaketlänge,
durch Modifikation der Längen
H und A (vgl. 1) erreicht wird. Vorzugsweise
erfolgt die Verkettung der frequenzmodulierten Wellenpakete derart
durch pitchadaptive Umhüllendenformung,
dass keine wahrnehmbaren Störungen
durch Modulation im Überlagerungsbereich
der Wellenzüge
auftreten.
-
Gemäß einer
weiteren vorteilhaften Ausgestaltung der Erfindung hängt der
Modulationshub der Frequenzmodulation bei der Erzeugung der Formantwellenformen
von der jeweiligen mittleren Formantfrequenz ab. Da das erfindungsgemäß frequenzgewobbelte
Sinuspaket einen optimal klassifizierbaren Vokalformanten darstellen
soll, kann die Frequenz eines Quellensignals nicht beliebig weit von
der ursprünglichen
Sinusfrequenz ausgelenkt werden. Es darf nicht passieren, dass der
kognitive Bereich des „guten
Vokalprototypen” verlassen
wird. Dies kann durch entsprechende Vorgaben von Bereichsfunktionen
erreicht werden. Bei natürlicher
Artikulation enthält
eine Formantfrequenz innerhalb einer Periode starke Mikro-Schwankungen. Dies
mag der Grund dafür
sein, dass bei natürlicher
Artikulation Tonalität
niemals ein Problem ist. Die Ausdehnung der Existenzbereiche der
Vokale, soweit diese von zwei Formanten ohne Variation der Frequenz
der Quellensignale aufgespannt werden, kann durch psychophysische
Versuche zuvor ermittelt werden. Diese Ausdehnung der jeweiligen
Existenzbereiche beider Formanten hängt im Wesentlichen von der mittleren
Lage der Formanten auf der Basilarmembran ab. Bei der Synthese von
2-formantigen Vokalen können
für die
beiden oszillierenden Quellensignale beispielsweise die folgenden
zwei Bereichsfunktionen vorgegeben werden: Eine für erste
Formanten im Bereich von bis zu 1000 Hz und eine für zweite
Formanten im Bereich von 500 Hz bis 4 kHz. Der erlaubte Wobbelbereich
nimmt stark mit steigender Frequenz zu.
-
Zweckmäßigerweise
beträgt
der Modulationshub der Frequenzmodulation bis zu 20%, vorzugsweise
bis zu 10% der jeweiligen mittleren Formantfrequenz. Bevorzugt ist
der Modulationshub der Frequenzmodulation bei der Synthese weiblicher Sprache
kleiner als bei der Synthese männlicher Sprache.
Die typische Abweichung für
männliche Sprecher
liegt beispielsweise für
breite u-Formanten unter
200 Hz bei konstant 10%, fällt
dann (prozentual) linear bis 1 kHz und steigt bis 4 kHz wieder leicht an.
Bei hohem Pitch weiblicher Sprecher kann weniger Frequenzmodulation
verwendet werden. Es wird beispielsweise die bei Männern gewählte prozentuale
Abweichung halbiert.
-
Eine
weitere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass
bei der Überlagerung
und Verkettung der addierten Formantwellenformen die Pitchintervalllänge variiert
wird. Bei suprasegmentalen Verkettungen von stimmhaften Segmenten
wird bevorzugt eine randomisierte Variation der Pitchintervalllänge eingeführt, wobei
die maximal vorkommende Abweichung vorab festlegbar ist. Diese Ausgestaltung
dient der Vermeidung des Auftretens von Tonalität bei äquivalenter Synthese stimmhafter Pitch-Anregungs-Intervalle.
Eine exakt wiederholte Pitchwellenform erzeugt bei neuronaler Auswertung der
Repetitionsintervalle eine sehr schmale und energiereiche Häufigkeitsverteilung
der Pitchintervall-zugeordneten Impulsspikes im akustischen Nerv;
denkbar als Kreuzkorrelation. Die resultierende Stärke der
Wiederhol-Häufigkeitsverteilung
bei einer Synthese mit exakt gleichen Pitch-Wiederholintervallen
ist sprachuntypisch, da eine < 1%-ige
Genauigkeit der Repetition über
mehrere Perioden beim natürlichen
Sprechen nicht vorkommt. Insgesamt soll somit eine Langzeitkonstanz
bei suprasegmentalen Pitchkonturen vermieden werden. Nach vorteilhafter Ausgestaltung
der Erfindung wird die Pitchintervalllänge so variiert, dass ihr momentaner
Wert mit stochastischen Schwankungen versehen wird, die maximal
1% bis 2% bei der Synthese männlicher
Sprecher, aber nur < 0,5%
bei der Synthese weiblicher Sprecher betragen.
-
Eine
weitere vorteilhafte Ausgestaltung sieht zusätzlich eine Regel vor, nach
der eine absolute Konstanz des stilisiert synthetisierten Pitchverlaufs (ohne
die vorgenannten stochastischen Schwankungen) über ein typisches Silbenintervall
(ca. 200 ms) untersagt wird; die Abweichung von einem Horizontalverlauf
muss hier > 3% betragen.
-
Es
wird weiter vorgeschlagen, dass die Umhüllenden-Funktionen aus drei
zeitlich aufeinander folgenden Segmenten, nämlich einem Einschwingsegment,
in dem die Amplitude des Quellensignals von Null ausgehend ansteigt,
einem Haltesegment, in dem die Amplitude des Quellensignals konstant
ist, und einem Ausschwingsegment, in dem die Amplitude des Quellensignals
wieder auf Null abfällt,
besteht. Die Fensterung des Quellensignals durch das Einschwingsegment
wird vorzugsweise als Funktion der Formantfrequenz gewählt. Die
zugrunde liegende Modellvorstellung ist, dass bei natürlicher
Artikulation das Einschwingsegment durch das abrupte Schließen der
Glottis ausgelöst
wird. Die Umhüllendenanstiegssteilheit
ist durch die „Filtergüte” des Hohlraums
bei geschossener Glottis gegeben. Die Güte variiert mit der Formantresonanzfrequenz.
Vorzugsweise ist auch die zeitliche Länge des Haltesegmentes von
der Frequenz abhängig.
Diese Phase wird approximativ als weitgehend konstanter Zustand der
Hohlraumschwingung bei geschlossener Glottis aufgefasst. Auch das
Ausschwingsegment wird analog zum Einschwingvorgang mit einem Fenster
versehen, dessen Länge
vorzugsweise von der Frequenz des Quellensignals abhängig gemacht
wird. Während
des Ausschwingsegmentes ändert
sich der Zustand des Systems, so dass mit unterschiedlichen, variierenden
Verlusten gerechnet werden muss, die ihrerseits das Ausschwingsegment
beeinflussen können.
Diese Systemannahme wird verwendet, um später das Ausschwingsegment als
Funktion der Pitchfrequenz naturnah zu variieren. Um unerwünschte Tonalität zu verhindern
und maximale Natürlichkeit
zu erreichen, sollten die Segmente der Umhüllenden-Funktion als Funktion
der Frequenzen der Quellensignale beispielsweise wie folgt verändert werden:
Für das
Haltesegment werden lineare Segmentfunktionen in drei Trägerfrequenzbereichen
verwendet. Das Ausschwingsegment wird als prozentualer Anteil der
Pitchperiode festgelegt. Der prozentuale Anteil ist eine Funktion
der Frequenz des Quellensignals, die vorzugsweise unter 800 Hz konstant gewählt wird
und darüber
linear bis 4 kHz abfällt.
-
Gemäß einer
weiteren vorteilhaften Ausgestaltung der Erfindung hängen die
Dauer des Einschwingsegments, des Haltesegments und/oder des Ausschwingsegments
von der Pitchintervalllänge
ab. Zweckmäßigerweise
wird bei sinkender Pitchintervalllänge zunächst die Dauer des Ausschwingsegmentes
bis auf einen Minimalwert verkürzt
und dann die Dauer des Haltesegments verkürzt, so dass Interferenzen
von Formantwellenformen aufeinander folgender Pitchintervalle vermieden
werden. Durch eine kaskadierende Verkürzungsstrategie wird erreicht, dass
zunächst
keine ungewollte Bandbreitenerhöhung
stattfindet. Nach Verkürzung
des Ausschwingsegmentes wird bei weiterem Anstieg der Anregungsfrequenz
das Haltesegment der Formantwellenform verkürzt, im Grenzfall verschwindet
das Haltesegment vollständig.
Die Dauer des Einschwingsegmentes entspricht vorzugsweise einer
ganzzahligen Anzahl von Nulldurchgängen der Oszillationen des
Quellensignals. Die Anzahl der Nulldurchgänge ist als Funktion der Formant-Mittelfrequenz
festgelegt. Sie steigt vorzugsweise bis 1 kHz an, um ein realitätsnahes
Einschwingverhalten niedriger Formanten zu erhalten. Von 1 bis 2,6
kHz steigt sie vorzugsweise flacher weiter bis 3 kHz an und fällt danach
mit hoher Steigung wieder ab. Es wird so verhindert, dass Perioden
mit resultierendem unnatürlich überdeutlichem
Perzept des zweiten Formanten auftreten – wenn denn ein naturnahes
Perzept und kein überdeutliches
gewünscht
wird. Wenn allerdings letzteres doch gewünscht wird, um die Verständlichkeit
in Gegenwart von Lärm
zu erhöhen,
kann auch eine „Überdeutlich”-Einstellung
gewählt
werden.
-
Nach
klassischen Modellen gibt es keine in der Pitchperiode variierende
Verlust- oder Absorptionsfunktionen.
Dann sind die unabhängig
gedachten Formantwellenformen linear zu superponieren. In diesen
Fällen
würden
bei großer Überlappung
zwischen den Perioden bei fester Artikulationskonfiguration Anregungsfrequenz-abhängige Interferenzmodulationen
als Funktion des Anregungsfrequenzverlaufes resultieren. Das ist
bei realer Sprache nicht festzustellen. Zur Unterdrückung solcher
Interferenzmodulationen von Formantwellenformen aufeinander folgender
Pitchintervalle wird daher vorzugsweise eine Wellen-Dämpfung durchgeführt, welche
beispielsweise als Funktion der Glottis-Öffnung das Halte- und das Ausschwingsegment
beeinflusst. Von Vorteil ist, wenn das Ausschwingsegment der Umhüllenden-Funktion so ausgebildet
ist, dass die Amplitude zum Ende des Pitchintervalls auf höchstens
35%, vorzugsweise auf höchsten
25% der während
des Haltesegments konstanten Amplitude abgefallen ist. Der Wert
der Endamplitude wird vorzugsweise Pitch-adaptiv festgesetzt.
-
Es
wird weiter als vorteilhaft erachtet, wenn das Sprachsignal eine
Hochpassfilterung erfährt. Vorzugsweise
erfolgt eine Hochpassfilterung mittels eines IIR-Filters mit einer
Cutoff-Frequenz von 100 Hz. Hierdurch können unerwünschte niederfrequente Signalanteile
eliminiert werden, die durch Superposition von Wellenformen bei
variabler Pitchintervalllänge
entstehen.
-
Sofern
gemäß der Erfindung
2-Formant-Vokale synthetisiert werden sollen, muss noch der relative
Amplitudenunterschied der beiden festgelegt werden. Das Pegelverhältnis wird
als zweidimensionale Funktion abhängig von den Frequenzen der
ersten und der zweiten Formanten (F1 bzw. F2) definiert. Die unten
dargestellte Tabelle zeigt Werte für typische Vokallagen. Auf
dieser Basis können
für Zwischenlagen
Verhältniswerte
aus den tabellierten Stützstellen
interpoliert werden. Dazu wird einmalig die Triangulation der F1/F2-Stützpunkte
berechnet und dann jeder benötigte
Wert als Punkt auf einer Ecke-Seiten-Strecke des umgebenden Dreiecks berechnet.
Die Werte werden dabei durch Abgleich des sich ergebenden Synthese-Spektrums
mit dem Spektrum von natürlichen
Lauten nach der Vorgabe aller anderen Parameter ermittelt. Der F1/F2-Wert
für „i” (200/2800)
wurde mit –12
dB eher hoch geschätzt, um
die Synthese nicht unnötig
schlecht verständlich zu
gestalten. Die folgende Tabelle gibt passende Vorgaben an:
I
Vokal | F1
[Hz] | F2
[Hz] | E2/E1 [dB] |
U | 250 | 700 | –12.00 |
O | 380 | 600 | –6.00 |
A | 800 | 1250 | –6.00 |
I | 200 | 2800 | –12.00 |
Ä | 578 | 2019 | –4.00 |
E | 330 | 2300 | –9.00 |
Ü | 210 | 1700 | –15.00 |
Ö | 365 | 1400 | –10.00 |
@ | 500 | 1200 | –9.00 |
0 | 550 | 600 | –9.00 |
-
Klassische
Formantvokoderansätze
haben als Erkenntnis die Beschreibung populär gemacht, dass für die Kognition
von stimmhaft angeregten Lauten, besonders Vokalen, die Dimensionalität des Klang-Klassifizierraums
eine Größenordnung
von nicht mehr als 2 besitzt. Wobei die kognitiv klangwirksamen
höheren
Formantlagen zum Teil durch perzeptive Fusion von mehreren Artikulations-Resonanz-Formanten
entstehen. Um eine für Sprachausgabe
akzeptable Natürlichkeit
zu erreichen, müssen nicht
nur die Maxima der Synthesefilter exakt definiert sein, sondern
auch die spektralen Abklingfunktionen. Unklar ist, welches kognitive
Teil-Perzept durch unterschiedliche Resonanz-„Füße” beeinflusst wird. Untersuchungen
haben gezeigt, dass durch die Energieverteilung in den spektralen
Tälern
des Sprachsignals wesentlich die Wahrnehmungsstärke der Anregungs-Repetition,
also der Stimmtonhöhe (pitch)
bestimmt wird. Z. B. trägt
bei „ä” die Spektrumsgegend
unterhalb des zweiten Formanten besonders stark zum Gesamtperzept
des „ä” bei. Auch beim „a” ist substantielle
Tal-Energie erforderlich, um akzeptable Natürlichkeit zu bekommen. Um nicht hohl
zu klingen, benötigt
das „a” substantielle
Energie unterhalb des ersten Formanten. Um also die Wahrnehmungen „Hohlheit” und „fehlende
Repetitions-Stärke” zu vermeiden,
wird gemäß der Erfindung vorzugsweise,
vor allem für
bessere Natürlichkeit
bei den Vokalen „ä” und „a”, eine
dritte Synthesekomponente eingeführt:
Außer
dem ersten und dem zweiten Formanten wird in begrenzten Bereichen
der Vokal-Ebene,
die aus eben diesen aufgespannt wird, zusätzliche Signalintensität mit lageabhängigem Pegel
und Frequenzgehalt hinzugefügt.
Diese dritte Komponente kann ein gefilterter Kunstglottisimpuls sein,
der aus einem Basisimpuls erzeugt wird. Er enthält somit spektral bestimmte
repetitive Tal-Energien, die
unterschiedliche resonanzfreie, bandbegrenzte Pitch-Linienspektren in
definierten unterschiedlichen Bereichen der F1/F2-Ebene (Vokalkarte)
aufweisen. Dazu kann ein Anregungsimpuls mit einem FIR-Filter gefiltert
werden. Um ein vorgegebenes Zielspektrum zu erreichen, wird dieses
FIR-Filter nach der Vorgabe H(f) abzüglich des Eigenspektrums des
Impulses Hl(f) gewählt, so dass das Spektrum des
gefilterten Impulses möglichst
genau der Vorgabe entspricht. Das vorgegebene Spektrum kann beispielsweise
im Falle des „a” ein Tiefpass
mit einer Eckfrequenz bei 400 Hz sein. Als Impuls kann eine einzelne
Sinus-Schwingung mit T = 2 ms gewählt werden.
-
Das
erfindungsgemäße Verfahren
ermöglicht
die Synthese „superdeutlicher” Vokale,
was z. B. vorteilhaft zur Erzeugung von Testsignalen für die Anpassung
von Hörgeräten ist.
Weiterhin sind solche Vokale für
Personen mit Hördefiziten
besser verständlich.
Durch die beschriebene erfindungsgemäße Vorgehensweise wird es nämlich möglich, das
Signal-Rausch-Verhältnis
der merkmalstragenden Komponenten des Sprachsignals und damit die
neuronale Korrelationsstärke
pro Vokalklasse zu maximieren. Die spektrale Talabsenkung und damit
der spektrale Modulationsgrad werden so weit getrieben, wie dies
die Natürlichkeits-Randbedingungen
zulassen. Die Vokal-definierenden Formanten werden mit Formant-Fenstern
mit maximaler temporaler Länge bei
adäquater
Frequenzmodulation erzeugt. Durch die Zeitverlängerung bei höheren Formanten
relativ zu natürlichen
Fensterlängen
und durch die Konzentration der merkmalstragenden Energien mit maximaler
Ausdehnung in den perzeptiv effektiven spektralen Merkmals-Detektions-Bereichen
lassen sich superdeutliche bzw. super(rausch)störungsresistente Vokalprototypen
erzeugen, wobei sich ein besonderer Vorteil bei Sprachausgabe mit
solchermaßen erzeugten
Vokalen in gestörten
Umgebungen ergibt.
-
Mit
der Erfindung wird ferner vorgeschlagen, dass bei Änderung
der Pitchintervalllänge
die (mittleren) Formantfrequenzen pitch-abhängig variiert werden, und zwar
in der Weise, dass die Formantfrequenzen bei Verkürzung der
Pitchintervalllänge
erhöht
werden. Hierdurch können
natürlich
intonierte, rhythmusbehaftete, suprasegmentale Sequenzen erzeugt
werden, in denen eine naturnahe perzeptive Vokalstabilität gewährleistet
ist. Für
eine als natürlich empfundene
Synthese werden allein die messbaren erforderlichen Formantänderungen
als Funktion von Pitchänderungen
benötigt,
die für
den optimalen Identitätserhalt
des Vokalbildes erforderlich sind. Wenn bei deutlichen Variationen,
besonders bei Hebungen, der Stimmtonhöhe die mittlere Formantfrequenzlage
konstant beibehalten wird, kann dies nicht nur zu einem Eindruck
von Unnatürlichkeit
führen,
die Wahrnehmung kann bei erheblichen Verschiebungen der mittleren
Pitchlage eine Klassengrenze überspringen,
so dass der Vokal perzeptiv in eine andere Klasse mutieren kann
(Mann-Frau-Kind-Sopran).
Im Bereich der umgangssprachlich auftretenden Pitch-Intonationsvariationen,
einschließlich
der Mann-Frau-Unterschiede, findet man also, dass zur Verhinderung
dieser Störungen
der Vokal-Wahrnehmungskonstanz die Formantlagen im suprasegmentalen
Zeitmaßstab
nach eindeutigen Funktionen verändert
werden müssen.
Der perzeptive und kognitive Mechanismus, der der festgestellten
Vokalkonstanz zugrunde liegt, ist bislang nicht vollständig aufgeklärt. Es gibt
nach derzeitigen Evaluierungen mehrere Mechanismen und Transformationen,
deren Wirksamkeit vermutet werden muss. Bei Synthese isolierter Vokale
mit einfacher, fast konstant gehaltener, einsegmentiger Pitchkontur
kann die Formantfrequenz in gleicher Art und Weise wie bei komplexen
suprasegmentalen Pitchkonturen mitvariiert werden. Bei Einführung von
intonationsbedingten komplizierteren Pitchkonturen ist es wesentlich,
dass die Formantfrequenzen in die gleiche Richtung variiert werden,
die von der Pitchänderung
vorgegeben wird. Dazu kann beispielsweise eine Mitkopplung von 1
bis 5% Formantfrequenzänderung
bei 10% Pitchänderung
im Suprasegment verwendet werden. Bei Plosiven ist die spektrale
Bewegung der Formanten hin zum zentralen Plosiv-Frequenz-Schwerpunkt
bzw. Maximum quasi als Nachahmung der Koartikulation natürlichkeits-
und klarheitsfördernd
und kann mit diesem Verfahren über
die Formantkorrektur-Funktion, die bislang für die Pitchanpassung zuständig ist,
ebenfalls eingeführt
werden.
-
Die
zentralen Merkmale der vorliegenden Erfindung werden im Folgenden
anhand der Figur beispielhaft erläutert. Dabei zeigt die 1 eine
Darstellung der erfindungsgemäßen Frequenzmodulation des
Quellensignals bei der Erzeugung einer Formantwellenform.
-
1 zeigt
im oberen Teil eine Umhüllende 1 einer
Formantwellenform. Die Formantwellenform wird durch Modulation eines
bei einer Formantfrequenz oszillierenden Quellensignals mit der
Umhüllenden-Funktion 1 erzeugt.
Rechts und links der Umhüllenden 1 sind
gepunktet zeitlich vorangehende bzw. folgende Umhüllende 2, 3 weiterer
Formantwellenformen des Sprachsignals dargestellt. Derartige verkettete
und überlagerte
Wellenformen bilden insgesamt das synthetisierte Sprachsignal. Die
Formantwellenform besteht aus den zeitlich aufeinander folgenden
Segmenten Einschwingsegment E, Haltesegment H und Ausschwingsegment
A, welche gemäß dem oben
beschriebenen Verfahren erzeugt werden, wobei das Ausschwingsegment
A einer vorangehenden Formantwellenform das Einschwingsegment E
der folgenden Formantwellenform, je nach Pitchintervalllänge, zeitlich überlappt.
-
Die
beiden unteren Grafiken zeigen Ausführungsbeispiele für Funktionen,
mit denen das Quellensignal bei der Erzeugung der Formantwellenform frequenzmoduliert,
um das Auftreten von Tonalität
zu verhindern. Es wird um die Mitte des Haltesegmentes H zentriert
eine vollständige
(obere Funktion) oder eine halbe (untere Funktion) Sinusschwingung
verwendet, die im gezeigten Fall bis etwa y = 75% in das Einschwingsegment
E hineinragt. Der Modulationshub x beträgt in den Ausführungsbeispielen
etwa 10%.