DE69519086T2 - Sprachsynthese - Google Patents
SprachsyntheseInfo
- Publication number
- DE69519086T2 DE69519086T2 DE69519086T DE69519086T DE69519086T2 DE 69519086 T2 DE69519086 T2 DE 69519086T2 DE 69519086 T DE69519086 T DE 69519086T DE 69519086 T DE69519086 T DE 69519086T DE 69519086 T2 DE69519086 T2 DE 69519086T2
- Authority
- DE
- Germany
- Prior art keywords
- pitch
- speech
- excitation
- window
- speech synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000015572 biosynthetic process Effects 0.000 title claims description 33
- 238000003786 synthesis reaction Methods 0.000 title claims description 33
- 230000005284 excitation Effects 0.000 claims description 31
- 238000001228 spectrum Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 8
- 238000005215 recombination Methods 0.000 claims description 5
- 230000006798 recombination Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 230000001360 synchronised effect Effects 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 2
- 238000000034 method Methods 0.000 description 30
- 238000012952 Resampling Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 5
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 2
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 2
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 2
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005279 excitation period Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrophonic Musical Instruments (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
- Die vorliegende Erfindung betrifft die automatische Erzeugung von Sprache (beispielsweise aus einer codierten Texteingabe). Sie betrifft insbesondere Analyse-Syntheseverfahren, bei denen die "synthetische" Sprache aus gespeicherten Sprach-Wellenformen erzeugt wird, die ursprünglich von einer menschlichen Stimme stammen (im Gegensatz zu "Synthesis by Rule"-Systemen). Um natürlich klingende Sprache zu erzeugen, ist es erforderlich, bei synthetischer Sprache die gleiche Art Kontext-abhängiger (prosodischer) Variationen der Intonation zu erzeugen, wie sie sich in der von einer menschlichen Stimme gesprochenen Sprache finden. Die vorliegende Erfindung setzt die Erzeugung prosodischer, eine Information vorgebender Variationen des Pitches voraus, die erzeugt werden müssen, und geht das Problem der Verarbeitung von Sprachsignalen an, um eine solche Pitchvariationen zu erhalten.
- Ein Verfahren der Pitcheinstellung ist in F. J. Charpentier und M. G Stella, "Diphone Synthesis Using an Overlap-add Technique for Speech Waveforms Concatenation", Proc. Int. Conf. ASSP, IEEE, Tokyo, 1986, S. 2015 - 218, beschrieben. Sprachwellenformabschnitte, wobei jeder Abschnitt ein Diphon repräsentiert, werden zusammen mit Pitchmarkierungen gespeichert, die (für von einer menschlichen Stimme gesprochene Sprache) zeitlich mit dem höchsten Peak jeder Pitchperiode der Wellenform zusammenfallen und daher ungefähr dem Moment der Glottisschließung durch den Sprecher entsprechen, oder die für nicht von einer menschlichen Stimme gesprochene Sprache willkürlich sind.
- Ein zu verwendender Wellenformabschnitt wird unter Verwendung eines Hamming-Fensters einer Länge, die dem Dreifachen der Pitchperiode entspricht, in Überlappungssegmente aufgeteilt. Unter Verwendung einer diskreten Fourier- Transformation wird für die Wellenform eine globale Spektrums-Hüllkurve und eine Kurzzeitspektrums-Hüllkurve erzeugt; es wird eine "Quellenkomponente" erzeugt, die das Kurzzeitspektrum dividiert durch die Spektrums-Hüllkurve darstellt. Der Pitch der Quellenkomponente wird dann durch eine lineare Interpolation modifiziert und wird dann mit der Hüllkurveninformation rekombiniert. Nach der auf diese Weise erfolgten Vorverarbeitung werden die Segmente mit Hilfe einer Überlappungs-Additions-Technik bzw. Verarbeitung miteinander verknüpft, um den erwünschten Grundpitch zu erhalten.
- In einem weiteren Vorschlag wird die Frequenz-Domänen-Vorverarbeitung unterlassen und es wird ein Hanning-Fenster verwendet, das doppelt so lang ist wie die Pitchperiode dauert ("A Diphone Synthesis System based on Time-domain Prosodic Modification of Speech", C. Hamon, E. Moulines, and F. Charpentier, Int. Conf. ASSP, Glasgow, 1989, S. 238-241).
- Alternativ zur Anwendung der Zeitdomänen-Überlappungs-Technik auf ein komplettes Sprachsignal kann diese Technik auch auf eine Erregungskomponente angewandt werden, beispielsweise mit Hilfe einer LPC-Analyse zur Erzeugung eines Restsignals (oder einer Parameterdarstellung desselben) und Anwendung der Überlappungs-Additions-Technik auf das Residdum, bevor dieses durch ein LPC- Synthesefilter geschickt wird (s. "Pitch-synchronous Waveform Processing Techniques for Text-to Speech Synthesis using Diphones", F. Charpentier und E. Moulines, European Conference on Speech Communictions and Technology, Paris, 1989, Bd. II, S. 13-19).
- Das Grundprinzip der Überlappungs-Additions-Technik ist in Fig. 1 gezeigt, in der ein Sprachsignal S mit Pitchmarkierungen P gezeigt ist, die auf den Erregungspeaks zentriert sind, es wird durch Multiplikation durch Fenster- Wellenformen W (wobei nur zwei von ihnen gezeigt sind) in Überlappungsegmente aufgetrennt. Die synthetisierte Wellenform wird durch Zusammenaddieren der Segmente und der Zeitverschiebung erzeugt, um den Pitch mit einem Segment zu vergrößern oder zu verkleinern, das jeweils bedarfsweise ausgelassen oder wiederholt wird.
- Gemäß der vorliegenden Erfindung ist eine Sprachsynthesevorrichrung angegeben, die eine Einrichtung enthält, die zur Änderung des Pitches von mit der Sprachsynthesevorrichrung synthetisierten Sprachsignalen steuerbar ist, und die umfaßt:
- (i) eine Einrichtung zur Auftrennung der Sprachsignale in eine Spektrumskomponente und eine Erregungskomponente,
- (ii) eine Einrichtung zur Multiplikation der Erregungskomponente mit einer Reihe sich überlappender Fensterfunktionen, die bei von einer menschlichen Stimme gesprochenen Sprache synchron mit einer Pitchzeitmarken-Information ist, die zumindest näherungsweise Zeitpunkten der Stimmerregung entspricht, zu ihrer Aufteilung in Fenstersegmente,
- (iii) eine Einrichtung zum Aufbringen einer steuerbaren Zeitverschiebung auf die Segmente und zu ihrer Addition und
- (iv) eine Einrichtung zur Rekombination der Spektrumskomponente und der Erregungskomponente,
- wobei die Einrichtung zur Multiplikation mindestens zwei Fenster pro Pitchperiode vorsieht und jedes Fenster eine Dauer von weniger als einer Pitchperiode aufweist. Die Fenster bestehen bevorzugt aus ersten Fenstern, einem Fenster pro Pitchperiode, welche die Pitchzeitmarken-Positionen und mehrere Zwischenfenster einschließen und die Zwischenfenster weisen eine Breite auf, die kleiner ist als die Breite der ersten Fenster.
- Bei einem weiteren Aspekt gibt die vorliegende Erfindung eine Sprachsynthese- Vorrichtung an, die eine Einrichtung enthält, die zur Änderung des Pitches synthetisierter Sprachsignale steuerbar ist, und die aufweist:
- (i) eine Einrichtung zur Auftrennung der Sprachsignale in eine Spektrumskomponente und eine Erregungskomponente,
- (ii) eine Einrichtung zur temporären Kompression/Expansion der Erregungskomponente durch Interpolation neuer Abtastsignale aus Eingangs-Abtastsignalen und
- (iii) eine Einrichtung zur Rekombination der Spektrumskomponente und der Erregungskomponente. Die Einrichtung zur temporären Kompression/Expansion ist in Abhängigkeit von der Pitchzeitmarken-Information betreibbar, die zumindest näherungsweise Zeitpunkten der Stimmerregung entspricht, um den Grad der Kompression/Expansion synchron damit so zu ändern, daß das Erregungssignal in der Nähe der Pitchzeitmarken weniger komprimiert/expandiert wird als in der Mitte der Pitchperiode zwischen zwei derartigen aufeinanderfolgenden Pitchzeitmarken.
- In einem weiteren Aspekt gibt die Erfindung eine Sprachsynthesevorrichtung gemäß Anspruch 8 an.
- Im folgenden sind einige Ausführungsformen der Erfindung beispielhaft unter Bezug auf die beigefügten Zeichnungen beschrieben, in denen zeigen:
- Fig. 2 ein Blockschaltbild einer Ausführungsform der Sprachsynthesevorrichtung,
- Fig. 3 und 5 Signalverläufe für zwei Verfahren zur Grundfrequenzeinstellung durch überlappende Addition und
- Fig. 4 den Signalverlauf zur Fensterung des Sprachsignals zum Zwecke der Spektralanalyse.
- In der Vorrichtung von Fig. 2 werden, wie bereits zuvor erläutert, Teile des digitalen Sprachzeitsignals S. zusammen mit den korrespondierenden Grundfrequenz-Zeitmarkierungen P, in einer Speichereinheit 100 abgespeichert. Stücke des Zeitsignals werden unter Kontrolle des Text-zu-Sprache-Treibers 101, welcher die nötigen Speicheradressen erzeugt, ausgelesen; die Funktion des Treibers 101 ist herkömmlich und soll nicht weiter beschrieben werden, außer, daß er zusätzlich die Grundfrequenzinformation PP erzeugt. Die Erregungs- und Vokaltraktkomponenten eines aus der Speichereinheit 100 ausgelesenen Sprachwellenformabschnittes werden durch die LPC-Analyseeinheit 102 getrennt, welche periodisch die Koeffizienten eines Synthesefilters mit dem Frequenzgang erzeugt, der dem Frequenzspektrum des Sprachwellenformabschnittes entspricht. Dieser steuert ein Analysefilter 103 an, welches das Inverse des Synthesefilters darstellt und an seinem Ausgang das Restsignal R erzeugt.
- Die LPG-Analyse und die inverse Filteroperation sind mit den Grundfrequenzmarkierungen P synchron, wie im folgenden noch beschrieben ist.
- Der nächste Schritt des Verfahrens besteht in der Veränderung der Grundfrequenz des Restsignals. Dies wird (für stimmhafte Sprachsegmente) mittels einer Mehrfach-Fenstertechnik durchgeführt, in welcher das Residuum in einer Verarbeitungseinheit 104 durch die Multiplikation mit einer Folge von überlappenden Fensterfunktionen, mindestens zwei pro Grundfrequenzperiode, in Segmente aufgeteilt wird; fünf solche überlappende Fensterfunktionen werden in Fig. 3, welche ein trapezförmiges Fenster, zentriert an der Grundfrequenzmarkierung, und vier dreieckige Zwischenfenster zeigt, dargestellt. Die Fenster an den Grundfrequenzperioden sind etwas weiter als die Zwischenfenster, um eine Verdoppelung der Hauptanregung beim Verringern der Grundfrequenz zu vermeiden.
- Um die Grundfrequenz zu erhöhen, werden die Fenstersegmente, wie im unteren Teil der Fig. 3 gezeigt, in einem verkürzten zeitlichen Abstand zusammengefügt; um die Grundfrequenz zu verringern, wird der zeitliche Abstand vergrößert. In beiden Fällen werden, um eine korrekte Signalamplitude zu gewährleisten, die relativen Fensterbreiten so gewählt, daß eine Überlappung der abgeschrägten Flanken während der Synthese gegeben ist (z. B. 50% der Überlappung der Zwischenfenster). Die zeitliche Einstellung wird durch die Signale PP gesteuert. Übliche Breiten für die Zwischenfenster sind 2 ms, während die Breite der an den Grundfrequenzmarkierungen plazierten Fenster von der Grundperiode des entsprechenden Signals abhängt, meistens in der Größenordnung von 2 bis 10 ms. Die Verwendung von mehreren Fenstern, im Vergleich zur Verwendung von nur einem Fenster pro Grundperiode, dient der Reduzierung der Phasenverzerrungen. Nach der zeitlichen Verarbeitung wird das Residuum an das LPC-Filter 105 weitergereicht, um das gewünschte Sprachsignal zurückzugewinnen.
- Die Speichereinheit beinhaltet weiterhin eine Stimmhaft/Stimmlos-Anzeige für jeden Wellenformabschnitt. Stimmlose Abschnitte werden durch die mit der Einheit 104 identische Grundfrequenzeinheit 104' unter Umgehung der LPC-Analyse und Synthese bearbeitet. Die Umschaltung zwischen den zwei Pfaden erfolgt im Schalter 106. Als Alternative hierzu können stimmlose Abschnitte den gleichen Signalpfad wie stimmhafte verwenden, wobei in beiden Fällen beliebige Positionen für die Grundfrequenzmarkierungen verwendet werden.
- Als Alternative zu der Überlappungs-Addition des Residuums wurde ein weiterer Algorithmus entwickelt, welcher darauf abzielt, die Form des Residuums zu erhalten und weiterhin Phasenverzerrungen, welche durch Verschieben und die Überlappungs-Addition entstehen, zu verringern. Das Grundprinzip besteht in der Veränderung der Grundperiode durch erneute Abtastung der freien Phase (d. h., eines Abschnitts der Wellenform zwischen den Pitchmarkierungen; dies läßt die signifikante Information in der Umgebung der Pitchmarkierung unverändert), der Erhaltung von durch den Verschluß erzeugten hohen Frequenzen und der Erzeugung einer realistischeren Gesamtform der Erregungsperiode. Üblicherweise werden 80% der Periode erneut abgetastet.
- Die erneute Abtastung wird durch eine Abbildung erreicht, bei der jedem Abtastwert der Originalabtastrate eine neue Position auf der Zeitachse zugewiesen wird. Die Signalamplitude eines jeden Abtastwertes des Signals mit erneuter Abtastung wird dann mittels linearer Interpolation zwischen den zwei Abtastweiten bestimmt, die am nächsten abgebildet wurden. Lineare Interpolation ist nicht ideal für das erneute Abtasten, ist aber einfach zu implementieren und gibt zumindest einen Hinweis darauf, wie nützlich das Verfahren sein kann. Beim Verringern der Abtastwerte zur Reduzierung der Grundperiode muß das Signal tiefpaßgefiltert werden, um Aliasing zu vermeiden. Ursprünglich wurde ein eigenes Filter für jede Grundperiode mittels des Fensterentwurfverfahrens entworfen. Schließlich konnten diese durch ein Tabellennachschlageverfahren erzeugt werden, um den Rechenaufwand zu reduzieren.
- Eine weitere Verbesserung besteht darin, starke Änderungen in den Signalcharakteristiken an den Segmentgrenzen zu vermeiden, indem der Faktor der erneuten Abtastung sich gleichmäßig über dem zu bearbeitenden Segment verändert. Ohne diese Verbesserung würde die effektive Abtastrate des Signals stufenförmigen Veränderungen unterliegen. Eine sinusförmige Funktion wird dazu verwendet, und der Grad der Glättung ist steuerbar. Die variable Umsetzung der Abtastung wird in dem Abbildungsprozeß gemäß der folgenden Gleichung implementiert:
- T(0) = 0
- T(M - 1) = N - 1
- wobei bedeuten:
- M = Anzahl der Abtastwerte des Originalsignals,
- N = Anzahl der Abtastwerte des neuen Signals,
- α = [0,1], steuert den Grad der Glättung,
- Z(n) = Position des n-ten Abtastwertes in dem Signal mit erneuter Abtastung.
- Ein Hauptunterschied zwischen der vorliegenden und der Überlappungs- Additions-Technik bei einem Einzelfenster besteht darin, daß die Änderung der Pitchperiode ohne die Überlappungs- und Additionstechnik der zeitverschobenen Segmente erzielt wird, vorausgesetzt, daß die Synthese-Pitchmarkierungen abgebildet werden, indem sie den nachfolgenden Analyse-Pitchmarkierungen zugewiesen werden. Wenn die Pitchmarkierungen nicht aufeinanderfolgen, ist eine überlappende Addition weiterhin erforderlich, damit sich bei der erneuten Abtastung ein geglättetes Signal ergibt. Das tritt auf, wenn Perioden dupliziert oder ausgelassen werden, so daß sich die erwünschte Dauer ergibt.
- Bei einer alternativen Realisierung wird eher eine erneute Abtastung des gesamten Signals als die Abtastung eines ausgewählten Teils jeder Pitchperiode verwendet. Dadurch entstehen für den Pitchanstieg keine Probleme, vorausgesetzt, daß in geeigneter Weise gefiltert wird, um Aliasing zu verhindern, da die Struktur der Harmonischen immer noch den gesamten Frequenzbereich einnimmt. Wenn hingegen der Pitch verringert wird, läßt die Interpolation eine Lücke am hohen Ende des Spektrums. In einem praktikablen System, die auf Anwendungen im Telephonverkehr abzielt, könnte dieser Effekt durch Speichern und Verarbeiten der Sprache bei einer höheren Bandbreite als 4 kHz (beispielsweise bei 6 kHz) minimiert werden. Die "verlorenen" hohen Frequenzen würden dann meistens außerhalb des Telephonbandes liegen und somit nicht relevant sein.
- Beide Variationen der Technik der erneuten Abtastung leiden unter den hohen Rechenanforderungen verbunden mit Interpolation/Dezimierung, insbesondere wenn der Faktor der erneuten Abtastung kein Verhältnis zwischen zwei ganzen Zahlen darstellt. Die Technik wird aber durch die fortwährende Weiterentwicklung der DSP-Technologie immer attraktiver.
- Die LPC-Anlayse ist, wie oben angegeben, mit den Pitchmarkierungen synchron. Insbesondere ist ein Satz LPC-Parameter für jede Pitchmarkierung im Sprachsignal erforderlich. Als Teil des Prozesses der Sprachmodifizierung werden die ursprüngliche und die modifizierte Pitchmarkierung abgebildet. Dann können die geeigneten LPC-Parameter für jede modifizierte Pitchmarkierung ausgewählt werden, um aus dem Residuum die Sprache erneut zu synthetisieren.
- Bei den LPC-Techniken kann es bei der synthetisierten Sprache infolge von abrupten Änderungen der Parameter bei den Rahmengrenzen zu Diskontinuitäten kommen. Dadurch können Knacken und Geräusche des Platzens auftreten und die Qualität kann generell ungleichmäßig sein, was sich als wahrnehmbar störend auswirkt. Um diese Effekte zu verringern, werden die LPC-Parameter an der Sprachabtastrate sowohl in der Analysephase als auch in der Synthesephase interpoliert.
- Die LPC-Analyse kann durchgeführt werden, indem ein beliebiges herkömmliches Verfahren angewendet wird; wenn das Kovarianz- oder das stabilisierte Kovarianzverfahren angewendet wird, würde jeder Satz LPC-Parameter für ein Stück des Sprachabschnitts (Analyserahmen) mit einer Länge gleich der Länge der Pitchperiode (wobei sich das Zentrum eher auf dem Mittelpunkt der Pitchperiode als auf der Pitchmarkierung befindet) erzeugt oder, alternativ dazu, könnten längere überlappende Stücke verwendet werden, was den Vorteil hat, daß die Verwendung eines Analyserahmens mit einer festen Länge, bezogen auf den Pitch, möglich ist.
- Wie in Fig. 4 gezeigt, ist alternativ dazu ein Fenster-Analyserahmen bevorzugt.
- Obwohl die Rahmen in Fig. 4 der größeren Klarheit halber mit einem dreieckigen Fenster gezeigt sind, hängt die Auswahl der Fensterfunktion aktuell vom angewendeten Analyseverfahren ab. So könnte beispielsweise ein Hanning-Fenster verwendet werden. Das Rahmenzentrum ist eher nach dem Zentrum der Pitchperiode als nach der Pitchmarkierung ausgerichtet. Der Grund ist der, daß der Einfluß der Glottiserregung auf die LPC-Analyse verringert wird, ohne daß auf eine Schließphasen-Analyse mit kurzen Rahmen zurückgegriffen werden muß. Infolgedessen bezieht sich jeder eingestellte Parameter auf die Mitte der Periode und nicht auf die Pitchmarkierung. Die Rahmenlänge ist festgelegt, da festgestellt wurde, daß sich dadurch beständigere Ergebnisse ergeben als bei einem Pitchabhängigen Wert.
- Bei kurzen Rahmenlängen wäre das stabilisierte Kovarianzverfahren im Hinblick auf die Genauigkeit eher zu bevorzugen. Bei den hier verwendeten längeren Rahmen ist zwischen den drei Verfahren kein wahrnehmbarer Unterschied zu beobachten, weshalb das Autokorrelationsverfahren bevorzugt ist, da es rechnerisch effizient ist und ein stabiles Synthesefilter gewährleistet.
- Nachdem die LPC-Parameter bestimmt worden sind, besteht der nächste Schritt darin, die Sprache auf einer Pitch-synchronen Basis einer Inversionsfilterung zu unterwerfen. Wie oben angegeben, werden die Parameter interpoliert, um die Übergänge infolge großer Änderungen bei den Parameterwerten an den Rahmengrenzen zu minimieren. In der Mitte jeder Pitchperiode entspricht das Filter exakt dem aus der Analyse erhaltenen Filter. In jedem Abtastaugenblick zwischen den aufeinanderfolgenden Pitchzentren ist das Filter eine gewichtete Kombination aus beiden, aus der Analyse erhaltenen Filtern. Die Interpolation wird bevorzugt direkt an den Filterkoeffizienten vorgenommen. Es hat sich gezeigt, daß hierdurch weniger Spektralverzerrung als bei anderen Parametern (LAR, LSP (Linienspektralpaare) etc.) entsteht, daß aber nicht gewährleistet ist, daß sich ein stabil interpoliertes Filter ergibt. In der Praxis sind aber keine Instabilitätsprobleme aufgetreten.
- Im allgemeinen sind bei der Abtastung n die Filterkoeffizienten durch
- an(i) = αnal(i) + (1 - αn)ar(i), i = o, ..., P
- gegeben,
- wobei bedeuten:
- p = die Reihenfolge der LPC-Anlayse,
- an = den Wert einer Gewichtsfunktion an der Abtastung n,
- al und ar = die Parametereinstellungen, bezogen auf das nächste rechte und linke Periodenzentrum.
- Um eine gleichmäßige Evolution der Filterkoeffizienten zu gewährleisten, ist die Gewichtsfunktion ein erhöhter halber Cosinus zwischen aufeinanderfolgenden Periodenzentren und durch
- α(i) = 0,5 + 0,5 cos (πi / N), i = 0, ..., N - 1
- gegeben,
- wobei bedeuten:
- N = den Abstand zwischen den Periodenzentren und
- i = 0 = das Zentrum jeder Periode.
- Die Filterkoeffizienten für das Resynthesefilter 105 werden auf die gleiche Weise wie für die Inversionsfilterung berechnet. Modifizierungen des Pitches und der Dauer bedeuten, daß die Sequenz der Filter und der Periodenwerte von den Sequenzen verschieden ist, die in der Analyse angewendet werden, durch die Interpolation ist jedoch eine gleichmäßige Änderung der Filterkoeffizienten von Abtastung zu Abtastung gewährleistet.
- Für die erste Pitchmarkierung in einem stimmhaften Sprachsegment beginnt die Filterung an der Pitchmarkierung und es wird keine Interpolation angewendet, bis das Zentrum der Periode erreicht ist. Für die letzte Pitchmarkierung in einem stimmhaften Sprachsegment wird angenommen, daß die Periode den für die Positionierung des Analyserahmens maximal zulässigen Wert aufweist, und die Filterung an der Pitchmarkierung gestoppt wird. Diese Filterbedingungen gelten sowohl für die Analyse als auch für die erneute Synthese. Wenn eine erneute Synthese von der ersten Pitchmarkierung erfolgt, wird der Filterspeicher von den vorhergehenden Signalabtastungen initialisiert.
- Als weitere alternative Ausführungsform der Pitcheinstellung 104 kann eine Einzelfenster-Überlappungs- und Additionstechnik angewendet werden, jedoch mit einer Fensterbreite einer Dauer von weniger als zwei Pitchperioden (bevorzugt weniger als 1,7, z. B. im Bereich von 1,25 bis 1,6). Mit einer Überlappung von weniger als 100% (d. h. 50% auf jeder Seite) weist die Fensterfunktion notwendigerweise eine flache Spitze auf, darüber hinaus ist sie, bezogen auf die Pitchmarkierungen (bevorzugt eine ganze Periode zwischen zwei Pitchmarkierungen einschließend), asymmetrisch plaziert. In Fig. 5 ist eine typische Fensterfunktion mit einer flachen Spitze gezeigt, die eine Länge gleich der Pitchperiode während der Synthese und Flanken mit erhöhtem halbem Cosinus oder einer linearen Form aufweist.
- Mit einem in der Dauer begrenztem Fenster, wie oben gezeigt, besteht bei einem verringerten Pitch ein Potentialproblem. Wenn die Synthese-Pitchmarkierungen hinreichend weit auseinanderliegen, überlappen sich die Fenster überhaupt nicht, und diese Situation ergibt sich eher bei einem kürzeren Fenster als bei der üblichen, Pitch-synchronen überlappenden Addition. Der Effekt ist, daß ein leichtes Summen in die synthetische Sprache eingeführt wird, aber dies geschieht nur, wenn das TTS-System eine ziemlich extreme Pitchverringerung erfordert. Eine Pitchverringerung ist wegen der Notwendigkeit, die fehlenden Daten zu erzeugen, schwieriger als eine Pitchvergrößerung durchzuführen, wo vorhandene Daten auszuschneiden sind. Wenn der Pitch vergrößert wird, erzeugt das modifizierte Fenster infolge der kleineren Überlappungsperiode bessere Ergebnisse und somit ein kürzeres Intervall mit einem verzerrten Signal.
- Diese Fensterform ist vorteilhaft, da ein kleinerer Zeitabschnitt des Signals durch die Überlappungs- und Additionstechnik als bei einem längeren Fenster erzeugt wird, und die asymmetrische Form plaziert die Verzerrung durch die überlappende Addition an das Ende der Pitchperiode, wo die Sprachenergie niedriger ist als unmittelbar nach der Stimmerregung.
- Die Anwendung der erneuten Abtastung und der Mehrfachfenster-Pitchsteuerung (wie in Fig. 2 gezeigt) ist als Operation am Restsignal vorgesehen (zur Verhinderung einer Verzerrung der Formants), jedoch läßt sich die Technik Kurzes Asymmetrisches Fenster auch ohne Abtrennung der Erregung am Ende des Spektrums auch direkt auf das Sprachsignal anwenden. In diesem Falle könnten die Analyseeinheit 102 und die Filter 103, 105 der Fig. 2 entfallen, die Sprachsignale vom Speicher 100 werden den Pitcheinheiten 104, 104' direkt eingegeben.
Claims (12)
1. Sprachsynthesevorrichtung, die eine Einrichtung enthält, die zur Änderung
des Pitches von mit der Sprachsynthesevorrichtung synthetisierten
Sprachsignalen steuerbar ist, und die umfaßt:
(i) eine Einrichtung zur Auftrennung der Sprachsignale in eine
Spektrumskomponente und eine Erregungskomponente,
(ii) eine Einrichtung zur Multiplikation der Erregungskomponente mit einer
Reihe sich überlappender Fensterfunktionen, die bei von einer menschlichen
Stimme gesprochenen Sprache synchron mit einer Pitchzeitmarken-Information
ist, die zumindest näherungsweise Zeitpunkten der Stimmerregung entspricht, zu
ihrer Aufteilung in Fenstersegmente,
(iii) eine Einrichtung zum Aufbringen einer steuerbaren Zeitverschiebung auf
die Segmente und zu ihrer Addition und
(iv) eine Einrichtung zur Rekombination der Spektrumskomponente und der
Erregungskomponente,
wobei die Einrichtung zur Multiplikation mindestens zwei Fenster pro
Pitchperiode vorsieht und jedes Fenster eine Dauer von weniger als einer Pitchperiode
aufweist.
2. Sprachsynthesevorrichtung nach Anspruch 1, bei der die Fenster aus ersten
Fenstern, einem Fenster pro Pitchperiode, bestehen, welche die Pitchzeitmarken-
Positionen und mehrere Zwischenfenster einschließen.
3. Sprachsynthesevorrichtung nach Anspruch 2, bei der jedes
Zwischenfenster eine Breite aufweist, die kleiner ist als die Breite der ersten Fenster.
4. Sprachsynthesevorrichtung, die eine Einrichtung enthält, die zur Änderung
des Pitches synthetisierter Sprachsignale steuerbar ist, und die aufweist:
(i) eine Einrichtung zur Auftrennung der Sprachsignale in eine
Spektrumskomponente und eine Erregungskomponente,
(ii) eine Einrichtung zur temporären Kompression/Expansion der
Erregungskomponente durch Interpolation neuer Abtastsignale aus Eingangs-Abtastsignalen
und
(iii) eine Einrichtung zur Rekombination der Spektrumskomponente und der
Erregungskomponente.
5. Sprachsynthesevorrichtung nach Anspruch 4, bei der die Einrichtung zur
Kompression/Expansion in Abhängigkeit von der Pitchzeitmarken-Information
betreibbar ist, die zumindest näherungsweise Zeitpunkten der Stimmerregung
entspricht, um den Grad der Kompression/Expansion synchron damit so zu
ändern, daß das Erregungssignal in der Nähe der Pitchzeitmarken weniger
komprimiert/expandiert wird als in der Mitte der Pitchperiode zwischen zwei derartigen
aufeinanderfolgenden Pitchzeitmarken.
6. Sprachsynthesevorrichtung nach einem der Ansprüche 1 bis 5, die umfaßt:
(a) einen Speicher, der Datenelemente enthält, die jeweils einen Abschnitt
einer Sprachsignalwellenform definieren und Pitchzeitmarken-Information
enthalten, die zumindest näherungsweise dem Peak der Stimmerregung entspricht,
und
(b) eine Treibereinrichtung, die auf Eingangssignale anspricht und Adressen
erzeugt, um Datenelemente aus dem Speicher auszulesen und Pitchsignale zu
erzeugen, die vom Kontext abhängige Pitchänderungen darstellen, aus denen
Sprache erzeugt wird.
7. Sprachsynthesevorrichtung nach einem der Ansprüche 1 bis 6, bei der die
Einrichtung zur Auftrennung der Sprachsignale in eine Spektrumskomponente
und eine Erregungskomponente umfaßt:
(a) eine Analyseeinrichtung zum Empfang der synthetisierten Sprache und zur
Erzeugung von Parametern für ein Filter, dessen Frequenzantwort dem
Spektralinhalt der Sprache gleicht, sowie für ein Filter, das eine inverse Antwort
erzeugt, und
(b) ein Filter, das zum Empfang der Parameter vorgesehen ist, um die Sprache
zu filtern und ein Restsignal zu erzeugen, wobei diese Filter in der Einrichtung
zur Rekombination vorgesehen sind,
(c) ein Umkehrfilter, das zum Empfang der Parameter und zum Filtern des
Restsignals in Übereinstimmung mit der inversen Antwort vorgesehen ist.
8. Sprachsynthesevorrichtung, die enthält: eine Einrichtung zur Steuerung
des Pitches eines Eingangssignals durch Multiplikation des Signals mit einer
Reihe sich überlappender Fenster, um dieses in Segmente aufzuteilen und die
Segmente, nachdem sie einer Zeitverschiebung unterworfen wurden, zu
rekombinieren, wobei die Fenster mit den Pitchzeitmarken synchron sind, die Zeitpunkte
von Peaks der Stimmerregung repräsentieren,
wobei jedes Fenster eine Dauer von weniger als dem Doppelten der Pitchperiode
zwischen den Pitchzeitmarken aufweist und um die Pitchzeitmarke herum
asymmetrisch ist.
9. Sprachsynthesevorrichtung nach Anspruch 8, die enthält:
eine Einrichtung zur Auftrennung eines Sprachsignals in eine
Spektrumskomponente und eine Erregungskomponente, wobei die Pitchsteuereinrichtung so
ausgeführt ist, daß sie die Erregungskomponente als Eingangssignal empfängt, und
eine Einrichtung zur Rekombination der Spektrumskomponente und der
Erregungskomponente, bei welcher der Pitch eingestellt wurde.
10. Sprachsynthesevorrichtung nach Anspruch 8 oder 9, bei der jedes Fenster
eine Dauer von weniger als dem 1,7-fachen der Pitchperiode zwischen den
Pitchzeitmarken aufweist.
11. Sprachsynthesevorrichtung nach Anspruch 10, bei der jedes Fenster eine
Dauer im Bereich des 1,25 bis 1,6-fachen der Pitchperiode zwischen den
Pitchzeitmarken aufweist.
12. Sprachsynthesevorrichtung nach Anspruch 8 oder 9, bei der jedes Fenster
eine komplette Periode zwischen zwei Pitchmarkierungen umfaßt.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP94301953 | 1994-03-18 | ||
SG1996003308A SG43076A1 (en) | 1994-03-18 | 1994-03-18 | Speech synthesis |
PCT/GB1995/000588 WO1995026024A1 (en) | 1994-03-18 | 1995-03-17 | Speech synthesis |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69519086D1 DE69519086D1 (de) | 2000-11-16 |
DE69519086T2 true DE69519086T2 (de) | 2001-05-10 |
Family
ID=26136991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69519086T Expired - Lifetime DE69519086T2 (de) | 1994-03-18 | 1995-03-17 | Sprachsynthese |
Country Status (10)
Country | Link |
---|---|
EP (1) | EP0750778B1 (de) |
JP (1) | JPH09510554A (de) |
CN (1) | CN1144008A (de) |
AU (1) | AU692238B2 (de) |
CA (1) | CA2185134C (de) |
DE (1) | DE69519086T2 (de) |
ES (1) | ES2152390T3 (de) |
NZ (1) | NZ282012A (de) |
SG (1) | SG43076A1 (de) |
WO (1) | WO1995026024A1 (de) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3093113B2 (ja) * | 1994-09-21 | 2000-10-03 | 日本アイ・ビー・エム株式会社 | 音声合成方法及びシステム |
DK0796489T3 (da) * | 1994-11-25 | 1999-11-01 | Fleming K Fink | Fremgangsmåde ved transformering af et talesignal under anvendelse af en pitchmanipulator |
AU6044398A (en) * | 1997-01-27 | 1998-08-26 | Entropic Research Laboratory, Inc. | A system and methodology for prosody modification |
CN104205213B (zh) * | 2012-03-23 | 2018-01-05 | 西门子公司 | 语音信号处理方法及装置以及使用其的助听器 |
JP6446993B2 (ja) * | 2014-10-20 | 2019-01-09 | ヤマハ株式会社 | 音声制御装置およびプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5163110A (en) * | 1990-08-13 | 1992-11-10 | First Byte | Pitch control in artificial speech |
-
1994
- 1994-03-18 SG SG1996003308A patent/SG43076A1/en unknown
-
1995
- 1995-03-17 CA CA002185134A patent/CA2185134C/en not_active Expired - Fee Related
- 1995-03-17 AU AU18995/95A patent/AU692238B2/en not_active Ceased
- 1995-03-17 NZ NZ282012A patent/NZ282012A/en not_active IP Right Cessation
- 1995-03-17 JP JP7524461A patent/JPH09510554A/ja not_active Ceased
- 1995-03-17 ES ES95911420T patent/ES2152390T3/es not_active Expired - Lifetime
- 1995-03-17 EP EP95911420A patent/EP0750778B1/de not_active Expired - Lifetime
- 1995-03-17 DE DE69519086T patent/DE69519086T2/de not_active Expired - Lifetime
- 1995-03-17 CN CN95192141A patent/CN1144008A/zh active Pending
- 1995-03-17 WO PCT/GB1995/000588 patent/WO1995026024A1/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
AU692238B2 (en) | 1998-06-04 |
SG43076A1 (en) | 1997-10-17 |
EP0750778B1 (de) | 2000-10-11 |
CA2185134C (en) | 2001-04-24 |
NZ282012A (en) | 1997-05-26 |
EP0750778A1 (de) | 1997-01-02 |
AU1899595A (en) | 1995-10-09 |
DE69519086D1 (de) | 2000-11-16 |
JPH09510554A (ja) | 1997-10-21 |
CN1144008A (zh) | 1997-02-26 |
WO1995026024A1 (en) | 1995-09-28 |
CA2185134A1 (en) | 1995-09-28 |
ES2152390T3 (es) | 2001-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69521955T2 (de) | Verfahren zur Sprachsynthese durch Verkettung und teilweise Überlappung von Wellenformen | |
DE69228211T2 (de) | Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals | |
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
DE60127274T2 (de) | Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen | |
DE68919637T2 (de) | Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen. | |
DE69909716T2 (de) | Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich | |
EP1979901B1 (de) | Verfahren und anordnungen zur audiosignalkodierung | |
DE69932786T2 (de) | Tonhöhenerkennung | |
DE69811656T2 (de) | Stimmentransformation nach einer zielstimme | |
DE69230324T2 (de) | Verfahren zur Zeitskalenmodifikation von Signalen | |
DE69926462T2 (de) | Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung | |
DE2945413C1 (de) | Verfahren und Vorrichtung zur Synthetisierung von Sprache | |
DE60112512T2 (de) | Kodierung von Ausdruck in Sprachsynthese | |
DE60012198T2 (de) | Kodierung der hüllkurve des spektrums mittels variabler zeit/frequenz-auflösung | |
DE69700084T2 (de) | Verfahren zur Transformierung eines periodischen Signales unter Verwendung eines geplätteten Spectrogrammes, Verfahren zur Transformierung von Schall bei Verwendung von Phasenkomponenten und Verfahren zur Analyse eines Signales unter Verwendung einer optimalen Interpolationsfunktion | |
DE60213653T2 (de) | Verfahren und system zur echtzeit-sprachsynthese | |
DE69720861T2 (de) | Verfahren zur Tonsynthese | |
DE2115258A1 (de) | Sprachsynthese durch Verkettung von in Formant Form codierten Wortern | |
DE3036680A1 (de) | Sprachsynthesizer mit dehnbarer und komprimierbarer sprachzeit | |
DE60305716T2 (de) | Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals | |
DE69612958T2 (de) | Verfahren und vorrichtung zur resynthetisierung eines sprachsignals | |
DE69713712T2 (de) | Sprachkodierer mit Sinusanalyse und Grundfrequenzsteuerung | |
DE69618408T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE69702261T2 (de) | Sprachkodierung | |
DE3019823C2 (de) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |