DE69519086T2 - Sprachsynthese - Google Patents

Sprachsynthese

Info

Publication number
DE69519086T2
DE69519086T2 DE69519086T DE69519086T DE69519086T2 DE 69519086 T2 DE69519086 T2 DE 69519086T2 DE 69519086 T DE69519086 T DE 69519086T DE 69519086 T DE69519086 T DE 69519086T DE 69519086 T2 DE69519086 T2 DE 69519086T2
Authority
DE
Germany
Prior art keywords
pitch
speech
excitation
window
speech synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69519086T
Other languages
English (en)
Other versions
DE69519086D1 (de
Inventor
Andrew Lowry
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Application granted granted Critical
Publication of DE69519086D1 publication Critical patent/DE69519086D1/de
Publication of DE69519086T2 publication Critical patent/DE69519086T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

  • Die vorliegende Erfindung betrifft die automatische Erzeugung von Sprache (beispielsweise aus einer codierten Texteingabe). Sie betrifft insbesondere Analyse-Syntheseverfahren, bei denen die "synthetische" Sprache aus gespeicherten Sprach-Wellenformen erzeugt wird, die ursprünglich von einer menschlichen Stimme stammen (im Gegensatz zu "Synthesis by Rule"-Systemen). Um natürlich klingende Sprache zu erzeugen, ist es erforderlich, bei synthetischer Sprache die gleiche Art Kontext-abhängiger (prosodischer) Variationen der Intonation zu erzeugen, wie sie sich in der von einer menschlichen Stimme gesprochenen Sprache finden. Die vorliegende Erfindung setzt die Erzeugung prosodischer, eine Information vorgebender Variationen des Pitches voraus, die erzeugt werden müssen, und geht das Problem der Verarbeitung von Sprachsignalen an, um eine solche Pitchvariationen zu erhalten.
  • Ein Verfahren der Pitcheinstellung ist in F. J. Charpentier und M. G Stella, "Diphone Synthesis Using an Overlap-add Technique for Speech Waveforms Concatenation", Proc. Int. Conf. ASSP, IEEE, Tokyo, 1986, S. 2015 - 218, beschrieben. Sprachwellenformabschnitte, wobei jeder Abschnitt ein Diphon repräsentiert, werden zusammen mit Pitchmarkierungen gespeichert, die (für von einer menschlichen Stimme gesprochene Sprache) zeitlich mit dem höchsten Peak jeder Pitchperiode der Wellenform zusammenfallen und daher ungefähr dem Moment der Glottisschließung durch den Sprecher entsprechen, oder die für nicht von einer menschlichen Stimme gesprochene Sprache willkürlich sind.
  • Ein zu verwendender Wellenformabschnitt wird unter Verwendung eines Hamming-Fensters einer Länge, die dem Dreifachen der Pitchperiode entspricht, in Überlappungssegmente aufgeteilt. Unter Verwendung einer diskreten Fourier- Transformation wird für die Wellenform eine globale Spektrums-Hüllkurve und eine Kurzzeitspektrums-Hüllkurve erzeugt; es wird eine "Quellenkomponente" erzeugt, die das Kurzzeitspektrum dividiert durch die Spektrums-Hüllkurve darstellt. Der Pitch der Quellenkomponente wird dann durch eine lineare Interpolation modifiziert und wird dann mit der Hüllkurveninformation rekombiniert. Nach der auf diese Weise erfolgten Vorverarbeitung werden die Segmente mit Hilfe einer Überlappungs-Additions-Technik bzw. Verarbeitung miteinander verknüpft, um den erwünschten Grundpitch zu erhalten.
  • In einem weiteren Vorschlag wird die Frequenz-Domänen-Vorverarbeitung unterlassen und es wird ein Hanning-Fenster verwendet, das doppelt so lang ist wie die Pitchperiode dauert ("A Diphone Synthesis System based on Time-domain Prosodic Modification of Speech", C. Hamon, E. Moulines, and F. Charpentier, Int. Conf. ASSP, Glasgow, 1989, S. 238-241).
  • Alternativ zur Anwendung der Zeitdomänen-Überlappungs-Technik auf ein komplettes Sprachsignal kann diese Technik auch auf eine Erregungskomponente angewandt werden, beispielsweise mit Hilfe einer LPC-Analyse zur Erzeugung eines Restsignals (oder einer Parameterdarstellung desselben) und Anwendung der Überlappungs-Additions-Technik auf das Residdum, bevor dieses durch ein LPC- Synthesefilter geschickt wird (s. "Pitch-synchronous Waveform Processing Techniques for Text-to Speech Synthesis using Diphones", F. Charpentier und E. Moulines, European Conference on Speech Communictions and Technology, Paris, 1989, Bd. II, S. 13-19).
  • Das Grundprinzip der Überlappungs-Additions-Technik ist in Fig. 1 gezeigt, in der ein Sprachsignal S mit Pitchmarkierungen P gezeigt ist, die auf den Erregungspeaks zentriert sind, es wird durch Multiplikation durch Fenster- Wellenformen W (wobei nur zwei von ihnen gezeigt sind) in Überlappungsegmente aufgetrennt. Die synthetisierte Wellenform wird durch Zusammenaddieren der Segmente und der Zeitverschiebung erzeugt, um den Pitch mit einem Segment zu vergrößern oder zu verkleinern, das jeweils bedarfsweise ausgelassen oder wiederholt wird.
  • Gemäß der vorliegenden Erfindung ist eine Sprachsynthesevorrichrung angegeben, die eine Einrichtung enthält, die zur Änderung des Pitches von mit der Sprachsynthesevorrichrung synthetisierten Sprachsignalen steuerbar ist, und die umfaßt:
  • (i) eine Einrichtung zur Auftrennung der Sprachsignale in eine Spektrumskomponente und eine Erregungskomponente,
  • (ii) eine Einrichtung zur Multiplikation der Erregungskomponente mit einer Reihe sich überlappender Fensterfunktionen, die bei von einer menschlichen Stimme gesprochenen Sprache synchron mit einer Pitchzeitmarken-Information ist, die zumindest näherungsweise Zeitpunkten der Stimmerregung entspricht, zu ihrer Aufteilung in Fenstersegmente,
  • (iii) eine Einrichtung zum Aufbringen einer steuerbaren Zeitverschiebung auf die Segmente und zu ihrer Addition und
  • (iv) eine Einrichtung zur Rekombination der Spektrumskomponente und der Erregungskomponente,
  • wobei die Einrichtung zur Multiplikation mindestens zwei Fenster pro Pitchperiode vorsieht und jedes Fenster eine Dauer von weniger als einer Pitchperiode aufweist. Die Fenster bestehen bevorzugt aus ersten Fenstern, einem Fenster pro Pitchperiode, welche die Pitchzeitmarken-Positionen und mehrere Zwischenfenster einschließen und die Zwischenfenster weisen eine Breite auf, die kleiner ist als die Breite der ersten Fenster.
  • Bei einem weiteren Aspekt gibt die vorliegende Erfindung eine Sprachsynthese- Vorrichtung an, die eine Einrichtung enthält, die zur Änderung des Pitches synthetisierter Sprachsignale steuerbar ist, und die aufweist:
  • (i) eine Einrichtung zur Auftrennung der Sprachsignale in eine Spektrumskomponente und eine Erregungskomponente,
  • (ii) eine Einrichtung zur temporären Kompression/Expansion der Erregungskomponente durch Interpolation neuer Abtastsignale aus Eingangs-Abtastsignalen und
  • (iii) eine Einrichtung zur Rekombination der Spektrumskomponente und der Erregungskomponente. Die Einrichtung zur temporären Kompression/Expansion ist in Abhängigkeit von der Pitchzeitmarken-Information betreibbar, die zumindest näherungsweise Zeitpunkten der Stimmerregung entspricht, um den Grad der Kompression/Expansion synchron damit so zu ändern, daß das Erregungssignal in der Nähe der Pitchzeitmarken weniger komprimiert/expandiert wird als in der Mitte der Pitchperiode zwischen zwei derartigen aufeinanderfolgenden Pitchzeitmarken.
  • In einem weiteren Aspekt gibt die Erfindung eine Sprachsynthesevorrichtung gemäß Anspruch 8 an.
  • Im folgenden sind einige Ausführungsformen der Erfindung beispielhaft unter Bezug auf die beigefügten Zeichnungen beschrieben, in denen zeigen:
  • Fig. 2 ein Blockschaltbild einer Ausführungsform der Sprachsynthesevorrichtung,
  • Fig. 3 und 5 Signalverläufe für zwei Verfahren zur Grundfrequenzeinstellung durch überlappende Addition und
  • Fig. 4 den Signalverlauf zur Fensterung des Sprachsignals zum Zwecke der Spektralanalyse.
  • In der Vorrichtung von Fig. 2 werden, wie bereits zuvor erläutert, Teile des digitalen Sprachzeitsignals S. zusammen mit den korrespondierenden Grundfrequenz-Zeitmarkierungen P, in einer Speichereinheit 100 abgespeichert. Stücke des Zeitsignals werden unter Kontrolle des Text-zu-Sprache-Treibers 101, welcher die nötigen Speicheradressen erzeugt, ausgelesen; die Funktion des Treibers 101 ist herkömmlich und soll nicht weiter beschrieben werden, außer, daß er zusätzlich die Grundfrequenzinformation PP erzeugt. Die Erregungs- und Vokaltraktkomponenten eines aus der Speichereinheit 100 ausgelesenen Sprachwellenformabschnittes werden durch die LPC-Analyseeinheit 102 getrennt, welche periodisch die Koeffizienten eines Synthesefilters mit dem Frequenzgang erzeugt, der dem Frequenzspektrum des Sprachwellenformabschnittes entspricht. Dieser steuert ein Analysefilter 103 an, welches das Inverse des Synthesefilters darstellt und an seinem Ausgang das Restsignal R erzeugt.
  • Die LPG-Analyse und die inverse Filteroperation sind mit den Grundfrequenzmarkierungen P synchron, wie im folgenden noch beschrieben ist.
  • Der nächste Schritt des Verfahrens besteht in der Veränderung der Grundfrequenz des Restsignals. Dies wird (für stimmhafte Sprachsegmente) mittels einer Mehrfach-Fenstertechnik durchgeführt, in welcher das Residuum in einer Verarbeitungseinheit 104 durch die Multiplikation mit einer Folge von überlappenden Fensterfunktionen, mindestens zwei pro Grundfrequenzperiode, in Segmente aufgeteilt wird; fünf solche überlappende Fensterfunktionen werden in Fig. 3, welche ein trapezförmiges Fenster, zentriert an der Grundfrequenzmarkierung, und vier dreieckige Zwischenfenster zeigt, dargestellt. Die Fenster an den Grundfrequenzperioden sind etwas weiter als die Zwischenfenster, um eine Verdoppelung der Hauptanregung beim Verringern der Grundfrequenz zu vermeiden.
  • Um die Grundfrequenz zu erhöhen, werden die Fenstersegmente, wie im unteren Teil der Fig. 3 gezeigt, in einem verkürzten zeitlichen Abstand zusammengefügt; um die Grundfrequenz zu verringern, wird der zeitliche Abstand vergrößert. In beiden Fällen werden, um eine korrekte Signalamplitude zu gewährleisten, die relativen Fensterbreiten so gewählt, daß eine Überlappung der abgeschrägten Flanken während der Synthese gegeben ist (z. B. 50% der Überlappung der Zwischenfenster). Die zeitliche Einstellung wird durch die Signale PP gesteuert. Übliche Breiten für die Zwischenfenster sind 2 ms, während die Breite der an den Grundfrequenzmarkierungen plazierten Fenster von der Grundperiode des entsprechenden Signals abhängt, meistens in der Größenordnung von 2 bis 10 ms. Die Verwendung von mehreren Fenstern, im Vergleich zur Verwendung von nur einem Fenster pro Grundperiode, dient der Reduzierung der Phasenverzerrungen. Nach der zeitlichen Verarbeitung wird das Residuum an das LPC-Filter 105 weitergereicht, um das gewünschte Sprachsignal zurückzugewinnen.
  • Die Speichereinheit beinhaltet weiterhin eine Stimmhaft/Stimmlos-Anzeige für jeden Wellenformabschnitt. Stimmlose Abschnitte werden durch die mit der Einheit 104 identische Grundfrequenzeinheit 104' unter Umgehung der LPC-Analyse und Synthese bearbeitet. Die Umschaltung zwischen den zwei Pfaden erfolgt im Schalter 106. Als Alternative hierzu können stimmlose Abschnitte den gleichen Signalpfad wie stimmhafte verwenden, wobei in beiden Fällen beliebige Positionen für die Grundfrequenzmarkierungen verwendet werden.
  • Als Alternative zu der Überlappungs-Addition des Residuums wurde ein weiterer Algorithmus entwickelt, welcher darauf abzielt, die Form des Residuums zu erhalten und weiterhin Phasenverzerrungen, welche durch Verschieben und die Überlappungs-Addition entstehen, zu verringern. Das Grundprinzip besteht in der Veränderung der Grundperiode durch erneute Abtastung der freien Phase (d. h., eines Abschnitts der Wellenform zwischen den Pitchmarkierungen; dies läßt die signifikante Information in der Umgebung der Pitchmarkierung unverändert), der Erhaltung von durch den Verschluß erzeugten hohen Frequenzen und der Erzeugung einer realistischeren Gesamtform der Erregungsperiode. Üblicherweise werden 80% der Periode erneut abgetastet.
  • Die erneute Abtastung wird durch eine Abbildung erreicht, bei der jedem Abtastwert der Originalabtastrate eine neue Position auf der Zeitachse zugewiesen wird. Die Signalamplitude eines jeden Abtastwertes des Signals mit erneuter Abtastung wird dann mittels linearer Interpolation zwischen den zwei Abtastweiten bestimmt, die am nächsten abgebildet wurden. Lineare Interpolation ist nicht ideal für das erneute Abtasten, ist aber einfach zu implementieren und gibt zumindest einen Hinweis darauf, wie nützlich das Verfahren sein kann. Beim Verringern der Abtastwerte zur Reduzierung der Grundperiode muß das Signal tiefpaßgefiltert werden, um Aliasing zu vermeiden. Ursprünglich wurde ein eigenes Filter für jede Grundperiode mittels des Fensterentwurfverfahrens entworfen. Schließlich konnten diese durch ein Tabellennachschlageverfahren erzeugt werden, um den Rechenaufwand zu reduzieren.
  • Eine weitere Verbesserung besteht darin, starke Änderungen in den Signalcharakteristiken an den Segmentgrenzen zu vermeiden, indem der Faktor der erneuten Abtastung sich gleichmäßig über dem zu bearbeitenden Segment verändert. Ohne diese Verbesserung würde die effektive Abtastrate des Signals stufenförmigen Veränderungen unterliegen. Eine sinusförmige Funktion wird dazu verwendet, und der Grad der Glättung ist steuerbar. Die variable Umsetzung der Abtastung wird in dem Abbildungsprozeß gemäß der folgenden Gleichung implementiert:
  • T(0) = 0
  • T(M - 1) = N - 1
  • wobei bedeuten:
  • M = Anzahl der Abtastwerte des Originalsignals,
  • N = Anzahl der Abtastwerte des neuen Signals,
  • α = [0,1], steuert den Grad der Glättung,
  • Z(n) = Position des n-ten Abtastwertes in dem Signal mit erneuter Abtastung.
  • Ein Hauptunterschied zwischen der vorliegenden und der Überlappungs- Additions-Technik bei einem Einzelfenster besteht darin, daß die Änderung der Pitchperiode ohne die Überlappungs- und Additionstechnik der zeitverschobenen Segmente erzielt wird, vorausgesetzt, daß die Synthese-Pitchmarkierungen abgebildet werden, indem sie den nachfolgenden Analyse-Pitchmarkierungen zugewiesen werden. Wenn die Pitchmarkierungen nicht aufeinanderfolgen, ist eine überlappende Addition weiterhin erforderlich, damit sich bei der erneuten Abtastung ein geglättetes Signal ergibt. Das tritt auf, wenn Perioden dupliziert oder ausgelassen werden, so daß sich die erwünschte Dauer ergibt.
  • Bei einer alternativen Realisierung wird eher eine erneute Abtastung des gesamten Signals als die Abtastung eines ausgewählten Teils jeder Pitchperiode verwendet. Dadurch entstehen für den Pitchanstieg keine Probleme, vorausgesetzt, daß in geeigneter Weise gefiltert wird, um Aliasing zu verhindern, da die Struktur der Harmonischen immer noch den gesamten Frequenzbereich einnimmt. Wenn hingegen der Pitch verringert wird, läßt die Interpolation eine Lücke am hohen Ende des Spektrums. In einem praktikablen System, die auf Anwendungen im Telephonverkehr abzielt, könnte dieser Effekt durch Speichern und Verarbeiten der Sprache bei einer höheren Bandbreite als 4 kHz (beispielsweise bei 6 kHz) minimiert werden. Die "verlorenen" hohen Frequenzen würden dann meistens außerhalb des Telephonbandes liegen und somit nicht relevant sein.
  • Beide Variationen der Technik der erneuten Abtastung leiden unter den hohen Rechenanforderungen verbunden mit Interpolation/Dezimierung, insbesondere wenn der Faktor der erneuten Abtastung kein Verhältnis zwischen zwei ganzen Zahlen darstellt. Die Technik wird aber durch die fortwährende Weiterentwicklung der DSP-Technologie immer attraktiver.
  • Die LPC-Anlayse ist, wie oben angegeben, mit den Pitchmarkierungen synchron. Insbesondere ist ein Satz LPC-Parameter für jede Pitchmarkierung im Sprachsignal erforderlich. Als Teil des Prozesses der Sprachmodifizierung werden die ursprüngliche und die modifizierte Pitchmarkierung abgebildet. Dann können die geeigneten LPC-Parameter für jede modifizierte Pitchmarkierung ausgewählt werden, um aus dem Residuum die Sprache erneut zu synthetisieren.
  • Bei den LPC-Techniken kann es bei der synthetisierten Sprache infolge von abrupten Änderungen der Parameter bei den Rahmengrenzen zu Diskontinuitäten kommen. Dadurch können Knacken und Geräusche des Platzens auftreten und die Qualität kann generell ungleichmäßig sein, was sich als wahrnehmbar störend auswirkt. Um diese Effekte zu verringern, werden die LPC-Parameter an der Sprachabtastrate sowohl in der Analysephase als auch in der Synthesephase interpoliert.
  • Die LPC-Analyse kann durchgeführt werden, indem ein beliebiges herkömmliches Verfahren angewendet wird; wenn das Kovarianz- oder das stabilisierte Kovarianzverfahren angewendet wird, würde jeder Satz LPC-Parameter für ein Stück des Sprachabschnitts (Analyserahmen) mit einer Länge gleich der Länge der Pitchperiode (wobei sich das Zentrum eher auf dem Mittelpunkt der Pitchperiode als auf der Pitchmarkierung befindet) erzeugt oder, alternativ dazu, könnten längere überlappende Stücke verwendet werden, was den Vorteil hat, daß die Verwendung eines Analyserahmens mit einer festen Länge, bezogen auf den Pitch, möglich ist.
  • Wie in Fig. 4 gezeigt, ist alternativ dazu ein Fenster-Analyserahmen bevorzugt.
  • Obwohl die Rahmen in Fig. 4 der größeren Klarheit halber mit einem dreieckigen Fenster gezeigt sind, hängt die Auswahl der Fensterfunktion aktuell vom angewendeten Analyseverfahren ab. So könnte beispielsweise ein Hanning-Fenster verwendet werden. Das Rahmenzentrum ist eher nach dem Zentrum der Pitchperiode als nach der Pitchmarkierung ausgerichtet. Der Grund ist der, daß der Einfluß der Glottiserregung auf die LPC-Analyse verringert wird, ohne daß auf eine Schließphasen-Analyse mit kurzen Rahmen zurückgegriffen werden muß. Infolgedessen bezieht sich jeder eingestellte Parameter auf die Mitte der Periode und nicht auf die Pitchmarkierung. Die Rahmenlänge ist festgelegt, da festgestellt wurde, daß sich dadurch beständigere Ergebnisse ergeben als bei einem Pitchabhängigen Wert.
  • Bei kurzen Rahmenlängen wäre das stabilisierte Kovarianzverfahren im Hinblick auf die Genauigkeit eher zu bevorzugen. Bei den hier verwendeten längeren Rahmen ist zwischen den drei Verfahren kein wahrnehmbarer Unterschied zu beobachten, weshalb das Autokorrelationsverfahren bevorzugt ist, da es rechnerisch effizient ist und ein stabiles Synthesefilter gewährleistet.
  • Nachdem die LPC-Parameter bestimmt worden sind, besteht der nächste Schritt darin, die Sprache auf einer Pitch-synchronen Basis einer Inversionsfilterung zu unterwerfen. Wie oben angegeben, werden die Parameter interpoliert, um die Übergänge infolge großer Änderungen bei den Parameterwerten an den Rahmengrenzen zu minimieren. In der Mitte jeder Pitchperiode entspricht das Filter exakt dem aus der Analyse erhaltenen Filter. In jedem Abtastaugenblick zwischen den aufeinanderfolgenden Pitchzentren ist das Filter eine gewichtete Kombination aus beiden, aus der Analyse erhaltenen Filtern. Die Interpolation wird bevorzugt direkt an den Filterkoeffizienten vorgenommen. Es hat sich gezeigt, daß hierdurch weniger Spektralverzerrung als bei anderen Parametern (LAR, LSP (Linienspektralpaare) etc.) entsteht, daß aber nicht gewährleistet ist, daß sich ein stabil interpoliertes Filter ergibt. In der Praxis sind aber keine Instabilitätsprobleme aufgetreten.
  • Im allgemeinen sind bei der Abtastung n die Filterkoeffizienten durch
  • an(i) = αnal(i) + (1 - αn)ar(i), i = o, ..., P
  • gegeben,
  • wobei bedeuten:
  • p = die Reihenfolge der LPC-Anlayse,
  • an = den Wert einer Gewichtsfunktion an der Abtastung n,
  • al und ar = die Parametereinstellungen, bezogen auf das nächste rechte und linke Periodenzentrum.
  • Um eine gleichmäßige Evolution der Filterkoeffizienten zu gewährleisten, ist die Gewichtsfunktion ein erhöhter halber Cosinus zwischen aufeinanderfolgenden Periodenzentren und durch
  • α(i) = 0,5 + 0,5 cos (πi / N), i = 0, ..., N - 1
  • gegeben,
  • wobei bedeuten:
  • N = den Abstand zwischen den Periodenzentren und
  • i = 0 = das Zentrum jeder Periode.
  • Die Filterkoeffizienten für das Resynthesefilter 105 werden auf die gleiche Weise wie für die Inversionsfilterung berechnet. Modifizierungen des Pitches und der Dauer bedeuten, daß die Sequenz der Filter und der Periodenwerte von den Sequenzen verschieden ist, die in der Analyse angewendet werden, durch die Interpolation ist jedoch eine gleichmäßige Änderung der Filterkoeffizienten von Abtastung zu Abtastung gewährleistet.
  • Für die erste Pitchmarkierung in einem stimmhaften Sprachsegment beginnt die Filterung an der Pitchmarkierung und es wird keine Interpolation angewendet, bis das Zentrum der Periode erreicht ist. Für die letzte Pitchmarkierung in einem stimmhaften Sprachsegment wird angenommen, daß die Periode den für die Positionierung des Analyserahmens maximal zulässigen Wert aufweist, und die Filterung an der Pitchmarkierung gestoppt wird. Diese Filterbedingungen gelten sowohl für die Analyse als auch für die erneute Synthese. Wenn eine erneute Synthese von der ersten Pitchmarkierung erfolgt, wird der Filterspeicher von den vorhergehenden Signalabtastungen initialisiert.
  • Als weitere alternative Ausführungsform der Pitcheinstellung 104 kann eine Einzelfenster-Überlappungs- und Additionstechnik angewendet werden, jedoch mit einer Fensterbreite einer Dauer von weniger als zwei Pitchperioden (bevorzugt weniger als 1,7, z. B. im Bereich von 1,25 bis 1,6). Mit einer Überlappung von weniger als 100% (d. h. 50% auf jeder Seite) weist die Fensterfunktion notwendigerweise eine flache Spitze auf, darüber hinaus ist sie, bezogen auf die Pitchmarkierungen (bevorzugt eine ganze Periode zwischen zwei Pitchmarkierungen einschließend), asymmetrisch plaziert. In Fig. 5 ist eine typische Fensterfunktion mit einer flachen Spitze gezeigt, die eine Länge gleich der Pitchperiode während der Synthese und Flanken mit erhöhtem halbem Cosinus oder einer linearen Form aufweist.
  • Mit einem in der Dauer begrenztem Fenster, wie oben gezeigt, besteht bei einem verringerten Pitch ein Potentialproblem. Wenn die Synthese-Pitchmarkierungen hinreichend weit auseinanderliegen, überlappen sich die Fenster überhaupt nicht, und diese Situation ergibt sich eher bei einem kürzeren Fenster als bei der üblichen, Pitch-synchronen überlappenden Addition. Der Effekt ist, daß ein leichtes Summen in die synthetische Sprache eingeführt wird, aber dies geschieht nur, wenn das TTS-System eine ziemlich extreme Pitchverringerung erfordert. Eine Pitchverringerung ist wegen der Notwendigkeit, die fehlenden Daten zu erzeugen, schwieriger als eine Pitchvergrößerung durchzuführen, wo vorhandene Daten auszuschneiden sind. Wenn der Pitch vergrößert wird, erzeugt das modifizierte Fenster infolge der kleineren Überlappungsperiode bessere Ergebnisse und somit ein kürzeres Intervall mit einem verzerrten Signal.
  • Diese Fensterform ist vorteilhaft, da ein kleinerer Zeitabschnitt des Signals durch die Überlappungs- und Additionstechnik als bei einem längeren Fenster erzeugt wird, und die asymmetrische Form plaziert die Verzerrung durch die überlappende Addition an das Ende der Pitchperiode, wo die Sprachenergie niedriger ist als unmittelbar nach der Stimmerregung.
  • Die Anwendung der erneuten Abtastung und der Mehrfachfenster-Pitchsteuerung (wie in Fig. 2 gezeigt) ist als Operation am Restsignal vorgesehen (zur Verhinderung einer Verzerrung der Formants), jedoch läßt sich die Technik Kurzes Asymmetrisches Fenster auch ohne Abtrennung der Erregung am Ende des Spektrums auch direkt auf das Sprachsignal anwenden. In diesem Falle könnten die Analyseeinheit 102 und die Filter 103, 105 der Fig. 2 entfallen, die Sprachsignale vom Speicher 100 werden den Pitcheinheiten 104, 104' direkt eingegeben.

Claims (12)

1. Sprachsynthesevorrichtung, die eine Einrichtung enthält, die zur Änderung des Pitches von mit der Sprachsynthesevorrichtung synthetisierten Sprachsignalen steuerbar ist, und die umfaßt:
(i) eine Einrichtung zur Auftrennung der Sprachsignale in eine Spektrumskomponente und eine Erregungskomponente,
(ii) eine Einrichtung zur Multiplikation der Erregungskomponente mit einer Reihe sich überlappender Fensterfunktionen, die bei von einer menschlichen Stimme gesprochenen Sprache synchron mit einer Pitchzeitmarken-Information ist, die zumindest näherungsweise Zeitpunkten der Stimmerregung entspricht, zu ihrer Aufteilung in Fenstersegmente,
(iii) eine Einrichtung zum Aufbringen einer steuerbaren Zeitverschiebung auf die Segmente und zu ihrer Addition und
(iv) eine Einrichtung zur Rekombination der Spektrumskomponente und der Erregungskomponente,
wobei die Einrichtung zur Multiplikation mindestens zwei Fenster pro Pitchperiode vorsieht und jedes Fenster eine Dauer von weniger als einer Pitchperiode aufweist.
2. Sprachsynthesevorrichtung nach Anspruch 1, bei der die Fenster aus ersten Fenstern, einem Fenster pro Pitchperiode, bestehen, welche die Pitchzeitmarken- Positionen und mehrere Zwischenfenster einschließen.
3. Sprachsynthesevorrichtung nach Anspruch 2, bei der jedes Zwischenfenster eine Breite aufweist, die kleiner ist als die Breite der ersten Fenster.
4. Sprachsynthesevorrichtung, die eine Einrichtung enthält, die zur Änderung des Pitches synthetisierter Sprachsignale steuerbar ist, und die aufweist:
(i) eine Einrichtung zur Auftrennung der Sprachsignale in eine Spektrumskomponente und eine Erregungskomponente,
(ii) eine Einrichtung zur temporären Kompression/Expansion der Erregungskomponente durch Interpolation neuer Abtastsignale aus Eingangs-Abtastsignalen und
(iii) eine Einrichtung zur Rekombination der Spektrumskomponente und der Erregungskomponente.
5. Sprachsynthesevorrichtung nach Anspruch 4, bei der die Einrichtung zur Kompression/Expansion in Abhängigkeit von der Pitchzeitmarken-Information betreibbar ist, die zumindest näherungsweise Zeitpunkten der Stimmerregung entspricht, um den Grad der Kompression/Expansion synchron damit so zu ändern, daß das Erregungssignal in der Nähe der Pitchzeitmarken weniger komprimiert/expandiert wird als in der Mitte der Pitchperiode zwischen zwei derartigen aufeinanderfolgenden Pitchzeitmarken.
6. Sprachsynthesevorrichtung nach einem der Ansprüche 1 bis 5, die umfaßt:
(a) einen Speicher, der Datenelemente enthält, die jeweils einen Abschnitt einer Sprachsignalwellenform definieren und Pitchzeitmarken-Information enthalten, die zumindest näherungsweise dem Peak der Stimmerregung entspricht, und
(b) eine Treibereinrichtung, die auf Eingangssignale anspricht und Adressen erzeugt, um Datenelemente aus dem Speicher auszulesen und Pitchsignale zu erzeugen, die vom Kontext abhängige Pitchänderungen darstellen, aus denen Sprache erzeugt wird.
7. Sprachsynthesevorrichtung nach einem der Ansprüche 1 bis 6, bei der die Einrichtung zur Auftrennung der Sprachsignale in eine Spektrumskomponente und eine Erregungskomponente umfaßt:
(a) eine Analyseeinrichtung zum Empfang der synthetisierten Sprache und zur Erzeugung von Parametern für ein Filter, dessen Frequenzantwort dem Spektralinhalt der Sprache gleicht, sowie für ein Filter, das eine inverse Antwort erzeugt, und
(b) ein Filter, das zum Empfang der Parameter vorgesehen ist, um die Sprache zu filtern und ein Restsignal zu erzeugen, wobei diese Filter in der Einrichtung zur Rekombination vorgesehen sind,
(c) ein Umkehrfilter, das zum Empfang der Parameter und zum Filtern des Restsignals in Übereinstimmung mit der inversen Antwort vorgesehen ist.
8. Sprachsynthesevorrichtung, die enthält: eine Einrichtung zur Steuerung des Pitches eines Eingangssignals durch Multiplikation des Signals mit einer Reihe sich überlappender Fenster, um dieses in Segmente aufzuteilen und die Segmente, nachdem sie einer Zeitverschiebung unterworfen wurden, zu rekombinieren, wobei die Fenster mit den Pitchzeitmarken synchron sind, die Zeitpunkte von Peaks der Stimmerregung repräsentieren, wobei jedes Fenster eine Dauer von weniger als dem Doppelten der Pitchperiode zwischen den Pitchzeitmarken aufweist und um die Pitchzeitmarke herum asymmetrisch ist.
9. Sprachsynthesevorrichtung nach Anspruch 8, die enthält: eine Einrichtung zur Auftrennung eines Sprachsignals in eine Spektrumskomponente und eine Erregungskomponente, wobei die Pitchsteuereinrichtung so ausgeführt ist, daß sie die Erregungskomponente als Eingangssignal empfängt, und eine Einrichtung zur Rekombination der Spektrumskomponente und der Erregungskomponente, bei welcher der Pitch eingestellt wurde.
10. Sprachsynthesevorrichtung nach Anspruch 8 oder 9, bei der jedes Fenster eine Dauer von weniger als dem 1,7-fachen der Pitchperiode zwischen den Pitchzeitmarken aufweist.
11. Sprachsynthesevorrichtung nach Anspruch 10, bei der jedes Fenster eine Dauer im Bereich des 1,25 bis 1,6-fachen der Pitchperiode zwischen den Pitchzeitmarken aufweist.
12. Sprachsynthesevorrichtung nach Anspruch 8 oder 9, bei der jedes Fenster eine komplette Periode zwischen zwei Pitchmarkierungen umfaßt.
DE69519086T 1994-03-18 1995-03-17 Sprachsynthese Expired - Lifetime DE69519086T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP94301953 1994-03-18
SG1996003308A SG43076A1 (en) 1994-03-18 1994-03-18 Speech synthesis
PCT/GB1995/000588 WO1995026024A1 (en) 1994-03-18 1995-03-17 Speech synthesis

Publications (2)

Publication Number Publication Date
DE69519086D1 DE69519086D1 (de) 2000-11-16
DE69519086T2 true DE69519086T2 (de) 2001-05-10

Family

ID=26136991

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69519086T Expired - Lifetime DE69519086T2 (de) 1994-03-18 1995-03-17 Sprachsynthese

Country Status (10)

Country Link
EP (1) EP0750778B1 (de)
JP (1) JPH09510554A (de)
CN (1) CN1144008A (de)
AU (1) AU692238B2 (de)
CA (1) CA2185134C (de)
DE (1) DE69519086T2 (de)
ES (1) ES2152390T3 (de)
NZ (1) NZ282012A (de)
SG (1) SG43076A1 (de)
WO (1) WO1995026024A1 (de)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3093113B2 (ja) * 1994-09-21 2000-10-03 日本アイ・ビー・エム株式会社 音声合成方法及びシステム
DK0796489T3 (da) * 1994-11-25 1999-11-01 Fleming K Fink Fremgangsmåde ved transformering af et talesignal under anvendelse af en pitchmanipulator
AU6044398A (en) * 1997-01-27 1998-08-26 Entropic Research Laboratory, Inc. A system and methodology for prosody modification
CN104205213B (zh) * 2012-03-23 2018-01-05 西门子公司 语音信号处理方法及装置以及使用其的助听器
JP6446993B2 (ja) * 2014-10-20 2019-01-09 ヤマハ株式会社 音声制御装置およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5163110A (en) * 1990-08-13 1992-11-10 First Byte Pitch control in artificial speech

Also Published As

Publication number Publication date
AU692238B2 (en) 1998-06-04
SG43076A1 (en) 1997-10-17
EP0750778B1 (de) 2000-10-11
CA2185134C (en) 2001-04-24
NZ282012A (en) 1997-05-26
EP0750778A1 (de) 1997-01-02
AU1899595A (en) 1995-10-09
DE69519086D1 (de) 2000-11-16
JPH09510554A (ja) 1997-10-21
CN1144008A (zh) 1997-02-26
WO1995026024A1 (en) 1995-09-28
CA2185134A1 (en) 1995-09-28
ES2152390T3 (es) 2001-02-01

Similar Documents

Publication Publication Date Title
DE69521955T2 (de) Verfahren zur Sprachsynthese durch Verkettung und teilweise Überlappung von Wellenformen
DE69228211T2 (de) Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE60127274T2 (de) Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen
DE68919637T2 (de) Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen.
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE69932786T2 (de) Tonhöhenerkennung
DE69811656T2 (de) Stimmentransformation nach einer zielstimme
DE69230324T2 (de) Verfahren zur Zeitskalenmodifikation von Signalen
DE69926462T2 (de) Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
DE2945413C1 (de) Verfahren und Vorrichtung zur Synthetisierung von Sprache
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE60012198T2 (de) Kodierung der hüllkurve des spektrums mittels variabler zeit/frequenz-auflösung
DE69700084T2 (de) Verfahren zur Transformierung eines periodischen Signales unter Verwendung eines geplätteten Spectrogrammes, Verfahren zur Transformierung von Schall bei Verwendung von Phasenkomponenten und Verfahren zur Analyse eines Signales unter Verwendung einer optimalen Interpolationsfunktion
DE60213653T2 (de) Verfahren und system zur echtzeit-sprachsynthese
DE69720861T2 (de) Verfahren zur Tonsynthese
DE2115258A1 (de) Sprachsynthese durch Verkettung von in Formant Form codierten Wortern
DE3036680A1 (de) Sprachsynthesizer mit dehnbarer und komprimierbarer sprachzeit
DE60305716T2 (de) Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals
DE69612958T2 (de) Verfahren und vorrichtung zur resynthetisierung eines sprachsignals
DE69713712T2 (de) Sprachkodierer mit Sinusanalyse und Grundfrequenzsteuerung
DE69618408T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE69702261T2 (de) Sprachkodierung
DE3019823C2 (de)

Legal Events

Date Code Title Description
8364 No opposition during term of opposition