EP0750778B1

EP0750778B1 - Sprachsynthese

Info

Publication number: EP0750778B1
Application number: EP95911420A
Authority: EP
Inventors: Andrew Lowry
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1994-03-18
Filing date: 1995-03-17
Publication date: 2000-10-11
Anticipated expiration: 2015-03-17
Also published as: CA2185134A1; AU1899595A; NZ282012A; EP0750778A1; AU692238B2; CN1144008A; JPH09510554A; ES2152390T3; DE69519086T2; WO1995026024A1; SG43076A1; CA2185134C; DE69519086D1

Claims

Sprachsynthesevorrichtung, die eine Einrichtung enthält, die zur Änderung des Pitches von mit der Sprachsynthesevorrichtung synthetisierten Sprachsignalen steuerbar ist und die umfaßt:

(i) eine Einrichtung zur Auftrennung der Sprachsignale in eine Spektrumskomponente und eine Erregungskomponente,

(ii) eine Einrichtung zur Multiplikation der Erregungskomponente mit einer Reihe sich überlappender Fensterfunktionen, die bei von einer menschlichen Stimme gesprochenen Sprache synchron mit einer Pitchzeitmarken-Information ist, die zumindest näherungsweise Zeitpunkten der Stimmerregung entspricht, zu ihrer Aufteilung in Fenstersegmente,

(iii) eine Einrichtung zum Aufbringen einer steuerbaren Zeitverschiebung auf die Segmente und zu ihrer Addition und

(iv) eine Einrichtung zur Rekombination der Spektrumskomponente und der Erregungskomponente,
wobei die Einrichtung zur Multiplikation mindestens zwei Fenster pro Pitchperiode vorsieht und jedes Fenster eine Dauer von weniger als einer Pitchperiode aufweist.
Sprachsynthesevorrichtung nach Anspruch 1, bei der die Fenster aus ersten Fenstern, einem Fenster pro Pitchperiode, bestehen, welche die Pitchzeitmarken-Positionen und mehrere Zwischenfenster einschließen.
Sprachsynthesevorrichtung nach Anspruch 2, bei der jedes Zwischenfenster eine Breite aufweist, die kleiner ist als die Breite der ersten Fenster.
Sprachsynthesevorrichtung, die eine Einrichtung enthält, die zur Änderung des Pitches synthetisierter Sprachsignale steuerbar ist, und die aufweist:

(i) eine Einrichtung zur Auftrennung der Sprachsignale in eine Spektrumskomponente und eine Erregungskomponente,

(ii) eine Einrichtung zur temporären Kompression/Expansion der Erregungskomponente durch Interpolation neuer Abtastsignale aus Eingangs-Abtastsignalen und

(iii) eine Einrichtung zur Rekombination der Spektrumskomponente und der Erregungskomponente.
Sprachsynthesevorrichtung nach Anspruch 4, bei der die Einrichtung zur Kompression/Expansion in Abhängigkeit von der Pitchzeitmarken-Information betreibbar ist, die zumindest näherungsweise Zeitpunkten der Stimmerregung entspricht, um den Grad der Kompression/Expansion synchron damit so zu ändern, daß das Erregungssignal in der Nähe der Pitchzeitmarken weniger komprimiert/expandiert wird als in der Mitte der Pitchperiode zwischen zwei derartigen aufeinanderfolgenden Pitchzeitmarken.
Sprachsynthesevorrichtung nach einem der Ansprüche 1 bis 5, die umfaßt:

(a) einen Speicher, der Datenelemente enthält, die jeweils einen Abschnitt einer Sprachsignalwellenform definieren und Pitchzeitmarken-Information enthalten, die zumindest näherungsweise dem Peak der Stimmerregung entspricht, und

(b) eine Treibereinrichtung, die auf Eingangssignale anspricht und Adressen erzeugt, um Datenelemente aus dem Speicher auszulesen und Pitchsignale zu erzeugen, die vom Kontext abhängige Pitchänderungen darstellen, aus denen Sprache erzeugt wird.
Sprachsynthesevorrichtung nach einem der Ansprüche 1 bis 6, bei der die Einrichtung zur Auftrennung der Sprachsignale in eine Spektrumskomponente und eine Erregungskomponente umfaßt:

(a) eine Analyseeinrichtung zum Empfang der synthetisierten Sprache und zur Erzeugung von Parametern für ein Filter, dessen Frequenzantwort dem Spektralinhalt der Sprache gleicht, sowie für ein Filter, das eine inverse Antwort erzeugt, und

(b) ein Filter, das zum Empfang der Parameter vorgesehen ist, um die Sprache zu filtern und ein Restsignal zu erzeugen, wobei diese Filter in der Einrichtung zur Rekombination vorgesehen sind,

(c) ein Umkehrfilter, das zum Empfang der Parameter und zum Filtern des Restsignals in Übereinstimmung mit der inversen Antwort vorgesehen ist.
Sprachsynthesevorrichtung, die enthält: eine Einrichtung zur Steuerung des Pitches eines Eingangssignals durch Multiplikation des Signals mit einer Reihe sich überlappender Fenster, um dieses in Segmente aufzuteilen und die Segmente, nachdem sie einer Zeitverschiebung unterworfen wurden, zu rekombinieren, wobei die Fenster mit den Pitchzeitmarken synchron sind, die Zeitpunkte von Peaks der Stimmerregung repräsentieren,
wobei jedes Fenster eine Dauer von weniger als dem Doppelten der Pitchperiode zwischen den Pitchzeitmarken aufweist und um die Pitchzeitmarke herum asymmetrisch ist.
Sprachsynthesevorrichtung nach Anspruch 8, die enthält:
eine Einrichtung zur Auftrennung eines Sprachsignals in eine Spektrumskomponente und eine Erregungskomponente, wobei die Pitchsteuereinrichtung so ausgeführt ist, daß sie die Erregungskomponente als Eingangssignal empfängt, und eine Einrichtung zur Rekombination der Spektrumskomponente und der Erregungskomponente, bei welcher der Pitch eingestellt wurde.
Sprachsynthesevorrichtung nach Anspruch 8 oder 9, bei der jedes Fenster eine Dauer von weniger als dem 1,7-fachen der Pitchperiode zwischen den Pitchzeitmarken aufweist.
Sprachsynthesevorrichtung nach Anspruch 10, bei der jedes Fenster eine Dauer im Bereich des 1,25 bis 1,6-fachen der Pitchperiode zwischen den Pitchzeitmarken aufweist.
Sprachsynthesevorrichtung nach Anspruch 8 oder 9, bei der jedes Fenster eine komplette Periode zwischen zwei Pitchmarken umfaßt.