DE69631037T2

DE69631037T2 - Sprachsynthese

Info

Publication number: DE69631037T2
Application number: DE69631037T
Authority: DE
Inventors: Andrew Ipswich LOWRY; Andrew Ipswich BREEN; Peter Ipswich JACKSON
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1995-03-07
Filing date: 1996-03-07
Publication date: 2004-08-19
Anticipated expiration: 2016-03-08
Also published as: NZ303239A; AU699837B2; US5978764A; CA2213779C; EP0813733B1; EP0813733A1; NO974100L; DE69631037D1; AU4948896A; JPH11501409A; CA2213779A1; NO974100D0; KR19980702608A; WO1996027870A1; MX9706349A

Description

Ein Verfahren zur Sprachsynthese beinhaltet das Aneinanderhängen kleiner Spracheinheiten im Zeitraum. Damit können Darstellungen von Sprachsignalen gespeichert werden und kleine Einheiten wie Phoneme, Diphone oder Triphone – d. h. Einheiten mit weniger als einem Wort – je nach der Sprache ausgewählt werden, die synthetisiert werden soll, und dann aneinandergehängt werden. Nach dem Aneinanderhängen können bekannte Techniken eingesetzt werden, um das zusammengesetzte Signal anzupassen, so dass die Kontinuität von Klanghöhe und Signalphase sichergestellt ist. Ein weiterer Faktor mit Einfluss auf die wahrgenommene Qualität der sich ergebenden synthetisierten Sprache ist jedoch die Amplitude der Einheiten; es konnte nicht bestätigt werden, dass eine Vorverarbeitung der Signalwellen – d. h. die Anpassung der Amplitude vor der Abspeicherung – dieses Problem löst, unter anderem wegen der Länge der Einheiten, die aus den abgespeicherten Daten extrahiert werden und variieren können.
In EP 0 427 485 wird eine Sprachsynthesevorrichtung und ein entsprechendes Verfahren offenbart, bei denen Sprachsegmente aneinandergehängt werden, um synthetisierte Sprache zu erzeugen, die einem eingegebenen Text entspricht. Die Segmente, die verwendet werden, sind so genannte VCV- (Vowel-Consonant-Vowel-, Vokal-Konsonant-Vokal-) Segmente, und die Energie der Vokale, die bei der Aneinanderhängung zu Nachbarn werden, wird für diesen Vokal auf eine gespeicherte Referenzenergie normalisiert.
In einem Artikel mit dem Titel "Speech synthesis by linear Interpolation of spectral parameters between dyad boundaries" von Shadle et al. im Journal of the Acoustics Society of America, Band 66, Nr. 5, November 1979, New York, USA, werden Beeinträchtigungen auf Grund der Interpolation von spektralen Parametern beim Synthetisieren von Sprache über Dyadengrenzen hinweg beschrieben.
Gemäß der vorliegenden Erfindung wird eine Sprachsynthetisierungsvorrichtung gemäß Anspruch 1 geschaffen und ein Verfahren zum Synthetisieren von Sprache gemäß Anspruch 6 angegeben.
Eine Form der Erfindung wird im Folgenden als Beispiel beschrieben, wobei Bezug genommen wird auf die beigefügten Zeichnungen.
1 ist ein Blockdiagramm eines Beispiels für die Sprachsynthese gemäß der Erfindung.
2 ist ein Flussdiagramm zur Darstellung des Ablaufs der Synthese.
3 ist ein Zeitdiagramm.
Bei der Sprachsynthetisierungsvorrichtung nach 1 enthält ein Speicher 1 Abschnitte des Sprachsignalverlaufs, die aus digitalisierten Sprachabschnitten erzeugt wurden, welche ursprünglich von einem menschlichen Sprecher aufgenommen wurden, der einen Abschnitt (von vielleicht 200 Sätzen) liest, der ausgewählt wurde, weil er alle möglichen (oder wenigstens eine große Anzahl von) verschiedenen Klängen enthält. Zu jedem Abschnitt werden Daten abgespei chert, die "Klanghöhenmarkierungen" definieren, welche stimmlose Punkte in dem Signal anzeigen, die auf übliche Art bei der ursprünglichen Aufnahme erzeugt wurden.
Ein Eingangssignal, das zu synthetisierende Sprache in Form einer phonetischen Darstellung darstellt, wird an einen Eingang 2 angelegt. Diese Eingabe kann, falls gewünscht, mit (nicht dargestellten) konventionellen Mitteln aus einem eingegebenen Text erzeugt werden. Diese Eingabe wird auf bekannte Art durch eine Auswahleinheit 3 verarbeitet, durch die entsprechend dem durch die Einheit dargestellten Klang für jede Einheit der Eingabe die Adressen in dem Speicher 1 eines gespeicherten Signalverlaufsabschnittes festgelegt werden. Eine Einheit kann, wie erwähnt, ein Phonem, ein Diphon oder eine andere Wortuntereinheit sein, und im Allgemeinen kann die Länge einer Einheit je nach Verfügbarkeit in dem Signalverlaufsspeicher eines entsprechenden Abschnittes im Signalverlauf variieren.
Die Einheiten werden, nachdem sie einmal ausgelesen worden sind, bei 4 aneinandergehängt, und die aneinander gehängte Signalverlaufsform wird bei 5 irgendeiner gewünschten Klanghöhenanpassung unterworfen.
Vor diesem Aneinanderhängen wird jede Einheit individuell einem Amplitudennormalisierungsprozess in einer Einheit 6 für die Amplitudenanpassung unterworfen, deren Funktion im Folgenden genauer erläutert wird. Das grundsätzliche Ziel besteht darin, jeden sprachlichen Abschnitt einer Einheit auf einen festgelegten RMS-Pegel zu normalisieren, bevor irgendeine weitere Verarbeitung statt findet. Eine Markierung, die die ausgewählte Einheit darstellt, ermöglicht es dem Referenzmarkierungsspeicher 8, den geeigneten RMS-Pegel festzulegen, der bei der Normalisierung verwendet werden soll. Stimmlose Abschnitte werden nicht angepasst, aber die Übergänge zwischen stimmhaften und stimmlosen Abschnitten können geglättet werden, um scharfe Brüche zu vermeiden. Die Motivation für diesen Ansatz liegt in der Funktion der Auswahl der Einheiten und dem Aneinanderhängen. Die ausgewählten Einheiten variieren in der Länge und in Abhängigkeit von dem Kontext, aus dem sie entnommen wurden. Dieses macht die Vorbereitung schwierig, da die Länge, der Kontext und die Stimmeigenschaften zusammenhängender Einheiten den Algorithmus beim Zusammensetzen und damit die Änderung der Amplitude über den Übergang hinweg beeinflussen. Diese Information ist nur während der Laufzeit bekannt, wenn jede Einheit ausgewählt wird. Die Nachverarbeitung nach dem Zusammensetzen ist genauso schwierig.
Die erste Aufgabe der Amplitudenanpassungseinheit besteht darin, den stimmhaften Abschnitt/die stimmhaften Abschnitte der Einheit (falls vorhanden) zu identifizieren. Dies erfolgt mit der Hilfe eines Stimmdetektors 7, der auf Klanghöhenzeitmarkierungen zurückgreift, die die stimmlosen Punkte in dem Signal anzeigen, wobei der Abstand zwischen aufeinander folgenden Markierungen die fundamentale Frequenz des Signals festlegt. Die Daten (von dem Signalverlaufsspeicher 1), die die Zeitpunkte der Klanghöhenmarkierungen darstellen, werden von dem Stimmdetektor 7 empfangen, der mit Bezug auf eine maximale Beabstandung entsprechend der niedrigsten erwarteten fundamentalen Frequenz die stimmhaften Abschnitte der Einheit identifiziert, indem eine Abfolge von Klanghöhenmar kierungen angenommen wird, die weniger als dieser Maximalwert beabstandet sind, um einen stimmhaften Abschnitt zu bilden. Ein stimmhafter Abschnitt, dessen erste (oder letzte) Klanghöhenmarkierung innerhalb dieses Maximums des Beginns (oder des Endes) der Spracheinheit liegt, wird jeweils angesehen als beginnend am Anfang der Einheit oder endend am Ende der Einheit. Dieser Identifizierungsschritt wird als Schritt 10 in dem Flussdiagramm in 2 dargestellt.
Die Amplitudenanpassungseinheit 6 berechnet dann (im Schritt 11) den RMS-Wert des Signalverlaufs über den stimmhaften Abschnitt, zum Beispiel den Abschnitt B in dem Zeitdiagramm nach 3, sowie einen Skalierungsfaktor S gleich einem festen Referenzwert, dividiert durch diesen RMS-Wert. Der feste Referenzwert kann der gleiche für alle Sprachabschnitte sein, oder es kann mehr als ein Referenzwert verwendet werden, je nach entsprechender Teilmenge der Sprachabschnitte. Beispielsweise können verschiedene Phoneme verschiedenen Referenzwerten zugeordnet werden. Wenn der stimmhafte Abschnitt übergreifend über die Grenzen zwischen zwei verschiedenen Teilmengen hinweg auftritt, so kann der Skalierungsfaktor S berechnet werden als gewichtete Summe jedes festen Referenzwertes, dividiert durch den RMS-Wert. Geeignete Gewichte werden in Abhängigkeit von dem Verhältnis des stimmhaften Abschnittes innerhalb jeder Teilmenge berechnet. Alle Abtastwerte innerhalb des stimmhaften Abschnittes werden (im Schritt 12 in 2) mit dem Skalierungsfaktor S multipliziert. Um die stimmhaften/stimmlosen Übergänge zu glätten, werden die letzten 10 ms der stimmlosen Sprachabtastungen vor dem stimmhaften Abschnitt (im Schritt 13) mit einem Faktor S₁ multipliziert, der sich über diese Pe riode linear zwischen 1 und S ändert. Ähnlich werden die ersten 10 ms der stimmlosen Sprachabtastungen nach dem stimmhaften Abschnitt (im Schritt 14) mit einem Faktor S₂ multipliziert, der sich linear zwischen S und 1 ändert. Die Abfragen 15 und 16 in dem Flussdiagramm stellen sicher, dass diese Schritte nicht durchgeführt werden, wenn der stimmhafte Abschnitt an der Grenze der Einheit beginnt bzw. endet.
3 zeigt die Skalierung für eine Einheit mit drei stimmhaften Abschnitten A, B, C, D, zwischen denen stimmlose Abschnitte liegen. Der Abschnitt A befindet sich am Beginn der Einheit, und damit weist er kein Eingangsrampensegment auf, sondern hat ein Ausgangsrampensegment. Der Abschnitt B beginnt und endet in der Einheit und hat somit ein Eingangsrampen- und ein Ausgangsrampensegment. Der Abschnitt C beginnt innerhalb der Einheit, setzt sich jedoch bis zum Ende der Einheit fort, so dass er ein Eingangsrampen-, jedoch kein Ausgangsrampensegment aufweist.
Diese Skalierung soll ihrerseits auf jeden stimmhaften Abschnitt angewendet werden, wenn mehr als einer gefunden wird.
Obgleich die Amplitudenanpassungseinheit in spezieller Hardware realisiert werden kann, so wird sie doch vorzugsweise durch ein gespeichertes Programm realisiert, das einen Prozessor steuert, der in Übereinstimmung mit dem Flussdiagramm nach 2 arbeitet.

Claims

Sprachsynthetisierungsvorrichtung mit: einem Speicher (1) mit Darstellung von Sprachsignalverlauf; eine Auswahleinrichtung (3), die in Abhängigkeit von phonetischen Darstellungen gewünschter Klänge arbeitet, die eingegeben werden, um die Speichereinheiten der Sprachsignalverlauf darstellenden Abschnitte von Worten entsprechend den gewünschten Klängen auszuwählen; eine Einrichtung (4) zum Aneinanderhängen der ausgewählten Einheiten des Sprachsignalverlaufs; wobei die Synthetisierungsvorrichtung dadurch gekennzeichnet ist, dass: einige der Einheiten mit einem stimmlosen Abschnitt anfangen und/oder enden und die Synthetisierungsvorrichtung außerdem umfasst: eine Einrichtung (7) zum Identifizieren der stimmhaften Abschnitte in den ausgewählten Einheiten; eine Amplitudenanpassungseinrichtung (6), die in Abhängigkeit von der Identifizierungsvorrichtung (7) für stimmhafte Abschnitte arbeitet und die dazu dient, die Amplitude der stimmhaften Abschnitte der Einheiten mit Bezug auf einen vorgegebenen Referenzpegel anzupassen und die Amplitude von wenigstens einem Teil von einem stimmlosen Abschnitt der Einheit unverändert zu lassen.
Sprachsynthetisierungsvorrichtung nach Anspruch 1, bei der die Einheiten des Sprachsignalverlaufs zwischen Phonemen, Diphonen, Triphonen und anderen Wortteileinheiten variieren.
Sprachsynthetisierungsvorrichtung nach Anspruch 1, bei der die Anpassungseinrichtung (6) dazu dient, den oder jeden stimmhaften Abschnitt mit einem entsprechenden Skalierungsfaktor zu skalieren und den benachbarten Teil jedes angrenzenden stimmlosen Abschnittes mit einem Faktor zu skalieren, der monoton über die Dauer dieses Teils zwischen dem Skalierungsfaktor und Eins variiert.
Sprachsynthetisierungsvorrichtung nach Anspruch 1 oder 3, bei der mehrere Referenzpegel verwendet werden, wobei die Anpassungseinrichtung (6) für jeden stimmhaften Abschnitt dazu dient, einen Referenzpegel in Abhängigkeit von dem Klang auszuwählen, der durch diesen Abschnitt dargestellt wird.
Sprachsynthetisierungsvorrichtung nach Anspruch 4, bei der jedes Phonem einem Referenzpegel zugeordnet wird und jeder stimmhafte Abschnitt mit Signalverlaufssegmenten von mehr als einem Phonem einem Referenzpegel zugeordnet wird, der eine gewichtete Summe der Pegel darstellt, die den darin enthaltenen Phonemen zugeordnet sind, wobei die Wichtung den relativen Dauern der Segmente entspricht.
Verfahren zum Sprachsynthetisieren mit den Schritten: Erfassen von phonetischen Darstellungen gewünschter Klänge; Auswählen aus einem Speicher mit Darstellungen von Sprachsignalverlauf in Abhängigkeit von den phonetischen Darstellungen von Einheiten von Sprachsignalverlauf, der Abschnitte von Worten entsprechend den gewünschten Klängen darstellt; Aneinanderhängen der ausgewählten Einheiten des Sprachsignalverlaufs; wobei das Verfahren dadurch gekennzeichnet ist, dass: einige der Einheiten mit einem stimmlosen Abschnitt beginnen und/oder enden; und das Verfahren außerdem die Schritte aufweist: Identifizieren (10) der stimmhaften Abschnitte der ausgewählten Einheiten und in Abhängigkeit von der Identifizierung der stimmhaften Abschnitte Anpassen (12) der Amplitude der stimmhaften Abschnitte der Einheiten in Abhängigkeit von einem vorgegebenen Referenzpegel und unverändertes Belassen der Amplitude wenigstens eines Teils irgendeines stimmlosen Abschnittes der Einheit.