DE2115258B2

DE2115258B2 - Verfahren und anordnung zur sprachsynthese aus darstellungen von individuell gesprochenen woertern

Info

Publication number: DE2115258B2
Application number: DE19712115258
Authority: DE
Inventors: James Loton Warren Rabmer Lawrence Richard Berkeley Heights Schafer Ronald William New Providence N J Flanagan (VStA)
Original assignee: Western Electric Co Inc
Current assignee: AT&T Corp
Priority date: 1970-10-30
Filing date: 1971-03-30
Publication date: 1973-06-07
Also published as: CA941968A; JPS539041B1; US3828132A; DE2115258A1; DE2115258C3

Description

Die Erfindung bezieht sich auf ein Verfahren zur Sprachsynthese aus. Darstellungen von individuell gesprochenen Wörtern, bei dem parametrische Darstellungen (z. B. Formantfrcquenzen, Amplitude, Tonhöhe, Pol- und Nullfrequenzen stimmloser Laute) jedes Wortes in einer ausgewählten Gruppe von eine vollständige Nachricht bildenden Wörtern entwickelt werden. Ferner bezieht sich die Erfindung auf eine Anordnung zcr Durchführung dieses Verfahrens.

Seit kurzem werden viele Anstrengungen zur Erzeugung von künstlicher Sprache aus Daten, die einem Digitalrechner zugeführt oder in diesem gespeichert werden, unternommen. Nachrichten aus künstlich erzeugter Sprache werden beispielsweise in telefonischen rutomatischen Abhör- und Informationssystemen, in automatischen Bestandsberichten, für Wettervorhersagen und für die mündliche Wiedergabe der Börsennotierungen benutzt. In jeder dieser Anwendungen wird eine Anfrage an ein System gestellt, das System antwortet auf die Anfrage, entwickelt die erforderliche Antwort und ruft eine gespeicherte Anzahl von gesprochenen Sprachdaten ab. um eine entsprechende Information zu formulieren, weiche einem Sprachsynthetisator zuucführt wird. Die Antwort auf die Franc wird iie-

!cbenenfalls in Form einer vollständig gesprochenen Xußerung wiedergegeben.

Für einen derartigen Dienst muß das System .Henbar ein großes und flexibles Vokabular bcs'itzen. )as System muß daher beträchtliche Mengen von •iprachinformationcn speichern, und es muß" die In-"i-rmation in einer solchen Form zur Verfügung iahen, daß eine Vielzahl von Nachrichten erzeugt ..•.erden kann. Von dem System erzeugte Sprache Millie so verstandlich sein wie natürliche Sprache. Is besteht sogar die Möglichkeit, daß die künstliche sprach.- verständlicher ist als natürliche Sprache. Sie MHiIi jedoch nicht wie die eines bestimmten Menschen klingen, und es is; sogar möglich, daß sie einen Nlaschinenakzent besitzt.

Eine Technik zur Synthese von Nachrichten bc- -;ehi darin, individuell gesprochene Wörter zu spei-J:ci η und die Wörter in Übereinstimmung mit der j. wünschten Nachricht für einen Ausgan« auszuwählen (USA.-Patentschrift 3 209 014). In dieser VV. .se zusammengefügte Wörter führen zu verständ-, er. aber in hohem Maße unnatürlich klingender Sr ache. Eine Schwierigkeit besteht darin, daß Wort-■ hwingungen nicht leicht bezüglich ihrer Länge einuC-iellt werden können. Auch ist es schwierig, «leitende Übergänge von einem Wort zum nächsten durchzuführen. Derartige Systeme sind jedoch relativ einfach gerätemäßig aufzubauen und bieten einen relativ großen Wortschatz mit einfachen Speii licrmitteln.

I'm einige der Schwierigkeiten bei der Speicherui.g voii Wörtern zu vermeiden und um die Speicherkapazität für eine vernünftige Vielfalt von Nachncluenantwortcn zu verringern, können individuell ^prochene Laute in der Form von i! oncm-Aufzeichnungen gespeichert werden. Derartige Aufzeichnungen können aus dem Speicher in Übereinstimmung mit den Wort- und Nachrichtenzusammenliigungsregeln abgerufen werden und zum Betrieb eines Sprachsynthetisators verwendet werden. Leider ist die Sprache auf der akustischen Ebene nicht besonders verständlich. Artikulationen von benachbarten Phonemen machen sich bemerkbar, und die Übergantsvorgänge des Vokaltraktes in der Erzeugung eines Phonems dauern langer als die durchschnittliche Dauer eines Phonems. Dies bedeutet, daß sich die artikulatorischen Gesten überschneiden und einander überlagern. Daher sind die Übergangsbewegungen des Vokaltraktes besonders wichtig. Darüber hinaus ist viel Information über die Identität eines Konsonanten nicht durch die spektrale Gestalt im Dauerzustand des Konsonanten, sondern durch die dynamischen gegenseitigen Beeinfliissungei. benachbarter Phoneme gegeben.

Die Sprachsynthese ist daher sehr stark mit dynamischen Vorgängen befaßt. Ein Synthetisator muß nicht nur die Charakteristika von Lauten wiedergeben, weiche dem Ideal jedes Phonems möglichst nahekommen, sondern auch die dynamischen Vorgänge des Vokaltraktes, wenn von einem zum anderen Phonem fortgeschritten wird. Diese Tatsache wirft ein Licht auf den Unterschied zwischen der Sprachsynthese aus gespeicherten Wörtern oder Sätzen und der Syn'.nese aus elementareren Sprecheinheiten. Wenn der Schatz der Sprachelemente eine kleine Anzahl kurzer Einheiten ist. beispielsweise Phoneme, kommen uie Verbindungsverfahren der Knmnlizierlheit des Vokaltraktes nahe. Umiiekehrt.

wenn der Schatz der Sprachelemente eine wesentlich größere Anzahl von längeren Sprachausschnitten ist. beispielsweise Worten oder Sätzen, können die Elemente an Nachrichtenstellen zusammengeknüpft werden, wo der Aufwand für die Übergänge minimal ist. Obwohl die Synthese von Phonemen daher erstrebenswert und manches Mal auch passend ist. führen die Zwischenschritte der Zusammenfügung von elementaren Sprachaufzeichnungen in Worte und

ίο Worte in Nachrichten entsprechend vorgeschriebenen Regeln zu einem komplizierten Gerät, und es wird bestenfalls mechanisch klingende Sprache erhalten.

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Sprachsynthese anzugeben, das von der Speicherung individuell gesprochener Wörter ausgeht und diese zu möglichst verständlich und natürlich klingenden Sätz.en zusammenfügt. Die gestelh. Aufgabe wird, ausgehend von einem V'erfah-

ren der eingangs angegebenen \rt. erfindungsgemäß dadurch gelöst, daß jedes zu >ynthetisierende Wort in vorgewählte Unterintervalle eines stimmhaften Lauts zur Entwicklung der die Änderungsgeschwindigkeit einer Formantkontur des Unterintcrvalls dar-

stell nden Spektralableitung für jedes Unterintervall unterteilt und die Länge eines Worts nur dann geändert wird, wenn der kleinste Spektralableitungswert in Abhängigkeit von einer abgeleiteten Sil'oen-Zeitkontur für die zu synthetisierende Nachricht gefunden wird, und daß ein geeigneter Übergang /wischen den Wörtern der vollständigen Nachricht dadurch entwickelt wird, daß eine gleitende Interpolationskurve über den Grenzen benachbarter, zu synthetisierender Wörter vor deren Übertragung zu einem Synthesegerät aus den zuvor entwickelten Spektralableitungen abgeleitet wird.

Weitere Einzelheiten der Erfindung werden an Hand eines Ausführungsbeispieles besprochen. Dabei zeigt

F i g. 1 eine Anordnung gemäß der Erfindung zur Synthese aus Worten auf Kommando.

F i g. 2 die Art der Überlappung individueller Wortformanten in Übereinstimmung mit der Erfindung für vier verschiedene Wortkombinationen.

F i g. 3 Zeitdaten zur Verwendung bei der Verarbeitung von Formantdaten.

Fig. 4 die Verarbeitung von stimmhafien Formantdaten für individuelle Wörter, um eine zusammengekettete Formantstruktur zu erzeugen, die zur Betätigung eines Sprechsynthetisators dient,

F i g. 5 die Verarbeitung von sowohl stimmhaften als auch Reiblautformantdaten für individuelle Wörter zur Erzev'gung einer zusammpngckettenen Formantstruktur. die zur Betätigung eines Sprachsynthetisatcrs dient, und

Fig. 6A, 6B und 6C ein Flußdiagramm der Betätigungen entsprechend der Erfindung zur Verarbeitung parametrischer Daten und zur Verknüpfung dieser Daten zur Erzeugung eine? vollständigen Satzes von Steuersignalen zur Betätigung eines Formantsprachsynthetisators.

Bei dem Ve-fahren gemäß der Erfindung werden Darstellungen von geschrochenen Wörtern oder Sätzen in Ausdrücken von individuellen Formaruen und anderen sprachdefinierenden Charakteristiken in an sich bekannter Weise gespeichert. Formanten sind die natürlichen Resonanzen des Vokaltraktes, und sie nehmen unterschiedliche Frequenzwerte an. wenn

der Vokaltrakt seine Gestalt während des Sprechens ändert. Typischerweise treten drei derartige Resonanzen in dem Frequenzbereich auf, der für die Verständlichkeit wichtig ist, nämlich zwischen 0 und 3 kHz. Die Darstellung der Sprachwelle als ein Satz von sich langsam ändernden Anregungsparametern und Vokaltraktresonanzen ist aus mindestens zwei Gründen vorzüglich geeignet. Erstens ist diese Darstellung für Datenspeicherzwecke geeigneter als beispielsweise eine Darstellung der Sprachwellenform in Impulscodemodulation, zweitens erlaubt die Formant-Darstellung eine Flexibilität in der Handhabung der Sprachsignale zur Verknüpfung von Wörtern oder Sätzen.

Daher werden individuelle, natürlich gesprochene, isolierte Worte analysiert, um einen Wortschatz zu erzeugen, der in Ausdrücken von Formantfrequenzen gespeichert wird. In der Formant-Darstellung einer Äußerung können Formantfrequenzen, Stimmhöhe, Amplitude und Zeitdauer jeweils unabhängig voneinander gehandhabt werden. Daher kann bei der Synthese einer Äußerung eine künstliche Tonhöhenkontur, d. h. der Zeitverlauf der betreffenden Parameter an Stelle der natürlichen Kontur, gesetzt werden. Ein andauernder Ton kann verlängert oder gekürzt werden, und selbst eine ganze Äußerung kann beschleunigt oder verlangsamt werden, ohne größeren oder überhaupt ohne Verlust an Verständlichkeit. Fermenten können lokal verzerrt werden, und die gesamte Formantkontur kann gleichmäßig gehoben oder gesenkt werden, um die Stimmqualität zu ändern.

Auf einen Programmbefehl werden Wortlängenformantdaten abgerufen und miteinander verknüpft, um die vollständigen Formantfunktionen für die gewünschte Äußerung zu bilden. Die Formantfunktionen werden in Übereinstimmung mit spektralen Ableitungen interpoliert, um Konturen aufzustellen, welche sanfte Übergänge zwischen den Wörtern bestimmen. Sprachkontur- und Wortdauerdaten werden entsprechend eingespeicherten Regeln berechnet. Im Anschluß an die notwendige Verarbeitung und Interpolation werden verknüpfte Formantfunktionen zur Synthese einer Wellenform benutzt, welche einer natürlich gesprochenen Nachricht ziemlich nahekommt. Ais zusätzlicher Vorteil kommt, man mit wenig Speicherraum aus, weil die Formant- und Anregungsparametei sich relativ langsam ändern und durch wenige Binärzahlen (Bits) pro Sekunde beschrieben werden können, als beispielsweise die Sprach-Wellenform.

Ein System zur Synthese von Sprache durch Verknüpfung von in Formantform codierten Wörtern in Übereinstimmung mit der Erfindung ist fcchematisch in F i g. 1 dargestellt. Isolierte, von einem menschlichen Wesen gesprochene Wörter werden analysiert, um die zur Synthese erforderlichen Parameter abzuschätzen. Diese natürlich gesprochenen, isolierten Wörter können entweder im Studio erzeugt oder aufgezeichnete Worte sein und werden in dem System 10 zur Verfügung gestellt und, falls erwünscht, im Umsetzer 11 in digitale Form gebracht. Die in welcher Form auch immer vorliegenden individuellen Wörter werden dem Sprachanalysator 12 zugeführt, worin individuelle Formanten, Amplituden, Tonhöhen-Periode-Bestimmungen und Reiblaut-Poluüd Null-Merkmale gemäß Nyquist-Zahl abgeleitet werden. Geeignete Sprachanalysatoren sind gemäß dem Stand der Technik bekannt. Im wesentlichen weist der Analysator 12 mehrere individuelle Kanäle auf. nämlich einen Analysator 13 zur Identifizierung von Formantfrequenzen F₁, F.,, /\, (für stimmhafte Laute), einen Analysator 14 zur Ableitung eines Tonhöhenperiodensignals P. einen Analysator 15 zur Ableitung von Pegclstcuersignalen für Summen A_v und für Zischen Αχ und einen Analysator 16 zur Ableitung von Pol- und Null-Signalen F₁, und F₁

ίο für Reiblaute bzw stimmlose Sprachteile.

Diese Werte der Steuerparameter werden an die Speichereinheit 17 für parametrische Beschreibung geliefert, welche eine beliebige Form aufweisen kann. Sowohl analoge als auch digitale Speicher, zu denen

i; Befehlszugriff besteht, sind gemäß dem Stand der Technik bekannt. Wenn der Speicher 17 gefüllt ist. enthält er einen Wortkatalog, zu dem von dem Wortverknüpfungsteil des Systems Zugang besteht. Die in dem Katalog 17 enthaltenen parametrischen Werte

ao können von Zeit zu Zeit durch Zufügung neuer Wörter oder Wegfall revidiert werden.

Eingangsbefehl

as Ein von .lern Wortfolgeeingang 18 stammender Eingangsbefehl veranlaßt die notwendigen Betätigungen zur Synthese einer Nachricht, die aus Wörtern des Katalogs 17 zusammengesetzt wird. Die genaue Form des Einganges 18 hängt von der speziellen An-

Wendung des Wortsynthesesystems ab. Typtscherweise liegt eine Anfrage bestimmter Form an dem durch die Einheit 18 verkörperten System an, die notwendigen Daten für eine Antwort werden formuliert, und die geeigneten Wortdarstellungen für die Antwort, beispielsweise in der englischen Sprache, werden in Codesprache zusammengesetzt und an das Synthesesystem als Ausgangssignal der Einheit 18 geliefert. Derartige Antworteinheiten gehören dem Stand der Technik an und werden in zahlreichen Patenten und Aufsätzen beschrieben. Das von einer derartigen Antworteinheit gelieferte Ausgangssignal kann daher in der Form von maschinencodierter Sprache, Phonemen oder anderen Sprachsymbolen od. dgl. vorliegen. In welcher Form auch das Ausgangssignal vorliegt, es wird in Übereinstimmung mit der Erfindung dem Wortverarbeitungssystem 20 zugeführt, worin die erforderlichen Wortdaten zusammengefügt, verarbeitet und an einen Sprachsynthetisator 26 geliefert werden.

Die Erzeugung einer aus Wörtern zusammengesetzten Nachricht, wobei die Wörter aus der Speichereinheit 17 stammen, macht die Erzeugung von Zeitkonturen. Tonhöhenkonturen sowie von Formant- und Amplitudenkonturen erforderlich. Der Prozessor 20 wendet gemäß Erfindung unterschiedliche Strategien zur Behandlung der »Ausschnitts« Merkmale der Nachricht an, beispielsweise Formant frequenzen. Pol- und Nullfrequenzen und Amplituden für stimmlose Laute und die »Silbene-Merkmale, beispielsweise Zeitablauf und Tonhöhe. Die Programmstrategie zur Behandlung der Ausschnittsoder Teilmerkmale ist in dem Prozessor selbst gespeichert. Das Merkmal bezüglich Silbeninformation, welches zur Verarbeitung benötigt wird, wird entweder im Prozessor 20 abgeleitet oder diesem zugeführt. Diese Flexibilität in der Verarbeitung von Sprache, welche formantweise codiert ist, erlaubt die Aufteilung der Syniheseproblerne in zwei Teile.

(ο

7 8

Zeitablauf-Daten Es ist auch möglich, die Tonhöhenkonturinformation

über Regeln zu berechnen. Daher gibt es viele Wege.

Zeitablaufinformntion kann in einem von unter- die Silbeninformation für eine Nachricht zu erhallen, schicdlichcn Wegen abgeleitet werden. Für Anwcn- und die Wahl hangi stark son der erwünschten düngen mit beschränktem Wortschatz, beispielsweise 5 Qualität der künstlichen Sprache und der speziellen automatischen Abhördiensten, müssen die Zeit- vorgesehenen Anwendung ah.
ablautrcfi In nicht komplizierter sein als eine Tabelle

mit Wortlängen als Funktion der Lage in einer Reine Wortdauer-Einstellutm

von Daten und als Funktion der Anzahl der Phoneme pro Wort. Zeitablauf-Daten für eine sieben- io Sobald das Zeitablaufmuster der Nachricht aufstellige Digit-Reihe sind in der Tabelle der F i g. 3 gestellt ist. können isolierte Wörter aus dem Wortdargestellt und werden normalerweise in der Zeit- katalog 17 herausgezogen werden und entsprechend ablaufeinheit 22 gespeichert. Bei ausgeklügelten An- dem jeweiligen Zeitablauf verändert werden. In diewendungen wird die Wortdauer durch Regeln bc- sem Sinne können Formanldaten eines Wortes in stimmt, welche die Syntax der speziellen, zu produ- 15 dem Katalog entweder gestreckt oder verkürzt werzierenden Nachricht berücksichtigen, d. h. Regeln. den. Die Formantkonturen oder -umrisse für aufdie beispielsweise auf Modellen der englischen einanderfolgende stimmhafte Worte werden glatt Sprache beruhen. Derartige Daten werden auch in miteinander verbunden und bilden durchgehende dem Zeitablaufspeicher 22 gespeichert. Es ist auch Übergänge und kontinuierliche Formantkonturen für möglich, die Dauer jedes zu synthetisierenden Wortes ao die Nachricht. Die Wahl der Stelle in einem Wort in der Eingangsreihe aus äußeren Zeitablaufdaten zur Änderung der Dauer basiert auf den dynavon der Einheit 23 festzulegen. In diesem Fall wird mischen Veränderungen der Formantkonturen. Für die Wortdauer entsprechend beispielsweise einigen jedes Unterintervall eines stimmhaften Lautes, äußeren Kriterien oder von einem Meßergebnis einer typischerweise 10 ms in der Dauer, wird ein Maß natürlich gesprochenen Version der zu synthetisie- 25 der Änderungsgeschwindigkeit der Formantkontur renden Nachricht gewählt und braucht nicht not- in dem Prozessor 21 errechnet. Dieses Maß wird al«, wendig eine typische Dauer dieses Wortes zu sein, »spektrale Ableitung« bezeichnet. Stellen eines Worunabhängig vom Zusammenhang. Daher können tes. wo die spektrale Ableitung klein ist sind Stellen, äußere Zeitablaufdaten von äußeren Speichern zu- an denen das Wort mit der geringsten Einwirkung geführt werden oder von Realzeiteinstellungen, die 30 bezüglich Wortverständlichkeit gekürzt oder gedehnt während der Synthese gemacht werden. werden kann. Um daher ein Wort um einen ge

gebenen Betrag zu verkürzen, wird eine geeignete

Tonhöhen-Daten Anzahl von Intervallen von 10 ms in dem Bereich

der kleinsten spektralen Ableitungen abgezogen. Um

Die Synthese macht auch die Bestimmung der ge- 35 ^e'^{n Wort} auszudehnen, wird der Bereich der geeigneten Tonhöhenkontur, d. h. die Tonhöhen- ringsten spektralen Ableitung durch Hinzufügung periode als Funk.ion der Zeit, für die zusammen- einer geeigneten Anzahl von Intervallen von 10 ms zusetzende Nachricht erforderlich. Tonhöheninfor- gedehnt. Stimmlose Bereiche von Wörtern werden mation kann auf verschiedenen Wegen erhalten niemals modifiziert.

werden. Beispielsweise kann der Tonhöhencharakter 40 In der Praxis wird das Maß der spektralen Abder ursprünglichen Folge der gesprochenen Worte leitung SD₁ nach folgender Formel berechnet:
gemessen werden. Alternativ kann eine monotone

oder willkürlich geformte Kontur verwendet werden. ₃

Tn der Praxis jedoch haben diese beiden Möglich- SD₁ = V F_;(/) — FAi-I) , m

keiten zu nicht annehmbaren, unnatürlichen Ergeb- 45 j=\ " '

nissen geführt. Deshalb wird gemäß der Erfindung
eine zeitablaufnormalisierte Tonhöhenkontur verwendet, die in der Einheit 24 gespeichert wird, und hierbei ist / (1, 2 ...) das i-te Intervall von 10 ms diese Tonhöhe wird in Übereinstimmung mit den und F₁ (/) der Wert des Hen Formanten in dem /-ten Wortteilen gemäß Zeitablaufregeln verändert. Daher 50 Zeitintervall. Um zu bestimmen, wie viele Intervalle werden die in der Einheit 24 gespeicherten Ton- von 10 ms zu den isolierten Wortbefehlsignalen hinhöhen-Daten dem Verknüpfungsprozessor 21 zu- zugefügt (oder subtrahiert) werden müssen, wird geführt, wo die Kontur örtlich gedehnt oder verkürzt eine Gleichung verwendet, die auf der gewünschten wird, wie dies durch den speziellen Äußerungfablauf, Wortlänge, der isolierten Wortlänge und einiger geliefert durch die Zeitablaufdaten, gefordert wird. 55 einfachen Verknüpfungsinformationen bezüglich dei Falls gewünscht, können Tonhöhenänderungsdaten Verknüpfung des betreffenden Wortes mit den vorvon der äußeren Quelle 25 zugeführt werden, ent- und nachfolgenden Nachbarwörtern beruht. Im folweder in der Form von Hilfsspeicherdaten oder als genden werden Symboldefinitionen gegeben:
Realzeiteingangsdaten. Beispielsweise kann eine _

Tonhöhenkontur verwendet werden, die von einer 60 'pm ⁼ 1> wenn das Ende des vorhergehender natürlich gesprochenen Version der Nachricht Wortes stimmhaft ist und der Beginn de«

stammt. Derartige Daten werden normalerweise laufejden Wortes ebenfalls stimmhaft ist

dann verwendet, wenn die Dauer der Wörter in ahn- 0 im anderen Fall,

licher Weise gewonnen worden ist, beispielsweise . _Λ , _ .

von der äußeren Zeitablaufeinheit 23. 65 ^!™ ⁼ ¹ ' ™^{enn da}* .^End<\ ^des laufenden Worte;

Tonhöhen- und Zeitinformation, die in dieser stimmhaft ist und der Beginn des folgen

Weise von außen zugeführt werden, führen zu der aeu Wortes ebenfalls stimmhaft ist,

am natürlichsten klingenden künstlichen Sprache. 0 im anderen Fall,

3194

ίο

W₁ = Dauer des laufenden Wortes, einzeln gesprachen,

W₁, = Dauer des laufenden Wortes, im Zusammenhang gesprochen (gemäß Zeitabiauiregeln), "

W₁- = Anzahl von Intervallen von 10 ms. die addiert werden müssen, wenn W,_: > 0 (oder substrahiert werden müssen, wenn W_c <0).

dabei ist

^ _ Anfangsintervall des Vermischungs-

bereichs des laufenden Wortes
/·',(,) = Wert des Formanten / der Nachrichtcnkontur zur Zeit / während des Vermischungsbereiches I = 0, 1 ... 9.

_{Es wird folgendc} Interpolations-Funktion bcnuizt:

Es gilt folgende Regel:

W_c= W₀- W₁ + 5

(2)

(^-/)375T + Z-5252

(3)

Der Grund für den letzten Ausdruck in der obigen 15 hierbei ist

Gleichung ist der daß, wenn immer I_P„ = 1 oder I₁₁M = I, dies bedeutet, daß die beiden Worter allmählich miteinander verm.scht werden müssen und «eh um 100 ms überlappen. Dieser Bereich von 100 ms wird von beiden Wörtern eingenommen, daher werden 50 ms (5 Intervalle) jedem Wort getrennt in Ausdrücken des Gesamtzeitablaufes zugeteilt. Die Technik, durch welche die gemäß W_c zusätzlichen Intervalle von 10 ms hinzugefügt oder entfernt wer-

d kl

_pk(f>
= _{w des} . _{Formanten 7ur Zcit}/ _fUr
· _{da$ Woft} _k _{(Jfc =} j _{bedeutet das laufende}

_k ₌ £ _{das f} j _{de Woft)}

Formant-Interpolation

vallen, hinzugefügt.

Beschreibung von W ortuberschnetdungen

Mit Ausnahme des Falles, wenn das Ende des laufenden Wortes und der Beginn des folgenden Wortes stimmhaft sind, werden die Steuerdaten wortweisc

Fig. 2 stellt die Art der Interpolation für vier eingg fache Fälle in Übereinstimmung mit obigen Betrach-

den, beruht ganz auf der Messung der spektralen 25 tungen dar. Obwohl alle drei Formanten eines Lau-Ableitungen. Wie zuvor angeführt, wird die spektrale tes interpoliert werden, wird zum Zwecke der VerAbleitung für jedes stimmhaftp Intervall von 10 ms einfachung der Darstellung nur ein Formant beeines isolierten Wortes berechnet. Um ein Wort zu trachtet. Für die Wörter in Spalte 1 zeigt das Wort 1 verkürzen, werden die ^-Intervalle mit den klein- (das oberste Spektrum) eine sehr kleine Änderung in »ten spektralen Ableitungen entfernt. Um ein Wort 30 den letzten 100 ms auf, während das Wort 2 (mittauszudehiicii, wird der Bereich des Wortes mit den leres Spektrum) eine große Änderung wiedergibt, kleinsten spektralen Ableitungen festgestellt, und Die interpolierte Kurve ist unten in der ersten Spalte W_t-Intervalle werden in der Mitte dieses Bereiches dargestellt und beginnt mit den Formanten des hinzugefügt. Jedem der Wc-Intervalle werden die Wortes 1, macht einen raschen Übergang und folgt Steuerparameter der Mitte des Intervalls, d. h. ein 35 den Formanten des Wortes 2. Die Spalte 2 zeigt eine gleichbleibender Zustandsbereich von W_c-Inter- umgekehrte Situation: das Wort 2 zeigt eine kleine hifü Spektrumänderung, während das Wort 1 eine große

Spektrumänderung aufweist. Die interpolierte Kurve folgt daher den Formanten des Wortes 1 im Groß-_{40 teil der} Vermischungs- oder Überlappungsregion und führt den Übergang zu den Formanten des Wortes 2 am Ende des Bereiches bzw. der Region durch. Die Spalten 3 und 4 zeigen Beispiele, bei welchen die Spektrumänderungen in beiden Worten im großen aneinanderstoßend zusammengestellt. Wenn das 45 und ganzen die "gleichen sind. Wenn sie, wie in Ende eines Wortes stimmhaft ist und der Beginn des Spalte 3, klein sind, dann ist die Interpolationskurve nächsten Wortes ebenfalls stimmhaft ist, wird ein im wesentlichen linear. Wenn sie, wie in Spalte 4, allmählicher Übergang von den Formanten am Ende groß sind, versucht die Interpciationskurve den Fordes einen Wortes zum Beginn des nächsten Wortes manten des ersten Wortes in der einen Hälfte des gemacht. Dieser Übergang wird beispielsweise über 50 Überlappungsbereiches und den Formanten des die letzten 100 ms des ersten Wortes und die ersten zweiten Wortes für die andere Hälfte des Über-

lappur.gsbereiches zu folgen

Die Interpolationskurve beginnt also immer mü den Formanten des Wortes 1 (des laufenden Wortes] und endigt mit den Formanten des Wortes 2 (de: folgenden Wortes). Die Geschwindigkeit mit welche; die Interpolationskurve einen Übergang von dei Formanten des ersten Wortes zu denen des zweitei

g gg Wortes durchführt, wird durch die durchschnitt

reich abhängen. Die spektralen Ableitungssymbole 60 liehen spektralen Ableitungen 5Z7T und Ώ52 be werden wie folgt definiert: stimmt. Im Beispiel der Spalte 1 ist die spektral·

Ableitung des zweiten Wortes viel größer als die de ^ersten Wortes, so daß der Übergang rasch mit den Beginn des Überlappungsbereiches durchgefühi wird. Im Beispiel der zweiten Spalte ist die spektral Ableitung des ersten Wortes größer, so daß de Übergang am Ende des Über'ippungsbereiche rasch durchgeführt wird. Wie zuvor angedeutet, sin<

100 ms des zweiten Wortes durchgeführt. Die Übergangsgeschwindigkeit hängt von der relativen Spektrumänderungsgeschwindigkeit der beiden Worte in dem Übergangsbereich ab.

Um diese Übergangsaufgabe zu losen, wird eine Interpolationsfunktion benutzt, deren Parameter sehr stark von den durchschnittlichen spektralen Ableitungen der beiden Wörter in dem Übergangsbei kl Abl

"3±⁹

fr-.

194

die .pefir_r Ableitung für be«er in den Beispielen der Spalten-, und 4 m große,,und an«n

dieselben, ^so _u ^daß>.^ei"^e,™'^{n Lber}-^dn^ uberlappungsbere.cn stattfinden.

Beispiele der Verkettung _os._Zeichendaten _A _und _A _{und den Rei}b-

laut-Pol-Nulldaten F₁. und F₇ dem Sprachsynthcti- ^ _zugeführt

Intensitätsclaten Weise in Der stimmlose Intensitätsparameter A_s wird di-

stimmhafte Worte, die engl.schen Worte »Were« und >>^< —mengeknup werfen. um den Satz zu bilden >We were away«, uespr chen haben ^e Wörter die jeweil.geDaujr WW W₃, und eine Analyse ^t egeben^ß «J^

STsind' fn² ϊ£ ίρΑΑί^ίί™?) für ,SeTÄduelle Wo'rt gespeichert, wie bereits er-

55S S¹SAfSTSS?^J in !Ä were away« zusammenzufügen wird die F^o™^anten" information von der Speicheremhe.t 17 bezogen una dWrtlüfunppro^My^^

ablaufdaten vom Speicher .22 (oder ^al™ einer äußeren Einheit 23und Tj^ohenv«« daten vom Speicher 24^ (oder ^aJ^e™J^tIV ^^ äußeren Quelle 25) werden ^JJÄ zugeführt. Es wird zunächst bestimmt, daB ^ »We« und »Were« normalerweise _;bam^Sprechen durch einen santten uoergmiB I''''"""-- _fl""wi» den werden und als eir. kont.nuier -^tz >We-

were« ausgesprochen ^weTfⁿ\^D,^a™\™_{pr Oauer} _auf den stimmhaften Worte bezüglich ihre-Dauer_ au Werte D₁, D₂ in übere.nst.mmung mit ten. Zujam_ _{der Ausnahme}

^^ _{Mischungsbere}ich_;s zweier stimm-Intervalle, in welchem Fall er durch Inter- ^ ' _{stimmhaften Intens}ifäten der

P J ·_{η äh} ⁶ _{nlicher Weise erhalten wird}, _wie

fies für die.Interpolation von Formanten beschneben worden ,st.

Ausführung des Verknüpfungsprozessors

_{Qbwohl die oben beschrie}benen Betätigungen zur Wortformantdaten zur Bildung von Wortsequenzinformationen durch Verwendung von _entsprechend geeigneten Einrichtungen und Techf _{durch führt werden können<
beruht eine in}

_{der Praxis} verwendbare Einrichtung auf der Fähigkeit eines Digitalcomputers für hohe Verarbeitungs_hwindigk°_it. _{In der} Praxis wurde ein digitaler ^_lzweckre8_{hner>
nämlich der} Honeywell DDP-516

oder GE-635 für geeignet gefunden. Diese beiden gj^gj^^ ^g _{und ihre Pr}o_grammie-

rungssysteme sind gleicherweise zur Aufstellung eines g y s _diese _m ^_n

Progr ^J

_einen

eines sanften Überganges

Weise werden die Worter

malerweise als »wereaway« mit g

ausgesprochen. Daher wird dw Dauer des^a y

auf D₃ gedehnt, und die Formanten «^r beiden wor

ter überlappen sich und werden ui "Ρ°'^ιε«·

Der sich daraus ergebende glat ^int"P⁰^ _der mant wird ferner durch Überlagerung der^Kontur oer

fffS —der formant

^ _{Flußdim der} p_rogrammierungsschritte zur Umwandlung einer derartigen Anlage in einen Spezialzweckrechner, um den Erfordernissen gemäß _E ^H _{rfindun zu genüge}n, ist in den Fi₆.6A, 6B und ^ enthalten, die jeweils aneinanderzufügen sind. _Jeder ·_{η dem Flußdiagramm} dargestellte Schritt ist

_{für sich} bekannt und kann durch einen Fachmann ^ ^ _q^ ^ _{programmierens auf ein gee}i_gne-

tes Programm rückgeführt werden.

πβ^ΓτοηϊοηΤ"und" den Stimmhaft-Stolos^ chendaten Λ_ν und A_n dem Sprachsynthetisator

^Ftg^zefS Verkettung der eng^r, Worte »K, »law«, »This« und »Man« zur BiWun des Sa^ zes »I saw this man«. In diesem ran Wörter »I« und »Saw« nicht überlappt und^zwar wegen des dazwischenliegenden R«^«⁸^« ginn von »Saw«. Jedoch werden die Wörter^baw und »This« im allgemeinen mit ^/^.f^ ^ gang gesprochen. Daher werden diese Wörter über läppt und die Formanten interpo iert Dadas Wort »This« mit einem Reiblaut endigt werden die wor ter »This« und »Man« nicht überlappt In überm Stimmung mit dem Zusammenhang ^s Ausdruckes werden die individuellen Wortlangen ^ je«ert .™ neuen Werten D modifiziert. Schließlich Nv.rd eine gespeicherte Periodenkontur fur die Tonhöhe ent Sprechend einer gespeicherten Regel überlagert, ü.e -zessor-Operationen

^^ ^_χ der Fig. 6A ist die Speicherein^^ ^ ^ parametrische Beschreibung nach Fig. 1 schematisch angedeutet, welche einen Katalog vor ^^ _Tonhohe._t Amplituden- und Reiblautdar-Stellungen für jedes der Wörter in dem Katalog ent- ^ ^ ^^ _{ße{ehl des Wortfolgee}i_nganges It

werden diese Daten in das Wortverknüpfungsprozes sorsystem 20 übertragen, welches durch den Res des Flußdiagramms dargestellt wird.

_Zunachst wird die Dauer jedes Wortes in der ver knüpften Folge bestimmt, wie in Block 61 angedeu ^^ beispielsweise durch Befragung einer Speicher _{tafel für} Zeitablaufdaten 62, derart, wie sie in Fig.: _{und durch die} Einheit 22 in Fig. 1 dargestellt sind _{Wenn e}i_ne Zeitablaufänderung notwendig ist, be _sti_mmen Programmfeststellungen der Einheit 63, ο die im Speicher 62 gespeicherten Daten ausreiche _{oder ob au}ß_ere Zeitablaufdaten von der Einheit 6

t ' f -,

3194

(Block 23 der Fig. 1) verwendet werden sollen. In jedem Fall wird die Dauer jedes »kommandierten« Wortes aufgestellt, und ein Wortsecjuenzzähler wird in der F.inheit 65 durch Setzen von / = 1 gestartet.

Es ist dann notwendig, die parametrische Beschreibung des ersten Wortes in Übereinstimmung mit Zeitablaufdaten oder anderen gespeicherten Regeln zu modifizieren. Demgemäß wird in Fig. 6B bestimmt, ob das /-te Wort mit dem (/ - l)-ten Wort vermischt werden soll oder nicht. Diese Bestimmung ivird durch den Block 66 dargestellt. Wenn dies nicht Zutrifft, wird Information für das /-te Wort von dem Wonkatalog 17 entnommen, und die ersten 50 ms des /-ten Wortes werden durch die Einheit 67 synthetisiert Wenn das /te Wort vermischt werden soll, ♦mi das / U Wort verlängert oder gekürzt, damit der Zeitablauf mit den zugeführten Daten bezüglich "Dauer übereinstimmt. Diese Operation findet in der hinheil 68 in Übereinstimmung mit dem Unterprogramm CIiDIiLL tier Fortran-I V-Programmiersprache statt.

F.s wird dann überprüft, ob das /-te Wort n~it dem (/ 1 )-ten Wort über die Schritte des Blockes 69 vermocht werden soll. Wenn eine Vermischung stattfinden soll, werden die Operationen ties Blockes 70 ausgeführt, um das Ende des /-ten Wortes mit dem Beg:.m des (/ ■ I )-ten Wortes zu überlappen. Diese Operation wird in Übereinstimmung mit dem Unterprogramm INTPL der Fortran-IV-Programmiersprache durchgeführt. Wenn im Block 69 bestimmt wird, daß keine Vermischung stattfinden soll, führen die Operationen des Blockes 71 zu einer Synthese der letzten 50 ms des /-ten Wortes unter Verwendung der Daten für dieses Wort aus dem Speicher 17.

In der Einheit 72 wird dann die Wortfolge des Index / auf den letzten Stand gebracht, und in der Operation 73 wird bestimmt, ob der Wortfolgeindex größer als der Index des letzten Wortes in der Eingangsfolge ist. Wenn er es nicht ist. wird die Steuerung auf den Block 66 zurückgeschaltet, und das nächste Wort wird in der bereits beschriebenen Weise zusammengesetzt. Die Operationen werden in dieser Weise iteriert, bis der Index gleich dem Index des letzten Wortes in der Eingangsfolge ist, zu welcher Zeit die Daten des Blockes 73 zum Block 74 übertragen werden.

Gemäß Fig. 6C werden dann die Tonhöhendaten den. Formantdaten überlagert und die Struktur jede> Wortes in der Äußerung in der bereits beschriebenen Weise erhalten. Diese Daten rind in dem Datenspeicher 75 für Tonhöhenvariation (Speicher 24 der F i g. 1) verfügbar. Es wird dann durch die im Block 76 angedeuteten Schritte bestimmt, ob äußere Tonhöhendaten Verwendung finden sollen. Wenn dio zutrifft, werden derartige Daten von der Einheit 77 (Einheit 25 in Fig. 1) über den Datenspeicher 75 zu

ίο den Operationen der Einheit 74 zugefügt.

Wenn die Tonhöhenkonturoperationen beendet sind, werden die gesamten Daten in dem Wortserknüpfungsprozessor 20. wie diese durch das Programm der Fig. 6 modifiziert worden sind, beispiel·- weise dem Sprachsynthetisator 26 de< Fig. 1 zugeführt.

Formant-S\ nihcse

Wenn alle Steuerparameierkonturen der befohlenen Äußerung erzeugt worden sind, können sie. fall· erwünscht, geglättet und die Bandbreite auf ungefähr 16Hz begrenzt werden. Sie werden dann zur Steuerung eines Formantsynthetisatcrs benutzt, welcher ein kontinuierliches Sprachausgangssignal erzeugt. Zahlreiche Systeme, sowohl analoger sowie digitaler Art. sind zur S\>ithese von Sprache aus Formantdaten beschrieben worden. Geeignete Synthetisatoren sind in USA.-Patentschrift 3 330 910 (j'. L. F I a η a gan). USA.-Patentschrift 3 190 963 (David Flanagan, insbesondere Fig. 5) und in USA.-Patentschrift 3 158 685 (Ge rs t m an-Ke Il ν) beschrieben. In vereinfachter Darstellung umfaßt ein Formants\nthetisator ein System zur Erzeugung von Anicgungen als eine Folge von Impulsen mit einem Abstand, der proportional der Grund-Tonhöhe des gewünschten Signals ist. Die intensität der !iipulserregung wird gesteuert, und das Signal wird an eine Kaskade von unterschiedlichen Resonatoren angelegt.

Fs genügt zu sagen, daß der Sprachsynthetisator 26 eine Wellenform erzeugt, welche der nahekommt, die für die gewünschte Äußerung benötigt wird. Dieses Signal wird in einer beliebig gewünschten Weise verwendet, beispielsweise zur Anreg'ing der Ausgangseinheit 27, die in der Form eines Lautsprechers, einer Aufzeichnungseinrichtung od. dgl. vorliegen kann.

Hierzu 2 Blatt Zeichnungen

Claims

Patentansprüche:

1. Verfahren zur Sprachsynthese aus Darstellungen von individuell gesprochenen Worten, bei dem parametrische Darstellungen (z. B. Formantfrequenzen, Amplitude, Tonhöhe, Pol- und Nullfrequenzen stimmloser Laute) jedes Wortes in einer ausgewählten Gruppe von eine vollständige Nachricht bildenden Wörtern entwickelt werden, dadurch gekennzeichnet, daß jedes zu synthetisierende Wort in vorgewählte Unterintervalle eines stimmhaften Lauts zur Entwicklung der die Änderungsgeschwindigkeit einer Formantkuntur des Unterintervalls ■ !abteilenden Spektralableitung für jedes Unterintervall unterteilt und die Länge eines Wortes nur dann geändert wird, wenn der kleinste Spektralableitungswert in Abhängigkeit von einer abgeleiteten Silben Zeitkontur für die zu synthetisierende Nachricht gefunden wird, und daß ein geeigneter Übergang zwischen den Wörtern der voll-Ständigen Nachricht dadurch entwickelt wird, daß eine gleitende !nterpolationskurve über den Grenzen benachbarter, zu synthetisierender Wörter vor deren Übertragung zu eir.^m Synthesegerät aus den Spektralableitungen abgeleitet wird.

2. Anordnung zur Durchführung des Verfahrens nach Anspruch 1., mit einem ersten Eingang zur Aufnahme von durch einen Sprachanalysator gelieferten parametrischen Darstellungen zu synthetisierender individuell gesprochener Worte, einem zweiten Eingang zur Aufnai./ne von die zu synthetisierenden Nachrichten bestimmenden Befehlssignalen, einem Ausgang zu einem Sprachsynthesegerät und einem mit den ersten und zweiten Eingängen und dem Ausgang verbundenen Prozessor, der in Abhängigkeit von den über den zweiten Eingang anstehenden Befehlssignalen den ersten Eingang zur Aufnahme und danach zum Kombinieren der parametrischen Darstellungen der individuellen Wörter der zu synthetisierenden Nachricht aktiviert, dadurch gekennzeichnet, daß der Prozessor (21) derart ausgebildet ist, daß er zur Bildung geeigneter Übergänge zwischen den Wörtern sowohl den Spektralableitungswert für jedes vorgewählte Unterintervall eines stimmhaften Lauts als auch eine gleitende Interpolationskurve über Wortgrenzen in Abhängigkeit von den Spektralableitungen in dem den Grenzen benachbarten Bereich ableitet und die Übergänge nachfolgend -zusammen mit der parametrischen Darstellung der zu synthetisierenden Nachricht an den Ausgang zum Sprachsynthesegerät (26) anlegt.

3. Anordnung nach A.isnruch 2, dadurch gekennzeichnet, daß die Anordnung (20) eine Zeitfblauf-Einstelleinrichtung (22, 23) aufweist, die «lern Prozessor (21) Zcitablaufdaten mit allen Zeitablaufregeln zuführt, wobei die Zcitablauf- «laten einen Meßplan der Wortlängen als Funktion der Lage in der Nachricht und der Zahl vor: Phonemen pro Wort enthalten und wobei die Syntax der gesamten Nachricht im Prozessor (21) Zum Modifizieren des Zeitablaufes und der Dauer der zu synthetisierenden Wörter auswcrthnr ist

4. Anordnung nach den Ansprüchen 2 und 3. dadurch gekennzeichnet, daß die Anordnung (20) eine Tonhöhen-Einstelleinrichtung (24, 25) aufweist, welche dem Prozessor (21) eine zeitlich normalisierte Tonhöhenkontur der die zu synthetisierende Nachricht darstellenden Tonhöhendaten zuführt, und die Tonhöhendaten im Prozessor nach Maßgabe der von der Zeitablauf-Einstelleinrichtung (22, 23) zugeführten Zeitabiaufdaten zum Modifizieren der zeitlich normalisierten Tonhöhenkontur der Nachricht auswertbar sind.

5. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß der Prozessor (21) zur Änderung der Dauer der über den ersten Eingang (17) eingehenden Daten geeignet ist, indem er Unterintervalle, die typischerweise eine Lange von 10 ms haben, bei jedem gesprochenen Wort an einer solchen Stelle des Wortes einfügt od«.r abzieht, an der die Spektralableitungswerte am kleinsten sind.

6. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß der Prozessor (21) einen phonetisch realistischen Übergang zwischen den miteinander zu kombinierenden Wörtern bildet, indem eine parametrische Darstellung des Überganges zwischen gesprochenen Wortbereichen entwickelt wird, und zwar für ungefähr die letzten 100 ms des ersten von den beiden miteinander zu verschmelzenden Worten und für ungefähr die ersten 100 ms des zweiten der beiden miteinander zu verschmelzenden Worte.

7 Anordnung nach Anspruch 6, dadurch gekennzeichnet, daß die Geschwindigkeit des Übergangs zwischen den beiden zu verschmelzenden Wörtern proportional dem Durchschnitt der Spektralableitungen der beiden Wörter ist.