DE2551632A1

DE2551632A1 - Verfahren und vorrichtung zum synthetisieren einer natuerlich klingenden sprache

Info

Publication number: DE2551632A1
Application number: DE19752551632
Authority: DE
Inventors: James Loton Flanagan
Original assignee: Western Electric Co Inc
Current assignee: AT&T Corp
Priority date: 1974-11-18
Filing date: 1975-11-18
Publication date: 1976-05-26
Also published as: US3995116A; JPS5173305A; DE2551632C2; JPS5534960B2; CA1065490A

Description

BLUMBACH · WESER . BERGEN . KRAMER ZWIRNER · HIRSCH

PATENTANWÄLTE IN MÜNCHEN UND WIESBADEN

Postadresse München: Patentconsult 8 München όΟ Radeckestraße 43 Telefon (089) 883603/883604 Telex Ü5-212313 Postadresse Wiesbaden: Patentconsult 62 Wiesbaden Sonnenberger Straße 43 Telefon (06121)562943/561998 Telex 04-186237

Western Electric Company, Incorporated Flanagan 32 New York, N.Y. / USA

Verfahren und Vorrichtung zum Synthetisieren einer natürlich klingenden Sprache

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Erzeugung und Synthetisierung einer natürlich klir^nden Sprache.

Zum Synthetisieren von Sprachsignalen aus gespeicherter Information ist es generell vorteilhaft, die gespeicherten Sprachelemente in einen bequemen und wirkungsvollen Kode zu kodieren. Die meisten Sprachsynthetisiervorrichtungen verwenden kodierte Sprachsignale, die auf der Formantinformation beruht, die in den Phonemen der Sprachsignale enthalten ist. In einem gewissen Sinn ist das die natürliche Methode zur Sprach-

609822^072?

München*: K.arr.er ■ Dr.Weser · Hirsch — Wiesbaden: Blumoach · Dr. Bergen · Zwirner

7551632

!codierung, da sie den Prozeß wiederspiegelt, durch welchen die Sprache in der menschlichen Kehle durch Lautbildung erzeugt wird. Eine solche Sprachsynthetisieranordnung ist in der US-PS 3 828 132 beschrieben.

Es gibt jedoch andere Schemata zur Kodierung analoger Signale. Ein solches Schema umfaßt beispielsweise die Verwendung von Vocodermethoden zur Kodierung von Analogsignalen und insbesondere von'Spradi Signalen. Dieses Schema ist in der US-PS 3 360 610 erläutert, welche eine Nachrichtenanlage beschreibt, bei welcher zu übertragende Sprachsignale in mehrere schmalbandige Komponenten kodiert werden, die eine Gesamtbandbreite belegen, die schmaler als diejenige der nicht kodierten Sprache ist. Kurz zusammengefaßt: eine Phasenvocoderkodierung wird dadurch ausgeführt, daß bei jeder Frequenz iJ. einer Gruppe von vorbestimmten Frequenzen, die den Frequenzbereich eines eingehenden Sprachsignals überspannen, ein Signalpaar berechnet wird, das den Realteil bzw. Imaginärteil der Kurzzeit-F.ouriertransformierten des ursprünglichen Sprachsignals darstellen. Von jedem solchen Signalpaar wird ein Paar schmalbandiger Signale erzeugt; das eine Signal JS₁I stellt den Betrag

der Kurzzeit-Fouriertransformierten dar und das andere Signal «
φ^ repräsentiert die zeitliche Ableitung des Phasenwinkels der

Kurzzeit-Fouriertransformierten. Bei der zuvor genannten Nach-

609 82 2/07 22

richtenanlage werden diese schmalbandigen Signale zu einem Empfänger übertragen, wo eine Kopie des ursprünglichen Signals dadurch wiederhergestellt wird, daß mehrere Cosinussignale erzeugt werden mit denselben vorbestimmten Frequenzen, bei welchen die Kurzzeit-Fouriertransformierten bewertet worden sind. Jedes Cosinussignal wird dann in seiner Amplitude und in seinem Phasenwinkel durch das Paar schmalbandiger Signale moduliert, und die modulierten Signale v/erden summiert, um das gewünschte Kopiesignal zu erzeugen.

Die Phasenvokodertechnik ist erweitert worden von J. P. Carlson, der in seinem Aufsatz "Digitalized Phase Vocoder", der in Proceedings of the 1967 Conference on Speech Communication and Processing, Seiten 292 - 296, veröffentlicht ist, das Digitalisieren der schmalbandigen Signale I S^ und φ _i vor der Übertragung beschreibt und angibt, daß bei einer Übertragungsgeschwindigkeit von beispielsweise 9600 Bit/Sek. die durch die Digitalisierung der Parameter verursachte Verschlechterung im rekonstruierten Sprachsignal unwahrnehmbar ist.

In einem anderen Artikel von J. L. Flanagan mit dem Titel "Phase Vocoder", erschienen in Bell System Technical Journal, Vol. 45, Nr. 9, November 1966, Seite 1493, ist gezeigt, daß, wenn die Analysierungsbandbreite des Phasenvokoders schmal im

609822/0722

9 551632

Vergleich zur gesamten Sprachbandbreite ist, das Phasenableitungssignal repräsentativ für die Tonhöhe des Sprachsignals und der Betrag des Kurzzeitspektrumsignals repräsentativ für die Tonstärke des Sprachsignals bei bestimmten Frequenzbändern ist. Unter Verwendung dieser Eigenschaften ist in der bereits vorgenommenen deutschen Patentanmeldung P 25 24 497.7 eine Vorrichtung beschrieben, die Sprache synthetisiert aus gespeicherten Signalen von zu einem Wortschatz gehörenden Wörtern, die mit Hilfe eines Phasenvokoders kodiert sind, dessen Analysierbänder schmal im Vergleich zu der Bandbreite des kodierten Signals sind. Entsprechend der bereits vorgenommenen deutschen Patentanmeldung wird eine natürlich klingende Sprache dadurch erzeugt und synthetisiert, daß den gewünschten Wörtern entsprechende gespeicherte Signale aus einem Speicher entnommen werden, daß die entnommenen Signale verknüpft werden und daß die Dauer und die Tonhöhe der verknüpften Signale unabhängig modifiziert werden. Eine Steuerung der Dauer wird dadurch erreicht, daß zwischen aufeinanderfolgende entnommene unterschiedliche Signale eine vorbestimmte Anzahl interpolierter Signale eingefügt wird. Dies bewirkt eine effektive Verlangsamung der Sprache ohne Frequenzstörung. Eine Steuerung der Tonhöhe wird dadurch erzielt, daß die Phasenableitungssignale mit einem gewählten Faktor multipliziert werden. Die Sprachsynthese wird dadurch vervollständigt, daß die modifizierten Signale vom di-

609822/0722

? 5 R 1 R 3 2 - 5 -

gitalen zum analogen Format umgewandelt werden und daß die dekodierten Signale gemäß bekannten Phasenvokodermethoden dekodiert werden.

Soweit der Anmelderin bekannt ist, gibt es keine bekannte Vorrichtung, welche die Betonung der synthetisierten Sprache direkt steuert. Demgemäß ist es Aufgabe der Erfindung, eine Vorrichtung zum Synthetisieren einer natürlich klingenden Sprache verfügbar zu machen, bei welcher die charakteristische Betonung der Sprache effektiv gesteuert wird.

Weiterhin soll Sprache synthetisiert werden aus gespeicherten Signalen von zu einem Wortschatz gehörenden Wörtern, die entsprechend Phasenvokodermethoden kodiert sind.

Die erfindungsgemäße Aufgabe wird gelöst durch Verwendung eines gespeicherten Wortschatzes, der mit einem Phasenvokoder in eine Vielzahl von Kurzzeit-Betragssignalen und Kurzzeit-Phasenableitungssignalen kodiert ist, um die synthetisierten Sprachsignale zu bilden. Im Gegensatz zu dem phasenvokoderkodierten Wortschatz, wie er bei der zuvor erwähnten Patentanmeldung verwendet wird, weist der zum Kodieren der zum Wortschatz gehörenden Wörter verwendete Phasenvokoder breite Analysebänder auf, die mehrere Stimmharmonische der analysierten Sprache enthalten. Bei solchen Analysebändern enthalten die

C f) 9 8 2 2 / 0 7 2 2

Kurzzeit-Betragssignale sowohl Spektrumumhüllungsinformation als auch Stimmentonhöheninformation in einer Weise, die sich einzigartig zur Steuerung der Betonung in der synthetisierten Sprache eignet.

Eine natürlich klingende Sprache wird erfindungsgemäß dadurch gebildet und synthetisiert, daß aus einem Speicher den gewünschten Wörtern entsprechende gespeicherte Signale entnommen werden, daß die entnommenen Signale verknüpft werden und daß die Kurzzeit-Betragssignale der verknüpften Signale geeignet modifiziert werden, um Sprachbetonungssignale zu erzielen. Genauer gesagt wird die Sprachbetonung bei der synthetisierten Sprache dadurch gesteuert, daß die Dauer der entnommenen Signale modifiziert und der allgemeine Pegel der Kurzzeit-Betragssignale gesteuert wird.

Im natürlichen Sprachklang ist die subjektive Betonung mit der Tonhöhe, der Dauer und der Intensität verbunden. Diese Beziehung ist generell kompliziert und hängt von den Zwängen ab, die sich aus dem Zusammenhang ergeben. Generell kann man jedoch sagen, daß eine Intensitätserhöhung, eine Verminderung der Dauer und eine Erhöhung der Tonhöhe die Sprechweise betont. Erfindungsgemäß werden die Tonhöhe und die Dauer deshalb dadurch gesteuert, daß zwischen aufeinander entnommene Signale eine vorbestimmte Anzahl interpolierter Signale gefügt wird.

60982 2/072 2

9RR1R32 - 7 -

Dies bewirkt eine wirksame Verlangsamung der synthetisierten Sprache und eine Absenkung der Zeitdauer des hellen Tones. Durch eine Amplitudensteuerung der Kurzzeit-Amplitudenspektrumsignale wird eine Intensitätssteuerung der synthetisierten Sprache erreicht. Die Sprachsynthese wird dadurch vervollständigt, daß die modifizierten Signale von der Digitalform in die Analogform umgewandelt werden und daß die Signale entsprechend bekannten Phasenvokodermethoden dekodiert werden.

In der Zeichnung zeigen:

Fig. 1 ein schematisches Blockdiagramm einer erfindungsgemässen Sprachsynthetisierungsvorrichtung;

Fig. 2 das Kurzzeit-Amplitudenspektrum des i-ten Spektrumsignals IsJ am Ausgang des Speichers 30 in Fig. 1;

Fig. 3 ein Blockdiagramm der Interpolatorschaltung der Fig. 1;

Fig. 4 eine Ausführungsform der Steuerschaltung 40 der Fig.1; und

Fig. 5 eine Ausführungsform der Betonungssteuerungsschaltung 403 der Fig. 4.

Fig. 1 zeigt ein schematisches Blockdiagramm einer Sprachsyn-

6 0 3822/0722

5 516

•^lesevorrichtung, bei welcher gesprochene Wörter in Phasenvokoder-Beschreibungssignale kodiert werden und bei welcher eine Sprachsynthese dadurch erreicht wird, daß richtige Beschreibungssignale vom Speicher entnommen, die Beschreibungssignale verknüpft und modifiziert und die modifizierten Signale zu synthetisierten Sprachsignalen dekodiert und zusammengefaßt werden.

Genauer gesagt werden die Wörter desjenigen Wortschatzes, der für die betrachtete Sprachsynthese erforderlich scheint, einem Phasenvokoderanalysator 10 der Fig. 1 zur Kodierung zugeführt. Der Analysator 10 kodiert die Wörter in Signalpaare I S^I, φ ^ ; I S₂ I, ^₂; · · · IS₁I , ^₁, ... Is_nI, ^_n , die einen Isl-Vektor und einen ^-Vektor bilden, wobei jedes S^ und φ^ das Kurzzeit-Amplitudenspektrum bzw. das Kurzzeit-Phasenableitungsspektrum des zu bestimmenden Sprachsignals bei einer Spektralfrequenz 6J₁ darstellt. Die Analysierungsfrequenzen O^ können einen gleichmäßigen oder ungleichmäßigen Abstand im interessierenden Frequenzband aufweisen, wie es durch Auslegungskriterien vorgeschrieben ist. Die Analysierung s'oänder des erfindungsgemäßen Phasenvokoders müssen ausreichend breit sein, so daß mehrere Stimmenharmonische in jedes Band fallen. Beispielsweise kann eine geeignete Gruppe von Analysierungsbandbreiten auf Bandbreiten eingestellt werden, die die Breite einer Oktave auf-

6 0 9 8 2 2/0722

weisen, d. h., 300 - 600 Hz, 600 - 1200 Hz, 1200 - 2400 Hz, usw. Die Analysierungsbänder können auch gleiche Bandbreiten aufweisen. Der Phasenvokoderanalysator 10 kann gemäß zuvor erwähnter US-PS 3 360 610 aufgebaut sein.

Im Anschluß an die Kodierung durch den Analysator 10 werden die [S [ - und fi-Analogvektoren abgetastet und in einem A/D-Wandler 20 in Digitalform gebracht. Der Wandler 20 kann so aufgebaut sein, wie es in dem zuvor erwähnten Aufsatz von Carlson beschrieben ist. Die umgewandelten Signale werden in einem Speicher 30 der Fig. 1 gespeichert und sind danach für den Synthesevorgang verfügbar. Da jedes vom Analysator 10 verarbeitete Wort mit relativ hoher Folgefrequenz abgetastet wird, beispielsweise mit 10 KHz, wird jedes verarbeitete Wort durch eine Vielzahl von isI-Vektoren und zugehörigen ^-Vektoren dargestellt. Diese Vektoren werden in den Speicher 30 in sequentieller Weise in ihnen gewidmete Blocks des Speichers eingegeben. In jedem Speicherblock wird jedes Paar ]S|- und ^-Vektoren in einem Speicherplatz gespeichert, und jeder Speicherplatz ist

« unterteilt und enthält die Komponenten Is₁I und φ _i eines jeden

Vektors.

Eine Sprachsynthese wird in Gang gesetzt, wenn ein Benutzer einer Vorrichtung 40 in Fig. 1 über eine Ader 41 eine Kette von

C Π 9 8 2 2 / 0 7 2 2

Befehlen zuführt. Die Befehlskette schreibt dem System die Reihenfolge der Wörter vor, die aus dem Speicher 30 auszuwählen und zur Bildung eines Sprachsignals zu verknüpfen sind. Auf die Befehle hin besteht nacheinander zu ausgewählten Blocks des Speichers Zugriff, und innerhalb eines jeden Speicherblocks besteht nacheinander zu allen Speicherplätzen Zugriff. Jeder Speicherplatz gibt ein Paar Is I- und ^-Vektoren auf das Ausgangstor des Speichers 30. Die Steuervorrichtung spricht auf die Eingangsbefehlskette an und führt dem Speicher 30 geeignete Adressen- und LESE-Befehle zu. Außerdem analysiert die Vorrichtung 40 den Wortkettenaufbau, weißt einen Helltondauerwert K-, und einen Intensitätswert K. zu und berechnet eine Interpolationskonstante K„ für jeden Speicherplatz, zu welchem Zugriff besteht, um eine natürlich klingende Sprache zu erzeugen, mit einem Betonungsmuster, das vom Wortkettenaufbau abhängt. Eine ausführliche Beschreibung der Steuervorrichtung 40 wird nachstehend gegeben.

Da die I SI-Vektorsignale Stimmenhelligkeitsinformation tragen, führt eine Verlängerung des Periodenabschnitts der | SA -Signale zu einer Verlangsamung und Absenkung der Tonhöhe der synthetisierten Sprache. Man kann zeigen, daß die Verlängerung der • ... ■
^-Signale sich nicht auf die Frequenz überträgt und keinen

6098 22/07 2 2.

"Donald Duck"-Effekt bewirkt, wie er so einprägsam bei Tonbandgerät-Geschwindingkeitsänderungen zu beobachten ist.

Erfindungsgemäß wird die Sprachhelligkeit und Sprachdauer durch Steuern (Verlängern oder Verkürzen) der periodischen Abschnitte der |Si- und ^-Vektoren gesteuert. Diese Steuerung wird erreicht durch widerholten Zugriff zu jedem gewählten Speicherplatz mit einer festgelegten hohen Taktfolgefrequenz f und durch Steuern der Anzahl solcher wiederholter Zugriffe. Auf diese Weise wird die Sprachhelligkeit und Sprachdauer effektiv erhöht durch eine erhöhte Anzahl von Zugriffen zu jedem Speicherplatz oder verringert durch eine geringere Anzahl von Zugriffen zu jedem Speicherplatz. Wenn die Nennzugriffszahl für jede Speicheradresse auf irgendeine feste Anzahl eingestellt ist, beispielsweise 100, bewirkt ein mehr als 100 mal wiederholter Zugriff zu jedem Speicherplatz eine Verlangsamung der synthetisierten Sprache und eine Absenkung der Tonhöhe, und ein weniger als 100 mal wiederholter Zugriff zu jedem Speicherplatz bringt eine Beschleunigung der synthetisierten Sprache und eine Erhöhung der Tonhöhe mit sich. Die genaue Anzahl von Malen, zu welchen Zugriff zu jedem Speicherplatz besteht, wird durch die Steuerschaltung 40 vorgeschrieben, und zwar über wiederholte LESE-Befehle auf der Ader 43 für jede Speicheradresse auf der Ader 42.

609822/0722

Die obige Lösung für eine Sprach-Helligkeits/Dauer-Steuerung ist in Fig. 2 gezeigt, welche die Amplitude einer bestimmten \sA- Komponente darstellt, die sich mit der Zeit ändert. Die Bezeichnung lsi kennzeichnet den Vektor /Slam Ausgang des Speichers 30. In Fig. 2 repräsentiert Element 201 den Wert

Is^l zu einer bestimmten Zeit, wie er am Ausgang des Speichers 30 auf den Zugriff zu einem bestimmten Speicherplatz ν hin erscheint. Das Element 201 ist dem ersten Zugriff zum v-ten Speicherplatz zugeordnet. Das Element 202 repräsentiert eben-

falls den Wert von I SJ im Speicherplatz v, stammt jedoch vom dritten Zugriff zum Speicherplatz v. Element 206 repräsentiert den Wert von I S^l im Speicherplatz v+1 und stellt den ersten Zugriff zum Speicherplatz v+1 dar. Wenn beispielsweise der Speicherplatz ν der letzte Platz eines Speicherblocks ist (das Ende eines Wortes), dann repräsentiert das Element 203 nicht das Signal des Speichers vh, sondern den Wert von |SA bei einem ersten Zugriff zu einem neuen Speicherblock (der mit einem neuen Wort beginnt) bei einem Speicherplatz u. Element

205 repräsentiert ebenfalls den Wert von is^l im Speicherplatz u, jedoch zu einer nachfolgenden Zugriffszeit, und Element stellt den letzten Zugriff zum Speicherplatz u dar. Die Anzahl der Zugriffe zum Speicher wird durch die Tonhöhen-Dauer-Steuerkonstante ICj vorgeschrieben, von welcher eine Interpolations konstante K_ in der Steuerschaltung 40 entwickelt wird, um einen

6D9822/0722

7551632

- 13 Spektralinterpolator 90 (Fig. 1) zu betätigen.

In Fig. 2 ist lediglich die i-te Komponente des ISl- Vektors am Ausgang des Speichers 30 dargestellt. Andere Komponenten des lsi- Vektors und die Komponenten des ^-Vektors haben natürlich unterschiedliche Werte. Die generelle Treppenform bleibt jedoch unverändert und die Bruchpunkte, die auf den Wechseln der Speicherplätze innerhalb eines Speicherblocks (beispielsweise Zeitelement 206) oder auf Wechseln der Speicherplätze von einem Speicherblock zu einem anderen (beispielsweise Zeitelement 205) beruhen, treten zu denselben Zeitpunkten auf.

Intensitätssteuerung

Da die Sprachintensität durch den generellen Pegel der |S!-Vektoren bestimmt wird, wird die Intensität der synthetisierten Sprache in der Vorrichtung nach Fig. 1 dadurch gesteuert, daß

ι *i

die fSl-Signale am Ausgang des Speichers 30 mit einem Intensitätsfaktor K. (nominell 1,0) multipliziert werden, der von der Steuerschaltung 40 abgeleitet ist. Der Intensitätssteuerungsfaktor akzentuiert im allgemeinen ein Wort oder eine Gruppe von Wörtern. Demgemäß ist der Faktor K^ für einen gesamten Adressenblock des Speichers 30 oder für eine Gruppe von Speicher-

609822/0722

7 5 516 3 2

blöcken konstant. Die Multiplikation mit K^ hat deshalb keine Auswirkung auf die generelle Stufenform des in Fig. 2 dargestellten Spektrums, was einschließt, daß keine Änderung hinsichtlich der Stellen der Stufenunstetigkeiten auftreten.

Die K^-Multiplikation wird innerhalb einer Intensitätssteuervorrichtung 60 durchgeführt, die mit dem Speicher 30 verbunden ist und auf die Kurzzeit-Spektralamplitudensignale |Sl anspricht. Die Intensitätssteuerungsvorrichtung 60 umfaßt mehrere Multiplizierschaltungen 60-1, 60-2, ... 60-N, die je die Sig-

ΛΑ Α

nale (S₁J , (SpI , ···, bzw. I S_n I mit dem konstanten Paktor K. multiplizieren, was zu intensitätsmodifizierten Signalen Is₁I¹, Is₂I', ... Is_nI¹ führt. Bei jeder der Multipliziereinrichtungen 60-1, 60-2, ... 60-N handelt es sich um eine einfache digitale Multipliziereinrichtung, wie sie auf dem Gebiet der elektronischen Schaltungen wohl bekannt ist.

Spektralforminterpolator

Wie vorstehend erläutert, hat die intensitätsmodifizierte

ι * I
Spektrumumhüllende ISI¹ eine Treppenform. Wenn auch eine solche Spektrumumhüllende für den Synthetisierungsvorgang verwendet werden kann, leuchtet es einem intuitiv ein, daß eine Glättung des Spektrums eher eine natürlich entwickelte Spektrumumhüllende repräsentieren würde und deshalb zu einer gefälligeren und na-

609822/07 2 2

? 5 51 R 3 2

türlicher klingenden synthetisierten Sprache führen würde. Eine Möglichkeit zur Glättung der Umhüllenden kann das "Ausrichten" einer Polynomkurve über den Anfangs-IS.I'-Werten sein, bei welchen Zugriff zu einer neuen Speicheradresse besteht. Wenn man annimmt, daß das in Fig. 2 gezeigte Spektrum das intensitätsgesteuerte Spektrum IS₁I \ darstellt, dann kann diegewünschte Glättung der Umhüllenden in einer Ausrichtung einer Kurve über den Elementen 201, 206 und 203 bestehen. Die

wiederholten IS^I¹-Werte, d. h. die Elemente zwischen den Elementen 201, 206 und 203, können zur Anpassung an diese Kurve geändert werden. Dies ist jedoch eine komplizierte mathematische Aufgabe, welche die Hilfe speziell zugeschnittener Berechnungsschal tungsanordnungen oder einen Allgemeinzweckcomputer erfordert. Zum Zweck der Klarheit ist hier deshalb eine einfachere, geradlinige Interpolationsmethode beschrieben. Die Spektrumumhüllende, die aus der geradlinigen Interpolation resultiert, ist durch die Kurve 220 in Fig. 2 dargestellt.

Wenn bei der gewählten geradlinigen Interpolationsmethode Element 203 als S^¹ bezeichnet wird, was das Signal I S^ · zur Zeit m* bedeutet, und Element 204 mit S.^m2 und Element mit S₁^ bezeichnet wird, kann man zeigen, daß das interpolierte Element des Elementes 205, das mit der Kurve 220 "ausgerichtet" ist, berechnet werden kann durch den Ausdruck

609822/0722

7 551632

- 16 (S.^m1 - S₁^) K₀ + S.^m1 (1)

K₀ = (m_x - m₁)/(m₂ -In₁) (2)

Betrachtet man obige Gleichungen, kann man sehen, daß der Glättungsvorgang im Gegensatz zur Intensitätssteuerung abhängig ist von den Werten der Spektrumumhüllungssignale und der Anzahl der Male, zu welchen Zugriff zu jeder Speicheradresse besteht.

Um das zuvor beschriebene "Glätten" der Umhüllenden des synthetisierten Spektrums vorzusehen, schließt Fig. 1 einen Spektralamplitudeninterpolator 90 ein, der zwischen der Intensitätssteuerung 60 und dem D/A-Wandler 70 angeordnet ist. Im einen Extrem kann der Interpolator 90 einfach eine Kurzschlußverbindung zwischen jedem IS^l'-Eingang und dessen entsprechendem interpolierten I S^|^-Ausgang sein. Dies entspricht in Wirklichkeit überhaupt keiner Interpolation. Im anderen Extrem kann der Interpolator 90 eine Vielzahl von Interpolatorvorrichtungen 91 aufweisen, die durch hochkomplizierte Spezialzweckcomputer oder Allgemeinzweckcomputer gebildet sind und die Möglichkeit zur Anpassung an eine anspruchsvolle Kurve geben. Fig. 3 zeigt eine Ausführungsform eines Interpolators 91 für

609822/0722

5 Ί

die geradlinige Interpolationsmethode, wie sie durch Gleichling (1) definiert ist.

Der in Fig. 3 gezeigte Interpolator 91-i ist der i-te Interpolator in Vorrichtung 90. Er spricht auf den anfänglichen Speicherzugriff des gegenwärtigen Speicheradressensignals S^ und auf das Spektralsignal des nächsten "Speicheradressensignals Sj^m2 an. Wenn Zugriff zu einer neuen Adresse des Speichers 30 genommen worden und das S .¹^-Signal erhalten worden ist, adressiert die Steuervorrichtung 40 auch den nächsten Speicherplatz und erzeugt einen Auftastimpuls (auf Ader 21), um das nächste Signal S^² in ein Register 910 zu schleusen. Der positive Eingang einer Subtrahiervorrichtung 911 ist mit dem Register 910 verbunden und spricht auf das S^^m2-Signal an. Der negative Eingang der Subtrahiervorrichtung 911 ist mit einer Ader 23 verbunden und spricht auf das S^^-Signal an. Das durch Gleichung (1) definierte Signal wird durch eine Multipliziervorrichtung 912 errechnet, die auf das Ausgangssignal von der Subtrahiervorrichtung 911 und den zuvor erwähnten K-Faktor auf Ader 22 anspricht, und durch eine Summiervorrichtung 913, die auf das Ausgangssignal von der Multipliziereinrichtung 912 und auf das S-^m>!-Signal auf Ader 23 anspricht.

6 0 98 2 2/0722

■ . ? B 5 1 R 3 2

Spracherzeugung

Die Sprache wird dadurch erzeugt, daß die modifizierten digitalen Signale in Analogform umgewandelt werden und daß aus dieser Spräche zusammengesetzt wird. Demgemäß ist ein D/AWandler 70 vorgesehen, dem der tonhöhen-dauer-modifizierte und intensitätsmodifizierte interpolierte JSI*-Vektor am Ausgang des Interpolators 90 und der tonhöhen-dauer-modifizierte p-Vektor am Ausgang des Speichers 30 zugeführt wird. Der Wandler 70 wandelt die zugeführten digitalen Signale in Analogform um und gibt die Analogsignale auf einen Phesenvokodersynthetisierer 80, um ein Signal zu erzeugen, das die gewünschte synthetisierte Sprache darstellt. Der Wandler 70 kann 2N Standard-D/A-Wandler umfassen; N Wandler für die I SI ^--Komponenten und N Wandler für die ^-Komponenten. Der Phasenvokoder 80 kann im wesentlichen in derselben Weise aufgebaut sein, wie sie in der zuvor erwähnten US-PS 3 360 610 beschrieben ist.

Steuerungsvorrichtung 40

Fig. 4 zeigt ein schematisches Diagramm der Steuervorrichtung 40 in Fig. 1. Erfindungsgemäß spricht die Vorrichtung 40 auf ein Wortkettenbefehlssignal auf Ader 41 an, das die zu synthetisierende Nachricht vorschreibt. Beispielsweise kann die ge-

60982 2/0722

? R 51 6 3 2

wünschte Nachricht "The number you have dialed has been changed" sein, d. h. "die Nummer, welche Sie gewählt haben, hat sich geändert". Die Eingangssignalfolge (auf Ader 41) für diese Nachricht kann sein "1", "7", "13", "3", "51", "17", "62", "21", "99", wobei "99" den Abschnitt am Ende des Satzes repräsentiert. Die Eingangsfolge entspricht den Anfangsadressen der Speicherplatzblöcke des Speichers 30, in denen die gewünschten Wörter gespeichert sind.

Die gewünschte Wortfolge, wie sie durch die Kette von Befehlssignalen vorgeschrieben wird, wird in einem Speicher 401 gespeichert und danach in einem Betonungssteuerungsblock 403 analysiert, um die gewünschte Tonhöhen-Dauer- und Intensitäts-Faktoren für jedes Wort in dem synthetisierten Satz zu bestimmen. Die Tonhöhen-Dauer- und Intensitäts-Faktoren können durch Positionsregeln berechnet werden, die von der Wortposition abhängen, durch Syntaxregeln oder durch andere satz- oder wortabhängige Regeln.

Positionsregeln sind im allgemeinen einfach, da sie unabhängig von der Nachricht sind. Eine gültige Positionsregel kann beispielsweise sein, daß das zweite Wort in einem Satz dadurch zu betonen ist, daß es um den Faktor 1,2 verlängert und in seiner

609822/0722

? R 5 Ί 6 3 2

■.;■■- 20 -

Intensität um den Faktor 1,3 erhöht wird, daß das letzte Wort in einem Satz dadurch hinsichtlich seiner Betonung vermindert wird, daß es auf das 0,98-fache seiner ursprünglichen Dauer verkürzt und seine Intensität um den Faktor 0,7 verringert wird, und daß alle anderen Wörter gegenüber ihrer gespeicherten Form unverändert bleiben.

Fig. 5 zeigt einen Betonungssteuerungsblock 403, der auf das Ausgangssignal des Speichers 401 anspricht und die oben als Beispiel angegebene Positionsregel auszuführen vermag. Ein Wortdetektor 421 erkennt ein Satzendewort (Adresse "99") und stellt einen Zähler 422 zurück. Der Zähler 422 spricht auf Vorrückimpulse auf einer Ader 414 an und wird jedesmal vorgerückt, wenn ein Impuls auf der Ader 414 erscheint, zu welcher Zeit eine neue Speicheradresse auf Ader 430 am Eingang des Blocks 403 erscheint. Ein Wortdetektor 433 ist mit dem Zähler 422 verbunden, um den Stand 3 des Zählers 422 zu erkennen und festzustellen. Der Zähler 422 erreicht den Stand 3, wenn die dem dritten Wort in dem Satz entsprechende Speicheradresse auf der Ader 430 erscheint und die Speicheradresse des zweiten Wortes in dem Satz am Ausgang einer Wortverzogerungsschaltung 420 erscheint, die mit der Ader 430 verbunden ist und eine Verzögerung um ein Wort erzeugt. Wenn ein Signal auf einer Ader 431 erscheint, ist deshalb die Speicheradresse am Ausgang

609822/0722 ■ ·

? R R 1 fi 3 2

der Wortverzögerungsschaltung 20 die Speicheradresse eines zweiten Wortes eines Satzes, und wenn ein Signal auf der Ader 432 erscheint, handelt es sich bei der Speicheradresse am Ausgang der Wortverzögerungsschaltung 420 um die Speicheradresse des letzten Wortes eines Satzes.

Die Signale auf den Adern 431 und 432 in Fig. 5 werden auf ein Intensitätssteuerungselement 425 und ein Tonhöhen-Dauer-Steuerelement 424 gegeben. Wenn auf den Adern 431 und 432 keine Signale vorhanden sind, treten an den Elementen 425 und 424 Ausgangssignale 1,0 auf. Wenn lediglich auf Ader 431 ein Signal erscheint, treten an den Ausgängen 425 und 424 Ausgangssignale 1,3 bzw. 1,2 auf; und wenn lediglich auf Ader 432 ein Signal erscheint, treten an den Elementen 425 und 424 Ausgangssignale 0,7 bzw. 0,98 auf. Die Elemente 425 und 424 können durch eine einfache Verknüpfungslogik oder mit einem kleinen (4 Wort-) Festwertspeicher in der Fachleuten bekannten Art aufgebaut werden. Das Ausgangssignal der Wortverzögerungsschaltung 420 (bei welchem es sich um ein Adressenfeld handelt) wird mit dem Ausgangssignal des Intensitätssteuerungselementes 425 (welches ein Intensitätsfaktor K. ist) und ferner mit dem Ausgangssignal des Tonhöhen-Dauer-Steuerungselementes 424 (welches ein Tonhöhen-Dauer-Faktor K^ ist) verknüpft, um das Ausgangssignal der Betonungssteuerungsschaltung 403 zu bilden, und

609822/0722

? R 5 1 R 3 2

dadurch werden Steuersignale entsprechend den als Beispiel gegebenen Positionsregeln entwickelt.

Die zuvor beschriebene Positionsregel ist für manche Anwendungen ausreichend. Für andere Anwendungen mag eine anspruchsvollere Methode erwünscht sein. Solche anspruchsvolleren Methoden können eine Wort- und Satzelement-Betonungssteuerung umfassen, wie sie beispielsweise von J. H. Gaitenby u. a. beschrieben worden ist in "Word and Phrase Stress by Rules for a Reading Machine", veröffentlicht in Status Re^port on Speech Research by Haskins Laboratories, Inc., Juni 1972 (SR-29/3O).

Eine Ausführung der Betonungssteuerungsschaltung 403, die auf der Syntax der synthetisierten Sprache beruht, ist in der US-PS 3 704 345 beschrieben. Fig. 1 dieser Patentschrift zeigt einen Tonhöhen- und Intensitätsgenerator 20, einen Vokaldauergenerator 21 und einen Konsonantendauergenerator 22; alle sprechen grundsätzlich auf einen Syntaxanalysator 13 an. Diese Generatoren erzeugen Signale, die die gewünschte Tonhöhe, Intensität und Dauer beschreiben, die den Phonemen zugeordnet sind, die in jeder Speicheradresse mit Zugriff festgelegt sind. Für die erfindungsgemäßen Zwecke kann anstelle der bekannten Phonemliste 14 eine Wortliste verwendet werden und die Vokal- und Konsonantengeneratoren können zu einem vereinigten Wortdauergenerator zusammengefaßt werden.

609822/0722

? Fi Fi 1 fi 3 2 - 23 -

Das verknüpfte Ausgangssignal der Betonungssteuerungsschaltung 403 wird in einem Register 406 gespeichert und das Ausgangssignal des Registers 406 wird auf ein Register 407 gegeben. Wenn das Register 407 eine gegenwärtige Speicheradresse enthält, kann man somit sagen, daß das Register 406 die nächste Speicheradresse enthält. Beide Register 406 und 407 sind mit einer Auswahlschaltung 408 verbunden, die die Ausgangssignale von einem der beiden Register auswählt und zu ihrem Ausgang überträgt.

Die Anzahl der Befehle für den Zugriff zu jedem Speicherplatz wird dadurch gesteuert, daß der Tonhöhen-Dauer-Faktorwert im K ,-Feld am Ausgang der Auswahlschaltung 408, und damit auf Ader 409, in einen Abwärtszähler 405 gegeben wird. Der in der Schaltung 412 erzeugte Takt f_ für den grundsätzlichen Speicherzugriff erzeugt Impulse, die den Zähler 405 "herabzählen¹¹, während der Speicher unter Zugriff steht und durch ein ODER-Gatter 413 über eine Ader 43 ausgelesen wird. Wenn der Zähler 405 den Zählstand Null erreicht, gibt er auf Ader 414 einen Vorrücksignalimpuls ab. Dieses Signal rückt die Schaltung 403 zum nächsten Speicherplatz und bewirkt, daß das Register 406 den nächsten Speicherzustand speichert und das Register 407 den neuen gegenwärtigen Zustand speichert. Gleichzeitig gibt die Auswahlschaltung 408 unter dem Befehl des Vorrücksignals

609822/0 7 22

R 51 R 3 2

den Inhalt des Registers 406 auf die Adern 44 und 42, und der auf das Vorrücksignal ansprechende Impulsgenerator 410 erzeugt einen zusätzlichen LESE-Befehl, der über das ODER-Gatter 413 zum Speicher 30 gelangt. Der Ausgangsimpuls des Generators 410 wird auch dazu verwendet, über die Auftastader 21 das Ausgangssignal des Speichers 30 in die Register 910 in der Schaltung 91 zu schleusen und somit in den Registern 910 die zuvor beschriebenen Signale S^Z zu speichern. Wenn das Vorrücksignal auf Ader 414 verschwindet, schaltet die Auswahlschal tung 408 das Ausgangssignal des Registers 407 auf ihren Ausgang, und auf den nächsten Impuls vom Taktgeber 412 hin wird ein neues K^ in den Zähler 405 eingegeben.

Der Stand des Zählers 405 wird in jedem Moment durch das Signal auf Ader 415 angegeben. Dieses Signal repräsentiert die Menge

^mx ~* ^m1 * ^D^"^e K°^ns"t^airt:e ^Y)cL» ^^e als Eingangssignal am Zähler 405 (Ader 409) erscheint, repräsentiert die Menge m₂ - m^. Deshalb wird die Konstante K . wie sie durch Gleichung (2) deflniert ist, durch eine Dividierschaltung 411 berechnet, und zwar dadurch, daß das Signal auf Ader 415 durch das Signal auf Ader 409 dividiert wird.

Unter bestimmten Umständen ist die Ausführung der Erfindung in Form eines Computerprogramms möglich und kann sich in bestimmter

6 0982 2 /0722

9551632 - 25 -

Hinsicht als vorteilhaft erweisen. Wenn beispielsweise ein künftiger Benutzer der erfindungsgemäßen Sprachsynthetisier vorrichtung wünscht, eine komplizierte Syntax zu verwenden, die von Syntheseregeln und einer komplizierten Spektralinterpolationsmethode abhängt, mag es sich als leichter ausführbar erweisen, für die Betonungssteuerungsschaltung 403 und den Interpolator 90 der Fig. 1 eine Computerausführungsform zu verwenden. Wenn einmal ein Computer für die Vorrichtung verwendet wird, können zusätzliche Merkmale mit dem Computer verwirklicht werden, wodurch die Menge der erforderlichen speziellen Geräte oder Geräteteile verringert wird. Beispielsweise kann der Intensitätssteuerungsvorgang des Blocks 70 und der Speicher 30 mit dem Computer verkörpert werden, was auch für den Phasenvokoderanalysator und den gröi3ten Teil des Phasenvokodersynthetisierers gelten kann. Tatsächlich wurde von Carlson im Fall seines zuvor erwähnten Artikels für den Phasenvokoderanalysator und -synthetisierer ein Computer verwendet.

609822/072 2

Claims

BLUMBACH · WESER · BERGEN · KRAME^ ^ ^{5 1 R 3} ZWIRNER - HIRSCH

PATENTANWÄLTE IN MÜNCHEN UND WIESBADEN

Postadresse München: Patentconsult 8 München 60 Radeckestraße 43 Telefon (089)883603/883604 Telex 05-212313 Postadresse Wiesbaden: Patentconsult 62 Wiesbaden Sonnenberger Straße 43 Telefon (06121)562943/561998 Telex 04-186237

Western Electric Company, Incorporated Flanagan 32

Patentansprüche

Verfahren zum Synthetisieren einer natürlich klingenden Sprachnachricht, bei welchem Kurzzeitspektrumumhüllende-Signale und Phasenableitungs-Phasenvokodersignale gespeichert werden, die für ein Vokabular von Wörtern repräsentativ sind, dadurch gekennzeichnet , daß aus den gespeicherten Signalen selektiv vorgewählte Signale entnommen werden, um eine in Tonhöhe und Dauer modifizierte vorbestimmte Folge der für die Sprachnachricht repräsentativen Signale zu bilden, daß die entnommenen Kurzzeitspektrumumhüllenden-Signale geändert werden, um die Intensität der Sprachnachricht zu beeinflussen, und daß die entnommenen Phasenableitungssignale und die in ihrer Intensität modifizerten Kurzzeitspektrumumhüllenden-Signale kombiniert werden, um ein zum Aktivieren des Sprachsynthetisierers geeignetes Signal zu erzeugen.

609822/0 7 22

München: Kramer · Dr.Weser · Hirsch — Wiesbaden: Blumbach · Dr. Bergen ■ Zwirner

7551B32

- 2f-
2. Vorrichtung zum Synthetisieren einer natürlich klingenden Sprachnachricht, mit einem Speicher, der ausgewählte Speicherplätze aufweist, die für ein Vokabular von Wörtern repräsentative Signale enthalten, mit einer Entnahme- und Verknüpfungseinrichtung zum Entnehmen und Verknüpfen ausgewählter Teile der Signale, mit einer Modifiziereinrichtung zum Modifizieren der verknüpften Signale, und mit einer Wandlereinrichtung zum Umwandeln der modifizierten Signale in hörbare Sprache, dadurch gekennzeichnet, daß es sich bei den gespeicherten Signalen um Kurzzeit-Fouriertransformiertenparameter und Phasenableitungsparameter handelt, die herrühren aus der Kodierung des Wortvokabulars mit einem Phasenvokoder, dessen Analysebänder so breit sind, daß mehrere Harmonische der kodierten Signale innerhalb eines jeden Analysebandes enthalten sein können;

daß die Entnahme- und Verknüpfungseinrichtung eine Einrichtung zur Änderung der Tonhöhe und Dauer der hörbaren Sprache aufweist; und

daß die Modifiziereinrichtung eine die Kurzzeit-Fouriertransformiertenparameter verändernde Einrichtung zur Erzeugung der Intensität der hörbaren Sprache aufweist.

609822/0722

■ ? 5 5 1 fi 3 2 - ^ -
3. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet , daß die Entnahmeeinrichtung die gespeicherten Signale einer jeden ausgewählten Speicherstelle zur gleichzeitigen Beeinflussung von Tonhöhe und Dauer der synthetischen Sprache wiederholt zu entnehmen vermag.
4. Vorrichtung nach Anspruch 2 oder 3» dadurch gekennzeichnet , daß die Wandlereinrichtung eine Multipliziereinrichtung aufweist, mit der mehrere Kurzzeitparametersignale der entnommenen Signale mit einem Intensitätssteuerungsfaktor multiplizierbar sind.
5. Vorrichtung nach Anspruch 4, gekennzeichnet durch eine Interpolationseinrichtung zum Multiplizieren eines jeden mit einem Intensitätssteuerungsfaktor multiplizierten Signals mit einem Faktor, der von der Stärke der mit dem benachbarten Intensitätssteuerungsfaktor multiplizierten Signale abhängt, um eine Glättung der Kurzzeitspektrumumhüllenden zu bewirken.

Hi/ku
6 0 9 8 2 2/0722