DE2524497B2

DE2524497B2 - Verfahren und Schaltungsanordnung zur Sprachsynthese

Info

Publication number: DE2524497B2
Application number: DE2524497A
Authority: DE
Inventors: James Loton Warren N.J. Flanagan (V.St.A.)
Original assignee: Western Electric Co Inc
Current assignee: AT&T Corp
Priority date: 1974-06-05
Filing date: 1975-06-03
Publication date: 1978-12-14
Also published as: US3982070A; CA1046642A; USB476577I5; DE2524497A1; DE2524497C3; JPS5533079B2; JPS516407A

Description

Die Frlindung betrifft ein Verfahren zum Synthetisieren einer natürlich klingenden Sprachnachricht gemäß Oberbegriff des Patentanspruchs I.

In tier WS-Patentschrift 33 60 610 wirtl die Verwendung von Ph-tsenvocoder-Verfahren auf dem Gebiet der Sprachübertragung und Bandbreitenverringerung offenbart. Ks wird eine tibertragungsanordnung beschrieben, bei der zu übertragende Sprachsignale /u einer Vielzahl von schmalbandigen Komponenten codiert werden, tieren kombinierte Bandbreite kleiner als die der nichlcotlierten Sprache ist. Kurz zusammengefaßt wirtl eine Phasenvoeoder-Codicrung durchgerührt, in dem für jede von einer Gruppe von vorbestimmten Frequenzen '■>,. die ilen Frei)ti· nzbereich eines ankommenden Sprachsiunals erfassen, ein Paar von Signalen errechnet wird, die den Realteil bzw. den Imngiiiäricil tier Kurzzeil-Fourier-Transformation des ursprünglichen Sprachsignals darstellen. Aus jedem solchen Signalpaar wirtl ein Paar von Schmalbantlsignalen erzeugt. Das eine Signal |.S", I slellt tlie (iröße tier Kurzzeit-Fourier-Transformation tlar. iiiul das andere Signal '/', tlie zeitliche Ableitung des Phaseinvinkds di-r Kiiiv/eit-Fourier-Transformalion. Bei tier oben erläuterten Anordnung werden diese Schmalbandsignale zu einem Hmpfänger übertragen, in welchem ein Abbild ties ursprünglichen Signals wiederhergestellt wird, indem eine Vielzahl von Kosinus-Signalen erzeugt wird, die die gleichen vorbestimmten Frequenzen besitzen, bei denen die Kurzzeil-Foiirier- Transformation ausgewertet worden isl. Jedes Kosinus-Signal wirtl dann bezüglich seiner Amplitude und seines Phasenwinkels durch die Schmalband-Signalpaare moduliert, und tlie modulierten Signale werden zur Hrzeugung ties gewünschten Abbildes summiert.

In einem Aufsatz »Digilalizcd Phase Vocoder«, veröffenlliehl in Proceedings öl the 1967 Conference on Speech Communication and Processing. Seilen 292 bis 296. beschreib! J. I'. C a rl s ο ii die Digilalisierung tier Schmalhandsignale |.V, | und '/>, vor tier nberlragung und gibl an. daß bei einer tiherlragungsgeschwiiuligkeit von beispielsweise 9600 BiiSekuinle tlie Verschlechterung auf Grund tier Digilalisieruiig der Parameter in dem wieder hergestellten Sprachsignal unmerkbar ist.

\uf einem getrennten Gebiet tier'Technik sind viele

Versuche gemacht wurden, natürlich klingende Sprache aus gespeicherten .Sprachsignalen unter Verwendung einer Formanl-Codieriing von Lauten (oder Wörtern) zu gespeicherten Signalen zu synthetisieren. Linie solche Vorrichtung ist in der deutschen Patent- -, schrift 2II5 25K beschrieben. Solche Systeme befriedigen im allgemeinen. Wenn er aber eine Beeinnussungsmöglichkeil fur die Tonhöhe und Tondauer erforderlich ist, so für den Fall, daß die durch den Zusammenhang gegehenen Bedingungen für die n> synthetisierte Sprache vorherrschend sind, werden diese Systeme kompliziert und erfordern umfangreiche Berechnungen.

Die Erfindung hat sich daher als Aufgabe gestellt, ein Verfahren zur Synthetisierimg natürlich klingender ι -, Sprache zu schaffen, bei dem die Sprache aus gespeicherten Wörtern eines Vokabulars synthetisiert wird, die nach Phasenvocoder-Verfahren codiert worden sind, sowie eine Vorrichtung zur Durchführung des Verfahrens. jii

Zur I ösuiig der Aufgahe geht die Hrlindung aus von einem Verfahren der eingangs genannten Art und ist im kennzeichnenden Teil des Patentanspruchs I angegeben. Weitere Ausgestaltungen sind in den Unteransprüchen 2 und 3 gekennzeichnet. _>-,

Fine elektrische Schaltungsanordnung /um Durchführen dieses Verfahrens ist durch den Patentanspruch 4 gekennzeichnet. Weitere Ausgestaltungen sind in den llnteraiisprüchen 5 his S bezeichnet. Dabei hai das Speichern von Signalen, welche die m Kurzzeit-Fourier- Transformationsparameter und Phasenableitparameler sind, die sich aus einer Phasenvocoder-C'odierung des Vokabulars von Wörtern ergehen, als an sich bekannt /u gelten.

Fs werden demgemäß Wörter eines Vokabulars zu η einer Vielzahl von Kurzzeit-Sprachamplitudcnsignaleu und Kurzzeil-Phasenableitsignalen codiert, die codierten Signale in digitales Format umgewandelt und die digital codierten Signale in einem Speicher gespeichert. Natürlich klagende Sprache wird dadurch gebildet m und synthetisiert, daß aus dem Speicher ilen gew mischten Wörtern entsprechende Signale gewonnen, diese Signale verknüpft Lind die Dauer und Tonhöhe der verknüpften Signale modifiziert wird. Fine Beeinflussung tier Dauer wird durch Finfüg ;^; einer vor- ι, bestimmter Anzahl \on lahulierten Signalen /wischen aufeinanderfolgend aus dem Speicher gewonnene unterschiedliche Signale erreicht. Dadurch erzielt man eine wirksame Verlangsannmg der Sprache in Abhängigkeil \on der .\<i/ahl der eingefügten inter- ,u polierten Signale. Fine Beeinlliissung der Tonhöhe wird erziel¹, indem die Phasenableitsignale mit einem gewählten Faktor mullipli/icri weiden. Die Sprachsynthese wird vervollständigt durch eine l'niwandlung tier modili/icrlcn Signale aus dem digitalen v. Format in analoges Formal und durch Decodieren der Signale entsprechend bekannten Phasenvocoder-Verfahren.

In ilen Zeichnungen /eigl

F i g. 1 das Blockschaltbild eines erliniltingsgeniält i.n gestalteten Spraclisy nlhcsesyslems.

F i g. 2 das Kiiiy/eil-Amplitudenspektrum des /-ten Speklrumsignals Lv, i am Ausgang des Speichers 30 in I- i g. I.

Fig. 3 das ge* ami e Sprachspeklruni /u einem ι-·, beslinimlen Zeitpunkt und den Finlluß von Tonhöhcnändenmgen auf lic Speklralampliluden des F i g. -t ein Blockschaltbild der Interpolariorschaltung nach Fig. I,

F i g. 5 ein Ausführungsbeispiel der Steuerschaltung 40 in Fig. I.

Fig. 1 zeigt ein Blockschallbild eines Sprachsynlhesesyslems, bei dem gesprochene Wörter /u Phasenvocoder-Sieuersignalen codiert und hei dem eine Sprachsynthese erreicht wird, in dem geeignete Beschreihungssignale aus dem Speicher gelesen, die Beschreibungssignaie verknüpft und modifiziert und die modifizierten Signale zu synthetisierten Sprachsignalen decodiert und kombiniert werden.

Im einzelnen wird das Vokabular von Wörtern, das für eine betrachtete Sprachsynthese für erforderlich erachtet wird, einem Phasenvocoder-Aiialysator 10 in Fig. I zur Codierung zugeführt. Der Analysator 10 codiert die Wörter zu einer Vielzahl von Signalpaarcn \S, j. '/>,; S₂. 'i>₂: . . . JS₁ \. '/>,.. . \S_S |. '/'.%·. die einen I.V(-Vektor und einen '/'-Vektor darstellen, wobei jeder Wert |.V, S. Φ, das Kurz 'eil-Amplitudenspektrum bzw. this K ur//eil-Pha»_nahleitspeklnim des Sprachsignals bei einer Spektralfrequen/ »-., darstellen. Die Analvsierfrequen/ ··,, sind in Abhängigkeit von den Aiislegimgsbedingungen mit gleichmäßigem oder ungleichmäßigem Abstand über das interessierende Frequenzband verteilt. Die zur tiberiragimgderSignale |.V, [und '/',erforderliche Bandbreite isi klein im Vergleich zur Sprachbandbreite. Der Phasenvocoder-Aiialysator IO läßt r.ich entsprechend der Beschreibung in der oben erwähnten I S-Patentschrift 33 WKiK) verwirklichen.

Nach der Codierung durch den Analysator 10 werden die Analogvektoren \S \ und Φ abgelastet und im Analog-Digitalwandler 20 in digitales Formal umgewandelt. Der Wandler 20 kann entsprechend tier Beschreibung in dem oben genannten Aufsatz von Carlson aufgebaut werden, tier IdO Bits mit einer Ahiasifrequenz von (SO M/ erzeugt und damit /u einer (jesamt-Bitfrequen/ von ')600 Bits s iührl. Die umgewandelten Signale weiden im Speicher 30 gespeichert und stehen dann für die Synthese /ur Verfugung. Jedes vom Analysator 10 verarbeitete Wort wird mit einer Frequenz von fi() II/ abgelastei. und da die Dauer jedes Wortes länger als !Ci ins ist. wird jedes verarbeitete Wort durch eini· Vielzahl von LS' '-Vektoren und zugeordnete '/'-Vektoren dargestellt. Diese Vektoren können in den Speicher 30 sequentiell in einen zugeordneten Speicherhlock eingegeben werden. Innerhalb ties Speichelblocks wird jede·- Paar von Vektoren i.S'! und </> in einer Speicherzelle gespeichert, und jede Spcicherslelle ist so unterteilt, daß sie die Komponenten LS'_: und '/>, leiles Vektor· enthält.

Zur Sprachsynthese wird eine Kelle von Befehlen formuliert und über die Leitung 41 der Steuereinrichtung 40 in F" i g. I zugeführt. Die Bcfehlskelle gibt tier Anlage die Folge von Wörtern an. die aus dem Speicher 30 gewählt und /ur Bildung eines Sprachsignals verknüpft werden sollen. Demgemäß erfolgt ein sequentieller Zugril'fzu gewählten Speicherblöeken tiikl innerhalb jedes Speieherblocks geht der Zugriff /Ii allen Speicherstellen sequentiell vor sich. Jede Speicherslelle liefert am Ausgang ties Speichers 30 ein Veklorpaar |.S'i und Φ . Die Sleuereiiii ichlung 40 decodierl die Fünga igsbefchlsfolge unler F.rzeugung von Ailressen Pur ilen Speicher 30 und gibl diese Adressen und einsprechende Lesebefehle an ilen Speicher. Außerdeir, analvsier! die Sieuereinrichluiti;

40 auf der (irundlagc ilcr angegebenen I -olge \ou Wörtern die Slniklur der Woi lkelle und ordnet leder /iiiiL-iitiffcncn Spcicherslcllc Dauer- unil lonhölienwcrlc K,, (intern in der Steuereinrichtung 40i h/\\. K₁. zu. um eine natürlich klingende Sprache /u erzeugen, deren I oiiliöhc und -dauer abhängig \on der Sirukliir der Woilkcttc ist. I.ine genaue Beschreibung der Sicuereim iclilting 40 wird im folgenden gegeben.

/eildaiier-Slcucrung

I ine Zeitdauer-Steuerung lälll sich durch einen wiederholten Zugriff zu leder gewählten Speichcrslelle mit einer festen lichen I akllrei|iienz und durch eine Sleuening der Anzahl solcher wiederholter ZiignhV \oigiinge erreichen. Auf iliese Weise kann die Sprachdaucr wirksam erhöhl werden, indem die \n/ahl der ZiigrilTs\organge Ru teile Speicherslelle \crgröHcH wird. Wenn beispielsweise die I ingangsspraclic. wie oiien erwäiini. niii einei i leipieu/ \ou öOiiz abgetastet wird, kann der Zugriff zum Speicher /wcckmällig mit einer I icquen/ imid k 11/ Iw as der N \i|uisilrei|uen/ des synthetisierten Signals entsprechen kannl erfolgen, und die Regelzahl um Zugrilfsxorgängen über teile Speicheradresse kann aiii M)O leslgelegt werden. Diese Arbeitsweise führt zu einer getreuen Reproduktion der Sprachiiaiier des an den Eingang an der Anlage angelegten Signals. Is ergibt sich selbstverständlich, dall ein wiederholter Zugrifl zu jeder Speicherslelle mehr als lOOmal eine Verlangsamiing der synthetisierten Sprache oiler eine Dehnung des ZeitniaHslahes bewirkt. Weniger als KMI ZugriffsMirgänge führen /ti einer Beschleunigung der synthetisierten Sprache oder einem Zusammendrücken des Zeitmallstahes. Die genaue Anzahl \on ZugriffsMirgangen zu jeder Speicheradresse langegeben durch das Signal auf der Leitung 421 wird durch die Steuereinrichtung 40 mit Hilfe wiederholter Lesebefehle auf der Leitung 43 angegeben. Das ohenerläuterte Verfahren zur Becinllussung der Spraclidauer ist in L i g. 2 angegeben, in der die Amplitude einer bestimmten Komponente 'S₁ bezüglich ihrer zeitabhängigen Änderung gezeigt ist. Die .Angabe LS stellt den Vektor S am .Ausgang des Speichers 30 dar. In Ii g. 2 gibt das !-.lernen! 201 den Wer! \on i.S", zu einem bestimmten Zeitpunkt an. wie er am Ausgang des Speichers 30 beim Zugriff zu einer bestimmten Speieherstelle r auftritt. Das Llement 201 entspricht dem ersten Zugriff zu der r-tcn Speicherstelle. Das Llement 202 gibt ebenfalls den Wert \on '.V₁ an der Speicherstelle r wieder, wobei es sich Irir aber um den dritten Zugriff zur Speicherstelle r handelt. Das Llement 206 entspricht dem Wert von \S, lan der nächsten Speicherstelle r + I. und zwar beim ersten Zugriff zu dieser Speicherstelle. Wenn beispielsweise die Speicherslelle V + I die letzte Speicherstelle eines Speicherblocks ist. dann gibt das Element 203 den Wert von \S, j beim ersten Zugriff zu einer ersten Spcichcrstelle u eines neuen Spcichcrblocks (Anfang eines neuen Wortes) an. Die .Speicherstellen r und u können natürlich wesentlich verschieden sein. Das Element 205 entspricht ebenfalls dem Wert von \S-, | an der Speicherstelle ;/ bei einem nachfolgenden Zugriff und das Element 204 entspricht dem Ictzlen Zugriff z.ur Speicherstelle u. Die Anzahl der Zugriffsvorgänge bei einer Speicherstelle wird bestimmt durch das Zeitdauer-Steuersignal Kj (innerhalb der Steuereinrichtung 40 vergleiche L" ig. ?). das über das Signal K₁. einen Spektralamplituden-Interpolator 90 in I ι g. I stellen. In L ig. ' lsi nur du- /-te Komponente des Vektors S am Aus gang des Speiehers 30 dargestellt, \ndeic Κοιυρο nenlen dieses Vektors \n\{\ die Komponenten de Vektors '/' haben natürlich unterschiedliche Werte aber die ( Iren/stellen auf ( iruiid von Änderungen de Speicherstelle innerhalb eines Speicherhlocks (bei spielsweise das Zeileleinent 2061 oder auf ( inind voi Andeningen der Speicherslelle \on einem Speicher block /Ii einem anderen (beispielswei Zeilpunk des Elements 205) treten zum gleichen / itpiiukl aiii Das lallt sich leicht erkennen, wenn r, einem drei ilimensionalen Raum, der aiii übliche Weise tlurcl \-. Γ- und r-Kooi dinaten deliniert Ist. der Vektor .S nut allen seinen Komponenten betrachte! wird .ledi zeitliche Anileriing einer Komponente lälll sieh Ii einer durch die Koordinaten ν und ι delinierlei I bene zeichnen, wobei die \- \chse die Zeil angib iwie in i ι g 2 gezeigt ι m\t.\ für jeden gewählten Wer der v- \chse kann die durch die koordinaten ν iiiitl definierte Ebene die verschiedenen Komponentei des Vektors .S sowie die allgemeine form des Spek hums !entsprechend der noch zu erläuternden Dar stellung in I i g. 3l in dem jeweiligen Aiigenhliel angeben. Bei einer solchen dreidimensionalen Dar stellung sind die plötzlichen Änderungen des Vektor S (die /u einem bestimmten Zeitpunkt auftreten alle in . aier ein/igen r-r-E.hetie enthalten.

i onhöhen-Sleiierung

In einem Aufsatz »I'ha.e Vocoder·· \oi J. I. I lanagan et al. in »Bell Svslem lechnica Journal". Band 45. Nr. ¹J. Seite I4'J3. November I¹JM ist gezeigt, dall der '/'-Vektor in enger Beziehung ziu Tonhöhe eines analysierten Sprachsignals steht, wein die Analvsier-Bandbreile des l'haseiivocoders schina im Vergleich zur gesamten Sprachhandbreite ist Im Hinblick darauf wird eine Änderung der Ton höht, durch Bildung und Modifizieren eines Vektorsignal· (··. · <!') erreicht, das die L.lemenle l·-., · '/',). (<·. • '/«_:|.. . . ir·., ' '/',I . . |.-._s ' 'Kl enthält. Die Modifizierung kann aus einer Multiplikation des Vektor I··. < '/Ί mit einem Tonliöhciivariationsparameler Av' bestehen. Wenn also K₁. gröl.ler als I ist. so wird du Tonhöhe der synthetisierten Sprache erhöht, und wem /\,, kleiner als I ist. so wird die Tonhöhe tier synthetisierten Sprache erniedrigt.

Die Tonhölienänderung wird in der Einrichtung 6f in L i g. I vorgenommen. Die Einrichtung 60 weist eine Addierschalüing 61-/ fur jeden Wert '/', auf. um ein entsprechendes /.,-Signal zu jedem '/',-Signal zu addieren, und eine Multiplizierschaltung 62-/ für jeden Wert '/',. um das Ausgangssignal jedes Addieren mit dem Tonhöhcn-Variationsstcuersignal K₁, zi multiplizieren. Das Signal K_n liegt an der Leitung M und wird den Miiltiplizierern 62 über einen Schalter & zugeführt. Die digitalen Addierer 61 und die digi talen Multiplizierer 62 sind einfache Digilalschaltun gen bekannter Art.

Bei einem Alternativ-Verfahren zur Tonhöhen Steuerung nach der Erfindung kann der von dci Steuereinrichtung 40 in F i g. I gelieferte K_r-Fakloi die tatsächliche, zu synthetisierende Tonhöhe slat der Tonhöhenänderung angeben. In diesem FaI muß die Tonhöhe des aus dem Speicher 30 abgeleite ten synthetisierten Sprachsignals festgestellt und cir interner Tonhöhen-Multiplikationsfaktor errechne werden. Demgemäß weist die Einrichtung 60 zu

sälzlich einen aiii den Vektor l· > · '/-I ansprechenden Tonhöheudclekloi 63 aiii, del die tatsächliche Tonhöhe errechnet, die den aus dem Speicher 3(1 abgeleiteten SiunaK'ii zugeordnet werden kann. Ί'οη-höhendelektoien sind hekannl. I in \usfiilu iingshcispicl isl im der I S-I'alentsclii ill 2ί> 27 54 I beschrieben. Die I endschaltung 67 in der 1 ι nnch Iu ng 60 berei¹ .''.«.·( den internen Mulliplikalionsläklor. in dem die gewünschte I onhölic K₁, durch das berechnele Ionhöliensignal dividiert wird. Der berechnete Vttiltiplikaliiinsrakliir wird über einen an die I ellung 66 angeschalteten ScliaMei 64 .in die Miillipli/ierer 62 gegeben. Der Teiler 67 ist ein einfacher Digital-1eiler, der beispielsweise einen auf das Aiisgangssignal des I iinhöhenilelekliM s 63 ansprecheiuleii Festwertspeicher (UOMl aufweist, der ilen Kehrwert des Tonhöheiisignals liefei I. <>w ie einen Mullipli/ierer ähnlich ileni Miiltipli/ierer 62 um das Ausgangssignal des ! lsi\\ci isj'tOk lic! s iifii liciu gcu iiiiscuieu iouuöhcusignal K₁, zu mtillipli/iereu und da mi I ilen gewünschten Miilliplikationsfaktor /u erzeugen.

Das Ausgangssigual der P.inriehtung 60 ist ein Signalvektoi (»-. > <!>)*. der ein bezüglich der Zeildaiier und Tonhöhe im>diIi/ierles Abbild eiues (,·, f '/>)-Signalvektois ist diine Zeiulauer-Modilizicrung liegl vor. weil beide Vektoren .S" und '/' am Ausgang des Speichers 30 hinsichtlich der Dauer modifiziert sind.) Diesei Vektor wird zusammen mit einem interpolierten und bezüglich der Zeitdauer modifizierten Vektor i.S'l*. der nachfolgend beschrieben wird, an einen Digit; :Analogvvaiuller 70 gegeben, der jedes der Digilal-Signalc in den beiden Signalvekloren in analoge I (um umwandelt. Die Analogsignale werden dann an einen I'hasenvocodcr-Svnlhetisierei 80 angelegt, um ein Signal /u erzeugen, das die gewünschte synthetisierte Sprache darstellt. Der I'hasenvoeoder-Svnthetisierer SO kann im wesentlichen auf die gleiche Weise wie in der oben angegebenen I 'S-I'alciitsclirifl "U 60 610 beschrieben, aufgebaut werden.

Interpolation der Form des Spektrums

I i g. 3 zeigt die Amplituden der Komponenten des Vektors j.S" i zu einem bestmimten Zeitpunkt. Das Element KMI entspricht dem Signal '.S',!. das Nemenl 101 dem Signal i.V. i. das Nemenl 103 dem Signal |.S", |. das lilemenl 104 dein Signal V,., usw. Das I lenient 106 kann beispielsweise das Signal LS\ angeben. Die I requenzen. mit denen diese Signale auftreten, sind

ti und

Hetrachlcl in dem oben beschriebenen dreidimensionalen Kaum wäre die Darstelluni! des Vektors I.V gcmän !ig. 3 dei zweiciimensionaie Querschnitt ties dreidimensionalen Raums parallel zu der durch die Achsen \ und ζ definierten libelle.

Wenn der Vektor !-■> \ Ί>\ in iler Iiinrichlung 60 zur Uildung des Signalvektors Ι-·, ί '/-)* abgeändert wird. so wird die I-rec|uenz jedes (iliedes des Signalvektors i.S'l gleichmäßig verschoben, wie in l· i g. 3 beispielsweise durch die verschobenen (Elemente 107 und 108 dargestellt. I ig 3 zeigt, daß. wenn das Nemenl 108 so beeinfhiHt wird, dal! es (wie dargestellt) der Iliillkurve 109 in F-" i g. 3 entspricht, die Amplitude des Nenients 103. aus dem das Iilemenl 108 abgeleitet ist. verändert werden muß. Demgemäß muß (.lic Amplitude des Eilements 103 mil einer Konstanten multipliziert werden, die aus dem Verhältnis der Amplituden der lilemente 104 und 103 abgeleitet wird, ils läßt sich zeigen, daß diese Konstante K_x wie folgt berechnet werden kann:

Außerdem besieh! auf (iruiul einer Prüfung der 1 i g. 2 die Möglichkeit, daß die stufenförmige seitliche llüllkurve 210 des svntheiisicrten Spektrums geglättet werden kann. Intuitiv erkennt man. daß eine solche (Haltung der llüllkurve des Spektrums zu einer angenehmer und natürlicher klingenden Sprache führt. Diese (ilältung der llüllkurve läßt sieh durch »Anpassen" einer Polviioin-Kurvc für jede "in Komponente \S,\ über die Anfangswerte IS/1 durchfuhren, wenn ein Zugriff zu einer neuen Speicheradresse erfolgt, beispielsweise eine Kurvenanpassung über die Elemente 201. 206 und 203 und durch Änderung der wiederholten Signale |S,! derart, daß sie in diese Kurve passen. Hierbei handelt es sich jedoch um eine komplizierte mathematische Aufgabe, die die Unterstützung eines Sonderzweck- oder Allzweckrcchners erfordert. Aus Gründen einer klareren Darstellung wird das einfachere geradlinige Interpolations- bO verfahren beschrieben. Diese Interpolationskurve wird durch die Kurve 220 in F i g. 2 wiedergegeben. Demgemäß kann der Vektor \S\. dessen T^requenzkomponenten in einer Ebene und dessen Zeitänderungen in einer zweiten Ebene gesehen werden können, so interpoiien werden, daß er gleichzeitig auf Änderungen sowohl der Zeit als auch der Frequenz (Tonhöhe) anspricht.

Demgemäß wird, wenn das Element 203 mit .ST'¹ bezeichnet wird und das Signal \S,-j zum Zeitpunkt »ι, definiert, das Element 204 mil ST- und das Element 205 mit ST^X bezeichnet. F⁷.s läßt sich zeigen, daß die interpolierte Amplitude des Elements 205. das an die Kurve 220 angepaßt ist. wie folgl berechnet werden kann:

Sm-, c^t

i - — *J|

Hl₂ — »1,

+ ST

Nach Berücksichtigung des Faktors K_x gemäß Gleichung (1) läßt sich die endgültige Amplitude des Elements 205 wie folgt ermitteln

[ST² - ST^]

m₂ - m,

Durch Auswerten der Gleichung (3) kann also jedes Element |S, | am Ausgang des Speichers 30 und zu einem bestimmten Zeitpunkt so abgeändert werden, daß es Änderungen der Tonhöhe und der Zeitdauer berücksichtigt, um ein Spektrum zu erzeugen, das zu einer natürlich klingenden Sprache führt.

Mim heuchle, daß die Hinrichtung 40 /iir Steuerung der /eildaiier in F-" i ti. I eine Anzahl von Steuersignalen erzeugt, von denen eines dem Signal
m, /»,

/lli - »I,

entspricht. Dieses Signal ist mit K₁ bezeichnet.

I'm die oben beschriebene (ilältiing der lliillkimc des synthetisierten Spektrums hinsichtlich /eil und frequenz zu erzielen, weist die Schaltungsanordnung gemäß I i g. 1 einen Spektrum-Aniplituileninterpoiator 90 auf, der zwischen dem Speicher 30 und dem Digiial-Analogwandler 70 eingefügt ist. Der Interpolator 90 kann einfach aus einer KurzschlulUeibiiulung /wischen jedem Hingang LS, i und ilem entsprechenden interpolierten Ausgang !.V₁I*. Dies entspricht einer einfachen konstanten Interpolation in vier /eitebene. die zu einer liüllkurve entsprechend der Kurve ZiO in F i g. 2 führt, wobei keinerlei interpolation in der Frequenzebene stattfindet. Andererseils kann tier Interpolator 90 eine Vielzahl von lnterpolalorschaltimgen 91 umfassen, die in Form hochkomplizierter Sonderzweck- oiler Allzweckrechner verwirklicht sind und eine komplizierte Kurvciianpassimg ermöglichen. I' i g. 4 zeigt ein Ausführungsbeispiel einer liiterpolalorschalluiig 91 für das Verfahren der gradlinigen Interpolation gemäß Gleichung I. M.

Die Interpolatorsclialtung 91 in Fig. 4 ist die /-te Interpoliirschalluiig in tier Hinrichtung 90. Sie spricht auf/wei Spektrum-Signale beim ersten Speicherzugriff an der augenblicklichen Speicheradresse, nämlich die Signale S'',"' und !.V₁ ¹¹J₁ |an sowieaufilasSpektruiri-Signal .S'',"- ! tier nächsten Speicheradresse und die uineiänilerten und veränderten i-ten Frei|iienzen (<■>, f <1>,) bzw. IfI₁- t '?',)* sowie die unveränderte I/ ' I)-Ie Frequenz Ic₁ ., f')',.,). Wenn also ein Zugriff zu einer neuen Adresse des Speichers 30 erfolgt und die Signale I.S'"'¹ i und |.S"'r, ! gewonnen werden, adressiert die Steuereinrichtung 40 außerdem die nächste Speicherstelle und liefert einen Gatterinipulslauf der Leitung 2V|. um das nächste Signal .S'"'-in (.las Register 910 in F i g. 4 zu leiten. Demgemäß spricht die Subtrahierschaltung 911 auf das Simial ¹S]": !aus dem Register 910 und auf das Signal LS'"'¹ lauf der Leitung 23 an. Das dazwisehengelegene Signal, tlas durch die Gleichung (2) definiert ist. wird durch den Multiplizierer 912 berechnet, der auf die Subtrahierschaltung 911 und den obenerwähnten Faktor K, auf der Leitung 22 anspricht, sowie durch den Summierer 913. der auf das Ausgangssignal des Multiplizierers 912 und auf das Signal | .ST"' | auf der Leitung 23 anspricht. Der Multiplikationsfaktor K_x wird durch die Bauteile 914. 915. 916. 917. 918. 919 und 920 berechnet. Der Teiler 914 spricht auf die Signale 'ST' ! und JS;"J, ! an und erzeugt das Signal

gemäß Gleichung (1). Die Subtrahierschaltungen 915. 916, 917 erzeugen die Signale

Der Mulliplizicer 918. der auf die Schaltungen 914 und 915 anspricht, erzeugt tlas l'roiluklsignal

r '

Der Summierer 919 wird von den Schaltungen 916. 918 beaufschlagt, und tier feiler 920 teilt tlas Ausgangssignal iles Summierers 919 durch das Ausgangssignal tier Siibliahieischallung 919 und erzeugt ein Signal, tlas tue Konstante K ₍ entsprechend Gleichung III darstellt. Der Multiplizierer 921. tier von dem Summierer 913 und dem feiler 920 beaufschlagt wird, erzeugt das interpolierte Signal '.S, *.

Steuereinrichtung 40

F i g. 5 zeigt lias Blockschaltbild der Sleucreini iciiiimg 4ϊϊ gem.ill ί ig. i. i)iu NiLuCiLinikniiiMg 40 spricht auf eine Ketle von Befehlswörtern auf tier Leitung 41 an. die die zu synthetisierende Nachricht angibt. Die ankommende Belchlskelle wird im Speicher 401 aufgenommen und danach an einen Festwertspeicher IR OM)402 gegeben in welchem die Kette \on Befehlen in die richtige Adressenfolgc für den Speicher 30 in Fig. I decodiert wird. Die Decodierung im Festwertspeicher erfolgt entsprechend der gespeicheilen Kenntnis der Speicherstellen für bestimmte Wörter im Speicher 30. Die gewünschte Wortfolge, die durch die Befehlskette am Hingang bestimmt wird, kann analysiert werden, um die erwünschte 'fonhöhe und -dauer zu bestimmen, initl zwar auf tier Grundlage von Regeln bezüglich der Wortstellung, der S\nta\ und anderer, von tier Nachricht abhängigen Regeln. Nur zur Hrläuleruiig enthält die Schaltungsanordnung gemäß Fig. 5 Hinrichtungen zur \nal\sc und Formulierung tier gewünschten lonliöhe und Wortdauer für die svnihelisierte Sprache auf tier Grundlage tier Svnta\ dieser Sprache. DieAnalvsiereinrichlung. nämlich die Steuerschaltung 403 für die Tonhöhe und die -dan r spricht gemäß Fig. 5 auf den Festwertspeicher 402 und ein Fortschaltesigna! auf tier Leitung 414 an. Fine Hinrichtung zur Analvse der Sprache auf der Grundlage der Svnla\ und zur Zuordnung von fonhöhe- und Zeitdauerwerten ist in der I'S-Patentschrift 37 04 345 offenbart. In tier genannten Patentschrift ist ein 'fonhöhen- und Intensilätsgenerator. ein Vokalilaucr-Generalor und ein Konsonanleiulaucr-Generaior gezeigt, die alle im Prinzip von einem SvnlavAnalvsator abhängen.

Die Generatoren erzeugen Signale, welche die gewünschte Tonhöhe. Intensität und Dauer beschreiben, die den in jeder zu lesenden Speicheradresse angegebenen Lauten zugeordnet sind. Es kann an Stelle eines Laut-Wörterbuches nach der vorgenannten US-Patentschrift 37 04 345 ein Wort-Wörterbuch benutzt werden, und die Vokal- oder Konsonanten-Generatoren nach der vorgenannten Patentschrift können zu einem einheitlichen Tonhöhen- und Dauer-Generator kombiniert werden. Demgemäß ist in F i g. 5 eine Steuerschaltung 403 für die Tonhöhe und -dauer angegeben der Ausgangssignal ein Speicheradressenfeld, ein Tonhöhensteuerfeld K₁, und ein Zeitiiuer-Steuerfeld Kj enthält. Das Ausgangssignal der Steuerschaltung 403 wird im Register 406 gespeichert. Dessen Ausgangssignal gelangt in ein Register 407. Wenn demgemäß das Realster 407 eine bestimmte

Il

Speicheradresse enthält, sagt man. dall das Register 40ft die näehsle Speicheradresse enthält. Heide Register sind an eine Wählerschaltung 408 angeschlossen, die ilii: Aiisgangssignale einer tier beiden Register wählt und an den Wähleratisgang weitergibt. ,

Die An/iihl der Befehle zum lesen jeder Speichcrslelle wird durch hingäbe des Wertes K₁, am Ausgang des Wühlers 408 auf der I eilung 409 in einen Riickwärtszähler 405 gesteuert. Der Ciriindlakl /, fiir ilen Speieher/ngriff. der in der Schaltung 412 erzeugt in wird, liefert Impulse, die den Zähler 405 rückwärts laufen lassen, während der Speicher über das ODhR-(iatler4l3 und die leitung 43 gelesen wird. Wenn der Zähler 105 Null erreicht, er/eugl er einen Tortschalteimpuls auf der leitung 414. Dieser Impuls ι, schallet die Steuerschaltung 403 auf den nächsten Speicher/usland weiter, bewirkt, dall das Register 406 den nächslen Speicher/ustand speichert und liil.lt cias Regisier 4Ö7 den neuen Zustand aufnehmen, (ileich/eilig liefert der Wähler 408 unter Steuerung n des Torlschaiieimpiilses auf ilen I.eilungen 44 und 42 den Inhalt des Registers 406 und der Impulsgenerator 410 liefert unter Ansprechen auf den lOrtschallcimpuls einen weiteren Lesebefehl für den Speicher 30 über das ()DLR-(ialter 413 Der Ausgangsimpuls .·, iles Generators 410 wird aiil.lcrdcm beniil/l. um über die (iatterleiliinj! 41 das Aiisgangssi»nal des Speichers 30 in das Regisier 910 der I inrichlimg 91 /ti führen, wodurch im Register 90 die .'ben beschriebenen Signale .S',"- gespeichert werden. Wenn das I-Ort- ;.> schaltesignal auf der Leitung 414 \erschwiiulet. schallet der Wähler 408 das Aiisgangssignal des Registeis 407 /um Wählerausgang durch und heim nächsten Impuls \om Taktgeber 412 wird ein neuer Werl K₁, in den Zähler 405 gegeben.

Der Sland des Zählers 405 wird /u jedem Zeilpiink I durch das Signal auf del I ellung 415 angegeben.

Dieses Signal stellt den Wert m, -m, dar. Die Konstante K,,, die als Eingangssignal für den Zähler 405auftritt (Leitung 409), stellt den Werl m,-in, dar. IXmgcmäl.l wiril die Konstante K. durch den Teiler 411 berechnet, die das Signal auf der I.eilung ·Ι5 durch das Signal auf der Leitung 409 teilt.

Unter gewissen Umständen isi eine praktische Verwirklichung der Lrlindung unter Verwendung eines Rechnerprogramms möglich und kann in gewissen Punkten vorteilhaft sein. Wenn beispielsweise ein Henut/er es für zweckmäßig hält, ein Verfahren mit einer sehr komplizierten Spektrum-Interpolation /ii verwenden, kann es einfacher sein, für den Interpolator 90 in L i g. I eine Ausführung mit einem Rechner slall einer speziell ausgebildeten Schaltungsanordnung zu verwenden. Wenn jedoch ein Rechner in der Anlage benutzt wird, können zusätzliche Merkmale vom Rechner verwirklieht werden, wodurch der I 'mlaiig der erforderlichen Schaitungsanoriinungen kleiner wird. Beispielsweise sind die arithmetischen Operationen, die in der Einrichtung zur Tonhöhenanzeige und zur Tonhöhenänderung benutzt werden, -,ehr einfach, und Rechnelprogramme, die zur Verwirklichung der Tonhöhensleuerung benut/l werden, sind einfach und dem l'achmann bekannt. Auf einsprechende Weise kann der Speicher 30 in den Rechner übernommen werden. (iieichesgill für den Phasen- \ocoder-Anal\salor und den grollten Teil des Phasen- \ocoder-S\nlhetisierers. Talsächlich wiril entsprechend dem eingangs erwähnten Aufsatz von Ca r I-s ο η ein Rechner zur Verwirklichung des Phasenvocoder-Analysierers und -synthetisierers benutzt. Ts wird dazu auch auf die Rechner-Simulation eines Phasenvocoders Bezug genommen, die in dem oben beschriebenen Aufsatz »Phase Vocoder» auf Seile I4')6 beschrieben ist.

Hierzu 3 IiI.ill Ze luinuen

Claims

Patentansprüche:

I. Verfahren /um Synthetisieren einer natürlich klingenden Sprachnachrichl aus gespeicherten, ein Vokabular von Wörtern darstellenden elekirischen Signalen mit den Verrahrcnsschritten: Gewinnen und Verknüpfen gewühlter Teile der Signale, Ahändern der verknüpften Signale hinsichtlich ihrer Zeitdauer und bezüglich der Tonhöhe und Umwandeln der abgeänderten Signale in hörbare Sprache, gekennzeichnet durch die Verfahrensschrilte Speichern von Signalen, welche die Kurzzeit-Fourier-Transformationsparameter und Phasenableilparameter sind, die sich aus einer Phasenvocoder-Codierung des Vokabuiars von Wörtern ergeben, Gewinnen aus den gespeicherten Signalen von zeitdauerveränderten Signalen, welche die Sprachnachricht darstellen. Verändern der Phasenableitparametcr der verknüpften .S'anale zur Beeinflussung der Tonhöhe der hörh.irvn Sprache.
2. Verfahren nach Anspruch !,dadurch gekennzeichnet, daß die Signale /ur Beeinflussung der Dauer der Sprache mehrfach gewonnen werden.
3. Verfahren nach Anspruch I oder 2. gekennzeichnet durch Interpolieren der Kurzzeil-Foiiricr-Transformationsparamclcr entsprechend vorgegebenen Regeln unter Ansprechen auf zugefiihrte Zeitdauer-Steuersignale und die veränderten Phasenableilparameter, um eine glatte Spektrum-Hiillkurvc /v erreichen.
4. Elektrische Schaltungsanordnung /um Synthetisieren einer nuüirlich Klingenden Sprachnachricht entsprechend ctem Verfahren nach Anspruch I mit einem Speicher, er ein Vokabular von Wörtern darstellende Signale speichert, einer Gewinn- und Vcrknüpfungseinrichtung für gewählte Teile der Signale, einer Abänderungseinrichtimg für die verknüpften Signale hinsichtlich ihrer Zeitdauer und bezüglich der Tonhöhe und einer Umwandltingscinrichtung, die die abgeänderten Signale in hörbare Sprache umwandeil, dadurch gekennzeichnet, daß eine Signalspeicheriiiul Ziigriffscinrichtung (30) vorhanden ist. die Signale (,SV',) für die Kurz/eii-Fourier-Transformalionsparameter und Phascnablcitparameter /11 speichern, die sich aus einer Phascnvocoder-C'odierimg des Vokabulars von Wörtern ergeben, daß eine Steuerschaltung (40) vorhanden isl. die einen Interpolator (90) veranlaßt. Signale /u gewinnen und die Dauer der gewählten Signale /11 ändern, und daß eine Tonhöhenveründcrungseinrichtung (60) vorhanden ist. die die gewonnenen Signale durch Ändern der Phasenableitparameler abwandelt, um die Tonhöhe tier Sprache /11 becinllussen.
5. Schaltungsanordnung nach Anspruch 4. dadurch gekennzeichnet, daß die Steuerschaltung (40) Schaltungen (403 412) enthält, um ein gewühltes Signal mehrere Male /11 gewinnen.
(1. Schaltungsanordnung nach Anspruch 4 oder 5. dadurch gekennzeichnet, daß die TonliöliciiäiHlerungseinrichliing (60) Aililicrschaltiingen (611 aufweist, die zu jedem Phasenableitsignal ein geeignet zugeordnetes Trei|uen/signalf<0addieren. und Mullipli/ierschallungen (62). die jedes der addierten Signale mit einem zugeführlen I iMihöhen-Sleuersiunal [K..) multiplizieren.
7. Schaltungsanordnung nach Anspruch fi, dadurch gekennzeichnet, daß Touhöhen-Mulliplikalionsschaltungen (63, 67) vorhanden sind, die unter Ansprechen auf ein zugcführtes Tonhöhen-Steuersignal [K₁,) und auf die Multiplizierschaltungen (62) einen Miiltiplikalii.nsfaktor zur Tonhöhenveränderung errechnen, und daß Multiplizierer (62) vorhanden sind, um jedes der addierten Signale mit dem MulliplikationsfaJaor zu multiplizieren.
8. Schaltungsanordnung nach einem der Ansprüche 4 bis 7, dadurch gekennzeichnet, daß der Interpolator (90) sekundäre Inierpolatoren (91) zur Abänderung jeder Komponente der Kurzzeil-Fourier-Transformalionsparameter aufweist, um den Tonhöhen- und Zeitdaueränderungcn in benachbarten Komponenten der Kurzzeit-Fourier-Transformationsparameler Rechnung zu 'ragen.