DE3006339A1

DE3006339A1 - Verfahren und einrichtung zur sprachsynthese

Info

Publication number: DE3006339A1
Application number: DE19803006339
Authority: DE
Inventors: Tetsuo Iwase; Segeaki Masuzawa; Hiroshi Miyazaki; Shinya Shibata
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1979-02-20
Filing date: 1980-02-20
Publication date: 1980-08-21
Also published as: DE3006339C2; US4716591A; JPS55111995A

Description

TER MEER - MÜLLER . STEINMEISTE"? Sharp 1^19

BESCHREIBUNG

Die Erfindung liegt auf dem technischen Gebiet der Sprachsynthese und betrifft insbesundrirc ein V/erfahren und eine Einrichtung zur Sythese der Sprache oder anderer komplizierter UJellenfarmen durch Anwendung einer erst in jüngster Zeit bekannt gewordenen Digitaltechnik.

Bekanntlich muß ein Sprachsynthesizer, wenn er verständlich sein soll, unbedingt in der Lage sein, die passenden Formantfrequenzen der ujiederzugegebenen Phoneme zu erzeugen. Bei Sprachsynthesizern neuerer Bauart werden die Formantfrequenzen

1ü auf folgende Weise erzeugt: Abhängig von dem interessierenden Phonem werden entweder stimmhafte oder stimmlose Laute elektronisch erzeugt. Diese Erzeugung von Lauten ist durch ein Leistungsspektrum gekennzeichnet, das eine niedrige untere Grenzfrequenz der Tonhöhenfrequenz aufweist; über der Tonhöhenfrequenz sinkt die Leistung mit steigender Frequenz. Stimmlose Laute haben ein relativ breitbandiges weißes Rauschspektrum. Der eine oder andere dieser hJellenzüge passiert eine Serie von Filtern oder andere elektronische Schaltungen, so daß nur bestimmte interessierende Frequenzen verstärkt

v(j iiiu γιΙγμί . illiur niniMi I au l.:;p n-clif· ι- i.iinl linn vnnulticrendR

Leistungsspektrum der Sprachnhoneme hörbar wiedergegeben. Derartige Geräte "werden alluemein i/ocoder genannt, und die als LPC (L_inear Prediction Coding) und PAKCÜH (P_artial Auto-Correlation) bezeichneten bekannten Codierverfahren werden üblicherweise in solchen Vocodern angewendet.

In solchen Geräten wird die zur Erzeugung einer Folge oder Kette von Phonemen zur Wiedergabe von Sprache erforderliche Formantfrequenzinformation allgemein in einer kompletten Rechnereinheit gespeichert,' die aucli die Lautstärke, Dauer,

030034/0820

BAD ORIGINAL

^{TER MEER} '. ^M_^U^^ER:.^STEINMEISTE"! Sharp 1419

die stimmhaften und stimmlasen Nuancen u.dgl. bestimmt. Somit können vorhandene Vocoder zwar eine Vielzahl von Worten erzeugen, benötigen aber jeweils einen kompletten Rechner und können folglich nicht miniaturisiert werden.

Lj In jüngster Zeit ist ein Sprachsynthesizer nach einem neuen Konzept und ohne Anwendung von Vocoder-Techniken vorgestellt morden, um die bekannten Probleme zu umgehen. Darin sind eine neu entwickelte und eine bekannte Kompressionstechnik kombiniert worden, um die Information erkennbar zu IU komprimieren und dabei möglichst wenig Sprachverständlichkeit zu verlieren.

Diese Technik kann den JP-üSen 5^rJ2G7/1976 und 122DG4/1977 entnunirnen werden, üei diesen Geräten werden quantisierte Signale und Kompressionsbefehlssignale in einem Speicher eines Halbleiter-Sprachsynthesizers gespeichert, und ferner werden ausgewählte Abschnitte komplizierter Tonschwingungen in dem Synthesizer gespeichert, um selektiv die quantisierten und komprimierten Signale und die Kompressionsbefehle zum Zwecke der Re-Synthese aufzusuchen.

2U Der Erfindung liegt die Aufgabe zugrunde, dem Stand der Technik üherlegfinc und für eiiiH Mininturisierung geeignete Verfahren und Einrichtungen zur Sprachsynthese aufzuzeigen.

Die erfindungsgemäße Lösung der gestellten Aufgabe ist verfahrensseitig im Patentanspruch 1 und einrichtungsseitig im Patentanspruch 2 angegeben. Vorteilhafte Weiterbildungen des Erfindungsgedankens sind in der nachstehenden Figurenbeschreibung enthalten.

Durch Anwendung der LrF.i nilung kann die herkömmliche Vocoder-Technik vermieden und die vorhandene Speicherkapazität durch 3Ü eine besondere und wirksame Kombination moderner Kompressiona-

030034/0820

BAD ORIGINAL

TER MEER - MÜLLER - STElNMEISTEn Sharp 1MS)

technik mit einer zeitbewerteten Kampressionstechnik auf ein Minimum reduziert. Erfindungsgemäß kann die Information so weit komprimiert werden, daß sie sich auf einem einzigen integrierten LSI-Schaltunqs-ühip ahne Beeinträchtigung der üprachverständlichkeit und der t. iqennrt, de·ν Üriqinal-lnf ormation speichern läßt.

Erfindungsgemäß werden Phoneme oder eine Serie von Phonemen in SequEnz oder selektiv; van dem Speicher aufgerufen und einer Veränderung oder Regulierung in bezug auf eine Änderung 1ü des Tonhöhenintervalls, der Amplituden und der Zeitachse in Relation zu dem aus den aufgerufenen Phonemen gebildeten Grund-Tonsignalen unterzogen. Auf diese Weise werden komprimierte syn thetisierte Idellenzüqe in Digitalfarm gebildet.

Der erfindungsqemäße Sprachsyntheoizer eignet sich für viele Anwendungen, beispielsweise zur akustischen Angabe der Ergebnisse eines elektronischen Rechners, dessen Bediener sich auf andere Arbeit konzentrieren kann, ader für solche Fälle, bei denen Instrumente schwierig ablesbar sind. Sd kann der Synthesizer beispielsweise einem Fahrer die Fahr-

2U geschwindigkeit mitteilen, einem Techniker die Spannung an einem bestimmten Schaltungspunkt nennen, den Qediener einer Hräzisions-üJerkziiugmaschint! miL Informationen beliefern u.dgl. Er eignet sich auch als Ersatz für die visuelle Ablesung elektronischer Uhren oder zur Übermittlung van Sprachnachrichten unter bestimmLen Umständen. Ferner könnte der Synthesizer im Fahrzeug über das Fahren mit angezogener Handbremse oder nicht-angelegtem Gurt informieren, Qder die Uerständigung zwischen Camputer und Mensch erleichtern ader als Interface zwischen Bediener und Mechanismen wie

3U ürucktastentelefanen, Fahrstühlen, Geschirrspülern u.dgl. diunen.

030034/0820
—BAD ORIGINAL

TER MEER - MÜLLER - S TEINMEIS TE "? Sharp 1^19

der erfindungsgemäße Sprachsynthesizer kann sehr kompakt aufgebaut und mit einer stark reduzierten Speicherkapazität betrieben werden. Dabei wird überwiegend Digitaltechnik angewandt.

Nachstehend wird ein die Merkmale der Erfindung aufweisendes Ausführungsbeispiel unter Bezugnahme auf eine Zeichnung näher erläutert. Es zeigen:

Fig. 1 ein vereinfachtes Blockschaltbild eines erfindungsyernäßen Sprachsynthesizers,

1(j Fig. 2 eine grafische Darstellung mit dem Frequenzverlauf analoger elektrischer Signale, die das ijJort "nana" (die Zahl "sieben" auf japanisch) repräsentieren,

Fig. 3 einen liJellenzuq eines Grundlautes "a.",

_1t. Fig. U einen LJellenzug x. - Χρ. unter Einbeziehung

variabler Faktoren bezuglich des Grundlautes,

Fig. 5 ein weiter unterteiltes Blockschaltbild des Sprachsynthesizers von Fig. 1,

Fig. 6 ein Flußdiagrmm zum Betriebsablauf der Einrich-2U tung von Fig. 5,

Fig. 7 bis 1Ü Abwandlungen der Einrichtung von Fig. 5, und

Fig.11 grafische Dars bellungen von fjuantitativebenen zum Zeitpunkt ihrer Erfassung.

pi) Das nachstehend beschriebene Ausführungsbeispiel eines erfinriungsgemäßen Sprachsynthesizers ist gemäß Fig. 1 grab in sieben Blöcke unterteilt: Einen Zentralprozessor CPU 1 zur sequentiellen Steuerungdes gesamten Systems nach gewählten Befehlen, einen Festspeicher RDM 1 (=Read Only Memory)

3(j in einem Gluck 2 zur Speicherung von Phonemen oder Lauten Ii κ ui. Liii.ii".ruli]tm in D i i| i. bri.1 Γ rinn und zur Wiedergabe nachstehend beschriebener grundlegender Tonwellenzüge, einen dritten ■ Block 3 mit einem Festspeicher KUH 2 zum Speichern einer

030034/0820

BAD ORIGINAL

TER MEER - MÜLLER - STEINMEISTE ^ Sharp ILiISSER-V₁

weiter unten als "riarnpressionsberehls-Information" bezeichneten Digitalinformation zur Durchführung verschiedener Anpassungsoperatianen wie Uerünrierung der Tunhühenintervalle, Amplitudenänderungen, üiuiierholunn von Tcmhühenintervallen und Änderung der Zeitachsti* Eine nls iilock U bezeichnete Uiedergabestuf'D bildet aui'ijrund dur in Ulück 3 erfolgten Anpassung entsprechende digital synthetisierte !jJellenzüge, ein Pufferspeicher in Lllock 5 dient der vorübergehenden Speicherung und ein Übertrager in Ulock G der Übertragung 1ü der synthetisierten liJellenzüge unter Abschwächung von Verzerrungen und quantisiertem Hauschen durch Filtereffekte. Ein Digital/Analogwandler 7 im letzten Block setzt die digital synthetisierten üJellenzüqe in entsprechende analoge liiellenzüge um.

Der Zentralprozessor CPLJ 1 gibt eine Reihe von Befehlen für zu erzeugende sprachliche fJachri chtungen vor, die in ausgewählte Adressen des Festspeichers RUM 2 in Block 3 gelangen, um daraus gewünschte Kompressionsbefehls-Informatian abzurufen, welche es ermöglicht, die der Reihe nach ader

2G selektiv aus dem ROM 1 und der uJiedergabestufε k abgerufenen Phoneme oder Laute der zuvor erwähnten Ueränderungsaperationen an den Grundlauten zu unterziehen, welche aus den abgerufenen Phonemen bestehen.

Bei der erfindungsgemäßen Synthetisier-Methode existiert der Steuerspeicher RUM1 unabhängig van dem Speicher RDM 1

zur Speicherung der Lnute, welche die lilellenzüge der Grundlaute bilden. Mit anderen lüorten: Im Steuerspeicher ROM 1 sind verschiedene Knntrallinformatianen gespeichert, welche den Tonhöhenintervallen, Amplituden und der Anzahl van 3ü Wiederholungen entsprechen. Es ist erwünscht, daß die Phoneme mit .ί^^1ι1βϊ·]-^Ξ einer mijr|lir.hst kleinen Anzahl von Uits gespeichert werden.

030034/0820

BAD ORIGINAL

TER MEtR - MÜLLER . STEINMEISTE¹^ ShBTD 1^19-GER-K

Nachstehend werden rÜG im Speicher gespeicherten Phoneme, die Informationsstruktür dar einzelnen Phoneme und die verschiedenen Anpassungsoperationen beschrieben.

In Fig. 2 ist grafisch der FrequenzverlauF des analogen ¹J elektrischen Signals für tJie liürljare Wiedergabe des Wortes "nana" (die Zahl "sieben" auf japanisch) in Abhängigkeit van der Zeit und mit ersten bis dritten Farmantfrequenzen als Parameter aufgetragen. Es besteht die Möglichkeit zur Gewinnung eines dynamischen Sprnchspektrums durch Fourier-

1ü Umsetzuny der Uriqinal-Snrnchinfnrmation mittels eines bekannten Spektrum-Analysatnrs. Die ursprüngliche Toninformation wird durch die Intensität der entsprechenden Frequenzen des üriginaltones wiedergegeben. Es gibt bestimmte Fnrninn t-Frequenzen mit pntsprenhenrlen Rahmen

Vj (Tonhöhen) der resultierenden Üriyinal-Tpninformation. !Jie eingangs erwähnt bildet die Erzeugung der richtigen Farmant-Frequenzen der Phoneme die wichtigste Voraussetzung für eine intelligente akustische Synthese.

In Fig. 2 sind die erste, zweite und dritte Formant-Frequenz ZU des (Ir igin-i]-SprHchwnrtes "nana" aufgetragen, welches insgesamt in Uli Rahmen b. - Li, „ unterteilt ist. Die an die nii hfifmuilirü'irliMi Hnlimmi Ij₁ -h. π r ι r j γϊ 11 ü' ι ρ r t. e Frequenz, welche das Lrriginnl-Sprnchwor t repräsentiert, kann als Kette von elf Plinneinrlaten π,-a definiert werden. Die erste Formant-Frequenz entspricht den verbundenen Daten s. und a bzw. dem Phonem "n" von etiiia ZOÜ - 3ÜD Hz, und die zweite Formant-Frequenz betrögt etwa 4DLj - 50Π Hz. Die erste, zweite und dritte Formant-Frequenz für das Phonem "a" betragen GDD 7DD Hz, 12EJD Hz und 2600 - 270D Hz. Ähnliche Phonemdaten 3D für B^ r- S₁₁ können wie nachstehend ersetzt werden:

^cl2 ^a3 ^aif ^a5 ³G

030034/0820

BAD ORlGiNAL

TER MEER - MÜLLER - STEINMEISTE^

Sharp Ht19-G£R-K

Das Griginal-Sprachujort "nana" kann fünf Grundphonemdaten a_1f a„, a , a, und a_r umfassen. Die das Üriginal-Sprachuort repräsentierenden Rahmen ü. - Lj, ,, lassen sich folgendermaßen schreiben:

üriginal-

Sprachüjort- Phonemra hm en daten

Modifizierte Ersatz- Driginal-Phanomdnten Sprachmortdaten

1Ü

In]

[a]

in]

[a]

Γ¹

b₇ ^ b₁₀

11

12

L - b

'29

_ b

a,

^Χ7 ^ ^Χ10

11

12 ^Χ13 ~ ^Χ27

28

^Χ29 ^Χ30 ^ ^Χ38

48

Mit anderen IJnrten: Das Uriginnl-Liprachwart "nana" ist 2Ll im Speicher HÜH 1 in Form einer Folge vnn Tünf Phonemen

a,, - a_r gespeichert. Die gespeicherten Inhalte der Phonem-LuellenzuginFormation sind υοπ Nutzen, tuenn komprimierte Sprache einfach durch Speichern gewählter Abschnitte der Lüellenzuginf Drmation syn thetisicrt iiiird. Die modifizierten Ά^ι:) fir i ηί riril -iiprnnhiotirtr;ihmnti χ - x_; iiin rticin riiirnh LiJ ierierhnlung

der Phonemdaten und durch sncligeinälie AnpaDoperationen

030034/0820

BAD ORIGINAL

meer - müller . s τ ε in μ eis te ^ Sharp 1^19-GER-H

erstellt. Beispielsweise können modifizierte Original-Sprachiiiortrahmen durch Ueränderung des Phonems, des Tonhöhenintervalls, der Amplitude, des ZEitachsen-Modifizier-Faktors u.dgl. hergestellt werden.

Die Uriijinril-Ljpradi war LrühniLMi x. - x,. küniien beispielsweise falrienriermaßen fiGschrip.ben iuerden:

X₁ ~ F Ca₁, P₁, S₁, t₁)

^xß ^^{F (e}V V V ^tG⁾

Diese Formel ist eine Näherungsqleichung, weil Pegel und Tonhöhe genormt sind. In dieser Formel sind ρ das Tonhühenintervall, s der Ampliturienfaktnr und t der Zeitachsen-I-iodifizieri'iiktov. Uicsu \/nrinhelen befinden sich als i'iomnressianahef ühls—InFn rinn tion im Festspeicher ROM 2 abgespeichert -

Fir).. 3 EHihliülL ihm ;!lcllun;rug Für einon ürunrJlaut. ^ua^" und l"ig. 'f ein ijuispisl Für Idellenzijfjc x., - x^ , bei denen die Uarionten i-iü.g π, s und t gegenüber dem Gruntilaut- !•Jellenziirj ei,, herücksxch tiijt, sind. Der Pnonem-LJellenzug B₁ ist eine Funktion dnr Zeit und läßt sich durch den /\iii|il j LudmrFni; tor (X_n mod i T j ζ lkplmi , αυΓετη y . - y_g und a, die na ch stehenden üedingungen er Füll en. Aus dies ein b'rund kann ein ayn thetisnhcr SdE!llenzug in Farm eines dno Phnnem-Llellünzunas erzeugt uerden.

V₁ =

2:3 V₁. -

I I

1 1

Darin ist Ot^₁ üp.t im .Speicher RUH 1 gespeicherte Amplituden-Faktor.

030034/0820 BAD ORIGINAL

IEH MEER - MÜLLER - STEtNMElSTER

Ein wesentliches Merkmal der Erfindung bezieht sich auf die Tatsache, daß die komprimierten synthetischen Wellenzüge durch Anpaßoperatinnen wie Veränderung des Tonhöhenintervalls, Veränderung der Amplitude und Veränderung des 'j Zßitnnhnen-MtJrii Fi ζ VerFnk l;nrfj pv/miiit wnrdnii kiinnen.

Der in Fig. 5 als Blockschaltbild dargestellte erFindungsgernäße Sprachsynthesizer enthält wieder die Gaugruppen CPU, RDM 1 und ΠG.T-2 aus Fig. 1. Ein Adreßzähler ADC 1 1Ü2 gewährt ZuqriFF zu einer rj^e wünsch ten Adresse im 1LJ Speicher FiUM 2 1Ü3 anhängig von Sprachwurt-Ausgangsbe-Fehlen aus CPU 1Π1. Ein PuFFerregister OUFF 1G'f speichert aus RDM 1 1G^ zugegangene Information zeitweilig. In Abt. f befinden sich das Ende der Inf nrrnati nnskette und das Zugrit'Tnende kennzeichnende Da Leu, und in Abt. r die Anzahl der Wiederholungen der Tonhühenintervalle. Die von Menschen ader Musik instrumenten abgegebenen Töne bestehen im allgemeinen aus Wiederholungen der gleichen Wellenzüge. Töne gleicher Höhe vun Musikinstrumenten haben die gleiche Wellenfarm, und bei den Tonfrequenzen treten die Schuiin-2Ü gungen pro Sekunde zur gleichen Zeit auf. Zwar weist die menschliche Sprache ähnliche Wiederholungen van Wellenzügen auf, jedoch verändern ninh nicht nur die Frequenzen der Hchtiiintiungen, sondern mich dir; Wullnnfnrrnen bei gesprochenen Wörtern. Jedoch können wiederholte iilellenfarmen als gleiche Wellenform betrachtet werden, nur für eine sehr kurze Dauer. Der KornpressionsFaktnr η steht durch Eingabe einer π entsprechenden Information in Speicher ROM 2 zur Verfügung. Der Pufferspeicher 1U't speichert ferner Amplitudeninformation s. Eine gewünschte synthetische Wellenform einer festgelegten 3Q Mehrfachbeziehung wird bereitgestellt durch Multiplizieren der in Fig. 3 und k dargestellten Erundlaut-Wellenzüge mit einem bestimm bun Ampli l'.udenFaktnr. d dient als zeitweilige Information beim sequentiellen oder selektiven Aufrufen der Phoneme aus Speicher RÜM 1. Die gewählte Information wird

050034/0820

•"^V-BAD ORIGINAL

TER MEER · MÜLLER ■ STEINMEISTER Sharp 1419-GER-K

-IZ-

durch einen Dekadierer DC. in die führende Adresse dekodiert und in einen anderen Adreßzähler ADC 2 111 eingegeben. Die Information ρ in bezug auf das Tonhöhenbzui. Schüjingungsintervall wird durch einen Dekadierer D.C„ 109 in eine tatsächliche Tonhähenlänge verwandelt und in Gincnmit 113 bezeichneten Zähler CT2 eingegeben. Ein X-Register 1D7 speichert die Amplitudeninformation s, mit welcher die Inhalte eines Y-Registers 117 multipliziert werden, welche* seinerseits die Phoneme enthält, die mittels einer Multiplizierstufe 1 11Θ vom Speicher ROM 1 eingeschoben wurden.

Ein Flip-Flop 105 erkennt die f-Information im vorübergehend speichernden Pufferspeicher 104 und teilt dem Zentralprozessor CPU 101 das Ergebnis mit. Bei f = 1 wird CPU durch Setzen von Flip-Flop 105 informiert, daß dieae Information das Ende der Adreß-Operation bedeutet. Ein Zähler CT 1 1QG zählt die Anzahl der Wiederholungen el , und eine Entscheidungsschaltung J1 110 erkennt, daß der Zählerinhalt von CT1 Null ist. In ähnlicher Weise erkennen Entßcheidungsschaltungen J2 und J3, mit 115 und 116 bezeichnet, uenn Zähler CT2 113 und CT3 114 auf Null sind. Zähler CT3 nimmt die Anzahl IM von Daten auf, weiche die Sprachwellenzüge bilden. Zur Unterdrückung von Störgeräuschen durch Filtereffekte geht der Ausgang der Multiplizierschaltung 118 auch noch in eine Schaltung 119, die eine Rechenstufe 122 zur Errechnung von Zwischenwerten zwischen Pufferregistern Z, T und U sowie Registern Z und T enthält und insbesondere errechnet, was dann in dag

U-Register 123 gegeben wird. Ein üJählgatter G 124 taktet

3D abwechselnd die Inhalte der U- und T-Register mit einer Abtastfrequenz S„ aus. Hierzu näheres weiter unten. Der Ausgang dieses Ixlählgatters G 124 wird über M- und ül-Register 125 und 126 mittels eines Digital/Analogwandlers in einen , Analag-liJellenzug. umgewandelt und durch eine Ausgangsschaltung 120 als Tönsignal abgegeben.

030034/0820

TER MEER · MÜLLER . STEINMEISTSR Sharp Ht19-GER-K

Die ArbeitsuEisE der Schaltung von Fig. 5 uird nachstehend anhand des Flußdiagramms van Fig. 6 erläutert: Bei Abgabe des liJellenzug-Ausgangsbefehls durch CPU 101 (Schritt π.) werden die entsprechenden Register und Flip-Flops mit ihren Ausgangsuerten geladen und die Anfangsadresse zur Auswahl der Ausgangsinformation in den Adreßzähler 102 eingegeben (Schritt n„ und n,). Diese Adresse bietet Zugriff zum Speicher ROM 2 und veranlaßt das Eingeben verschiedener Kompressionsbefehls-Informationen (Schritt n, ) in das zeitweilig speichernde Pufferregister Wk. Die Information r in bezug auf die Zahl der Wiederholungen uird aus Pufferregister 10*t in den Zähler CT. (n,-) und die Amplitudeninformation s in das X-Register 107 (rv) geschoben. Die Information d bezüglich der Phoneme im ROM 1 uird in die führende Adresse von ROM 1 mittels Dekodierer 108 dekodiert und in Schritt n~ in den Adreßzähler AD 2 gegeben. Die Schuingungsinformation ρ uird in eine tatsächliche Schuiingungslänge mittels Dekodierer DC 2 verwandelt und in den Zähler CT 2 gegeben. Die Anzahl N der Daten, welche die Grundtonwellenfarm wiedergeben, wird vom Speicher ROM in den Zähler CT 3 (n„) geschoben. Diese Anzahl π der Daten ist variabel. Jetzt ist der Adreßzähler AD 2 für einen Zugriff zum Speicher KQM 1 zum Speichern der Phoneme bereit,der Ausgang desselben uird in das Y-Register 117 (n_qj überführt. Die Multiplizier.stufe 11Ω multipliziert die Inhalte des Y-Registers mit der im X-Register 107 gespeicherten Amplitudeninf ormation und überführt die Ergebnisse über die Stürgeräuschunterdrückerschaltung 119 (".,p) in das V-Register

125. Die übertragung der Inhalte des U-Registers in das üJ-Register 126 erfolgt im Takt der Abtastfrequenz S_f Cn₁₃). Die Inhalte des td-Registers werden durch den D/A-üJandler in einen analogen Llellenzug umgewandelt und über die Ausgangsschaltung 128 Cn₁^) nach außen abgegeben. Danach werden die Zähler CT 2 und CT 3 synchron mit der Abtast-

030034/0820

BAD ORIGINAL

TER MEER . MÜLLER - STEINMEISYtP Sharp 1if19-GER-K

frequenz S_f reduziert, und sofern diese Zähler nicht auf Null sind (ihren Nullzustand überwachen die Entscheidungsschaltungen J2 und 33), zählt der Adreßzähler AD2 von n₁₅- n.„ weiter, um Zugriff zum Speicher RDM 1 (η_) zu gewähren und in zuvor beschriebener Weise einen Wellenzug zu erzeugen. Durch Wiederholung der beschriebenen Schritte wird eine Kette von LUellenzügen erzeugt.

Stellt der Zähler CT2 Null (n₁₆) fest, dann wird der Zähler CT1 heruntergezählt (n_?n). Solange die Inhalte von Zähler CT1 gemäß Feststellung der Entscheidungsschaltung J1 nicht gleich IMuIl sind, werden die AdreS-zähler AD2 sowie CT2 und CT3 wie beschrieben geladen, um in der Schrittfolge von n„ - π . Wellenzüge zu liefern. Stellt jedoch die Entscheidungaschaltung J3 vor der Entscheidungsschaltung J2 den Null-Wert fest, dann erhält der Adreßzähler AD2 keinen Aufwärtszählbefehl mehr. Adreßzähler AD2 liefert die gleichen Adressen weiter, bis die Entscheidungsschaltung J2 im Zähler CT2 den liiert Null feststellt. Folglich erhält Register W den gleichen

2D Wert zur Erzeugung eines Analog-üJellenzuges über den D/A-Wandler 127 und die Ausgangsschaltung 128. Dieser Uargang läuft bis die Entscheidungsschaltung J1 den Inhalt WuIl bei Zähler CT1 feststellt. Ist dies der Fall Cn„*)_r wird beim Pufferregister lük der nächste Ausgangs» zustand gesetzt, falls nicht das Flip-Flop 105 gesetzt ist Cn ₂). Mit diesem Inhalt von Flip-Flop 1D5 wird CPU über das Ende der Adreß-Dperation (n-·,) informiert.

Die Schaltung von Fig. 5 läßt sich verschieden abwandeln. Beispielsweise kann auf die Dekokierer DC1 und DC2 in 3Q FIg. 5 verzichtet werden. Statt dessen kann die Übertragung der führenden Adresse und des Adreßumfangs in Speicher RDM2 und der Information d und ρ In den Adreßzähler AD2 und Zähler CT2 vom Pufferregister 10*» direkt erfolgen.

030034/0820 BAD ORIGINAL

TER MEER · MÜLLER . STEINMEISTcR Sharp 1it19-GER-K

Der Speicher ROM 2 1G3 sollte eine große Datenkapazität haben. Beispielsweise liegt bei Männern die Schuingungafrequenz in einem Bereich zwischen 60 und 200 Hz. Bei einer Abtastung mit 10 kHz hat der Ausgang maimal 167 Abfragewerte und benötigt B Bits zur Festlegung. Vorausgesetzt, es gibt mittels Quantisiertechnik 32 mögliche lüerte der Schwingungsfrequenz, dann genügen zur Repräsentation 5 Bits, 3 Bit· können durch Hompressionsbefehle gespart werden.

In Fig. 5 werden die Enddaten nach Abgabe der N-Ausgänge in das Y-Register 117 eingegeben, wenn CT2 >· CT3 ist.

Bei der abgewandelten Ausführung in Fig. 7 gelangt 0 in die Multiplizieratufe 129 nach dem Setzen von J3. Mit anderen Warten: Die aus den Phonemen aus ROM 1 bestehenden Grund-Tonwellenzüge sind in der Tonhöhe festgelegt, jedoch in der Schwingungsfrequenz durch Zugabe von Daten mit einem gegebenen Bias-Pegel variabel. Auf diese Weise wird Speicherkapazität gespart und das Kampressiansverhältnis erhöht.

In Flg. θ kann ein Eingang 3J in ein Tor 129' der Multi-2D plizierstufe 11B eingegeben werden. Die Amplitudeninfdtmation ■ kann entweder gemäß Fig. 5 linear oder gemäß Fig. 9 nicht-linear kontrolliert werden. Im letzteren Fall werden die Inhalte des X-Registers 107 durch den Dekadierer DC 3 13G ausgewertet und in dae Pufferregister 2 131 eingegeben, danach durch die Multiplizierstufe 11Θ multipliziert. Ist beispielsweise i=3 und m=7, dann ergeben sich die Ergebn
n- » 1 - 15 ist.

sich die Ergebnisse von Fig. 10, worin (I,**!*) bei

Die quantisierende Störunterbrückungsschaltung arbeitet folgendermaßen: Im Y-Register sind beispielsweise *> Bits, und in dem die Amplitudenin'formation s enthaltenden X-Regieter 107 3 Bits gespeichert. In diesem Fall sollte

030034/0820

TER MEER ■ MÜLLER · STEINMEISTFR Sharp 1419-GER-K

das von der Multiplizierstufe 118 errechnete Ergebnis mehr als k Bits enthalten. Die möglichen Datenebenen im Y-Register 117 sind 16 (2 ) und die möglichen Vielfachen der Daten im X-Register sind θ (2 ). Es gibt somit 16 χ 8 = 128 mögliche Ausgangspegel aus Multiplizierstufe 118, das erfordert 7 (27 = 128) Bits. Die von der Multiplizierstufe 118 errechneten Resultate sind langer als die Anzahl der Bits des Y-Registers 117 Dadurch ist es möglich, die Grundtonwellenformen im 1ü Speicher RDM 1 in Gestalt einer minimalen Länge won quantisierenden Bits zu speichern, die dann durch die Amplitudeninformation kontrolliert werden. Dabei werden Verzerrungen und Quantisier-Geräusche reduziert.

Qunntisier-Geräuschunterdrückungsschaltung 119 in Fig. 5 enthält Pufferregister Z 12D, T 121 und U 123. Die Schaltung 122 errechnet aus den Inhalten von Z und T s— und aktiviert synchron zur Abtastfrequenz ein Tor

damit das V/-Register 125 abwechselnd die Inhalte der Register U und T erhält.

2Ü Fig. 11 zeigt die Quantisierpegel als Funktion der Abtastzeit. Werden Daten gemäß Fig. 11 (a) in Sequenz von der Multiplizierstufe 118 gewonnen, dann gibt das U-Register 125 in Sequenz Ausgänge gemäß Fig. 11 (c) ab. Die Digital/ Analog-Umwandlung erfolgt zwischen den Abtastzeitpunkten t._f t ... . Zwischen tj-, und t wird ein Quantisierpegel-Durchschnittswert erstellt, und somit liefert das U-Register 123 die in Fig. 11 (b) dargestellten Daten, um abwechselnd Daten aus Fig. 11 (a) und 11 (b) für das V-Regiater 125 auszuwählen, dessen Ausgang Fig. 11 (c) zeigt. Die

3D resultierenden quantisi&rten Daten setzt der D/A-tJandler in einen Analog-Lüellenzug um, dieser üJellenzug wird in der Ausgangsschaltung 128 geglättet, und dabei werden die Störgeräusche durch Quantisierung unterdrückt.

030034/0820

Claims

TER MEER - MÜLLER - STEINMEISTER

Beim Europäischen Patentamt zugelassene Vertreter Prof. Representatives before the European Patent Office - Mandalalres agr£6s pres !'Office european des brevets

Dipl.-Chem. Dr. N. ter Meer Dipl.-lng. H. Steinmeister

Dipl.-lng. F. E. Müller Siekerwall 7

Triftstrasse 4, bieKerwaii /,

D-8000 MÖNCHEN 22 D-4800 BIELEFELD

Case: 1*t19-GER-K 20. Februar 1980

Mü/Gdt/Th

SHARP KABUSHIKI KAISHA 22-22 (\lagaike-cho, Abeno-ku, Osaka 545, Japan

Verfahren und Einrichtung zur Sprachsynthese

Priorität: 2G. Februar 1979, Japan, IMd. 54-19309

PA ΙΈΝΐΑΙΜΗΙ-ΨυCHE

Verfahren zur Sprachsynthese, dadurch gekennzeichnet, daß

- in einen ersten adressierbaren Speicher eine Phonemen entsprechende digitale Toninformation eingegeben,

- in einen zweiten Speicher eine Kompressiansbefehlsinformatian zum sequentiellen oder selektiven Abrufen der Phoneme und zur Ausführung υοη Regulieroperationen an aus den Phonemen bestehenden Grund-Tonsignalen in bezug auf Tonhöhenintervall, Amplitude und Zeitachse

030034/0820

TER MEER -MÜLLER · STEINMEISTER Sharp 1M9-GER-K

eingegeben und auf diese Lüeise ein komprimierter synthetisierter Uellenzug im Digitalformat gebildet, - die Durchführung der Regulieroperationen an den aus den Phonemen gebildeten Grund-Tonsignalen unter Verwendung der l'mmpressinnsbefehlsinformation err'ultjt und so aufeinanderfolgend die im üigitalformat komprimierte synthetisierte Signalfarm gebildet, und

- die auf_^einanderfolgend im Digitalformat komprimierte synthetisierte Signalform in ein Analagsignal umgesetzt

kierden,
2. Sprachsynthesizsr,

π. e k R η π ζ e i π h η e t. durch

- einen ersten adressierbaren Speicher (RQM 1) zum Speichern einer Phonemen entsprechenden Taninfqrmation in Oigitalfürm,

- einen zweiten Speicher (ROM 2) zur Speicherung von Kompressionsüefehlsinfarmation für einen sequentiellen oder selektiven Abruf der Phoneme,

- eine in Abhängigkeit von der hompressiongbefehlsinforrnation an den aus den abgerufenen PhDneman gebil·^ de ten lirunrl-Tonsiqunlen bzüj. -Idellenzügen RegulieroperaLionen in bezug auf Tnnhühenintervall, Amplitude und Zeitachse durchführende und so aufeinanderfolgende im Digitalformat komprimierte synthetisierte Signale bzw. ülellenzürje erzeugende Stufe (Fig.5), und

- einen Digital/Analag-üJandler (127) zur Umwandlung der aufeinanderfolgend im DigitalfDrmat kamprimiertan synthetisierten Signale in Analog-Signale.

030034/0820

ORIGINAL