DE3006339A1 - Verfahren und einrichtung zur sprachsynthese - Google Patents

Verfahren und einrichtung zur sprachsynthese

Info

Publication number
DE3006339A1
DE3006339A1 DE19803006339 DE3006339A DE3006339A1 DE 3006339 A1 DE3006339 A1 DE 3006339A1 DE 19803006339 DE19803006339 DE 19803006339 DE 3006339 A DE3006339 A DE 3006339A DE 3006339 A1 DE3006339 A1 DE 3006339A1
Authority
DE
Germany
Prior art keywords
phonemes
memory
müller
information
synthesized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19803006339
Other languages
English (en)
Other versions
DE3006339C2 (de
Inventor
Tetsuo Iwase
Segeaki Masuzawa
Hiroshi Miyazaki
Shinya Shibata
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of DE3006339A1 publication Critical patent/DE3006339A1/de
Application granted granted Critical
Publication of DE3006339C2 publication Critical patent/DE3006339C2/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

TER MEER - MÜLLER . STEINMEISTE"? Sharp 1^19
BESCHREIBUNG
Die Erfindung liegt auf dem technischen Gebiet der Sprachsynthese und betrifft insbesundrirc ein V/erfahren und eine Einrichtung zur Sythese der Sprache oder anderer komplizierter UJellenfarmen durch Anwendung einer erst in jüngster Zeit bekannt gewordenen Digitaltechnik.
Bekanntlich muß ein Sprachsynthesizer, wenn er verständlich sein soll, unbedingt in der Lage sein, die passenden Formantfrequenzen der ujiederzugegebenen Phoneme zu erzeugen. Bei Sprachsynthesizern neuerer Bauart werden die Formantfrequenzen
1ü auf folgende Weise erzeugt: Abhängig von dem interessierenden Phonem werden entweder stimmhafte oder stimmlose Laute elektronisch erzeugt. Diese Erzeugung von Lauten ist durch ein Leistungsspektrum gekennzeichnet, das eine niedrige untere Grenzfrequenz der Tonhöhenfrequenz aufweist; über der Tonhöhenfrequenz sinkt die Leistung mit steigender Frequenz. Stimmlose Laute haben ein relativ breitbandiges weißes Rauschspektrum. Der eine oder andere dieser hJellenzüge passiert eine Serie von Filtern oder andere elektronische Schaltungen, so daß nur bestimmte interessierende Frequenzen verstärkt
v(j iiiu γιΙγμί . illiur niniMi I au l.:;p n-clif· ι- i.iinl linn vnnulticrendR
Leistungsspektrum der Sprachnhoneme hörbar wiedergegeben. Derartige Geräte "werden alluemein i/ocoder genannt, und die als LPC (L_inear Prediction Coding) und PAKCÜH (P_artial Auto-Correlation) bezeichneten bekannten Codierverfahren werden üblicherweise in solchen Vocodern angewendet.
In solchen Geräten wird die zur Erzeugung einer Folge oder Kette von Phonemen zur Wiedergabe von Sprache erforderliche Formantfrequenzinformation allgemein in einer kompletten Rechnereinheit gespeichert,' die aucli die Lautstärke, Dauer,
030034/0820
BAD ORIGINAL
TER MEER '. M_U^ER:.STEINMEISTE"! Sharp 1419
die stimmhaften und stimmlasen Nuancen u.dgl. bestimmt. Somit können vorhandene Vocoder zwar eine Vielzahl von Worten erzeugen, benötigen aber jeweils einen kompletten Rechner und können folglich nicht miniaturisiert werden.
Lj In jüngster Zeit ist ein Sprachsynthesizer nach einem neuen Konzept und ohne Anwendung von Vocoder-Techniken vorgestellt morden, um die bekannten Probleme zu umgehen. Darin sind eine neu entwickelte und eine bekannte Kompressionstechnik kombiniert worden, um die Information erkennbar zu IU komprimieren und dabei möglichst wenig Sprachverständlichkeit zu verlieren.
Diese Technik kann den JP-üSen 5rJ2G7/1976 und 122DG4/1977 entnunirnen werden, üei diesen Geräten werden quantisierte Signale und Kompressionsbefehlssignale in einem Speicher eines Halbleiter-Sprachsynthesizers gespeichert, und ferner werden ausgewählte Abschnitte komplizierter Tonschwingungen in dem Synthesizer gespeichert, um selektiv die quantisierten und komprimierten Signale und die Kompressionsbefehle zum Zwecke der Re-Synthese aufzusuchen.
2U Der Erfindung liegt die Aufgabe zugrunde, dem Stand der Technik üherlegfinc und für eiiiH Mininturisierung geeignete Verfahren und Einrichtungen zur Sprachsynthese aufzuzeigen.
Die erfindungsgemäße Lösung der gestellten Aufgabe ist verfahrensseitig im Patentanspruch 1 und einrichtungsseitig im Patentanspruch 2 angegeben. Vorteilhafte Weiterbildungen des Erfindungsgedankens sind in der nachstehenden Figurenbeschreibung enthalten.
Durch Anwendung der LrF.i nilung kann die herkömmliche Vocoder-Technik vermieden und die vorhandene Speicherkapazität durch 3Ü eine besondere und wirksame Kombination moderner Kompressiona-
030034/0820
BAD ORIGINAL
TER MEER - MÜLLER - STElNMEISTEn Sharp 1MS)
technik mit einer zeitbewerteten Kampressionstechnik auf ein Minimum reduziert. Erfindungsgemäß kann die Information so weit komprimiert werden, daß sie sich auf einem einzigen integrierten LSI-Schaltunqs-ühip ahne Beeinträchtigung der üprachverständlichkeit und der t. iqennrt, de·ν Üriqinal-lnf ormation speichern läßt.
Erfindungsgemäß werden Phoneme oder eine Serie von Phonemen in SequEnz oder selektiv; van dem Speicher aufgerufen und einer Veränderung oder Regulierung in bezug auf eine Änderung 1ü des Tonhöhenintervalls, der Amplituden und der Zeitachse in Relation zu dem aus den aufgerufenen Phonemen gebildeten Grund-Tonsignalen unterzogen. Auf diese Weise werden komprimierte syn thetisierte Idellenzüqe in Digitalfarm gebildet.
Der erfindungsqemäße Sprachsyntheoizer eignet sich für viele Anwendungen, beispielsweise zur akustischen Angabe der Ergebnisse eines elektronischen Rechners, dessen Bediener sich auf andere Arbeit konzentrieren kann, ader für solche Fälle, bei denen Instrumente schwierig ablesbar sind. Sd kann der Synthesizer beispielsweise einem Fahrer die Fahr-
2U geschwindigkeit mitteilen, einem Techniker die Spannung an einem bestimmten Schaltungspunkt nennen, den Qediener einer Hräzisions-üJerkziiugmaschint! miL Informationen beliefern u.dgl. Er eignet sich auch als Ersatz für die visuelle Ablesung elektronischer Uhren oder zur Übermittlung van Sprachnachrichten unter bestimmLen Umständen. Ferner könnte der Synthesizer im Fahrzeug über das Fahren mit angezogener Handbremse oder nicht-angelegtem Gurt informieren, Qder die Uerständigung zwischen Camputer und Mensch erleichtern ader als Interface zwischen Bediener und Mechanismen wie
3U ürucktastentelefanen, Fahrstühlen, Geschirrspülern u.dgl. diunen.
030034/0820
—BAD ORIGINAL
TER MEER - MÜLLER - S TEINMEIS TE "? Sharp 1^19
der erfindungsgemäße Sprachsynthesizer kann sehr kompakt aufgebaut und mit einer stark reduzierten Speicherkapazität betrieben werden. Dabei wird überwiegend Digitaltechnik angewandt.
Nachstehend wird ein die Merkmale der Erfindung aufweisendes Ausführungsbeispiel unter Bezugnahme auf eine Zeichnung näher erläutert. Es zeigen:
Fig. 1 ein vereinfachtes Blockschaltbild eines erfindungsyernäßen Sprachsynthesizers,
1(j Fig. 2 eine grafische Darstellung mit dem Frequenzverlauf analoger elektrischer Signale, die das ijJort "nana" (die Zahl "sieben" auf japanisch) repräsentieren,
Fig. 3 einen liJellenzuq eines Grundlautes "a.",
1t. Fig. U einen LJellenzug x. - Χρ. unter Einbeziehung
variabler Faktoren bezuglich des Grundlautes,
Fig. 5 ein weiter unterteiltes Blockschaltbild des Sprachsynthesizers von Fig. 1,
Fig. 6 ein Flußdiagrmm zum Betriebsablauf der Einrich-2U tung von Fig. 5,
Fig. 7 bis 1Ü Abwandlungen der Einrichtung von Fig. 5, und
Fig.11 grafische Dars bellungen von fjuantitativebenen zum Zeitpunkt ihrer Erfassung.
pi) Das nachstehend beschriebene Ausführungsbeispiel eines erfinriungsgemäßen Sprachsynthesizers ist gemäß Fig. 1 grab in sieben Blöcke unterteilt: Einen Zentralprozessor CPU 1 zur sequentiellen Steuerungdes gesamten Systems nach gewählten Befehlen, einen Festspeicher RDM 1 (=Read Only Memory)
3(j in einem Gluck 2 zur Speicherung von Phonemen oder Lauten Ii κ ui. Liii.ii".ruli]tm in D i i| i. bri.1 Γ rinn und zur Wiedergabe nachstehend beschriebener grundlegender Tonwellenzüge, einen dritten ■ Block 3 mit einem Festspeicher KUH 2 zum Speichern einer
030034/0820
BAD ORIGINAL
TER MEER - MÜLLER - STEINMEISTE ^ Sharp ILiISSER-V1
weiter unten als "riarnpressionsberehls-Information" bezeichneten Digitalinformation zur Durchführung verschiedener Anpassungsoperatianen wie Uerünrierung der Tunhühenintervalle, Amplitudenänderungen, üiuiierholunn von Tcmhühenintervallen und Änderung der Zeitachsti* Eine nls iilock U bezeichnete Uiedergabestuf'D bildet aui'ijrund dur in Ulück 3 erfolgten Anpassung entsprechende digital synthetisierte !jJellenzüge, ein Pufferspeicher in Lllock 5 dient der vorübergehenden Speicherung und ein Übertrager in Ulock G der Übertragung 1ü der synthetisierten liJellenzüge unter Abschwächung von Verzerrungen und quantisiertem Hauschen durch Filtereffekte. Ein Digital/Analogwandler 7 im letzten Block setzt die digital synthetisierten üJellenzüqe in entsprechende analoge liiellenzüge um.
Der Zentralprozessor CPLJ 1 gibt eine Reihe von Befehlen für zu erzeugende sprachliche fJachri chtungen vor, die in ausgewählte Adressen des Festspeichers RUM 2 in Block 3 gelangen, um daraus gewünschte Kompressionsbefehls-Informatian abzurufen, welche es ermöglicht, die der Reihe nach ader
2G selektiv aus dem ROM 1 und der uJiedergabestufε k abgerufenen Phoneme oder Laute der zuvor erwähnten Ueränderungsaperationen an den Grundlauten zu unterziehen, welche aus den abgerufenen Phonemen bestehen.
Bei der erfindungsgemäßen Synthetisier-Methode existiert der Steuerspeicher RUM1 unabhängig van dem Speicher RDM 1
zur Speicherung der Lnute, welche die lilellenzüge der Grundlaute bilden. Mit anderen lüorten: Im Steuerspeicher ROM 1 sind verschiedene Knntrallinformatianen gespeichert, welche den Tonhöhenintervallen, Amplituden und der Anzahl van 3ü Wiederholungen entsprechen. Es ist erwünscht, daß die Phoneme mit .ί^1ι1βϊ·]-Ξ einer mijr|lir.hst kleinen Anzahl von Uits gespeichert werden.
030034/0820
BAD ORIGINAL
TER MEtR - MÜLLER . STEINMEISTE1^ ShBTD 1^19-GER-K
Nachstehend werden rÜG im Speicher gespeicherten Phoneme, die Informationsstruktür dar einzelnen Phoneme und die verschiedenen Anpassungsoperationen beschrieben.
In Fig. 2 ist grafisch der FrequenzverlauF des analogen 1J elektrischen Signals für tJie liürljare Wiedergabe des Wortes "nana" (die Zahl "sieben" auf japanisch) in Abhängigkeit van der Zeit und mit ersten bis dritten Farmantfrequenzen als Parameter aufgetragen. Es besteht die Möglichkeit zur Gewinnung eines dynamischen Sprnchspektrums durch Fourier-
1ü Umsetzuny der Uriqinal-Snrnchinfnrmation mittels eines bekannten Spektrum-Analysatnrs. Die ursprüngliche Toninformation wird durch die Intensität der entsprechenden Frequenzen des üriginaltones wiedergegeben. Es gibt bestimmte Fnrninn t-Frequenzen mit pntsprenhenrlen Rahmen
Vj (Tonhöhen) der resultierenden Üriyinal-Tpninformation. !Jie eingangs erwähnt bildet die Erzeugung der richtigen Farmant-Frequenzen der Phoneme die wichtigste Voraussetzung für eine intelligente akustische Synthese.
In Fig. 2 sind die erste, zweite und dritte Formant-Frequenz ZU des (Ir igin-i]-SprHchwnrtes "nana" aufgetragen, welches insgesamt in Uli Rahmen b. - Li, „ unterteilt ist. Die an die nii hfifmuilirü'irliMi Hnlimmi Ij1 -h. π r ι r j γϊ 11 ü' ι ρ r t. e Frequenz, welche das Lrriginnl-Sprnchwor t repräsentiert, kann als Kette von elf Plinneinrlaten π,-a definiert werden. Die erste Formant-Frequenz entspricht den verbundenen Daten s. und a bzw. dem Phonem "n" von etiiia ZOÜ - 3ÜD Hz, und die zweite Formant-Frequenz betrögt etwa 4DLj - 50Π Hz. Die erste, zweite und dritte Formant-Frequenz für das Phonem "a" betragen GDD 7DD Hz, 12EJD Hz und 2600 - 270D Hz. Ähnliche Phonemdaten 3D für B^ r- S11 können wie nachstehend ersetzt werden:
cl2 a3 aif a5 3G
030034/0820
BAD ORlGiNAL
TER MEER - MÜLLER - STEINMEISTE^
Sharp Ht19-G£R-K
Das Griginal-Sprachujort "nana" kann fünf Grundphonemdaten a1f a„, a , a, und ar umfassen. Die das Üriginal-Sprachuort repräsentierenden Rahmen ü. - Lj, ,, lassen sich folgendermaßen schreiben:
üriginal-
Sprachüjort- Phonemra hm en daten
Modifizierte Ersatz- Driginal-Phanomdnten Sprachmortdaten
In]
[a]
in]
[a]
Γ1
b7 ^ b10
11
12
L - b
'29
_ b
a,
Χ7 ^ Χ10
11
12 Χ13 ~ Χ27
28
Χ29 Χ30 ^ Χ38
48
Mit anderen IJnrten: Das Uriginnl-Liprachwart "nana" ist 2Ll im Speicher HÜH 1 in Form einer Folge vnn Tünf Phonemen
a,, - ar gespeichert. Die gespeicherten Inhalte der Phonem-LuellenzuginFormation sind υοπ Nutzen, tuenn komprimierte Sprache einfach durch Speichern gewählter Abschnitte der Lüellenzuginf Drmation syn thetisicrt iiiird. Die modifizierten Άι:) fir i ηί riril -iiprnnhiotirtr;ihmnti χ - x; iiin rticin riiirnh LiJ ierierhnlung
der Phonemdaten und durch sncligeinälie AnpaDoperationen
030034/0820
BAD ORIGINAL
meer - müller . s τ ε in μ eis te ^ Sharp 1^19-GER-H
erstellt. Beispielsweise können modifizierte Original-Sprachiiiortrahmen durch Ueränderung des Phonems, des Tonhöhenintervalls, der Amplitude, des ZEitachsen-Modifizier-Faktors u.dgl. hergestellt werden.
Die Uriijinril-Ljpradi war LrühniLMi x. - x,. küniien beispielsweise falrienriermaßen fiGschrip.ben iuerden:
X1 ~ F Ca1, P1, S1, t1)
xß ^F (eV V V tG)
Diese Formel ist eine Näherungsqleichung, weil Pegel und Tonhöhe genormt sind. In dieser Formel sind ρ das Tonhühenintervall, s der Ampliturienfaktnr und t der Zeitachsen-I-iodifizieri'iiktov. Uicsu \/nrinhelen befinden sich als i'iomnressianahef ühls—InFn rinn tion im Festspeicher ROM 2 abgespeichert -
Fir).. 3 EHihliülL ihm ;!lcllun;rug Für einon ürunrJlaut. ua^" und l"ig. 'f ein ijuispisl Für Idellenzijfjc x., - x^ , bei denen die Uarionten i-iü.g π, s und t gegenüber dem Gruntilaut- !•Jellenziirj ei,, herücksxch tiijt, sind. Der Pnonem-LJellenzug B1 ist eine Funktion dnr Zeit und läßt sich durch den /\iii|il j LudmrFni; tor (Xn mod i T j ζ lkplmi , αυΓετη y . - yg und a, die na ch stehenden üedingungen er Füll en. Aus dies ein b'rund kann ein ayn thetisnhcr SdE!llenzug in Farm eines dno Phnnem-Llellünzunas erzeugt uerden.
V1 =
2:3 V1. -
I I
1 1
Darin ist Ot^1 üp.t im .Speicher RUH 1 gespeicherte Amplituden-Faktor.
030034/0820 BAD ORIGINAL
IEH MEER - MÜLLER - STEtNMElSTER
Ein wesentliches Merkmal der Erfindung bezieht sich auf die Tatsache, daß die komprimierten synthetischen Wellenzüge durch Anpaßoperatinnen wie Veränderung des Tonhöhenintervalls, Veränderung der Amplitude und Veränderung des 'j Zßitnnhnen-MtJrii Fi ζ VerFnk l;nrfj pv/miiit wnrdnii kiinnen.
Der in Fig. 5 als Blockschaltbild dargestellte erFindungsgernäße Sprachsynthesizer enthält wieder die Gaugruppen CPU, RDM 1 und ΠG.T-2 aus Fig. 1. Ein Adreßzähler ADC 1 1Ü2 gewährt ZuqriFF zu einer rje wünsch ten Adresse im 1LJ Speicher FiUM 2 1Ü3 anhängig von Sprachwurt-Ausgangsbe-Fehlen aus CPU 1Π1. Ein PuFFerregister OUFF 1G'f speichert aus RDM 1 1G^ zugegangene Information zeitweilig. In Abt. f befinden sich das Ende der Inf nrrnati nnskette und das Zugrit'Tnende kennzeichnende Da Leu, und in Abt. r die Anzahl der Wiederholungen der Tonhühenintervalle. Die von Menschen ader Musik instrumenten abgegebenen Töne bestehen im allgemeinen aus Wiederholungen der gleichen Wellenzüge. Töne gleicher Höhe vun Musikinstrumenten haben die gleiche Wellenfarm, und bei den Tonfrequenzen treten die Schuiin-2Ü gungen pro Sekunde zur gleichen Zeit auf. Zwar weist die menschliche Sprache ähnliche Wiederholungen van Wellenzügen auf, jedoch verändern ninh nicht nur die Frequenzen der Hchtiiintiungen, sondern mich dir; Wullnnfnrrnen bei gesprochenen Wörtern. Jedoch können wiederholte iilellenfarmen als gleiche Wellenform betrachtet werden, nur für eine sehr kurze Dauer. Der KornpressionsFaktnr η steht durch Eingabe einer π entsprechenden Information in Speicher ROM 2 zur Verfügung. Der Pufferspeicher 1U't speichert ferner Amplitudeninformation s. Eine gewünschte synthetische Wellenform einer festgelegten 3Q Mehrfachbeziehung wird bereitgestellt durch Multiplizieren der in Fig. 3 und k dargestellten Erundlaut-Wellenzüge mit einem bestimm bun Ampli l'.udenFaktnr. d dient als zeitweilige Information beim sequentiellen oder selektiven Aufrufen der Phoneme aus Speicher RÜM 1. Die gewählte Information wird
050034/0820
•"V-BAD ORIGINAL
TER MEER · MÜLLER ■ STEINMEISTER Sharp 1419-GER-K
-IZ-
durch einen Dekadierer DC. in die führende Adresse dekodiert und in einen anderen Adreßzähler ADC 2 111 eingegeben. Die Information ρ in bezug auf das Tonhöhenbzui. Schüjingungsintervall wird durch einen Dekadierer D.C„ 109 in eine tatsächliche Tonhähenlänge verwandelt und in Gincnmit 113 bezeichneten Zähler CT2 eingegeben. Ein X-Register 1D7 speichert die Amplitudeninformation s, mit welcher die Inhalte eines Y-Registers 117 multipliziert werden, welche* seinerseits die Phoneme enthält, die mittels einer Multiplizierstufe 1 11Θ vom Speicher ROM 1 eingeschoben wurden.
Ein Flip-Flop 105 erkennt die f-Information im vorübergehend speichernden Pufferspeicher 104 und teilt dem Zentralprozessor CPU 101 das Ergebnis mit. Bei f = 1 wird CPU durch Setzen von Flip-Flop 105 informiert, daß dieae Information das Ende der Adreß-Operation bedeutet. Ein Zähler CT 1 1QG zählt die Anzahl der Wiederholungen el , und eine Entscheidungsschaltung J1 110 erkennt, daß der Zählerinhalt von CT1 Null ist. In ähnlicher Weise erkennen Entßcheidungsschaltungen J2 und J3, mit 115 und 116 bezeichnet, uenn Zähler CT2 113 und CT3 114 auf Null sind. Zähler CT3 nimmt die Anzahl IM von Daten auf, weiche die Sprachwellenzüge bilden. Zur Unterdrückung von Störgeräuschen durch Filtereffekte geht der Ausgang der Multiplizierschaltung 118 auch noch in eine Schaltung 119, die eine Rechenstufe 122 zur Errechnung von Zwischenwerten zwischen Pufferregistern Z, T und U sowie Registern Z und T enthält und insbesondere errechnet, was dann in dag
U-Register 123 gegeben wird. Ein üJählgatter G 124 taktet
3D abwechselnd die Inhalte der U- und T-Register mit einer Abtastfrequenz S„ aus. Hierzu näheres weiter unten. Der Ausgang dieses Ixlählgatters G 124 wird über M- und ül-Register 125 und 126 mittels eines Digital/Analogwandlers in einen , Analag-liJellenzug. umgewandelt und durch eine Ausgangsschaltung 120 als Tönsignal abgegeben.
030034/0820
TER MEER · MÜLLER . STEINMEISTSR Sharp Ht19-GER-K
Die ArbeitsuEisE der Schaltung von Fig. 5 uird nachstehend anhand des Flußdiagramms van Fig. 6 erläutert: Bei Abgabe des liJellenzug-Ausgangsbefehls durch CPU 101 (Schritt π.) werden die entsprechenden Register und Flip-Flops mit ihren Ausgangsuerten geladen und die Anfangsadresse zur Auswahl der Ausgangsinformation in den Adreßzähler 102 eingegeben (Schritt n„ und n,). Diese Adresse bietet Zugriff zum Speicher ROM 2 und veranlaßt das Eingeben verschiedener Kompressionsbefehls-Informationen (Schritt n, ) in das zeitweilig speichernde Pufferregister Wk. Die Information r in bezug auf die Zahl der Wiederholungen uird aus Pufferregister 10*t in den Zähler CT. (n,-) und die Amplitudeninformation s in das X-Register 107 (rv) geschoben. Die Information d bezüglich der Phoneme im ROM 1 uird in die führende Adresse von ROM 1 mittels Dekodierer 108 dekodiert und in Schritt n~ in den Adreßzähler AD 2 gegeben. Die Schuingungsinformation ρ uird in eine tatsächliche Schuiingungslänge mittels Dekodierer DC 2 verwandelt und in den Zähler CT 2 gegeben. Die Anzahl N der Daten, welche die Grundtonwellenfarm wiedergeben, wird vom Speicher ROM in den Zähler CT 3 (n„) geschoben. Diese Anzahl π der Daten ist variabel. Jetzt ist der Adreßzähler AD 2 für einen Zugriff zum Speicher KQM 1 zum Speichern der Phoneme bereit,der Ausgang desselben uird in das Y-Register 117 (nqj überführt. Die Multiplizier.stufe 11Ω multipliziert die Inhalte des Y-Registers mit der im X-Register 107 gespeicherten Amplitudeninf ormation und überführt die Ergebnisse über die Stürgeräuschunterdrückerschaltung 119 (".,p) in das V-Register
125. Die übertragung der Inhalte des U-Registers in das üJ-Register 126 erfolgt im Takt der Abtastfrequenz Sf Cn13). Die Inhalte des td-Registers werden durch den D/A-üJandler in einen analogen Llellenzug umgewandelt und über die Ausgangsschaltung 128 Cn1^) nach außen abgegeben. Danach werden die Zähler CT 2 und CT 3 synchron mit der Abtast-
030034/0820
BAD ORIGINAL
TER MEER . MÜLLER - STEINMEISYtP Sharp 1if19-GER-K
frequenz Sf reduziert, und sofern diese Zähler nicht auf Null sind (ihren Nullzustand überwachen die Entscheidungsschaltungen J2 und 33), zählt der Adreßzähler AD2 von n15- n.„ weiter, um Zugriff zum Speicher RDM 1 (η_) zu gewähren und in zuvor beschriebener Weise einen Wellenzug zu erzeugen. Durch Wiederholung der beschriebenen Schritte wird eine Kette von LUellenzügen erzeugt.
Stellt der Zähler CT2 Null (n16) fest, dann wird der Zähler CT1 heruntergezählt (n?n). Solange die Inhalte von Zähler CT1 gemäß Feststellung der Entscheidungsschaltung J1 nicht gleich IMuIl sind, werden die AdreS-zähler AD2 sowie CT2 und CT3 wie beschrieben geladen, um in der Schrittfolge von n„ - π . Wellenzüge zu liefern. Stellt jedoch die Entscheidungaschaltung J3 vor der Entscheidungsschaltung J2 den Null-Wert fest, dann erhält der Adreßzähler AD2 keinen Aufwärtszählbefehl mehr. Adreßzähler AD2 liefert die gleichen Adressen weiter, bis die Entscheidungsschaltung J2 im Zähler CT2 den liiert Null feststellt. Folglich erhält Register W den gleichen
2D Wert zur Erzeugung eines Analog-üJellenzuges über den D/A-Wandler 127 und die Ausgangsschaltung 128. Dieser Uargang läuft bis die Entscheidungsschaltung J1 den Inhalt WuIl bei Zähler CT1 feststellt. Ist dies der Fall Cn„*)r wird beim Pufferregister lük der nächste Ausgangs» zustand gesetzt, falls nicht das Flip-Flop 105 gesetzt ist Cn 2). Mit diesem Inhalt von Flip-Flop 1D5 wird CPU über das Ende der Adreß-Dperation (n-·,) informiert.
Die Schaltung von Fig. 5 läßt sich verschieden abwandeln. Beispielsweise kann auf die Dekokierer DC1 und DC2 in 3Q FIg. 5 verzichtet werden. Statt dessen kann die Übertragung der führenden Adresse und des Adreßumfangs in Speicher RDM2 und der Information d und ρ In den Adreßzähler AD2 und Zähler CT2 vom Pufferregister 10*» direkt erfolgen.
030034/0820 BAD ORIGINAL
TER MEER · MÜLLER . STEINMEISTcR Sharp 1it19-GER-K
Der Speicher ROM 2 1G3 sollte eine große Datenkapazität haben. Beispielsweise liegt bei Männern die Schuingungafrequenz in einem Bereich zwischen 60 und 200 Hz. Bei einer Abtastung mit 10 kHz hat der Ausgang maimal 167 Abfragewerte und benötigt B Bits zur Festlegung. Vorausgesetzt, es gibt mittels Quantisiertechnik 32 mögliche lüerte der Schwingungsfrequenz, dann genügen zur Repräsentation 5 Bits, 3 Bit· können durch Hompressionsbefehle gespart werden.
In Fig. 5 werden die Enddaten nach Abgabe der N-Ausgänge in das Y-Register 117 eingegeben, wenn CT2 >· CT3 ist.
Bei der abgewandelten Ausführung in Fig. 7 gelangt 0 in die Multiplizieratufe 129 nach dem Setzen von J3. Mit anderen Warten: Die aus den Phonemen aus ROM 1 bestehenden Grund-Tonwellenzüge sind in der Tonhöhe festgelegt, jedoch in der Schwingungsfrequenz durch Zugabe von Daten mit einem gegebenen Bias-Pegel variabel. Auf diese Weise wird Speicherkapazität gespart und das Kampressiansverhältnis erhöht.
In Flg. θ kann ein Eingang 3J in ein Tor 129' der Multi-2D plizierstufe 11B eingegeben werden. Die Amplitudeninfdtmation ■ kann entweder gemäß Fig. 5 linear oder gemäß Fig. 9 nicht-linear kontrolliert werden. Im letzteren Fall werden die Inhalte des X-Registers 107 durch den Dekadierer DC 3 13G ausgewertet und in dae Pufferregister 2 131 eingegeben, danach durch die Multiplizierstufe 11Θ multipliziert. Ist beispielsweise i=3 und m=7, dann ergeben sich die Ergebn
n- » 1 - 15 ist.
sich die Ergebnisse von Fig. 10, worin (I,**!*) bei
Die quantisierende Störunterbrückungsschaltung arbeitet folgendermaßen: Im Y-Register sind beispielsweise *> Bits, und in dem die Amplitudenin'formation s enthaltenden X-Regieter 107 3 Bits gespeichert. In diesem Fall sollte
030034/0820
TER MEER ■ MÜLLER · STEINMEISTFR Sharp 1419-GER-K
das von der Multiplizierstufe 118 errechnete Ergebnis mehr als k Bits enthalten. Die möglichen Datenebenen im Y-Register 117 sind 16 (2 ) und die möglichen Vielfachen der Daten im X-Register sind θ (2 ). Es gibt somit 16 χ 8 = 128 mögliche Ausgangspegel aus Multiplizierstufe 118, das erfordert 7 (27 = 128) Bits. Die von der Multiplizierstufe 118 errechneten Resultate sind langer als die Anzahl der Bits des Y-Registers 117 Dadurch ist es möglich, die Grundtonwellenformen im 1ü Speicher RDM 1 in Gestalt einer minimalen Länge won quantisierenden Bits zu speichern, die dann durch die Amplitudeninformation kontrolliert werden. Dabei werden Verzerrungen und Quantisier-Geräusche reduziert.
Qunntisier-Geräuschunterdrückungsschaltung 119 in Fig. 5 enthält Pufferregister Z 12D, T 121 und U 123. Die Schaltung 122 errechnet aus den Inhalten von Z und T s— und aktiviert synchron zur Abtastfrequenz ein Tor
damit das V/-Register 125 abwechselnd die Inhalte der Register U und T erhält.
2Ü Fig. 11 zeigt die Quantisierpegel als Funktion der Abtastzeit. Werden Daten gemäß Fig. 11 (a) in Sequenz von der Multiplizierstufe 118 gewonnen, dann gibt das U-Register 125 in Sequenz Ausgänge gemäß Fig. 11 (c) ab. Die Digital/ Analog-Umwandlung erfolgt zwischen den Abtastzeitpunkten t.f t ... . Zwischen tj-, und t wird ein Quantisierpegel-Durchschnittswert erstellt, und somit liefert das U-Register 123 die in Fig. 11 (b) dargestellten Daten, um abwechselnd Daten aus Fig. 11 (a) und 11 (b) für das V-Regiater 125 auszuwählen, dessen Ausgang Fig. 11 (c) zeigt. Die
3D resultierenden quantisi&rten Daten setzt der D/A-tJandler in einen Analog-Lüellenzug um, dieser üJellenzug wird in der Ausgangsschaltung 128 geglättet, und dabei werden die Störgeräusche durch Quantisierung unterdrückt.
030034/0820

Claims (2)

  1. TER MEER - MÜLLER - STEINMEISTER
    Beim Europäischen Patentamt zugelassene Vertreter Prof. Representatives before the European Patent Office - Mandalalres agr£6s pres !'Office european des brevets
    Dipl.-Chem. Dr. N. ter Meer Dipl.-lng. H. Steinmeister
    Dipl.-lng. F. E. Müller Siekerwall 7
    Triftstrasse 4, bieKerwaii /,
    D-8000 MÖNCHEN 22 D-4800 BIELEFELD
    Case: 1*t19-GER-K 20. Februar 1980
    Mü/Gdt/Th
    SHARP KABUSHIKI KAISHA 22-22 (\lagaike-cho, Abeno-ku, Osaka 545, Japan
    Verfahren und Einrichtung zur Sprachsynthese
    Priorität: 2G. Februar 1979, Japan, IMd. 54-19309
    PA ΙΈΝΐΑΙΜΗΙ-ΨυCHE
    Verfahren zur Sprachsynthese, dadurch gekennzeichnet, daß
    - in einen ersten adressierbaren Speicher eine Phonemen entsprechende digitale Toninformation eingegeben,
    - in einen zweiten Speicher eine Kompressiansbefehlsinformatian zum sequentiellen oder selektiven Abrufen der Phoneme und zur Ausführung υοη Regulieroperationen an aus den Phonemen bestehenden Grund-Tonsignalen in bezug auf Tonhöhenintervall, Amplitude und Zeitachse
    030034/0820
    TER MEER -MÜLLER · STEINMEISTER Sharp 1M9-GER-K
    eingegeben und auf diese Lüeise ein komprimierter synthetisierter Uellenzug im Digitalformat gebildet, - die Durchführung der Regulieroperationen an den aus den Phonemen gebildeten Grund-Tonsignalen unter Verwendung der l'mmpressinnsbefehlsinformation err'ultjt und so aufeinanderfolgend die im üigitalformat komprimierte synthetisierte Signalfarm gebildet, und
    - die auf_^einanderfolgend im Digitalformat komprimierte synthetisierte Signalform in ein Analagsignal umgesetzt
    kierden,
  2. 2. Sprachsynthesizsr,
    π. e k R η π ζ e i π h η e t. durch
    - einen ersten adressierbaren Speicher (RQM 1) zum Speichern einer Phonemen entsprechenden Taninfqrmation in Oigitalfürm,
    - einen zweiten Speicher (ROM 2) zur Speicherung von Kompressionsüefehlsinfarmation für einen sequentiellen oder selektiven Abruf der Phoneme,
    - eine in Abhängigkeit von der hompressiongbefehlsinforrnation an den aus den abgerufenen PhDneman gebil·^ de ten lirunrl-Tonsiqunlen bzüj. -Idellenzügen RegulieroperaLionen in bezug auf Tnnhühenintervall, Amplitude und Zeitachse durchführende und so aufeinanderfolgende im Digitalformat komprimierte synthetisierte Signale bzw. ülellenzürje erzeugende Stufe (Fig.5), und
    - einen Digital/Analag-üJandler (127) zur Umwandlung der aufeinanderfolgend im DigitalfDrmat kamprimiertan synthetisierten Signale in Analog-Signale.
    030034/0820
    ORIGINAL
DE3006339A 1979-02-20 1980-02-20 Sprachsyntesizer Expired DE3006339C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1930979A JPS55111995A (en) 1979-02-20 1979-02-20 Method and device for voice synthesis

Publications (2)

Publication Number Publication Date
DE3006339A1 true DE3006339A1 (de) 1980-08-21
DE3006339C2 DE3006339C2 (de) 1986-08-07

Family

ID=11995810

Family Applications (1)

Application Number Title Priority Date Filing Date
DE3006339A Expired DE3006339C2 (de) 1979-02-20 1980-02-20 Sprachsyntesizer

Country Status (3)

Country Link
US (1) US4716591A (de)
JP (1) JPS55111995A (de)
DE (1) DE3006339C2 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4449231A (en) * 1981-09-25 1984-05-15 Northern Telecom Limited Test signal generator for simulated speech
DE19860133A1 (de) * 1998-12-17 2001-07-12 Cortologic Ag Verfahren und Vorrichtung zur Sprachkompression

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56168698A (en) * 1980-05-29 1981-12-24 Suwa Seikosha Kk Voice synthesizer
JPS5758198A (en) * 1980-09-25 1982-04-07 Suwa Seikosha Kk Voice synthesizer
JPS5767999A (en) * 1980-10-16 1982-04-24 Suwa Seikosha Kk Voide synthesizer
JPS5774795A (en) * 1980-10-28 1982-05-11 Suwa Seikosha Kk Voice synthesizer
US4625286A (en) * 1982-05-03 1986-11-25 Texas Instruments Incorporated Time encoding of LPC roots
JPS6021098A (ja) * 1983-07-15 1985-02-02 沖電気工業株式会社 音声合成方法
JPS6022195A (ja) * 1983-07-18 1985-02-04 沖電気工業株式会社 音声合成方法
US4829473A (en) * 1986-07-18 1989-05-09 Commodore-Amiga, Inc. Peripheral control circuitry for personal computer
JP3361066B2 (ja) 1998-11-30 2003-01-07 松下電器産業株式会社 音声合成方法および装置
ES2319433T3 (es) * 2001-04-24 2009-05-07 Nokia Corporation Procedimientos para cambiar el tamaño de una memoria de almacenamiento temporal de fluctuacion y para el alineamiento temporal, sistema de comunicaciones, fin de la recepcion y transcodificador.
JP6507579B2 (ja) * 2014-11-10 2019-05-08 ヤマハ株式会社 音声合成方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2519483A1 (de) * 1974-11-20 1976-05-26 Forrest Shrago Mozer Verfahren und anordnung zur sprachsynthese

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3588353A (en) * 1968-02-26 1971-06-28 Rca Corp Speech synthesizer utilizing timewise truncation of adjacent phonemes to provide smooth formant transition
US3641496A (en) * 1969-06-23 1972-02-08 Phonplex Corp Electronic voice annunciating system having binary data converted into audio representations
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
JPS5138526B2 (de) * 1971-09-17 1976-10-22
US3982070A (en) * 1974-06-05 1976-09-21 Bell Telephone Laboratories, Incorporated Phase vocoder speech synthesis system
US4076958A (en) * 1976-09-13 1978-02-28 E-Systems, Inc. Signal synthesizer spectrum contour scaler
US4163120A (en) * 1978-04-06 1979-07-31 Bell Telephone Laboratories, Incorporated Voice synthesizer

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2519483A1 (de) * 1974-11-20 1976-05-26 Forrest Shrago Mozer Verfahren und anordnung zur sprachsynthese

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J.L. Flanagan, Speech Analysis Sythesis and Perception, 2. Auflage, Berlin, Heidelberg, New York, 1972, Springer- Verlag, S. 401-405 *
US-Electronics, August 31, 1978, S. 109-116 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4449231A (en) * 1981-09-25 1984-05-15 Northern Telecom Limited Test signal generator for simulated speech
DE19860133A1 (de) * 1998-12-17 2001-07-12 Cortologic Ag Verfahren und Vorrichtung zur Sprachkompression
DE19860133C2 (de) * 1998-12-17 2001-11-22 Cortologic Ag Verfahren und Vorrichtung zur Sprachkompression

Also Published As

Publication number Publication date
DE3006339C2 (de) 1986-08-07
US4716591A (en) 1987-12-29
JPS55111995A (en) 1980-08-29

Similar Documents

Publication Publication Date Title
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE3041423C1 (de) Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals
DE68919637T2 (de) Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen.
DE2945413C1 (de) Verfahren und Vorrichtung zur Synthetisierung von Sprache
DE69032168T2 (de) Dynamisches codebuch zur wirksamen sprachcodierung unter anwendung von algebraischen coden
DE3853916T2 (de) Digitaler-sprachkodierer mit verbesserter vertoranregungsquelle.
DD143970A1 (de) Verfahren und anordnung zur synthese von sprache
DE69832358T2 (de) Verfahren zur Sprachkodierung und -dekodierung
DE2551632C2 (de) Verfahren zum Zusammensetzen von Sprachnachrichten
DE3006339A1 (de) Verfahren und einrichtung zur sprachsynthese
DE2229149A1 (de) Verfahren zur Übertragung von Sprache
DE2115258A1 (de) Sprachsynthese durch Verkettung von in Formant Form codierten Wortern
DE69720861T2 (de) Verfahren zur Tonsynthese
DE9006717U1 (de) Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe von Sprachsignalen
DE3228756A1 (de) Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen
DE3019823C2 (de)
DE1965480A1 (de) Geraet fuer kuenstliche Erzeugung von Worten durch Umwandlung eines in Buchstaben gedruckten Textes in Aussprache
DE69014680T2 (de) Einrichtung zur Stimmensynthese.
DE1811040C3 (de) Anordnung zum Synthetisieren von Sprachsignalen
DE4218623C2 (de) Sprachsynthesizer
DE2649540A1 (de) Verfahren und anordnung zur sprachsynthese
DE2826570C2 (de)
DE3232835C2 (de)
DE3037276A1 (de) Tonsynthesizer
EP0094681B1 (de) Schaltungsanordnung zur elektronischen Sprachsynthese

Legal Events

Date Code Title Description
OAP Request for examination filed
OD Request for examination
D2 Grant after examination
8363 Opposition against the patent
8365 Fully valid after opposition proceedings
8328 Change in the person/name/address of the agent

Free format text: PATENTANWAELTE MUELLER & HOFFMANN, 81667 MUENCHEN