DE3006339A1 - Verfahren und einrichtung zur sprachsynthese - Google Patents
Verfahren und einrichtung zur sprachsyntheseInfo
- Publication number
- DE3006339A1 DE3006339A1 DE19803006339 DE3006339A DE3006339A1 DE 3006339 A1 DE3006339 A1 DE 3006339A1 DE 19803006339 DE19803006339 DE 19803006339 DE 3006339 A DE3006339 A DE 3006339A DE 3006339 A1 DE3006339 A1 DE 3006339A1
- Authority
- DE
- Germany
- Prior art keywords
- phonemes
- memory
- müller
- information
- synthesized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 10
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 title claims description 13
- 230000006835 compression Effects 0.000 claims description 10
- 238000007906 compression Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 4
- 230000001105 regulatory effect Effects 0.000 claims 2
- 238000005744 Teer Meer reaction Methods 0.000 claims 1
- 239000011295 pitch Substances 0.000 description 14
- 101100087530 Caenorhabditis elegans rom-1 gene Proteins 0.000 description 6
- 101100305983 Mus musculus Rom1 gene Proteins 0.000 description 6
- 238000013139 quantization Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 101100517194 Arabidopsis thaliana NRPD4 gene Proteins 0.000 description 1
- 101710096655 Probable acetoacetate decarboxylase 1 Proteins 0.000 description 1
- 101710096660 Probable acetoacetate decarboxylase 2 Proteins 0.000 description 1
- 101100094582 Schizosaccharomyces pombe (strain 972 / ATCC 24843) rum1 gene Proteins 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrophonic Musical Instruments (AREA)
Description
BESCHREIBUNG
Die Erfindung liegt auf dem technischen Gebiet der Sprachsynthese
und betrifft insbesundrirc ein V/erfahren und eine
Einrichtung zur Sythese der Sprache oder anderer komplizierter
UJellenfarmen durch Anwendung einer erst in jüngster Zeit
bekannt gewordenen Digitaltechnik.
Bekanntlich muß ein Sprachsynthesizer, wenn er verständlich sein soll, unbedingt in der Lage sein, die passenden Formantfrequenzen
der ujiederzugegebenen Phoneme zu erzeugen. Bei
Sprachsynthesizern neuerer Bauart werden die Formantfrequenzen
1ü auf folgende Weise erzeugt: Abhängig von dem interessierenden Phonem werden entweder stimmhafte oder stimmlose Laute
elektronisch erzeugt. Diese Erzeugung von Lauten ist durch ein Leistungsspektrum gekennzeichnet, das eine niedrige
untere Grenzfrequenz der Tonhöhenfrequenz aufweist; über der
Tonhöhenfrequenz sinkt die Leistung mit steigender Frequenz. Stimmlose Laute haben ein relativ breitbandiges weißes
Rauschspektrum. Der eine oder andere dieser hJellenzüge passiert
eine Serie von Filtern oder andere elektronische Schaltungen, so daß nur bestimmte interessierende Frequenzen verstärkt
v(j iiiu γιΙγμί . illiur niniMi I au l.:;p n-clif· ι- i.iinl linn vnnulticrendR
Leistungsspektrum der Sprachnhoneme hörbar wiedergegeben.
Derartige Geräte "werden alluemein i/ocoder genannt, und die
als LPC (L_inear Prediction Coding) und PAKCÜH (P_artial
Auto-Correlation) bezeichneten bekannten Codierverfahren
werden üblicherweise in solchen Vocodern angewendet.
In solchen Geräten wird die zur Erzeugung einer Folge oder Kette von Phonemen zur Wiedergabe von Sprache erforderliche
Formantfrequenzinformation allgemein in einer kompletten
Rechnereinheit gespeichert,' die aucli die Lautstärke, Dauer,
030034/0820
BAD ORIGINAL
TER MEER '. M_U^ER:.STEINMEISTE"! Sharp 1419
die stimmhaften und stimmlasen Nuancen u.dgl. bestimmt.
Somit können vorhandene Vocoder zwar eine Vielzahl von
Worten erzeugen, benötigen aber jeweils einen kompletten Rechner und können folglich nicht miniaturisiert werden.
Lj In jüngster Zeit ist ein Sprachsynthesizer nach einem
neuen Konzept und ohne Anwendung von Vocoder-Techniken vorgestellt morden, um die bekannten Probleme zu umgehen.
Darin sind eine neu entwickelte und eine bekannte Kompressionstechnik
kombiniert worden, um die Information erkennbar zu IU komprimieren und dabei möglichst wenig Sprachverständlichkeit
zu verlieren.
Diese Technik kann den JP-üSen 5rJ2G7/1976 und 122DG4/1977
entnunirnen werden, üei diesen Geräten werden quantisierte
Signale und Kompressionsbefehlssignale in einem Speicher
eines Halbleiter-Sprachsynthesizers gespeichert, und ferner werden ausgewählte Abschnitte komplizierter Tonschwingungen
in dem Synthesizer gespeichert, um selektiv die quantisierten
und komprimierten Signale und die Kompressionsbefehle
zum Zwecke der Re-Synthese aufzusuchen.
2U Der Erfindung liegt die Aufgabe zugrunde, dem Stand der
Technik üherlegfinc und für eiiiH Mininturisierung geeignete
Verfahren und Einrichtungen zur Sprachsynthese aufzuzeigen.
Die erfindungsgemäße Lösung der gestellten Aufgabe ist
verfahrensseitig im Patentanspruch 1 und einrichtungsseitig
im Patentanspruch 2 angegeben. Vorteilhafte Weiterbildungen
des Erfindungsgedankens sind in der nachstehenden Figurenbeschreibung
enthalten.
Durch Anwendung der LrF.i nilung kann die herkömmliche Vocoder-Technik
vermieden und die vorhandene Speicherkapazität durch 3Ü eine besondere und wirksame Kombination moderner Kompressiona-
030034/0820
BAD ORIGINAL
TER MEER - MÜLLER - STElNMEISTEn Sharp 1MS)
technik mit einer zeitbewerteten Kampressionstechnik auf
ein Minimum reduziert. Erfindungsgemäß kann die Information
so weit komprimiert werden, daß sie sich auf einem einzigen integrierten LSI-Schaltunqs-ühip ahne Beeinträchtigung der
üprachverständlichkeit und der t. iqennrt, de·ν Üriqinal-lnf ormation
speichern läßt.
Erfindungsgemäß werden Phoneme oder eine Serie von Phonemen
in SequEnz oder selektiv; van dem Speicher aufgerufen und
einer Veränderung oder Regulierung in bezug auf eine Änderung 1ü des Tonhöhenintervalls, der Amplituden und der Zeitachse
in Relation zu dem aus den aufgerufenen Phonemen gebildeten Grund-Tonsignalen unterzogen. Auf diese Weise werden komprimierte
syn thetisierte Idellenzüqe in Digitalfarm gebildet.
Der erfindungsqemäße Sprachsyntheoizer eignet sich für viele
Anwendungen, beispielsweise zur akustischen Angabe der Ergebnisse eines elektronischen Rechners, dessen Bediener
sich auf andere Arbeit konzentrieren kann, ader für solche Fälle, bei denen Instrumente schwierig ablesbar sind. Sd
kann der Synthesizer beispielsweise einem Fahrer die Fahr-
2U geschwindigkeit mitteilen, einem Techniker die Spannung an
einem bestimmten Schaltungspunkt nennen, den Qediener einer
Hräzisions-üJerkziiugmaschint! miL Informationen beliefern
u.dgl. Er eignet sich auch als Ersatz für die visuelle Ablesung elektronischer Uhren oder zur Übermittlung van
Sprachnachrichten unter bestimmLen Umständen. Ferner könnte
der Synthesizer im Fahrzeug über das Fahren mit angezogener Handbremse oder nicht-angelegtem Gurt informieren, Qder
die Uerständigung zwischen Camputer und Mensch erleichtern
ader als Interface zwischen Bediener und Mechanismen wie
3U ürucktastentelefanen, Fahrstühlen, Geschirrspülern u.dgl.
diunen.
030034/0820
—BAD ORIGINAL
—BAD ORIGINAL
der erfindungsgemäße Sprachsynthesizer kann sehr kompakt
aufgebaut und mit einer stark reduzierten Speicherkapazität betrieben werden. Dabei wird überwiegend Digitaltechnik
angewandt.
Nachstehend wird ein die Merkmale der Erfindung aufweisendes
Ausführungsbeispiel unter Bezugnahme auf eine Zeichnung
näher erläutert. Es zeigen:
Fig. 1 ein vereinfachtes Blockschaltbild eines
erfindungsyernäßen Sprachsynthesizers,
1(j Fig. 2 eine grafische Darstellung mit dem Frequenzverlauf
analoger elektrischer Signale, die das ijJort "nana" (die Zahl "sieben" auf japanisch)
repräsentieren,
Fig. 3 einen liJellenzuq eines Grundlautes "a.",
1t. Fig. U einen LJellenzug x. - Χρ. unter Einbeziehung
variabler Faktoren bezuglich des Grundlautes,
Fig. 5 ein weiter unterteiltes Blockschaltbild des
Sprachsynthesizers von Fig. 1,
Fig. 6 ein Flußdiagrmm zum Betriebsablauf der Einrich-2U
tung von Fig. 5,
Fig. 7 bis 1Ü Abwandlungen der Einrichtung von Fig. 5,
und
Fig.11 grafische Dars bellungen von fjuantitativebenen
zum Zeitpunkt ihrer Erfassung.
pi) Das nachstehend beschriebene Ausführungsbeispiel eines
erfinriungsgemäßen Sprachsynthesizers ist gemäß Fig. 1 grab
in sieben Blöcke unterteilt: Einen Zentralprozessor CPU 1 zur sequentiellen Steuerungdes gesamten Systems nach gewählten
Befehlen, einen Festspeicher RDM 1 (=Read Only Memory)
3(j in einem Gluck 2 zur Speicherung von Phonemen oder Lauten
Ii κ ui. Liii.ii".ruli]tm in D i i| i. bri.1 Γ rinn und zur Wiedergabe nachstehend
beschriebener grundlegender Tonwellenzüge, einen dritten ■ Block 3 mit einem Festspeicher KUH 2 zum Speichern einer
030034/0820
BAD ORIGINAL
TER MEER - MÜLLER - STEINMEISTE ^ Sharp ILiISSER-V1
weiter unten als "riarnpressionsberehls-Information" bezeichneten
Digitalinformation zur Durchführung verschiedener
Anpassungsoperatianen wie Uerünrierung der Tunhühenintervalle,
Amplitudenänderungen, üiuiierholunn von Tcmhühenintervallen
und Änderung der Zeitachsti* Eine nls iilock U bezeichnete
Uiedergabestuf'D bildet aui'ijrund dur in Ulück 3 erfolgten
Anpassung entsprechende digital synthetisierte !jJellenzüge,
ein Pufferspeicher in Lllock 5 dient der vorübergehenden
Speicherung und ein Übertrager in Ulock G der Übertragung
1ü der synthetisierten liJellenzüge unter Abschwächung von Verzerrungen
und quantisiertem Hauschen durch Filtereffekte.
Ein Digital/Analogwandler 7 im letzten Block setzt die digital synthetisierten üJellenzüqe in entsprechende analoge
liiellenzüge um.
Der Zentralprozessor CPLJ 1 gibt eine Reihe von Befehlen für
zu erzeugende sprachliche fJachri chtungen vor, die in ausgewählte
Adressen des Festspeichers RUM 2 in Block 3 gelangen, um daraus gewünschte Kompressionsbefehls-Informatian abzurufen,
welche es ermöglicht, die der Reihe nach ader
2G selektiv aus dem ROM 1 und der uJiedergabestufε k abgerufenen
Phoneme oder Laute der zuvor erwähnten Ueränderungsaperationen an den Grundlauten zu unterziehen, welche aus den abgerufenen
Phonemen bestehen.
Bei der erfindungsgemäßen Synthetisier-Methode existiert
der Steuerspeicher RUM1 unabhängig van dem Speicher RDM 1
zur Speicherung der Lnute, welche die lilellenzüge der Grundlaute bilden. Mit anderen lüorten: Im Steuerspeicher ROM 1
sind verschiedene Knntrallinformatianen gespeichert, welche
den Tonhöhenintervallen, Amplituden und der Anzahl van
3ü Wiederholungen entsprechen. Es ist erwünscht, daß die Phoneme mit .ί^1ι1βϊ·]-Ξ einer mijr|lir.hst kleinen Anzahl von
Uits gespeichert werden.
030034/0820
BAD ORIGINAL
TER MEtR - MÜLLER . STEINMEISTE1^ ShBTD 1^19-GER-K
Nachstehend werden rÜG im Speicher gespeicherten Phoneme,
die Informationsstruktür dar einzelnen Phoneme und die
verschiedenen Anpassungsoperationen beschrieben.
In Fig. 2 ist grafisch der FrequenzverlauF des analogen
1J elektrischen Signals für tJie liürljare Wiedergabe des Wortes
"nana" (die Zahl "sieben" auf japanisch) in Abhängigkeit
van der Zeit und mit ersten bis dritten Farmantfrequenzen
als Parameter aufgetragen. Es besteht die Möglichkeit zur
Gewinnung eines dynamischen Sprnchspektrums durch Fourier-
1ü Umsetzuny der Uriqinal-Snrnchinfnrmation mittels eines
bekannten Spektrum-Analysatnrs. Die ursprüngliche Toninformation
wird durch die Intensität der entsprechenden Frequenzen des üriginaltones wiedergegeben. Es gibt bestimmte
Fnrninn t-Frequenzen mit pntsprenhenrlen Rahmen
Vj (Tonhöhen) der resultierenden Üriyinal-Tpninformation.
!Jie eingangs erwähnt bildet die Erzeugung der richtigen Farmant-Frequenzen der Phoneme die wichtigste Voraussetzung
für eine intelligente akustische Synthese.
In Fig. 2 sind die erste, zweite und dritte Formant-Frequenz
ZU des (Ir igin-i]-SprHchwnrtes "nana" aufgetragen, welches insgesamt
in Uli Rahmen b. - Li, „ unterteilt ist. Die an die
nii hfifmuilirü'irliMi Hnlimmi Ij1 -h. π r ι r j γϊ 11 ü' ι ρ r t. e Frequenz, welche
das Lrriginnl-Sprnchwor t repräsentiert, kann als Kette von
elf Plinneinrlaten π,-a definiert werden. Die erste Formant-Frequenz
entspricht den verbundenen Daten s. und a bzw. dem
Phonem "n" von etiiia ZOÜ - 3ÜD Hz, und die zweite Formant-Frequenz
betrögt etwa 4DLj - 50Π Hz. Die erste, zweite und
dritte Formant-Frequenz für das Phonem "a" betragen GDD 7DD Hz, 12EJD Hz und 2600 - 270D Hz. Ähnliche Phonemdaten
3D für B^ r- S11 können wie nachstehend ersetzt werden:
cl2 a3 aif a5 3G
030034/0820
BAD ORlGiNAL
Sharp Ht19-G£R-K
Das Griginal-Sprachujort "nana" kann fünf Grundphonemdaten
a1f a„, a , a, und ar umfassen. Die das Üriginal-Sprachuort
repräsentierenden Rahmen ü. - Lj, ,, lassen sich folgendermaßen
schreiben:
üriginal-
Sprachüjort- Phonemra
hm en daten
Modifizierte
Ersatz- Driginal-Phanomdnten
Sprachmortdaten
1Ü
In]
[a]
in]
[a]
Γ1
b7 ^ b10
11
12
L - b
'29
_ b
a,
Χ7 ^ Χ10
11
12 Χ13 ~ Χ27
28
Χ29 Χ30 ^ Χ38
48
Mit anderen IJnrten: Das Uriginnl-Liprachwart "nana" ist
2Ll im Speicher HÜH 1 in Form einer Folge vnn Tünf Phonemen
a,, - ar gespeichert. Die gespeicherten Inhalte der Phonem-LuellenzuginFormation
sind υοπ Nutzen, tuenn komprimierte
Sprache einfach durch Speichern gewählter Abschnitte der Lüellenzuginf Drmation syn thetisicrt iiiird. Die modifizierten
Άι:) fir i ηί riril -iiprnnhiotirtr;ihmnti χ - x; iiin rticin riiirnh LiJ ierierhnlung
der Phonemdaten und durch sncligeinälie AnpaDoperationen
030034/0820
BAD ORIGINAL
meer - müller . s τ ε in μ eis te ^ Sharp 1^19-GER-H
erstellt. Beispielsweise können modifizierte Original-Sprachiiiortrahmen
durch Ueränderung des Phonems, des Tonhöhenintervalls,
der Amplitude, des ZEitachsen-Modifizier-Faktors
u.dgl. hergestellt werden.
Die Uriijinril-Ljpradi war LrühniLMi x. - x,. küniien beispielsweise
falrienriermaßen fiGschrip.ben iuerden:
X1 ~ F Ca1, P1, S1, t1)
xß ^F (eV V V tG)
Diese Formel ist eine Näherungsqleichung, weil Pegel und Tonhöhe genormt sind. In dieser Formel sind ρ das Tonhühenintervall,
s der Ampliturienfaktnr und t der Zeitachsen-I-iodifizieri'iiktov.
Uicsu \/nrinhelen befinden sich als
i'iomnressianahef ühls—InFn rinn tion im Festspeicher ROM 2
abgespeichert -
Fir).. 3 EHihliülL ihm ;!lcllun;rug Für einon ürunrJlaut. ua^" und
l"ig. 'f ein ijuispisl Für Idellenzijfjc x., - x^ , bei denen
die Uarionten i-iü.g π, s und t gegenüber dem Gruntilaut-
!•Jellenziirj ei,, herücksxch tiijt, sind. Der Pnonem-LJellenzug
B1 ist eine Funktion dnr Zeit und läßt sich durch den
/\iii|il j LudmrFni; tor (Xn mod i T j ζ lkplmi , αυΓετη y . - yg und
a, die na ch stehenden üedingungen er Füll en. Aus dies ein
b'rund kann ein ayn thetisnhcr SdE!llenzug in Farm eines
dno Phnnem-Llellünzunas erzeugt uerden.
V1 =
2:3 V1. -
I I
1 1
Darin ist Ot^1 üp.t im .Speicher RUH 1 gespeicherte Amplituden-Faktor.
030034/0820 BAD ORIGINAL
Ein wesentliches Merkmal der Erfindung bezieht sich auf
die Tatsache, daß die komprimierten synthetischen Wellenzüge durch Anpaßoperatinnen wie Veränderung des Tonhöhenintervalls,
Veränderung der Amplitude und Veränderung des 'j Zßitnnhnen-MtJrii Fi ζ VerFnk l;nrfj pv/miiit wnrdnii kiinnen.
Der in Fig. 5 als Blockschaltbild dargestellte erFindungsgernäße
Sprachsynthesizer enthält wieder die Gaugruppen CPU, RDM 1 und ΠG.T-2 aus Fig. 1. Ein Adreßzähler ADC 1
1Ü2 gewährt ZuqriFF zu einer rje wünsch ten Adresse im
1LJ Speicher FiUM 2 1Ü3 anhängig von Sprachwurt-Ausgangsbe-Fehlen
aus CPU 1Π1. Ein PuFFerregister OUFF 1G'f speichert
aus RDM 1 1G^ zugegangene Information zeitweilig. In Abt. f
befinden sich das Ende der Inf nrrnati nnskette und das
Zugrit'Tnende kennzeichnende Da Leu, und in Abt. r die Anzahl
der Wiederholungen der Tonhühenintervalle. Die von Menschen
ader Musik instrumenten abgegebenen Töne bestehen im allgemeinen
aus Wiederholungen der gleichen Wellenzüge. Töne
gleicher Höhe vun Musikinstrumenten haben die gleiche
Wellenfarm, und bei den Tonfrequenzen treten die Schuiin-2Ü
gungen pro Sekunde zur gleichen Zeit auf. Zwar weist die menschliche Sprache ähnliche Wiederholungen van Wellenzügen
auf, jedoch verändern ninh nicht nur die Frequenzen der
Hchtiiintiungen, sondern mich dir; Wullnnfnrrnen bei gesprochenen
Wörtern. Jedoch können wiederholte iilellenfarmen als gleiche
Wellenform betrachtet werden, nur für eine sehr kurze Dauer. Der KornpressionsFaktnr η steht durch Eingabe einer π entsprechenden
Information in Speicher ROM 2 zur Verfügung. Der Pufferspeicher 1U't speichert ferner Amplitudeninformation
s. Eine gewünschte synthetische Wellenform einer festgelegten 3Q Mehrfachbeziehung wird bereitgestellt durch Multiplizieren
der in Fig. 3 und k dargestellten Erundlaut-Wellenzüge mit
einem bestimm bun Ampli l'.udenFaktnr. d dient als zeitweilige
Information beim sequentiellen oder selektiven Aufrufen der Phoneme aus Speicher RÜM 1. Die gewählte Information wird
050034/0820
•"V-BAD ORIGINAL
TER MEER · MÜLLER ■ STEINMEISTER Sharp 1419-GER-K
-IZ-
durch einen Dekadierer DC. in die führende Adresse
dekodiert und in einen anderen Adreßzähler ADC 2 111
eingegeben. Die Information ρ in bezug auf das Tonhöhenbzui.
Schüjingungsintervall wird durch einen Dekadierer D.C„ 109 in eine tatsächliche Tonhähenlänge verwandelt
und in Gincnmit 113 bezeichneten Zähler CT2 eingegeben.
Ein X-Register 1D7 speichert die Amplitudeninformation s,
mit welcher die Inhalte eines Y-Registers 117 multipliziert werden, welche* seinerseits die Phoneme enthält, die mittels
einer Multiplizierstufe 1 11Θ vom Speicher ROM 1 eingeschoben
wurden.
Ein Flip-Flop 105 erkennt die f-Information im vorübergehend
speichernden Pufferspeicher 104 und teilt dem
Zentralprozessor CPU 101 das Ergebnis mit. Bei f = 1 wird
CPU durch Setzen von Flip-Flop 105 informiert, daß dieae Information das Ende der Adreß-Operation bedeutet. Ein
Zähler CT 1 1QG zählt die Anzahl der Wiederholungen el ,
und eine Entscheidungsschaltung J1 110 erkennt, daß der
Zählerinhalt von CT1 Null ist. In ähnlicher Weise erkennen Entßcheidungsschaltungen J2 und J3, mit 115 und 116 bezeichnet,
uenn Zähler CT2 113 und CT3 114 auf Null sind.
Zähler CT3 nimmt die Anzahl IM von Daten auf, weiche die Sprachwellenzüge bilden. Zur Unterdrückung von Störgeräuschen
durch Filtereffekte geht der Ausgang der Multiplizierschaltung
118 auch noch in eine Schaltung 119, die eine Rechenstufe 122 zur Errechnung von Zwischenwerten zwischen
Pufferregistern Z, T und U sowie Registern Z und T enthält
und insbesondere errechnet, was dann in dag
U-Register 123 gegeben wird. Ein üJählgatter G 124 taktet
3D abwechselnd die Inhalte der U- und T-Register mit einer Abtastfrequenz S„ aus. Hierzu näheres weiter unten. Der
Ausgang dieses Ixlählgatters G 124 wird über M- und ül-Register
125 und 126 mittels eines Digital/Analogwandlers in einen ,
Analag-liJellenzug. umgewandelt und durch eine Ausgangsschaltung
120 als Tönsignal abgegeben.
030034/0820
TER MEER · MÜLLER . STEINMEISTSR Sharp Ht19-GER-K
Die ArbeitsuEisE der Schaltung von Fig. 5 uird nachstehend
anhand des Flußdiagramms van Fig. 6 erläutert: Bei Abgabe des liJellenzug-Ausgangsbefehls durch CPU 101
(Schritt π.) werden die entsprechenden Register und
Flip-Flops mit ihren Ausgangsuerten geladen und die Anfangsadresse zur Auswahl der Ausgangsinformation in
den Adreßzähler 102 eingegeben (Schritt n„ und n,).
Diese Adresse bietet Zugriff zum Speicher ROM 2 und veranlaßt das Eingeben verschiedener Kompressionsbefehls-Informationen
(Schritt n, ) in das zeitweilig speichernde Pufferregister Wk. Die Information r in bezug auf die
Zahl der Wiederholungen uird aus Pufferregister 10*t
in den Zähler CT. (n,-) und die Amplitudeninformation s
in das X-Register 107 (rv) geschoben. Die Information d
bezüglich der Phoneme im ROM 1 uird in die führende Adresse von ROM 1 mittels Dekodierer 108 dekodiert und
in Schritt n~ in den Adreßzähler AD 2 gegeben. Die Schuingungsinformation ρ uird in eine tatsächliche
Schuiingungslänge mittels Dekodierer DC 2 verwandelt und
in den Zähler CT 2 gegeben. Die Anzahl N der Daten, welche
die Grundtonwellenfarm wiedergeben, wird vom Speicher ROM
in den Zähler CT 3 (n„) geschoben. Diese Anzahl π der Daten
ist variabel. Jetzt ist der Adreßzähler AD 2 für einen
Zugriff zum Speicher KQM 1 zum Speichern der Phoneme bereit,der
Ausgang desselben uird in das Y-Register 117 (nqj überführt.
Die Multiplizier.stufe 11Ω multipliziert die Inhalte des Y-Registers mit der im X-Register 107 gespeicherten Amplitudeninf
ormation und überführt die Ergebnisse über die
Stürgeräuschunterdrückerschaltung 119 (".,p) in das V-Register
125. Die übertragung der Inhalte des U-Registers in das
üJ-Register 126 erfolgt im Takt der Abtastfrequenz Sf Cn13).
Die Inhalte des td-Registers werden durch den D/A-üJandler
in einen analogen Llellenzug umgewandelt und über die Ausgangsschaltung
128 Cn1^) nach außen abgegeben. Danach
werden die Zähler CT 2 und CT 3 synchron mit der Abtast-
030034/0820
BAD ORIGINAL
TER MEER . MÜLLER - STEINMEISYtP Sharp 1if19-GER-K
frequenz Sf reduziert, und sofern diese Zähler nicht
auf Null sind (ihren Nullzustand überwachen die Entscheidungsschaltungen
J2 und 33), zählt der Adreßzähler AD2 von n15- n.„ weiter, um Zugriff zum Speicher RDM 1
(η_) zu gewähren und in zuvor beschriebener Weise einen
Wellenzug zu erzeugen. Durch Wiederholung der beschriebenen Schritte wird eine Kette von LUellenzügen erzeugt.
Stellt der Zähler CT2 Null (n16) fest, dann wird der
Zähler CT1 heruntergezählt (n?n). Solange die Inhalte
von Zähler CT1 gemäß Feststellung der Entscheidungsschaltung J1 nicht gleich IMuIl sind, werden die AdreS-zähler
AD2 sowie CT2 und CT3 wie beschrieben geladen, um in der Schrittfolge von n„ - π . Wellenzüge zu
liefern. Stellt jedoch die Entscheidungaschaltung J3
vor der Entscheidungsschaltung J2 den Null-Wert fest,
dann erhält der Adreßzähler AD2 keinen Aufwärtszählbefehl
mehr. Adreßzähler AD2 liefert die gleichen Adressen weiter, bis die Entscheidungsschaltung J2 im Zähler CT2 den liiert
Null feststellt. Folglich erhält Register W den gleichen
2D Wert zur Erzeugung eines Analog-üJellenzuges über den
D/A-Wandler 127 und die Ausgangsschaltung 128. Dieser
Uargang läuft bis die Entscheidungsschaltung J1 den
Inhalt WuIl bei Zähler CT1 feststellt. Ist dies der Fall
Cn„*)r wird beim Pufferregister lük der nächste Ausgangs»
zustand gesetzt, falls nicht das Flip-Flop 105 gesetzt ist Cn 2). Mit diesem Inhalt von Flip-Flop 1D5 wird CPU
über das Ende der Adreß-Dperation (n-·,) informiert.
Die Schaltung von Fig. 5 läßt sich verschieden abwandeln.
Beispielsweise kann auf die Dekokierer DC1 und DC2 in 3Q FIg. 5 verzichtet werden. Statt dessen kann die Übertragung
der führenden Adresse und des Adreßumfangs in Speicher RDM2 und der Information d und ρ In den Adreßzähler AD2 und
Zähler CT2 vom Pufferregister 10*» direkt erfolgen.
030034/0820 BAD ORIGINAL
TER MEER · MÜLLER . STEINMEISTcR Sharp 1it19-GER-K
Der Speicher ROM 2 1G3 sollte eine große Datenkapazität
haben. Beispielsweise liegt bei Männern die Schuingungafrequenz
in einem Bereich zwischen 60 und 200 Hz. Bei einer Abtastung mit 10 kHz hat der Ausgang maimal 167 Abfragewerte
und benötigt B Bits zur Festlegung. Vorausgesetzt,
es gibt mittels Quantisiertechnik 32 mögliche lüerte der
Schwingungsfrequenz, dann genügen zur Repräsentation 5 Bits,
3 Bit· können durch Hompressionsbefehle gespart werden.
In Fig. 5 werden die Enddaten nach Abgabe der N-Ausgänge
in das Y-Register 117 eingegeben, wenn CT2
>· CT3 ist.
Bei der abgewandelten Ausführung in Fig. 7 gelangt 0 in
die Multiplizieratufe 129 nach dem Setzen von J3. Mit
anderen Warten: Die aus den Phonemen aus ROM 1 bestehenden Grund-Tonwellenzüge sind in der Tonhöhe festgelegt, jedoch
in der Schwingungsfrequenz durch Zugabe von Daten mit
einem gegebenen Bias-Pegel variabel. Auf diese Weise
wird Speicherkapazität gespart und das Kampressiansverhältnis
erhöht.
In Flg. θ kann ein Eingang 3J in ein Tor 129' der Multi-2D
plizierstufe 11B eingegeben werden. Die Amplitudeninfdtmation
■ kann entweder gemäß Fig. 5 linear oder gemäß
Fig. 9 nicht-linear kontrolliert werden. Im letzteren Fall werden die Inhalte des X-Registers 107 durch den Dekadierer
DC 3 13G ausgewertet und in dae Pufferregister 2 131 eingegeben,
danach durch die Multiplizierstufe 11Θ multipliziert.
Ist beispielsweise i=3 und m=7, dann ergeben sich die Ergebn
n- » 1 - 15 ist.
n- » 1 - 15 ist.
sich die Ergebnisse von Fig. 10, worin (I,**!*) bei
Die quantisierende Störunterbrückungsschaltung arbeitet
folgendermaßen: Im Y-Register sind beispielsweise *>
Bits, und in dem die Amplitudenin'formation s enthaltenden
X-Regieter 107 3 Bits gespeichert. In diesem Fall sollte
030034/0820
TER MEER ■ MÜLLER · STEINMEISTFR Sharp 1419-GER-K
das von der Multiplizierstufe 118 errechnete Ergebnis
mehr als k Bits enthalten. Die möglichen Datenebenen
im Y-Register 117 sind 16 (2 ) und die möglichen Vielfachen
der Daten im X-Register sind θ (2 ). Es gibt
somit 16 χ 8 = 128 mögliche Ausgangspegel aus Multiplizierstufe
118, das erfordert 7 (27 = 128) Bits. Die von der Multiplizierstufe 118 errechneten Resultate
sind langer als die Anzahl der Bits des Y-Registers 117
Dadurch ist es möglich, die Grundtonwellenformen im
1ü Speicher RDM 1 in Gestalt einer minimalen Länge won quantisierenden Bits zu speichern, die dann durch die
Amplitudeninformation kontrolliert werden. Dabei werden
Verzerrungen und Quantisier-Geräusche reduziert.
Qunntisier-Geräuschunterdrückungsschaltung 119
in Fig. 5 enthält Pufferregister Z 12D, T 121 und U 123.
Die Schaltung 122 errechnet aus den Inhalten von Z und T s— und aktiviert synchron zur Abtastfrequenz ein Tor
damit das V/-Register 125 abwechselnd die Inhalte der Register U und T erhält.
2Ü Fig. 11 zeigt die Quantisierpegel als Funktion der Abtastzeit.
Werden Daten gemäß Fig. 11 (a) in Sequenz von der Multiplizierstufe 118 gewonnen, dann gibt das U-Register
125 in Sequenz Ausgänge gemäß Fig. 11 (c) ab. Die Digital/ Analog-Umwandlung erfolgt zwischen den Abtastzeitpunkten
t.f t ... . Zwischen tj-, und t wird ein Quantisierpegel-Durchschnittswert
erstellt, und somit liefert das U-Register 123 die in Fig. 11 (b) dargestellten Daten, um abwechselnd
Daten aus Fig. 11 (a) und 11 (b) für das V-Regiater 125
auszuwählen, dessen Ausgang Fig. 11 (c) zeigt. Die
3D resultierenden quantisi&rten Daten setzt der D/A-tJandler
in einen Analog-Lüellenzug um, dieser üJellenzug wird in der
Ausgangsschaltung 128 geglättet, und dabei werden die Störgeräusche durch Quantisierung unterdrückt.
030034/0820
Claims (2)
- TER MEER - MÜLLER - STEINMEISTERBeim Europäischen Patentamt zugelassene Vertreter Prof. Representatives before the European Patent Office - Mandalalres agr£6s pres !'Office european des brevetsDipl.-Chem. Dr. N. ter Meer Dipl.-lng. H. SteinmeisterDipl.-lng. F. E. Müller Siekerwall 7Triftstrasse 4, bieKerwaii /,D-8000 MÖNCHEN 22 D-4800 BIELEFELDCase: 1*t19-GER-K 20. Februar 1980Mü/Gdt/ThSHARP KABUSHIKI KAISHA 22-22 (\lagaike-cho, Abeno-ku, Osaka 545, JapanVerfahren und Einrichtung zur SprachsynthesePriorität: 2G. Februar 1979, Japan, IMd. 54-19309PA ΙΈΝΐΑΙΜΗΙ-ΨυCHEVerfahren zur Sprachsynthese, dadurch gekennzeichnet, daß- in einen ersten adressierbaren Speicher eine Phonemen entsprechende digitale Toninformation eingegeben,- in einen zweiten Speicher eine Kompressiansbefehlsinformatian zum sequentiellen oder selektiven Abrufen der Phoneme und zur Ausführung υοη Regulieroperationen an aus den Phonemen bestehenden Grund-Tonsignalen in bezug auf Tonhöhenintervall, Amplitude und Zeitachse030034/0820TER MEER -MÜLLER · STEINMEISTER Sharp 1M9-GER-Keingegeben und auf diese Lüeise ein komprimierter synthetisierter Uellenzug im Digitalformat gebildet, - die Durchführung der Regulieroperationen an den aus den Phonemen gebildeten Grund-Tonsignalen unter Verwendung der l'mmpressinnsbefehlsinformation err'ultjt und so aufeinanderfolgend die im üigitalformat komprimierte synthetisierte Signalfarm gebildet, und- die auf_^einanderfolgend im Digitalformat komprimierte synthetisierte Signalform in ein Analagsignal umgesetztkierden,
- 2. Sprachsynthesizsr,π. e k R η π ζ e i π h η e t. durch- einen ersten adressierbaren Speicher (RQM 1) zum Speichern einer Phonemen entsprechenden Taninfqrmation in Oigitalfürm,- einen zweiten Speicher (ROM 2) zur Speicherung von Kompressionsüefehlsinfarmation für einen sequentiellen oder selektiven Abruf der Phoneme,- eine in Abhängigkeit von der hompressiongbefehlsinforrnation an den aus den abgerufenen PhDneman gebil·^ de ten lirunrl-Tonsiqunlen bzüj. -Idellenzügen RegulieroperaLionen in bezug auf Tnnhühenintervall, Amplitude und Zeitachse durchführende und so aufeinanderfolgende im Digitalformat komprimierte synthetisierte Signale bzw. ülellenzürje erzeugende Stufe (Fig.5), und- einen Digital/Analag-üJandler (127) zur Umwandlung der aufeinanderfolgend im DigitalfDrmat kamprimiertan synthetisierten Signale in Analog-Signale.030034/0820ORIGINAL
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1930979A JPS55111995A (en) | 1979-02-20 | 1979-02-20 | Method and device for voice synthesis |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3006339A1 true DE3006339A1 (de) | 1980-08-21 |
DE3006339C2 DE3006339C2 (de) | 1986-08-07 |
Family
ID=11995810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3006339A Expired DE3006339C2 (de) | 1979-02-20 | 1980-02-20 | Sprachsyntesizer |
Country Status (3)
Country | Link |
---|---|
US (1) | US4716591A (de) |
JP (1) | JPS55111995A (de) |
DE (1) | DE3006339C2 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4449231A (en) * | 1981-09-25 | 1984-05-15 | Northern Telecom Limited | Test signal generator for simulated speech |
DE19860133A1 (de) * | 1998-12-17 | 2001-07-12 | Cortologic Ag | Verfahren und Vorrichtung zur Sprachkompression |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56168698A (en) * | 1980-05-29 | 1981-12-24 | Suwa Seikosha Kk | Voice synthesizer |
JPS5758198A (en) * | 1980-09-25 | 1982-04-07 | Suwa Seikosha Kk | Voice synthesizer |
JPS5767999A (en) * | 1980-10-16 | 1982-04-24 | Suwa Seikosha Kk | Voide synthesizer |
JPS5774795A (en) * | 1980-10-28 | 1982-05-11 | Suwa Seikosha Kk | Voice synthesizer |
US4625286A (en) * | 1982-05-03 | 1986-11-25 | Texas Instruments Incorporated | Time encoding of LPC roots |
JPS6021098A (ja) * | 1983-07-15 | 1985-02-02 | 沖電気工業株式会社 | 音声合成方法 |
JPS6022195A (ja) * | 1983-07-18 | 1985-02-04 | 沖電気工業株式会社 | 音声合成方法 |
US4829473A (en) * | 1986-07-18 | 1989-05-09 | Commodore-Amiga, Inc. | Peripheral control circuitry for personal computer |
JP3361066B2 (ja) | 1998-11-30 | 2003-01-07 | 松下電器産業株式会社 | 音声合成方法および装置 |
ES2319433T3 (es) * | 2001-04-24 | 2009-05-07 | Nokia Corporation | Procedimientos para cambiar el tamaño de una memoria de almacenamiento temporal de fluctuacion y para el alineamiento temporal, sistema de comunicaciones, fin de la recepcion y transcodificador. |
JP6507579B2 (ja) * | 2014-11-10 | 2019-05-08 | ヤマハ株式会社 | 音声合成方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2519483A1 (de) * | 1974-11-20 | 1976-05-26 | Forrest Shrago Mozer | Verfahren und anordnung zur sprachsynthese |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3588353A (en) * | 1968-02-26 | 1971-06-28 | Rca Corp | Speech synthesizer utilizing timewise truncation of adjacent phonemes to provide smooth formant transition |
US3641496A (en) * | 1969-06-23 | 1972-02-08 | Phonplex Corp | Electronic voice annunciating system having binary data converted into audio representations |
US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
JPS5138526B2 (de) * | 1971-09-17 | 1976-10-22 | ||
US3982070A (en) * | 1974-06-05 | 1976-09-21 | Bell Telephone Laboratories, Incorporated | Phase vocoder speech synthesis system |
US4076958A (en) * | 1976-09-13 | 1978-02-28 | E-Systems, Inc. | Signal synthesizer spectrum contour scaler |
US4163120A (en) * | 1978-04-06 | 1979-07-31 | Bell Telephone Laboratories, Incorporated | Voice synthesizer |
-
1979
- 1979-02-20 JP JP1930979A patent/JPS55111995A/ja active Pending
-
1980
- 1980-02-20 DE DE3006339A patent/DE3006339C2/de not_active Expired
-
1985
- 1985-11-08 US US06/795,760 patent/US4716591A/en not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2519483A1 (de) * | 1974-11-20 | 1976-05-26 | Forrest Shrago Mozer | Verfahren und anordnung zur sprachsynthese |
Non-Patent Citations (2)
Title |
---|
J.L. Flanagan, Speech Analysis Sythesis and Perception, 2. Auflage, Berlin, Heidelberg, New York, 1972, Springer- Verlag, S. 401-405 * |
US-Electronics, August 31, 1978, S. 109-116 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4449231A (en) * | 1981-09-25 | 1984-05-15 | Northern Telecom Limited | Test signal generator for simulated speech |
DE19860133A1 (de) * | 1998-12-17 | 2001-07-12 | Cortologic Ag | Verfahren und Vorrichtung zur Sprachkompression |
DE19860133C2 (de) * | 1998-12-17 | 2001-11-22 | Cortologic Ag | Verfahren und Vorrichtung zur Sprachkompression |
Also Published As
Publication number | Publication date |
---|---|
DE3006339C2 (de) | 1986-08-07 |
US4716591A (en) | 1987-12-29 |
JPS55111995A (en) | 1980-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
DE3041423C1 (de) | Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals | |
DE68919637T2 (de) | Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen. | |
DE2945413C1 (de) | Verfahren und Vorrichtung zur Synthetisierung von Sprache | |
DE69032168T2 (de) | Dynamisches codebuch zur wirksamen sprachcodierung unter anwendung von algebraischen coden | |
DE3853916T2 (de) | Digitaler-sprachkodierer mit verbesserter vertoranregungsquelle. | |
DD143970A1 (de) | Verfahren und anordnung zur synthese von sprache | |
DE69832358T2 (de) | Verfahren zur Sprachkodierung und -dekodierung | |
DE2551632C2 (de) | Verfahren zum Zusammensetzen von Sprachnachrichten | |
DE3006339A1 (de) | Verfahren und einrichtung zur sprachsynthese | |
DE2229149A1 (de) | Verfahren zur Übertragung von Sprache | |
DE2115258A1 (de) | Sprachsynthese durch Verkettung von in Formant Form codierten Wortern | |
DE69720861T2 (de) | Verfahren zur Tonsynthese | |
DE9006717U1 (de) | Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe von Sprachsignalen | |
DE3228756A1 (de) | Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen | |
DE3019823C2 (de) | ||
DE1965480A1 (de) | Geraet fuer kuenstliche Erzeugung von Worten durch Umwandlung eines in Buchstaben gedruckten Textes in Aussprache | |
DE69014680T2 (de) | Einrichtung zur Stimmensynthese. | |
DE1811040C3 (de) | Anordnung zum Synthetisieren von Sprachsignalen | |
DE4218623C2 (de) | Sprachsynthesizer | |
DE2649540A1 (de) | Verfahren und anordnung zur sprachsynthese | |
DE2826570C2 (de) | ||
DE3232835C2 (de) | ||
DE3037276A1 (de) | Tonsynthesizer | |
EP0094681B1 (de) | Schaltungsanordnung zur elektronischen Sprachsynthese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OAP | Request for examination filed | ||
OD | Request for examination | ||
D2 | Grant after examination | ||
8363 | Opposition against the patent | ||
8365 | Fully valid after opposition proceedings | ||
8328 | Change in the person/name/address of the agent |
Free format text: PATENTANWAELTE MUELLER & HOFFMANN, 81667 MUENCHEN |