DE3406540C1 - Verfahren und Anordnung fuer die Sprachsynthese - Google Patents
Verfahren und Anordnung fuer die SprachsyntheseInfo
- Publication number
- DE3406540C1 DE3406540C1 DE19843406540 DE3406540A DE3406540C1 DE 3406540 C1 DE3406540 C1 DE 3406540C1 DE 19843406540 DE19843406540 DE 19843406540 DE 3406540 A DE3406540 A DE 3406540A DE 3406540 C1 DE3406540 C1 DE 3406540C1
- Authority
- DE
- Germany
- Prior art keywords
- vowel
- consonant
- channel
- phonemes
- command
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
Description
— alle in der Sprache vorkommenden Vokale einzeln abgespeichert werden, und
— die gewünschte Konsonanten-Vokal-Kombination
durch zeitversetztes Auslesen der entsprechenden Konsonanten-Einheitsvokal-Kombination
und des entsprechenden Vokals in zwei Kanälen unter Maskierung des Einheitsvokals
»&« durch den ausgelesenen Vokal gebildet wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß beim Abspeichern der Kombinationen
aus Konsonant und Einheitsvokal »&« vokaltypische Frequenzen bedämpft werden und daß beim Abspeichern
der Vokale konsonantentypische Frequenzen bedämpft werden.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Amplitude der Einheitsvokale
»&« beim Auslesen bedämpft werden.
4. Verfahren nach Anspruch 1, 2 oder 3, dadurch gekennzeichnet, daß das Auslesen mit variabler
Taktfrequenz erfolgt
5. Anordnung zum Durchführen des Verfahrens nach Anspruch 1, gekennzeichnet durch zwei alternierend
aktivierbare Auslesekanäle (1 —4, 6, 7, 13) und einen Umschaltkreis (12) der durch ein in einem
Kanal ausgelesenes Kommando zur Aktivierung des anderen Kanals ansteuerbar ist.
6. Anordnung nach Anspruch 5, dadurch gekennzeichnet, daß jeder Kanal einen Speicher (3) für alle
benötigten Laute (Phoneme und Di-Phoneme) umfaßt.
7. Anordnung nach Anspruch 5 oder 6, bei der die Laute (Phoneme und Di-Phoneme) digital in jedem
Speicher (3) abgespeichert und sequentiell auslesbar sind, dadurch gekennzeichnet, daß zumindest bei
den Di-Pohnemen das Umsteuer-Kommando (»weiter«) in der Auslesesequenz zwischen dem Konsonantenintervall
und dem Einheitsvokal-Intervall abgespeichert ist (F i g. 3).
8. Anordnung nach Anspruch 7 zur Durchführung des Verfahrens nach Anspruch 3, dadurch gekennzeichnet,
daß für jeden Kanal ein Hüllkurvengenerator (13) vorgesehen ist, mittels dem die Amplitudenbedämpf
ung bewirkt wird und der von dem Umsteuer-Kommando aktivierbar ist.
9. Anordnung nach Anspruch 5, bei der die Laute (Phoneme und Di-Phoneme) digital in jedem Speicher
(3) abgespeichert und sequentiell auslesbar sind, dadurch gekennzeichnet, daß am Ende jeder Auslesesequenz
ein Kommando »Ende« auslesbar ist, mittels dem ein nächster Auslesevorgang einleitbar ist
Die Erfindung betrifft ein Verfahren für die Sprachsynthese gemäß dem Oberbegriff des Patentanspruchs
1 und eine Anordnung zu seiner Durchführung.
Es ist bekannt, die in einer Sprache vorkommenden Laute oder Phoneme (Konsonanten, Vokale) einzeln abzuspeichern
und bedarfsweise sequentiell auszulesen. Diese Methode erfordert nur geringe Speicherkapazität,
ergibt jedoch eine für die Praxis unbrauchbare, völlig
unnatürlich klingende Sprache. Es ist ferner bekannt, zusammen mit jedem Konsonanten einen ihm voroder/und
nachgestellten Vokal abzuspeichern und die Auslesung ebenfalls sequentiell vorzunehmen. Wenn
man für solche sogenannten Di-Phoneme jeden in der Sprache vorkommenden Konsonanten mit jedem vorkommenden
Vokal kombinieren und abspeichern will, ist eine erhebliche Speicherkapazität erforderlich, .was
nur bei besonderen Anwendungsfällen gerechtfertigt erscheint. Man hat bereits versucht, die Speicherkapazitat,
die erforderlich ist, dadurch herabzusetzen, daß man einander ähnlich klingende Vokale auf nur einen reduziert
oder daß man überhaupt nur einen einzigen »Einheitsvokal« verwendet, der hier und im folgenden mit
»&« bezeichnet werden soll. Dies ergibt jedoch eine entsprechend schlechtere Verständlichkeit der dann
schon wieder recht unnatürlich klingenden synthetisierten Sprache (vgl. Frequenz, Bd. 32, 1978, H. 5,
S. 136-140).
Aufgabe der Erfindung ist es, das zuletzt genannte Verfahren hinsichtlich der Verständlichkeit der synthetisierten Sprache erheblich zu verbessern, ohne daß eine erheblich größere Speicherkapazität benötigt wird, so daß das Verfahren auch bei Massenkonsumgütern, z. B. bei Puppenstimmen, Anwendung finden kann.
Aufgabe der Erfindung ist es, das zuletzt genannte Verfahren hinsichtlich der Verständlichkeit der synthetisierten Sprache erheblich zu verbessern, ohne daß eine erheblich größere Speicherkapazität benötigt wird, so daß das Verfahren auch bei Massenkonsumgütern, z. B. bei Puppenstimmen, Anwendung finden kann.
Ausgehend von dem eingangs geschilderten Verfahren, dessen Merkmale im Oberbegriff des Patentanspruchs
1 genannt sind, wird die Aufgabe durch die in seinem kennzeichnenden Teil definierten Maßnahmen
gelöst. Man erkennt, daß nur Speicherkapazität zusätzlieh für die einzeln abzuspeichernden Vokale erforderlich
ist, und es hat sich gezeigt, daß durch das zeitversetzte Auslesen der unnatürliche Klang des Einheitsvokals
nahezu gänzlich maskiert oder jedenfalls soweit überdeckt wird, daß die resultierende Silbe der natürlichen
Aussprache zumindest sehr nahe kommt.
Bei der üblichen digitalen Abspeicherung der Phoneme ist es zweckmäßig, bei den Konsonanten an der
richtigen Stelle einen Befehl abzuspeichern, der den Beginn der Auslesung des Vokalspeichers einleitet. Ferner
kann es zweckmäßig sein, durch entsprechend ausgelegte Filter die Frequenzen der Konsonanten einerseits,
der Vokale andererseits unterschiedlich zu verstärken bzw. zu bedampfen, um die Maskierung der & zu verbessern.
Unter Bezugnahme auf die Zeichnungen soll die Erfindung nachstehend im einzelnen erläutert werden.
F i g. 1 zeigt anhand eines Beispiels das Prinzip des Verfahrens,
F i g. 2 zeigt Frequenzgänge von Filtern für Vokale und Konsonanten,
F i g. 2 zeigt Frequenzgänge von Filtern für Vokale und Konsonanten,
F i g. 3 zeigt schematisch ein mögliches Speicherformat für Konsonanten und Vokale,
Fig.4 zeigt eine bevorzugte Hüllkurve für die Konsonantenerzeugung,
F i g. 5 ist ein Blockdiagramm einer Anordnung zur Ausführung des Verfahrens, und
F i g. 6 ist ein Diagramm zur Darstellung des Zeitablaufs bei der Synthese eines einfachen Wortes.
Da der Auslesevorgang zeitversetzt, das heißt so erfolgt,
daß die Auslesung eines Vokals bereits beginnt, während noch das Auslesen des Konsonanten-Di-Phonems
(nämlich dessen &-Teil) abläuft, arbeitet man mit zwei Auslesekanälen. In Fig. 1 stellt das obere Diagramm
den Hüllkurvenverlauf des Konsonantenkanals, das untere den des Vokalkanals dar, wobei als Beispiel
das einfache Wort »DATO« gewählt ist. Man erkennt, daß gleichzeitig die &-Anteile des Konsonantenkanals
und die Vokale wiedergegeben werden, und bereits dadurch werden die schwachen &-Laute stark maskiert.
Diese Maskierung kann aber noch durch weitere Maßnahmen unterstützt werden.
F i g. 2 stellt ein erstes Mittel hierfür dar. Es ist bekannt, daß das Frequenzspektrum der Konsonanten und
Vokale unterschiedlich ist; z. B. liegen bei einer männlichen Stimme die Maxima der Konsonanten im Bereich
von etwa 600 ... 3000 Hz, der Vokale im Bereich von etwa 200 ... 1000Hz. Dementsprechend werden den
beiden Kanälen Filter mit den in Fig.2 gezeigten Durchlaßbändern zugeordnet, wobei die Filterung entweder
bei der Aufzeichnung oder bei der Wiedergabe erfolgen kann.
F i g. 3 zeigt schematisch das Format für die Speicherung. Bei der Aufzeichnung werden die Laute digitalisiert,
das heißt mit einem Takt von z.B. 10KHz oder mehr amplitudenabgetastet und die so erhaltenen Daten
werden in aufeinanderfolgenden Speicherplätzen für serielles Auslesen abgespeichert. Es werden jedoch
zwei Speicherplätze für Kommandodaten freigehalten, nämlich ein Kommando »weiter« und ein Kommando
»Ende«. Das Kommando »weiter« bedeutet den Zeitpunkt, bei welchem der jeweils andere Kanal mit dem
Auslesen fortfahren soll; dieses Kommando liegt bei den Konsonantendaten beim Übergang des eigentlichen
Konsonantenlauts zum &-Teil, während es bei den Vokaldaten nahe dem Ende des Datenstrangs liegt. Das
Kommando »Ende« versteht sich von selbst, ist aber erforderlich, weil die einzelnen Phoneme unterschiedliche
Dauer besitzen. Das Kommando »weiter« kann dazu verwendet werden, um den Maskierungseffekt noch
zu verstärken, indem bei seinem Auftreten die Hüllkurve des gerade ausgelesenen Kanals bedämpft wird, wie
in Fig.4 angedeutet, wofür man ein übliches analog arbeitendes Dämpfungsglied aus Diode, Widerstand
und Kondensator verwenden kann.
F i g. 5 zeigt in Blockform ein Ausführungsbeispiel eines Sprachsynthesizers, der — wie man erkennt —
höchst einfach aufgebaut ist. Die Auswahl der wiederzugebenden Phoneme erfolgt durch externe Mittel, beispielsweise
einen Mikroprozessor, und bildet keinen Gegenstand der vorliegenden Erfindung; hier ist deshalb
nur als Block 1 eine externe Steuerschaltung angedeutet.
Die Anordnung umfaßt zwei untereinander identisehe Kanäle, von denen nachstehend nur einer beschrieben
wird.
Ein Speicheradressenzähler 2 wird von der Steuerschaltung
1 auf eine bestimmte Phonem-Startadresse gesetzt. Ein Phonemspeicher 3 enthält alle für eine gegebene
Sprache benötigten Phoneme, wobei für viele Sprachen sechsunddreißig Phoneme ausreichend sind.
Die Phoneme sind nach Filterung bei der Aufnahme (wie oben erläutert) digitalisiert und in dem in F i g. 3
dargestellten Format abgespeichert; dabei können beispiels weise die Kodes »0« bzw. »1« für die Kommandos
»weiter« bzw. »Ende« reserviert sein. Ein Taktgenerator 5 erzeugt den Auslesetakt von z. B. 10 KHz, und
zwar für beide Kanäle. Die ausgelesenen Daten gelangen zu einem Dekoder 4, der feststellt, ob es sich um
Daten oder eines der Kommandos »weiter« bzw. »Ende« handelt. Daten gelangen über einen Digital-Analog-Umsetzer
6 sowie, ein Multiplizierglied 7 zu einem Summierglied 8 und von dort zu einer Verstärker-Lautsprecher-Einheit
9.
Bei Dekodierung des Kommandos »Ende« wird über ein UND-Gatter 10 die Inkrementierung des Adresszählers
2 gesperrt.
Wird das Kommando »weiter« dekodiert, so wird ein Phonem-Anforderungs-Flipflop 11 für den jeweils anderen
Kanal gesetzt; seine Rücksetzung erfolgt durch die externe Steuerschaltung bei Eingabe der nächsten
Startadresse. Ferner wird beim Kommando »weiter« ein Dämpfungsflipflop 12 umgeschaltet, das mit seinem
Ausgang F dem einen, mit seinem Ausgang F dem anderen
Kanal einen Hüllkurvengenerator 13 zuschaltet, der auf das Multiplizierglied 7 einwirkt, so daß der Ausgang
«des betreffenden Kanals sanft abfallend bedämpft wird,
ohne daß jedoch das »Klick«-Geräusch entsteht. Die Ausgänge beider Kanäle werden im Summierglied 8
kombiniert.
Der jeweilige Setzzustand des Flipflops 12 wird auch
zu der externen Steuerschaltung übertragen, um dieser zu signalisieren, welcher der beiden Kanäle belegt werden
kann, etwa zu Beginn eines Auslesezyklus nach Inbetriebnahme der Schaltung.
Bevor unter Bezugnahme auf F i g. 6 ein Synthesevorgang im einzelnen erläutert wird, sei noch auf mögliche
Abwandlungen der in F i g. 5 gezeigten Blockschaltung hingewiesen.
Der Speicheraufwand läßt sich halbieren, wenn für beide Kanäle nur ein Phonemspeicher 3 vorgesehen ist
und das Auslesen im Zeitmultiplex erfolgt. Das Multiplizierglied 7 ist in bestimmten handelsüblichen Digital-Analog-Umsetzern
bereits enthalten, so daß man den Ausgang der Hüllkurvengeneratoren 13 nur mit dem
entsprechenden Eingang des Umsetzers zu verbinden braucht. Man kann die Schaltung auch weitgehend in
einem Mikroprozessor realisieren, wobei dann entweder die beiden Hüllkurvengeneratoren und die beiden
Umsetzer außerhalb bleiben oder nur ein einzelner, gemeinsamer Umsetzer, während alle anderen Vorgänge
vom Mikroprozessor digital durchgeführt werden.
In Fig. 6 ist der zeitliche Ablauf des Auslesevorgangs schematisch zusammengefaßt, wobei das Auslesen
mit starrem Takt oder, um eine noch bessere Anpassung an die natürliche Sprache zu erzielen, mit
entsprechend variablem Takt erfolgen kann. Gezeigt ist:
— in Zeile (b) Formate aus dem ersten Kanal, hier die
Phoneme »D&« und T&«,
— in Zeile (c) den Logikpegel am Ausgang des Flipflop 12,
— in Zeile (d) den Logikpegel am Ausgang des Flipflops 11 des zweiten Kanals,
— in Zeile (e) Formate aus demselben zweiten Kanal, hier Phoneme »a« und »o«,
— in Zeile (f) den Logikpegel am Ausgang des Flipflops 11 des ersten Kanals,
— in Zeilen (g) bzw. (h) die Hüllkurven, erzeugt von
den Hüllkurvengeneratoren 13 des ersten bzw. des zweiten Kanals, und
— in Zeilen (i) bzw. (k) die analogen Ausgangssignale
des ersten bzw. zweiten Kanals; dabei sind die Hüll-
kurven nicht als repräsentativ für die tatsächlich erzeugten Laute »D«, »A«, »T« oder »O« zu verstehen;
das Diagramm dient nur der Erläuterung des zeitlichen Ablaufs.
Hierzu 3 Blatt Zeichnungen
10
15
20
25
30
35
40
45
50
55
60
65
Claims (1)
1. Verfahren für die Sprachsynthese, bei dem Kombinationen aus jedem in der Sprache vorkommenden
Konsonanten zusammen mit einem für alle Konsonanten gleichen schwachen Einheitsvokal
»&« abgespeichert und bedarfsweise ausgelesen werden, dadurch gekennzeichnet, daß
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE19843406540 DE3406540C1 (de) | 1984-02-23 | 1984-02-23 | Verfahren und Anordnung fuer die Sprachsynthese |
| EP19840109492 EP0157903B1 (de) | 1984-02-23 | 1984-08-09 | Verfahren und Anordnung für die Sprachsynthese |
| JP3425585A JPS60211499A (ja) | 1984-02-23 | 1985-02-22 | 音声合成方法および装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE19843406540 DE3406540C1 (de) | 1984-02-23 | 1984-02-23 | Verfahren und Anordnung fuer die Sprachsynthese |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| DE3406540C1 true DE3406540C1 (de) | 1985-09-05 |
Family
ID=6228601
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE19843406540 Expired DE3406540C1 (de) | 1984-02-23 | 1984-02-23 | Verfahren und Anordnung fuer die Sprachsynthese |
Country Status (3)
| Country | Link |
|---|---|
| EP (1) | EP0157903B1 (de) |
| JP (1) | JPS60211499A (de) |
| DE (1) | DE3406540C1 (de) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE4111781A1 (de) * | 1991-04-11 | 1992-10-22 | Ibm | Computersystem zur spracherkennung |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| IT1263756B (it) * | 1993-01-15 | 1996-08-29 | Alcatel Italia | Metodo automatico per implementazione di curve intonative su messaggi vocali codificati con tecniche che permettono l'assegnazione del pitch |
| CN105895076B (zh) * | 2015-01-26 | 2019-11-15 | 科大讯飞股份有限公司 | 一种语音合成方法及系统 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4658424A (en) * | 1981-03-05 | 1987-04-14 | Texas Instruments Incorporated | Speech synthesis integrated circuit device having variable frame rate capability |
| EP0114123B1 (de) * | 1983-01-18 | 1987-04-22 | Matsushita Electric Industrial Co., Ltd. | Einrichtung zur Wellenerzeugung |
-
1984
- 1984-02-23 DE DE19843406540 patent/DE3406540C1/de not_active Expired
- 1984-08-09 EP EP19840109492 patent/EP0157903B1/de not_active Expired
-
1985
- 1985-02-22 JP JP3425585A patent/JPS60211499A/ja active Pending
Non-Patent Citations (1)
| Title |
|---|
| Frequenz, Bd. 32, 1978, H.5, S. 136-140 * |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE4111781A1 (de) * | 1991-04-11 | 1992-10-22 | Ibm | Computersystem zur spracherkennung |
Also Published As
| Publication number | Publication date |
|---|---|
| EP0157903B1 (de) | 1988-01-13 |
| JPS60211499A (ja) | 1985-10-23 |
| EP0157903A1 (de) | 1985-10-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69816221T2 (de) | Sprachschnellheitsveränderungsverfahren und vorrichtung | |
| DE68919637T2 (de) | Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen. | |
| DE2115258C3 (de) | Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern | |
| DE69413052T2 (de) | Sprachsynthese | |
| DE2740520A1 (de) | Verfahren und anordnung zur synthese von sprache | |
| EP1184839A2 (de) | Graphem-Phonem-Konvertierung | |
| DE2050512B2 (de) | Vorrichtung zur Ableitung von Sprachparametern und zur Erzeugung synthetischer Sprache | |
| DE2946856C2 (de) | Wortspeichergerät | |
| DE19720651A1 (de) | Hörgerät mit verschiedenen Baugruppen zur Aufnahme, Weiterverarbeitung sowie Anpassung eines Schallsignals an das Hörvermögen eines Schwerhörigen | |
| DE3006339C2 (de) | Sprachsyntesizer | |
| DE3406540C1 (de) | Verfahren und Anordnung fuer die Sprachsynthese | |
| DE2917161A1 (de) | Elektronisches lernhilfegeraet | |
| DE1937464B2 (de) | Sprachanalysiergeraet | |
| DE2854401C2 (de) | Anrufbeantworter | |
| DE1811040A1 (de) | Anordnung zum Synthetisieren von Sprachsignalen | |
| DE3912714A1 (de) | Elektronische sprachausgabe-vorrichtung | |
| DE2649540A1 (de) | Verfahren und anordnung zur sprachsynthese | |
| DE3232835C2 (de) | ||
| DE4441906C2 (de) | Anordnung und Verfahren für Sprachsynthese | |
| DE3049393A1 (de) | Sprachsynthesizer | |
| DE2657430A1 (de) | Einrichtung zum synthetisieren der menschlichen sprache | |
| DE3429769C2 (de) | ||
| DE2238136C2 (de) | Gesteuerter Signalprozessor für die Verarbeitung von elektrischen Signalen | |
| EP0094681B1 (de) | Schaltungsanordnung zur elektronischen Sprachsynthese | |
| DE4426534C2 (de) | Verfahren zur Steuerung der Signalaufzeichnung für einen digitalen Anfrufbeantworter |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 8100 | Publication of the examined application without publication of unexamined application | ||
| D1 | Grant (no unexamined application published) patent law 81 | ||
| 8364 | No opposition during term of opposition | ||
| 8339 | Ceased/non-payment of the annual fee |