DE3642929A1 - Verfahren zur natuerlich klingenden sprachausgabe - Google Patents
Verfahren zur natuerlich klingenden sprachausgabeInfo
- Publication number
- DE3642929A1 DE3642929A1 DE19863642929 DE3642929A DE3642929A1 DE 3642929 A1 DE3642929 A1 DE 3642929A1 DE 19863642929 DE19863642929 DE 19863642929 DE 3642929 A DE3642929 A DE 3642929A DE 3642929 A1 DE3642929 A1 DE 3642929A1
- Authority
- DE
- Germany
- Prior art keywords
- word
- words
- memory
- texts
- signal pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 7
- 230000015654 memory Effects 0.000 claims abstract description 42
- 230000001960 triggered effect Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
Description
Die Erfindung bezieht sich auf ein Verfahren zur natürlich
klingenden Sprachausgabe von Sprachtexten, wobei entsprechend
jeweils aus mehreren Wörtern zusammengestellter Texte mit Hilfe
dieser Wörter ein Wortschatzspeicher adressierbar ist, der zu
jedem Wort dessen akustische Entsprechung in Form eines elek
trischen Signalmusters speichert, und wobei diese Signalmuster
entsprechend der Wortfolge des jeweiligen Sprachtextes seriell
einem elektroakustischen Wandler zufürbar sind.
Die Speicherung von natürlich klingender Sprache in digitaler
Form benötigt ein relativ großes Speichervolumen. Pro Sekunde
Sprache werden ca. 20 bis 30 Kilo-Bit benötigt. Demzufolge
wurde bisher für die Speicherung von Ansagetexten oder ähnli
chem meist ein analoges Speichermedium, z. B. eine Tonband
kassette, eingesetzt. Eine derartige Maßnahme weist jedoch den
Nachteil auf, daß die Zugriffszeit auf eine Tonbandkassette
relativ groß ist und daß aufgrund von mechanischem Verschleiß
von Bandmaterial und Laufwerk ein relativ großer Wartungsauf
wand erforderlich ist.
Aufgabe der Erfindung ist es, ein Verfahren der eingangs ge
nannten Art so auszubilden, daß eine digitale Speicherung für
natürlich klingende Sprachtexte mit relativ geringem Speicher
bedarf ermöglicht wird.
Gemäß der Erfindung wird diese Aufgabe dadurch gelöst, daß ein
Laden des Wortschatzspeichers in folgenden Schritten erfolgt:
- a) Es werden Texte vorgegeben, die jeweils mindestens eines der zu speichernden Wörter beinhalten,
- b) die Wörter jedes Textes werden aufeinanderfolgend registriert,
- c) die Texte werden über einen elektroakustischen Wandler einer Spracherkennungsschaltung zugeführt,
- d) von der Spracherkennungsschaltung wird, ausgelöst durch Sprechpausen zwischen den einzelnen Wörtern, für jedes Wort des jeweiligen Textes ein jeweils entsprechendes Signal muster ermittelt,
- e) es wird durch eine Vergleichseinrichtung geprüft, ob im Wort schatzspeicher bereits ein dem aktuellen Wort jeweils ent sprechendes Signalmuster gespeichert ist und
- f) sofern diese Prüfung ergibt, daß dies nicht der Fall ist, wird das aktuelle Signalmuster in einem freien Speicherbe reich des Wortschatzspeichers gespeichert und dessen Adresse dem jeweiligen Wort zugeordnet.
Der Erfindung liegt die Erkenntnis zugrunde, daß bei zu bilden
den Sprachtexten einzelne Wörter häufig vorkommen, so daß sich
dadurch, daß keine satzweise, sondern eine wortweise Speicherung
erfolgt, der Bedarf an Speicherplatz erheblich verringern läßt.
Dabei ist es gemäß der Erfindung nicht erforderlich, die Worte
isoliert einzusprechen, sondern diese werden durch die Sprach
erkennungsschaltung automatisch aus einem fließend gesprochenen
Satz selektiert (Pausenerkennung). Auf ein aufwendiges Editie
ren, d. h. manuelles Schneiden von auf einem Tonträger aufge
nommenen Textstücken, kann dadurch verzichtet werden.
Eine erste vorteilhafte Ausbildung der Erfindung ist dadurch
gekennzeichnet, daß bei Betonungsunterschieden ein und dessel
ben Wortes in Abhängigkeit von dessen Stellung im Text dieses
Wort für jede Stellung gesondert mit seinem Signalmuster im
Wortspeicher gespeichert wird.
Manche Wörter sind in ihrer akustischen Entsprechung stark ab
hängig von der Satzstellung, d. h., ob sie am Satzanfang, in
der Satzmitte oder am Satzende stehen, oder auch vom Satztyp,
d. h., ob ein Fragesatz, ein Befehlsatz oder ein Aussagesatz
vorliegt. Demzufolge werden derartige Wörter über Texte in den
Wortschatzspeicher übernommen, die diese Betonungsunterschiede
herausstellen. Mit der Abspeicherung eines solchen Wortes im
Wortschatzspeicher wird dann jeweils auch ein Kennzeichen
hinterlegt, das die jeweilige Satzstellung bzw. den jeweiligen
Satztyp kennzeichnet.
Gemäß einer weiteren vorteilhaften Ausbildung der Erfindung
wird eine Liste für die Adressen der gespeicherten Wörter ge
druckt, damit einem Anwender, der entsprechend den vorliegenden
gespeicherten Wörtern einen neuen Sprachtext bilden will, ein
einfaches Arbeitsmittel an die Hand gegeben ist.
Ein Ausführungsbeispiel der Erfindung ist in der Zeichnung dar
gestellt und wird im folgenden näher erläutert.
In der Darstellung ist ein Blockschaltbild einer Einrichtung zur
Durchführung des erfindungsgemäßen Verfahrens gezeigt. Zunächst
sei angenommen, daß zum Bilden einer Wortschatzbibliothek zwei
Texte T 1 und T 2 vorliegen, die aus den Wörtern a, b, c, d ? bzw.
d, a, b, a! bestehen mögen. Beim Text T 1 handelt es sich um einen
Fragesatz, demzufolge ist das Wort d mit einem zusätzlichen Hin
weis auf diesen Fragesatz in Form eines Fragezeichens hervorge
hoben. Beim Text T 2 handelt es sich um einen Befehlssatz, demzu
folge ist das letzte Wort a mit einem Ausrufungszeichen ergänzend
versehen.
Die Texte T 1 und T 2 werden nacheinander in einem Speicher S 1 ab
gespeichert (durch einen offenen Pfeil ist der Informationsfluß
angedeutet), was durch eine der Übersichtlichkeit halber nicht
dargestellte Dateneingabeeinrichtung erfolgen kann. Wenn dies
erfolgt ist, werden die Texte T 1 und T 2 nacheinander von einem
Sprecher oder einer Sprecherin in ein Mikrophon M eingesprochen.
Der akustische Signalfluß ist ebenfalls durch einen offenen
Pfeil angedeutet. Vom Mikrophon M gelangt dessen Ausgangssignal
an eine Spracherkennungsschaltung, die aus Umsetzern U 1 und U 2
besteht. Der Umsetzer U 1 formt aus dem Ausgangssignal des Mikro
phons M ein elektrisches Signalmuster, das durch eine Folge von
Zuständen logisch "0" und logisch "1" gekennzeichnet ist, so daß
eine Digitalisierung des Ausgangssignals des Mikrophons M er
folgt. Dieses Signalmuster gelangt in einen Speicher S 3. Vom
Umsetzer U 2 wird erkannt, wenn zwischen zwei aufeinanderfolgen
den Wörtern eine Lücke besteht und zu diesem Zeitpunkt wird ein
Vergleicher V über ein Steuersignal auf einer Leitung L 1 wirk
sam geschaltet, der dann den Inhalt des Speichers S 3, d. h., das
elektrische Signalmuster, das dem zuletzt gesprochenen Wort
entspricht, mit dem Inhalt eines Speichers S 4 vergleicht. Dazu
ist der Vergleicher mit Leitungen L 2 und L 3 mit den Speichern
S 3 und S 4 verbunden. Dieser Speicher S 4 stellt einen Wortschatz
speicher für die Wortschatzbibliothek dar, der die Signalmuster
aller zu verarbeitenden Wörter beinhaltet.
Wenn in einem Anfangszustand im Speicher S 4 noch überhaupt kein
Signalmuster zu einem der Wörter vorliegt, wird vom Vergleicher
V festgestellt, daß das aktuelle Wort neu ist und demzufolge in
den Speicher S 4 einzuschreiben ist. Dazu wird von einem Un
gleich-Ausgang des Vergleichers V über eine Leitung L 4 ein
Steuersignal an einen Zähler Z gegeben, der ausgehend von einer
Grundstellung heraus alle Adressen für den Wortschatzspeicher S 4
über eine Leitung L 5 vergibt. Für das erste Wort a des Textes T 1
würde vom Zähler Z 1 demzufolge die Adresse 1 vergeben werden,
unter der dann das Wort a nach Überspielen aus dem Speicher S 3
im Speicher S 4 abgelegt wird. Dies Überspielen wird durch das
Steuersignal auf der Leitung L 4 ausgelöst.
Unabhängig davon, ob vom Vergleicher V festgestellt worden ist,
daß das aktuelle Wort bereits im Speicher S 4 abgelegt ist oder
nicht, wird über die Ausgangsleitung L 6 eines ODER-Glied 0 stets
ein Steuersignal ausgelöst, das ein Rücksetzen des Speichers S 3
gewährleistet. Dazu ist das ODER-Glied 0 eingangsseitig nicht
nur mit dem Ungleich-Ausgang des Vergleichers V, sondern auch
dessen Gleich-Ausgang verbunden. Ein Ausgangssignal des Um
setzers U 2, das darauf hinweist, daß ein Wort beendet ist und
das nächste Wort beginnt, steuert ferner den Speicher S 1 an,
der nach Art eines Schieberegisters an seinem Ausgang nachein
ander die einzelnen Wörter der Texte T 1 und T 2 ausgibt. Ferner
wird ein Speicher S 2 angesteuert, das jeweils am Ausgang des
Speichers S 1 vorliegende Wort zu übernehmen.
Die vom Speicher S 2 übernommenen Wörter werden stets dann, wenn
eine Ungleichheit vom Vergleicher V festgestellt worden ist, und
demzufolge ein Steuersignal auf der Leitung L 4 vorliegt, zu
sammen mit der vom Zähler Z ermittelten Adresse über eine Lei
tung L 7 einem Speicher S 5 zugeführt, in dem daher für jedes
Wort die für den Speicher S 4 relevante Adresse festgehalten ist.
Der Inhalt des Speichers S 5 kann über einen Drucker D ausge
geben werden.
Beim gewählten Beispiel mit den Texten T 2 und T 2 tauchen die
Wörter a und b sowohl im Text T 1 wie auch im Text T 2 auf. Da
diese Wörter akustisch gleich klingen mögen, werden diese Wörter
nicht mehrfach im Wortschatzspeicher S 4 abgelegt.
Allerdings wird das Wort a am Ende des Textes T 2 aufgrund des
Vorliegens eines Befehlssatzes, wie dies durch ein Ausrufungs
zeichen angedeutet ist, so gesprochen, daß vom Vergleicher V
festgestellt wird, daß das resultierende Signalmuster nicht mit
dem bereits gespeicherten Signalmuster für das Wort a überein
stimmt. Demzufolge wird das Wort a! mit diesem auf den Befehl
hinweisenden Bedeutungsinhalt ein zweites Mal im Speicher S 4
registriert. Gleiches gilt für das Wort d, das im Text T 1 das
Ende eines Fragesatzes bildet, was durch ein Fragezeichen ange
deutet ist, während es im Text T 2 den Satzbeginn bildet. Demzu
folge wird auch dieses Wort zweimal im Speicher S 4 abgelegt.
Bei einer Abfolge der Wörter gemäß den Texten T 1 und T 2, d. h.
bei einer Folge a, b, c, d?, d, a, b, a! würde diesen Wörtern durch
den Zähler Z die Adressen a=1, b=2, c=3, d?=4, d=5,
a!=6 zugeordnet werden.
Um eine gute Übersicht für die Wörter a bis d und ihre Adressen
im Speicher S 4 zu ermöglichen, kann auch eine umgestellte
Reihung des Ausdruckes vom Drucker D gemäß dem in der Figur an
gegebenen alphabetischen Schema erfolgen.
Dieser Ausdruck ermöglicht es einem Bediener, über ein Eingabe
gerät E beispielsweise einen Sprachtext zu generieren, der aus
einer Folge der Wörter b, c und a! bestehen möge, indem über
das Eingabegerät die Adresen 2, 3 und 6, die diesen Wörtern zuge
ordnet sind, einem Steuerwerk ST mitgeteilt werden, das demzu
folge den Inhalt des Speichers S 4 entsprechend adressiert ab
fragt und die abgefragten Signalmuster in ein akustisches Signal
umformt, das beispielsweise über einen Lautsprecher L ausge
geben werden kann.
Anstelle einzelner Wörter könnten u. U. auch kleine Textteile
im Wortschatzspeicher hinterlegt werden, wenn die automatische
Spracherkennungsschaltung zur Erkennung der jeweiligen Text
stückgrenzen geeignet wäre.
Ferner wäre es auch möglich, alle redundante Sprachinformation
aus dem analogen Sprachsignal herauszufiltern, um eine weitere
Reduktion des erforderlichen Speicherbedarfs zu ermöglichen.
Claims (3)
1. Verfahren zur natürlich klingenden Sprachausgabe von Sprach
texten, wobei entsprechend jeweils aus mehreren Wörtern zu
sammengestellter Texte mit Hilfe dieser Wörter ein Wortschatz
speicher adressierbar ist, der zu jedem Wort dessen akustische
Entsprechung in Form eines elektrischen Signalmusters speichert,
und wobei diese Signalmuster entsprechend der Wortfolge des
jeweiligen Sprachtextes seriell einem elektroakustischen Wandler
zuführbar sind, dadurch gekennzeichnet,
daß ein Laden des Wortschatzspeichers (S 4) in folgenden Schrit
ten erfolgt:
- a) Es werden Texte (T 1, T 2) vorgegeben, die jeweils mindestens eines der zu speichernden Wörter (a, a!, b, c, d, d?) beinhalten,
- b) die Wörter (a, b, c, d? bzw. d, a, b, a!) jedes Textes (T 1 bzw. T 2) werden aufeinanderfolgend registriert, c) die Texte (T 1, T 2) werden über einen elektroakustischen Wand ler (M) einer Spracherkennungsschaltung (U 1, U 2) zugeführt,
- d) von der Spracherkennungsschaltung (U 1, U 2) wird, ausgelöst durch Sprechpausen zwischen den einzelnen Wörtern, für jedes Wort (a, b, c, d? bzw. d, a, b, a!) des jeweiligen Textes (T 1 bzw. T 2) ein jeweils entsprechendes Signalmuster ermittelt,
- e) es wird durch eine Vergleichseinrichtung (V) geprüft, ob im Wortschatzspeicher (S 4) bereits ein dem aktuellen Wort (a, b, c, d? bzw. d, a, b, a!) jeweils entsprechendes Signalmuster ge speichert ist und
- f) sofern diese Prüfung ergibt, daß dies nicht der Fall ist, wird das aktuelle Signalmuster in einem freien Speicherbe reich des Wortschatzspeichers (S 4) gespeichert und dessen Adresse (1, 6, 2, 3, 5, 4) dem jeweiligen Wort (a, a!, b, c, d, d?) zugeordnet.
2. Verfahren nach Anspruch 1, dadurch gekenn
zeichnet, daß bei Betonungsunterschieden ein und des
selben Wortes (a, a!, d, d?) in Abhängigkeit von dessen Stellung im
Text dieses Wort für jede Stellung gesondert mit seinem Signal
muster im Wortschatzspeicher (S 4) gespeichert wird.
3. Verfahren nach Anspruch 1 oder 2, dadurch ge
kennzeichnet, daß eine Liste für die Adressen
(1, 6, 2, 3, 5, 4) der gespeicherten Wörter (a, a!, b, c, d, d?) gedruckt
wird.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19863642929 DE3642929A1 (de) | 1986-12-16 | 1986-12-16 | Verfahren zur natuerlich klingenden sprachausgabe |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19863642929 DE3642929A1 (de) | 1986-12-16 | 1986-12-16 | Verfahren zur natuerlich klingenden sprachausgabe |
Publications (1)
Publication Number | Publication Date |
---|---|
DE3642929A1 true DE3642929A1 (de) | 1988-06-23 |
Family
ID=6316301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19863642929 Withdrawn DE3642929A1 (de) | 1986-12-16 | 1986-12-16 | Verfahren zur natuerlich klingenden sprachausgabe |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE3642929A1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4204929A1 (de) * | 1992-02-19 | 1993-08-26 | Sel Alcatel Ag | Digitales sprachspeichersystem fuer ein telekommunikationssystem |
EP1168298A2 (de) * | 2000-06-30 | 2002-01-02 | Nokia Mobile Phones Ltd. | Verfahren zum Zusammensetzen von Ansagen zur Sprachausgabe |
-
1986
- 1986-12-16 DE DE19863642929 patent/DE3642929A1/de not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4204929A1 (de) * | 1992-02-19 | 1993-08-26 | Sel Alcatel Ag | Digitales sprachspeichersystem fuer ein telekommunikationssystem |
EP1168298A2 (de) * | 2000-06-30 | 2002-01-02 | Nokia Mobile Phones Ltd. | Verfahren zum Zusammensetzen von Ansagen zur Sprachausgabe |
DE10031008A1 (de) * | 2000-06-30 | 2002-01-10 | Nokia Mobile Phones Ltd | Verfahren zum Zusammensetzen von Sätzen zur Sprachausgabe |
EP1168298A3 (de) * | 2000-06-30 | 2002-12-11 | Nokia Corporation | Verfahren zum Zusammensetzen von Ansagen zur Sprachausgabe |
US6757653B2 (en) | 2000-06-30 | 2004-06-29 | Nokia Mobile Phones, Ltd. | Reassembling speech sentence fragments using associated phonetic property |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3590157C2 (de) | ||
DE3910467C2 (de) | Verfahren und Vorrichtung zur Erzeugung von Berichten | |
DE60004420T2 (de) | Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem | |
DE3242866C2 (de) | ||
DE3010150C2 (de) | Elektronische Registrierkasse | |
AT389952B (de) | Wortprozessor | |
DE112006000322T5 (de) | Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten | |
DE60008893T2 (de) | Sprachgesteuertes tragbares Endgerät | |
EP0647377B2 (de) | Verfahren und anordnung zum identifizieren eines sendebeitrages | |
EP1282897B1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
DE2129280A1 (de) | Diktiergerät | |
DE69233622T2 (de) | Vorrichtung zur Erzeugung von Ansagen | |
AT391035B (de) | System zur spracherkennung | |
DE3141254C2 (de) | Sprachausgabevorrichtung | |
DE3642929A1 (de) | Verfahren zur natuerlich klingenden sprachausgabe | |
DE60021666T2 (de) | Inkrementales Trainieren eines Spracherkenners für eine neue Sprache | |
EP0406744B1 (de) | Schaltungsanordnung zur Überarbeitung eines in einem Magnetband- und/oder Halbleiterspeicher abgespeicherten gesprochenen Textes | |
DE4111781A1 (de) | Computersystem zur spracherkennung | |
DE3518737C2 (de) | ||
EP1344211B1 (de) | Vorrichtung und verfahren zur differenzierten sprachausgabe | |
EP0677835B1 (de) | Verfahren zum Ermitteln einer Folge von Wörtern | |
DE3236830A1 (de) | Elektronische uhr mit schallspeicherung | |
DE60007231T2 (de) | Datenwiedergabeschaltung und Sprachaufzeichnungs-/wiedergabegerät welches diese Schaltung enthält | |
DE2016572A1 (de) | Verfahren und Einrichtung zur Sprachsynthese | |
DE10033104C2 (de) | Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8139 | Disposal/non-payment of the annual fee |