DE3642929A1 - Verfahren zur natuerlich klingenden sprachausgabe - Google Patents

Verfahren zur natuerlich klingenden sprachausgabe

Info

Publication number
DE3642929A1
DE3642929A1 DE19863642929 DE3642929A DE3642929A1 DE 3642929 A1 DE3642929 A1 DE 3642929A1 DE 19863642929 DE19863642929 DE 19863642929 DE 3642929 A DE3642929 A DE 3642929A DE 3642929 A1 DE3642929 A1 DE 3642929A1
Authority
DE
Germany
Prior art keywords
word
words
memory
texts
signal pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19863642929
Other languages
English (en)
Inventor
Karl-Heinz Dipl Ing Walsdorf
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE19863642929 priority Critical patent/DE3642929A1/de
Publication of DE3642929A1 publication Critical patent/DE3642929A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Description

Die Erfindung bezieht sich auf ein Verfahren zur natürlich klingenden Sprachausgabe von Sprachtexten, wobei entsprechend jeweils aus mehreren Wörtern zusammengestellter Texte mit Hilfe dieser Wörter ein Wortschatzspeicher adressierbar ist, der zu jedem Wort dessen akustische Entsprechung in Form eines elek­ trischen Signalmusters speichert, und wobei diese Signalmuster entsprechend der Wortfolge des jeweiligen Sprachtextes seriell einem elektroakustischen Wandler zufürbar sind.
Die Speicherung von natürlich klingender Sprache in digitaler Form benötigt ein relativ großes Speichervolumen. Pro Sekunde Sprache werden ca. 20 bis 30 Kilo-Bit benötigt. Demzufolge wurde bisher für die Speicherung von Ansagetexten oder ähnli­ chem meist ein analoges Speichermedium, z. B. eine Tonband­ kassette, eingesetzt. Eine derartige Maßnahme weist jedoch den Nachteil auf, daß die Zugriffszeit auf eine Tonbandkassette relativ groß ist und daß aufgrund von mechanischem Verschleiß von Bandmaterial und Laufwerk ein relativ großer Wartungsauf­ wand erforderlich ist.
Aufgabe der Erfindung ist es, ein Verfahren der eingangs ge­ nannten Art so auszubilden, daß eine digitale Speicherung für natürlich klingende Sprachtexte mit relativ geringem Speicher­ bedarf ermöglicht wird.
Gemäß der Erfindung wird diese Aufgabe dadurch gelöst, daß ein Laden des Wortschatzspeichers in folgenden Schritten erfolgt:
  • a) Es werden Texte vorgegeben, die jeweils mindestens eines der zu speichernden Wörter beinhalten,
  • b) die Wörter jedes Textes werden aufeinanderfolgend registriert,
  • c) die Texte werden über einen elektroakustischen Wandler einer Spracherkennungsschaltung zugeführt,
  • d) von der Spracherkennungsschaltung wird, ausgelöst durch Sprechpausen zwischen den einzelnen Wörtern, für jedes Wort des jeweiligen Textes ein jeweils entsprechendes Signal­ muster ermittelt,
  • e) es wird durch eine Vergleichseinrichtung geprüft, ob im Wort­ schatzspeicher bereits ein dem aktuellen Wort jeweils ent­ sprechendes Signalmuster gespeichert ist und
  • f) sofern diese Prüfung ergibt, daß dies nicht der Fall ist, wird das aktuelle Signalmuster in einem freien Speicherbe­ reich des Wortschatzspeichers gespeichert und dessen Adresse dem jeweiligen Wort zugeordnet.
Der Erfindung liegt die Erkenntnis zugrunde, daß bei zu bilden­ den Sprachtexten einzelne Wörter häufig vorkommen, so daß sich dadurch, daß keine satzweise, sondern eine wortweise Speicherung erfolgt, der Bedarf an Speicherplatz erheblich verringern läßt. Dabei ist es gemäß der Erfindung nicht erforderlich, die Worte isoliert einzusprechen, sondern diese werden durch die Sprach­ erkennungsschaltung automatisch aus einem fließend gesprochenen Satz selektiert (Pausenerkennung). Auf ein aufwendiges Editie­ ren, d. h. manuelles Schneiden von auf einem Tonträger aufge­ nommenen Textstücken, kann dadurch verzichtet werden.
Eine erste vorteilhafte Ausbildung der Erfindung ist dadurch gekennzeichnet, daß bei Betonungsunterschieden ein und dessel­ ben Wortes in Abhängigkeit von dessen Stellung im Text dieses Wort für jede Stellung gesondert mit seinem Signalmuster im Wortspeicher gespeichert wird.
Manche Wörter sind in ihrer akustischen Entsprechung stark ab­ hängig von der Satzstellung, d. h., ob sie am Satzanfang, in der Satzmitte oder am Satzende stehen, oder auch vom Satztyp, d. h., ob ein Fragesatz, ein Befehlsatz oder ein Aussagesatz vorliegt. Demzufolge werden derartige Wörter über Texte in den Wortschatzspeicher übernommen, die diese Betonungsunterschiede herausstellen. Mit der Abspeicherung eines solchen Wortes im Wortschatzspeicher wird dann jeweils auch ein Kennzeichen hinterlegt, das die jeweilige Satzstellung bzw. den jeweiligen Satztyp kennzeichnet.
Gemäß einer weiteren vorteilhaften Ausbildung der Erfindung wird eine Liste für die Adressen der gespeicherten Wörter ge­ druckt, damit einem Anwender, der entsprechend den vorliegenden gespeicherten Wörtern einen neuen Sprachtext bilden will, ein einfaches Arbeitsmittel an die Hand gegeben ist.
Ein Ausführungsbeispiel der Erfindung ist in der Zeichnung dar­ gestellt und wird im folgenden näher erläutert.
In der Darstellung ist ein Blockschaltbild einer Einrichtung zur Durchführung des erfindungsgemäßen Verfahrens gezeigt. Zunächst sei angenommen, daß zum Bilden einer Wortschatzbibliothek zwei Texte T 1 und T 2 vorliegen, die aus den Wörtern a, b, c, d ? bzw. d, a, b, a! bestehen mögen. Beim Text T 1 handelt es sich um einen Fragesatz, demzufolge ist das Wort d mit einem zusätzlichen Hin­ weis auf diesen Fragesatz in Form eines Fragezeichens hervorge­ hoben. Beim Text T 2 handelt es sich um einen Befehlssatz, demzu­ folge ist das letzte Wort a mit einem Ausrufungszeichen ergänzend versehen.
Die Texte T 1 und T 2 werden nacheinander in einem Speicher S 1 ab­ gespeichert (durch einen offenen Pfeil ist der Informationsfluß angedeutet), was durch eine der Übersichtlichkeit halber nicht dargestellte Dateneingabeeinrichtung erfolgen kann. Wenn dies erfolgt ist, werden die Texte T 1 und T 2 nacheinander von einem Sprecher oder einer Sprecherin in ein Mikrophon M eingesprochen. Der akustische Signalfluß ist ebenfalls durch einen offenen Pfeil angedeutet. Vom Mikrophon M gelangt dessen Ausgangssignal an eine Spracherkennungsschaltung, die aus Umsetzern U 1 und U 2 besteht. Der Umsetzer U 1 formt aus dem Ausgangssignal des Mikro­ phons M ein elektrisches Signalmuster, das durch eine Folge von Zuständen logisch "0" und logisch "1" gekennzeichnet ist, so daß eine Digitalisierung des Ausgangssignals des Mikrophons M er­ folgt. Dieses Signalmuster gelangt in einen Speicher S 3. Vom Umsetzer U 2 wird erkannt, wenn zwischen zwei aufeinanderfolgen­ den Wörtern eine Lücke besteht und zu diesem Zeitpunkt wird ein Vergleicher V über ein Steuersignal auf einer Leitung L 1 wirk­ sam geschaltet, der dann den Inhalt des Speichers S 3, d. h., das elektrische Signalmuster, das dem zuletzt gesprochenen Wort entspricht, mit dem Inhalt eines Speichers S 4 vergleicht. Dazu ist der Vergleicher mit Leitungen L 2 und L 3 mit den Speichern S 3 und S 4 verbunden. Dieser Speicher S 4 stellt einen Wortschatz­ speicher für die Wortschatzbibliothek dar, der die Signalmuster aller zu verarbeitenden Wörter beinhaltet.
Wenn in einem Anfangszustand im Speicher S 4 noch überhaupt kein Signalmuster zu einem der Wörter vorliegt, wird vom Vergleicher V festgestellt, daß das aktuelle Wort neu ist und demzufolge in den Speicher S 4 einzuschreiben ist. Dazu wird von einem Un­ gleich-Ausgang des Vergleichers V über eine Leitung L 4 ein Steuersignal an einen Zähler Z gegeben, der ausgehend von einer Grundstellung heraus alle Adressen für den Wortschatzspeicher S 4 über eine Leitung L 5 vergibt. Für das erste Wort a des Textes T 1 würde vom Zähler Z 1 demzufolge die Adresse 1 vergeben werden, unter der dann das Wort a nach Überspielen aus dem Speicher S 3 im Speicher S 4 abgelegt wird. Dies Überspielen wird durch das Steuersignal auf der Leitung L 4 ausgelöst.
Unabhängig davon, ob vom Vergleicher V festgestellt worden ist, daß das aktuelle Wort bereits im Speicher S 4 abgelegt ist oder nicht, wird über die Ausgangsleitung L 6 eines ODER-Glied 0 stets ein Steuersignal ausgelöst, das ein Rücksetzen des Speichers S 3 gewährleistet. Dazu ist das ODER-Glied 0 eingangsseitig nicht nur mit dem Ungleich-Ausgang des Vergleichers V, sondern auch dessen Gleich-Ausgang verbunden. Ein Ausgangssignal des Um­ setzers U 2, das darauf hinweist, daß ein Wort beendet ist und das nächste Wort beginnt, steuert ferner den Speicher S 1 an, der nach Art eines Schieberegisters an seinem Ausgang nachein­ ander die einzelnen Wörter der Texte T 1 und T 2 ausgibt. Ferner wird ein Speicher S 2 angesteuert, das jeweils am Ausgang des Speichers S 1 vorliegende Wort zu übernehmen.
Die vom Speicher S 2 übernommenen Wörter werden stets dann, wenn eine Ungleichheit vom Vergleicher V festgestellt worden ist, und demzufolge ein Steuersignal auf der Leitung L 4 vorliegt, zu­ sammen mit der vom Zähler Z ermittelten Adresse über eine Lei­ tung L 7 einem Speicher S 5 zugeführt, in dem daher für jedes Wort die für den Speicher S 4 relevante Adresse festgehalten ist. Der Inhalt des Speichers S 5 kann über einen Drucker D ausge­ geben werden.
Beim gewählten Beispiel mit den Texten T 2 und T 2 tauchen die Wörter a und b sowohl im Text T 1 wie auch im Text T 2 auf. Da diese Wörter akustisch gleich klingen mögen, werden diese Wörter nicht mehrfach im Wortschatzspeicher S 4 abgelegt.
Allerdings wird das Wort a am Ende des Textes T 2 aufgrund des Vorliegens eines Befehlssatzes, wie dies durch ein Ausrufungs­ zeichen angedeutet ist, so gesprochen, daß vom Vergleicher V festgestellt wird, daß das resultierende Signalmuster nicht mit dem bereits gespeicherten Signalmuster für das Wort a überein­ stimmt. Demzufolge wird das Wort a! mit diesem auf den Befehl hinweisenden Bedeutungsinhalt ein zweites Mal im Speicher S 4 registriert. Gleiches gilt für das Wort d, das im Text T 1 das Ende eines Fragesatzes bildet, was durch ein Fragezeichen ange­ deutet ist, während es im Text T 2 den Satzbeginn bildet. Demzu­ folge wird auch dieses Wort zweimal im Speicher S 4 abgelegt. Bei einer Abfolge der Wörter gemäß den Texten T 1 und T 2, d. h. bei einer Folge a, b, c, d?, d, a, b, a! würde diesen Wörtern durch den Zähler Z die Adressen a=1, b=2, c=3, d?=4, d=5, a!=6 zugeordnet werden.
Um eine gute Übersicht für die Wörter a bis d und ihre Adressen im Speicher S 4 zu ermöglichen, kann auch eine umgestellte Reihung des Ausdruckes vom Drucker D gemäß dem in der Figur an­ gegebenen alphabetischen Schema erfolgen.
Dieser Ausdruck ermöglicht es einem Bediener, über ein Eingabe­ gerät E beispielsweise einen Sprachtext zu generieren, der aus einer Folge der Wörter b, c und a! bestehen möge, indem über das Eingabegerät die Adresen 2, 3 und 6, die diesen Wörtern zuge­ ordnet sind, einem Steuerwerk ST mitgeteilt werden, das demzu­ folge den Inhalt des Speichers S 4 entsprechend adressiert ab­ fragt und die abgefragten Signalmuster in ein akustisches Signal umformt, das beispielsweise über einen Lautsprecher L ausge­ geben werden kann.
Anstelle einzelner Wörter könnten u. U. auch kleine Textteile im Wortschatzspeicher hinterlegt werden, wenn die automatische Spracherkennungsschaltung zur Erkennung der jeweiligen Text­ stückgrenzen geeignet wäre.
Ferner wäre es auch möglich, alle redundante Sprachinformation aus dem analogen Sprachsignal herauszufiltern, um eine weitere Reduktion des erforderlichen Speicherbedarfs zu ermöglichen.

Claims (3)

1. Verfahren zur natürlich klingenden Sprachausgabe von Sprach­ texten, wobei entsprechend jeweils aus mehreren Wörtern zu­ sammengestellter Texte mit Hilfe dieser Wörter ein Wortschatz­ speicher adressierbar ist, der zu jedem Wort dessen akustische Entsprechung in Form eines elektrischen Signalmusters speichert, und wobei diese Signalmuster entsprechend der Wortfolge des jeweiligen Sprachtextes seriell einem elektroakustischen Wandler zuführbar sind, dadurch gekennzeichnet, daß ein Laden des Wortschatzspeichers (S 4) in folgenden Schrit­ ten erfolgt:
  • a) Es werden Texte (T 1, T 2) vorgegeben, die jeweils mindestens eines der zu speichernden Wörter (a, a!, b, c, d, d?) beinhalten,
  • b) die Wörter (a, b, c, d? bzw. d, a, b, a!) jedes Textes (T 1 bzw. T 2) werden aufeinanderfolgend registriert, c) die Texte (T 1, T 2) werden über einen elektroakustischen Wand­ ler (M) einer Spracherkennungsschaltung (U 1, U 2) zugeführt,
  • d) von der Spracherkennungsschaltung (U 1, U 2) wird, ausgelöst durch Sprechpausen zwischen den einzelnen Wörtern, für jedes Wort (a, b, c, d? bzw. d, a, b, a!) des jeweiligen Textes (T 1 bzw. T 2) ein jeweils entsprechendes Signalmuster ermittelt,
  • e) es wird durch eine Vergleichseinrichtung (V) geprüft, ob im Wortschatzspeicher (S 4) bereits ein dem aktuellen Wort (a, b, c, d? bzw. d, a, b, a!) jeweils entsprechendes Signalmuster ge­ speichert ist und
  • f) sofern diese Prüfung ergibt, daß dies nicht der Fall ist, wird das aktuelle Signalmuster in einem freien Speicherbe­ reich des Wortschatzspeichers (S 4) gespeichert und dessen Adresse (1, 6, 2, 3, 5, 4) dem jeweiligen Wort (a, a!, b, c, d, d?) zugeordnet.
2. Verfahren nach Anspruch 1, dadurch gekenn­ zeichnet, daß bei Betonungsunterschieden ein und des­ selben Wortes (a, a!, d, d?) in Abhängigkeit von dessen Stellung im Text dieses Wort für jede Stellung gesondert mit seinem Signal­ muster im Wortschatzspeicher (S 4) gespeichert wird.
3. Verfahren nach Anspruch 1 oder 2, dadurch ge­ kennzeichnet, daß eine Liste für die Adressen (1, 6, 2, 3, 5, 4) der gespeicherten Wörter (a, a!, b, c, d, d?) gedruckt wird.
DE19863642929 1986-12-16 1986-12-16 Verfahren zur natuerlich klingenden sprachausgabe Withdrawn DE3642929A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19863642929 DE3642929A1 (de) 1986-12-16 1986-12-16 Verfahren zur natuerlich klingenden sprachausgabe

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19863642929 DE3642929A1 (de) 1986-12-16 1986-12-16 Verfahren zur natuerlich klingenden sprachausgabe

Publications (1)

Publication Number Publication Date
DE3642929A1 true DE3642929A1 (de) 1988-06-23

Family

ID=6316301

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19863642929 Withdrawn DE3642929A1 (de) 1986-12-16 1986-12-16 Verfahren zur natuerlich klingenden sprachausgabe

Country Status (1)

Country Link
DE (1) DE3642929A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4204929A1 (de) * 1992-02-19 1993-08-26 Sel Alcatel Ag Digitales sprachspeichersystem fuer ein telekommunikationssystem
EP1168298A2 (de) * 2000-06-30 2002-01-02 Nokia Mobile Phones Ltd. Verfahren zum Zusammensetzen von Ansagen zur Sprachausgabe

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4204929A1 (de) * 1992-02-19 1993-08-26 Sel Alcatel Ag Digitales sprachspeichersystem fuer ein telekommunikationssystem
EP1168298A2 (de) * 2000-06-30 2002-01-02 Nokia Mobile Phones Ltd. Verfahren zum Zusammensetzen von Ansagen zur Sprachausgabe
DE10031008A1 (de) * 2000-06-30 2002-01-10 Nokia Mobile Phones Ltd Verfahren zum Zusammensetzen von Sätzen zur Sprachausgabe
EP1168298A3 (de) * 2000-06-30 2002-12-11 Nokia Corporation Verfahren zum Zusammensetzen von Ansagen zur Sprachausgabe
US6757653B2 (en) 2000-06-30 2004-06-29 Nokia Mobile Phones, Ltd. Reassembling speech sentence fragments using associated phonetic property

Similar Documents

Publication Publication Date Title
DE3590157C2 (de)
DE3910467C2 (de) Verfahren und Vorrichtung zur Erzeugung von Berichten
DE60004420T2 (de) Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem
DE3242866C2 (de)
DE3010150C2 (de) Elektronische Registrierkasse
AT389952B (de) Wortprozessor
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
DE60008893T2 (de) Sprachgesteuertes tragbares Endgerät
EP0647377B2 (de) Verfahren und anordnung zum identifizieren eines sendebeitrages
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE2129280A1 (de) Diktiergerät
DE69233622T2 (de) Vorrichtung zur Erzeugung von Ansagen
AT391035B (de) System zur spracherkennung
DE3141254C2 (de) Sprachausgabevorrichtung
DE3642929A1 (de) Verfahren zur natuerlich klingenden sprachausgabe
DE60021666T2 (de) Inkrementales Trainieren eines Spracherkenners für eine neue Sprache
EP0406744B1 (de) Schaltungsanordnung zur Überarbeitung eines in einem Magnetband- und/oder Halbleiterspeicher abgespeicherten gesprochenen Textes
DE4111781A1 (de) Computersystem zur spracherkennung
DE3518737C2 (de)
EP1344211B1 (de) Vorrichtung und verfahren zur differenzierten sprachausgabe
EP0677835B1 (de) Verfahren zum Ermitteln einer Folge von Wörtern
DE3236830A1 (de) Elektronische uhr mit schallspeicherung
DE60007231T2 (de) Datenwiedergabeschaltung und Sprachaufzeichnungs-/wiedergabegerät welches diese Schaltung enthält
DE2016572A1 (de) Verfahren und Einrichtung zur Sprachsynthese
DE10033104C2 (de) Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee