DE3642929A1

DE3642929A1 - Verfahren zur natuerlich klingenden sprachausgabe

Info

Publication number: DE3642929A1
Application number: DE19863642929
Authority: DE
Inventors: Karl-Heinz Dipl Ing Walsdorf
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1986-12-16
Filing date: 1986-12-16
Publication date: 1988-06-23

Description

Die Erfindung bezieht sich auf ein Verfahren zur natürlich klingenden Sprachausgabe von Sprachtexten, wobei entsprechend jeweils aus mehreren Wörtern zusammengestellter Texte mit Hilfe dieser Wörter ein Wortschatzspeicher adressierbar ist, der zu jedem Wort dessen akustische Entsprechung in Form eines elek trischen Signalmusters speichert, und wobei diese Signalmuster entsprechend der Wortfolge des jeweiligen Sprachtextes seriell einem elektroakustischen Wandler zufürbar sind.

Die Speicherung von natürlich klingender Sprache in digitaler Form benötigt ein relativ großes Speichervolumen. Pro Sekunde Sprache werden ca. 20 bis 30 Kilo-Bit benötigt. Demzufolge wurde bisher für die Speicherung von Ansagetexten oder ähnli chem meist ein analoges Speichermedium, z. B. eine Tonband kassette, eingesetzt. Eine derartige Maßnahme weist jedoch den Nachteil auf, daß die Zugriffszeit auf eine Tonbandkassette relativ groß ist und daß aufgrund von mechanischem Verschleiß von Bandmaterial und Laufwerk ein relativ großer Wartungsauf wand erforderlich ist.

Aufgabe der Erfindung ist es, ein Verfahren der eingangs ge nannten Art so auszubilden, daß eine digitale Speicherung für natürlich klingende Sprachtexte mit relativ geringem Speicher bedarf ermöglicht wird.

Gemäß der Erfindung wird diese Aufgabe dadurch gelöst, daß ein Laden des Wortschatzspeichers in folgenden Schritten erfolgt:

a) Es werden Texte vorgegeben, die jeweils mindestens eines der zu speichernden Wörter beinhalten,
b) die Wörter jedes Textes werden aufeinanderfolgend registriert,
c) die Texte werden über einen elektroakustischen Wandler einer Spracherkennungsschaltung zugeführt,
d) von der Spracherkennungsschaltung wird, ausgelöst durch Sprechpausen zwischen den einzelnen Wörtern, für jedes Wort des jeweiligen Textes ein jeweils entsprechendes Signal muster ermittelt,
e) es wird durch eine Vergleichseinrichtung geprüft, ob im Wort schatzspeicher bereits ein dem aktuellen Wort jeweils ent sprechendes Signalmuster gespeichert ist und
f) sofern diese Prüfung ergibt, daß dies nicht der Fall ist, wird das aktuelle Signalmuster in einem freien Speicherbe reich des Wortschatzspeichers gespeichert und dessen Adresse dem jeweiligen Wort zugeordnet.

Der Erfindung liegt die Erkenntnis zugrunde, daß bei zu bilden den Sprachtexten einzelne Wörter häufig vorkommen, so daß sich dadurch, daß keine satzweise, sondern eine wortweise Speicherung erfolgt, der Bedarf an Speicherplatz erheblich verringern läßt. Dabei ist es gemäß der Erfindung nicht erforderlich, die Worte isoliert einzusprechen, sondern diese werden durch die Sprach erkennungsschaltung automatisch aus einem fließend gesprochenen Satz selektiert (Pausenerkennung). Auf ein aufwendiges Editie ren, d. h. manuelles Schneiden von auf einem Tonträger aufge nommenen Textstücken, kann dadurch verzichtet werden.

Eine erste vorteilhafte Ausbildung der Erfindung ist dadurch gekennzeichnet, daß bei Betonungsunterschieden ein und dessel ben Wortes in Abhängigkeit von dessen Stellung im Text dieses Wort für jede Stellung gesondert mit seinem Signalmuster im Wortspeicher gespeichert wird.

Manche Wörter sind in ihrer akustischen Entsprechung stark ab hängig von der Satzstellung, d. h., ob sie am Satzanfang, in der Satzmitte oder am Satzende stehen, oder auch vom Satztyp, d. h., ob ein Fragesatz, ein Befehlsatz oder ein Aussagesatz vorliegt. Demzufolge werden derartige Wörter über Texte in den Wortschatzspeicher übernommen, die diese Betonungsunterschiede herausstellen. Mit der Abspeicherung eines solchen Wortes im Wortschatzspeicher wird dann jeweils auch ein Kennzeichen hinterlegt, das die jeweilige Satzstellung bzw. den jeweiligen Satztyp kennzeichnet.

Gemäß einer weiteren vorteilhaften Ausbildung der Erfindung wird eine Liste für die Adressen der gespeicherten Wörter ge druckt, damit einem Anwender, der entsprechend den vorliegenden gespeicherten Wörtern einen neuen Sprachtext bilden will, ein einfaches Arbeitsmittel an die Hand gegeben ist.

Ein Ausführungsbeispiel der Erfindung ist in der Zeichnung dar gestellt und wird im folgenden näher erläutert.

In der Darstellung ist ein Blockschaltbild einer Einrichtung zur Durchführung des erfindungsgemäßen Verfahrens gezeigt. Zunächst sei angenommen, daß zum Bilden einer Wortschatzbibliothek zwei Texte T 1 und T 2 vorliegen, die aus den Wörtern a, b, c, d ? bzw. d, a, b, a! bestehen mögen. Beim Text T 1 handelt es sich um einen Fragesatz, demzufolge ist das Wort d mit einem zusätzlichen Hin weis auf diesen Fragesatz in Form eines Fragezeichens hervorge hoben. Beim Text T 2 handelt es sich um einen Befehlssatz, demzu folge ist das letzte Wort a mit einem Ausrufungszeichen ergänzend versehen.

Die Texte T 1 und T 2 werden nacheinander in einem Speicher S 1 ab gespeichert (durch einen offenen Pfeil ist der Informationsfluß angedeutet), was durch eine der Übersichtlichkeit halber nicht dargestellte Dateneingabeeinrichtung erfolgen kann. Wenn dies erfolgt ist, werden die Texte T 1 und T 2 nacheinander von einem Sprecher oder einer Sprecherin in ein Mikrophon M eingesprochen. Der akustische Signalfluß ist ebenfalls durch einen offenen Pfeil angedeutet. Vom Mikrophon M gelangt dessen Ausgangssignal an eine Spracherkennungsschaltung, die aus Umsetzern U 1 und U 2 besteht. Der Umsetzer U 1 formt aus dem Ausgangssignal des Mikro phons M ein elektrisches Signalmuster, das durch eine Folge von Zuständen logisch "0" und logisch "1" gekennzeichnet ist, so daß eine Digitalisierung des Ausgangssignals des Mikrophons M er folgt. Dieses Signalmuster gelangt in einen Speicher S 3. Vom Umsetzer U 2 wird erkannt, wenn zwischen zwei aufeinanderfolgen den Wörtern eine Lücke besteht und zu diesem Zeitpunkt wird ein Vergleicher V über ein Steuersignal auf einer Leitung L 1 wirk sam geschaltet, der dann den Inhalt des Speichers S 3, d. h., das elektrische Signalmuster, das dem zuletzt gesprochenen Wort entspricht, mit dem Inhalt eines Speichers S 4 vergleicht. Dazu ist der Vergleicher mit Leitungen L 2 und L 3 mit den Speichern S 3 und S 4 verbunden. Dieser Speicher S 4 stellt einen Wortschatz speicher für die Wortschatzbibliothek dar, der die Signalmuster aller zu verarbeitenden Wörter beinhaltet.

Wenn in einem Anfangszustand im Speicher S 4 noch überhaupt kein Signalmuster zu einem der Wörter vorliegt, wird vom Vergleicher V festgestellt, daß das aktuelle Wort neu ist und demzufolge in den Speicher S 4 einzuschreiben ist. Dazu wird von einem Un gleich-Ausgang des Vergleichers V über eine Leitung L 4 ein Steuersignal an einen Zähler Z gegeben, der ausgehend von einer Grundstellung heraus alle Adressen für den Wortschatzspeicher S 4 über eine Leitung L 5 vergibt. Für das erste Wort a des Textes T 1 würde vom Zähler Z 1 demzufolge die Adresse 1 vergeben werden, unter der dann das Wort a nach Überspielen aus dem Speicher S 3 im Speicher S 4 abgelegt wird. Dies Überspielen wird durch das Steuersignal auf der Leitung L 4 ausgelöst.

Unabhängig davon, ob vom Vergleicher V festgestellt worden ist, daß das aktuelle Wort bereits im Speicher S 4 abgelegt ist oder nicht, wird über die Ausgangsleitung L 6 eines ODER-Glied 0 stets ein Steuersignal ausgelöst, das ein Rücksetzen des Speichers S 3 gewährleistet. Dazu ist das ODER-Glied 0 eingangsseitig nicht nur mit dem Ungleich-Ausgang des Vergleichers V, sondern auch dessen Gleich-Ausgang verbunden. Ein Ausgangssignal des Um setzers U 2, das darauf hinweist, daß ein Wort beendet ist und das nächste Wort beginnt, steuert ferner den Speicher S 1 an, der nach Art eines Schieberegisters an seinem Ausgang nachein ander die einzelnen Wörter der Texte T 1 und T 2 ausgibt. Ferner wird ein Speicher S 2 angesteuert, das jeweils am Ausgang des Speichers S 1 vorliegende Wort zu übernehmen.

Die vom Speicher S 2 übernommenen Wörter werden stets dann, wenn eine Ungleichheit vom Vergleicher V festgestellt worden ist, und demzufolge ein Steuersignal auf der Leitung L 4 vorliegt, zu sammen mit der vom Zähler Z ermittelten Adresse über eine Lei tung L 7 einem Speicher S 5 zugeführt, in dem daher für jedes Wort die für den Speicher S 4 relevante Adresse festgehalten ist. Der Inhalt des Speichers S 5 kann über einen Drucker D ausge geben werden.

Beim gewählten Beispiel mit den Texten T 2 und T 2 tauchen die Wörter a und b sowohl im Text T 1 wie auch im Text T 2 auf. Da diese Wörter akustisch gleich klingen mögen, werden diese Wörter nicht mehrfach im Wortschatzspeicher S 4 abgelegt.

Allerdings wird das Wort a am Ende des Textes T 2 aufgrund des Vorliegens eines Befehlssatzes, wie dies durch ein Ausrufungs zeichen angedeutet ist, so gesprochen, daß vom Vergleicher V festgestellt wird, daß das resultierende Signalmuster nicht mit dem bereits gespeicherten Signalmuster für das Wort a überein stimmt. Demzufolge wird das Wort a! mit diesem auf den Befehl hinweisenden Bedeutungsinhalt ein zweites Mal im Speicher S 4 registriert. Gleiches gilt für das Wort d, das im Text T 1 das Ende eines Fragesatzes bildet, was durch ein Fragezeichen ange deutet ist, während es im Text T 2 den Satzbeginn bildet. Demzu folge wird auch dieses Wort zweimal im Speicher S 4 abgelegt. Bei einer Abfolge der Wörter gemäß den Texten T 1 und T 2, d. h. bei einer Folge a, b, c, d?, d, a, b, a! würde diesen Wörtern durch den Zähler Z die Adressen a=1, b=2, c=3, d?=4, d=5, a!=6 zugeordnet werden.

Um eine gute Übersicht für die Wörter a bis d und ihre Adressen im Speicher S 4 zu ermöglichen, kann auch eine umgestellte Reihung des Ausdruckes vom Drucker D gemäß dem in der Figur an gegebenen alphabetischen Schema erfolgen.

Dieser Ausdruck ermöglicht es einem Bediener, über ein Eingabe gerät E beispielsweise einen Sprachtext zu generieren, der aus einer Folge der Wörter b, c und a! bestehen möge, indem über das Eingabegerät die Adresen 2, 3 und 6, die diesen Wörtern zuge ordnet sind, einem Steuerwerk ST mitgeteilt werden, das demzu folge den Inhalt des Speichers S 4 entsprechend adressiert ab fragt und die abgefragten Signalmuster in ein akustisches Signal umformt, das beispielsweise über einen Lautsprecher L ausge geben werden kann.

Anstelle einzelner Wörter könnten u. U. auch kleine Textteile im Wortschatzspeicher hinterlegt werden, wenn die automatische Spracherkennungsschaltung zur Erkennung der jeweiligen Text stückgrenzen geeignet wäre.

Ferner wäre es auch möglich, alle redundante Sprachinformation aus dem analogen Sprachsignal herauszufiltern, um eine weitere Reduktion des erforderlichen Speicherbedarfs zu ermöglichen.

Claims

1. Verfahren zur natürlich klingenden Sprachausgabe von Sprach texten, wobei entsprechend jeweils aus mehreren Wörtern zu sammengestellter Texte mit Hilfe dieser Wörter ein Wortschatz speicher adressierbar ist, der zu jedem Wort dessen akustische Entsprechung in Form eines elektrischen Signalmusters speichert, und wobei diese Signalmuster entsprechend der Wortfolge des jeweiligen Sprachtextes seriell einem elektroakustischen Wandler zuführbar sind, dadurch gekennzeichnet, daß ein Laden des Wortschatzspeichers (S 4) in folgenden Schrit ten erfolgt:

a) Es werden Texte (T 1, T 2) vorgegeben, die jeweils mindestens eines der zu speichernden Wörter (a, a!, b, c, d, d?) beinhalten,
b) die Wörter (a, b, c, d? bzw. d, a, b, a!) jedes Textes (T 1 bzw. T 2) werden aufeinanderfolgend registriert, c) die Texte (T 1, T 2) werden über einen elektroakustischen Wand ler (M) einer Spracherkennungsschaltung (U 1, U 2) zugeführt,
d) von der Spracherkennungsschaltung (U 1, U 2) wird, ausgelöst durch Sprechpausen zwischen den einzelnen Wörtern, für jedes Wort (a, b, c, d? bzw. d, a, b, a!) des jeweiligen Textes (T 1 bzw. T 2) ein jeweils entsprechendes Signalmuster ermittelt,
e) es wird durch eine Vergleichseinrichtung (V) geprüft, ob im Wortschatzspeicher (S 4) bereits ein dem aktuellen Wort (a, b, c, d? bzw. d, a, b, a!) jeweils entsprechendes Signalmuster ge speichert ist und
f) sofern diese Prüfung ergibt, daß dies nicht der Fall ist, wird das aktuelle Signalmuster in einem freien Speicherbe reich des Wortschatzspeichers (S 4) gespeichert und dessen Adresse (1, 6, 2, 3, 5, 4) dem jeweiligen Wort (a, a!, b, c, d, d?) zugeordnet.

2. Verfahren nach Anspruch 1, dadurch gekenn zeichnet, daß bei Betonungsunterschieden ein und des selben Wortes (a, a!, d, d?) in Abhängigkeit von dessen Stellung im Text dieses Wort für jede Stellung gesondert mit seinem Signal muster im Wortschatzspeicher (S 4) gespeichert wird.

3. Verfahren nach Anspruch 1 oder 2, dadurch ge kennzeichnet, daß eine Liste für die Adressen (1, 6, 2, 3, 5, 4) der gespeicherten Wörter (a, a!, b, c, d, d?) gedruckt wird.