DE19532114C2

DE19532114C2 - Sprachdialog-System zur automatisierten Ausgabe von Informationen

Info

Publication number: DE19532114C2
Application number: DE1995132114
Authority: DE
Inventors: Georg Fries; Karlheinz Schuhmacher; Antje Wirth; Bernhard Kaspar
Original assignee: Deutsche Telekom AG
Current assignee: Deutsche Telekom AG
Priority date: 1995-08-31
Filing date: 1995-08-31
Publication date: 2001-07-26
Anticipated expiration: 2015-09-01
Also published as: GB2304957A; FR2738382A1; FR2738382B1; GB2304957B; DE19532114A1; GB9618308D0

Description

Die Erfindung betrifft ein Sprachdialog-Verfahren zur automatisierten Ausgabe von Informationen, insbesondere einer Rufnummer für einen Benutzer nach Anspruch 1, eine Sprachdialog-Anlage zur Durchführung des Sprachdialog- Verfahrens nach dem Oberbegriff des Anspruchs 6 sowie eine Vorrichtung zur sprecherunabhängigen Spracherkennung, insbesondere zum Einsatz in einer Sprachdialog-Anlage gemäß dem Anspruch 15.

Es sind Sprachdialog-Systeme zur automatisierten Sprachausgabe von Rufnummern bekannt, bei denen der Dialog zwischen einem Anrufer, der eine bestimmte Rufnummernauskunft wünscht, und dem System über das Telefon abgewickelt wird. Die derzeit betriebenen Sprachdialog-Systeme können allerdings nur einen festen, kleinen bis mittleren Wortschatz von etwa 1000 Wörtern erkennen. Beliebige Texte, darunter die Ausgabe von Ortsnamen, Familiennamen und der Rufnummer werden über einen Sprachsynthetisator ausgegeben. Es hat sich jedoch gezeigt, daß Fehler bei der Aussprache von Namen insbesondere dann auftreten, wenn die Namen nicht den üblichen deutschen Ausspracheregeln gehorchen.

Aus der DE 37 32 849 A1 ist ein akustisches Mensch/Maschinen- Dialogsystem bekannt, welches unter anderem ein Erkennungsmodul aufweist, in dem das von einem Benutzer eingegebene Sprachsignal analysiert wird. Hierzu weist das Erkennungsmodulist eine Wortfolgengenerierungseinheit auf, in der sprachspezifische Merkmale des eingegebenen Sprachsignals mit Hilfe eines phonetischen Wortlexikons auf Wortfolgen abgebildet werden. Da die Abbildung auf Wortfolgen nicht eindeutig ist, werden eine Syntaktisch-semantisch- pragmatische Inhaltsanalyse und zusätzlich statistische Methoden angewandt, um die einzig richtige Wortfolge zu gewinnen.

Aus der FR 2690 777 A1 ist ein Verfahren zur Steuerung eines Automaten durch Spracherkennung bekannt, nach dem ein Telekommunikationsteilnehmer einem Operator den Namen eines Teilnehmers mitteilt, mit dem dieser eine Kommunikation führen möchte. Anschließend buchstabiert der Operator den gehörten Namen über ein Mikrofon in eine Spracherkennungseinrichtung. Dem Operator wird danach sprachlich mitgeteilt, ob das buchstabierte Wort richtig erkannt worden ist. Ist das Wort richtig erkannt worden, sorgt der Automat dafür, dass der Telekommunikations- Teilnehmer mit dem gewünschten Teilnehmer verbunden wird.

Aus der US 5 357 596 ist ein Sprachdialogsystem zur Unterstützung einer Mensch-Computer-Interaktion bekannt. Das System umfaßt eine Spracherkennungseinheit zum Erkennen eines semantischen Inhaltes einer von einem Benutzer gesprochenen Äußerung und eine Einrichtung zur Erzeugung und sprachlichen Ausgabe einer Antwort unter Ansprechen auf den erkannten semantischen Inhalt der vom Benutzer eingegebenen Sprachäußerung. Die Spracherkennungseinheit weist eine Keyword-Erfassungseinrichtung auf, die eine sogenannte Keyword-Spottertechnik anwendet, um den semantischen Inhalt aus der gesprochenen Äußerung gewinnen zu können.

Der Erfindung liegt daher die Aufgabe zugrunde, ein Sprachdialog-Verfahren zur automatisierten Ausgabe von Informationen verfügbar zu machen und eine dazu geeignet ausgebildete Sprachdialog-Anlage zu schaffen, die ein sehr großes zu erkennendes Vokabular, d. h. etwa 10.000 bis 100.000 Wörter, verarbeiten und trotzdem eine akzeptable Erkennungsrate erreichen kann sowie Fehler bei der Sprachausgabe fremdsprachlicher Begriffe verringert oder sogar gänzlich vermeidet, sowie dazu eine Vorrichtung zur sprecherunab hängigen Spracherkennung anzugeben.

Die Erfindung löst dieses technische Problem mit den Verfahrensschritten des Sprachdialog-Verfahrens nach Anspruch 1, den Merkmalen der Sprachdialog-Anlage nach Anspruch 6 und den Vorrichtungsmerkmalen der sprecherunabhängigen Spracherkennung nach Anspruch 15.

Die Erfindung ist in der Lage ein sehr großes Vokabular mit einer akzeptablen Erkennungsrate zu verarbeiten, indem eine von einem Benutzer eingegebene Äußerung eine kombinierte Spracherkennung durchläuft. Bei dieser Äußerung kann es sich um einen Nachnamen, einen Vornamen, einen Straßennamen, einen Ortsnamen oder auch um zusammenhängende Wörter handeln. Die kombinierte Spracherkennung umfaßt einen Alphabet-Erkenner, der eine vom Benutzer buchstabierte Äußerung erkennen und daraufhin orthographisch ähnliche Äußerungen aus einer Vielzahl vorbestimmter Äußerungen auswählen kann. Der Begriff "orthographisch ähnliche Äußerung" wird im folgenden immer dann verwendet, wenn ausgedrückt werden soll, daß zwei oder mehrere Folgen ausgesprochener Buchstabenwörter ähnlich klingen (z. B. "es e es es e el" und "ef e es es e el". Als zweite Hauptkomponente umfaßt die kombinierte Spracherkennung einen Äußerungs- Erkenner, der die vom Benutzer direkt eingegebene Äußerung mit den vorbestimmten Äußerungen vergleicht, die den vom Alphabeterkenner ausgewählten vorbestimmten Äußerungen entsprechen. Auf der Grundlage einer Ähnlichkeitsermittlung liefert der Äußerungserkenner als Erkennungsergebnis wenigstens ein Wort zur Ausgabe an den Benutzer, das einer der Benutzeräußerung ähnlichen vorbestimmten Äußerung entspricht. Ein online-fähiges Lexikon dient dazu, orthographisch-phonetische Informationen für die Vielzahl vorbestimmter Äußerungen zu speichern, auf die der Alphabet-Erkenner, der Äußerungs- Erkenner und ein Synthetisator in Echtzeit zugreifen können.

Zweckmäßigerweise ist ein Zwischenspeicher vorgesehen, der die vom Benutzer direkt eingegebene Äußerung vorübergehend speichert, bevor sie an den Äußerungs-Erkenner weitergereicht wird. Darüber hinaus enthält die Anlage einen weiteren Speicher, in dem die vom Alphabet-Erkenner vorausgewählten, buchstabierten Referenzäußerungen in Form einer Kandidatenliste orthographisch ähnlicher Namen geladen werden.

Der Äußerungs-Erkenner arbeitet im Keyword-Spotting-Modus, so daß der Benutzer in bestimmten Grenzen Zusatzäußerungen vor und nach der eigentlichen Äußerung aussprechen kann, und der Äußerungs-Erkenner trotzdem in der Lage ist, die eigentliche Äußerung zu extrahieren.

Bei den im Lexikon gespeicherten orthographisch-phonetischen Informationen handelt es sich einmal um die Schreibweise der vorbestimmten Äußerungen, die der Alphabet-Erkenner benutzt, um eine buchstabierte Äußerung zu erkennen und daraus eine Vorauswahl orthographisch ähnlicher Namen für den Äußerungs- Erkenner zu treffen. Darüber hinaus sind im Lexikon phonetische Transkriptionen, beispielsweise für Ortsnamen und Nachnamen, gespeichert. Orthographie und phonetische Transkription von Eigennamen werden in einem offline Prozeß aus einem elektronischen Aussprachewörterbuch in das Lexikon übertragen. Dabei werden nur Eigennamen übernommen, die im elektronischen Telefonbuch vorkommen. Das elektronische Telefonbuch ist eine echtzeitfähige Datenbank, die die zur Informationsausgabe an den Benutzer benötigten Adressen und Rufnummern enthält. Um eine hohe Qualität auch bei der Sprachausgabe von Namen zu erhalten, die nicht den üblichen deutschen Ausspracheregeln gehorchen, sind neben der phonetischen Information auch betonungsbezogene Informationen der Begriffe gespeichert. Diese Sprachmerkmale geben die Betonung von Silben und Endungen auch fremdsprachlicher Wörter wieder.

Um zu vermeiden, daß aufgrund von akustischen Ähnlichkeiten zwischen Wörtern und/oder gesprochenen Buchstaben die Erkennungsergebnisse der kombinierten Spracherkennung zufällig beeinflußt werden, sind im Lexikon Zusatzinformationen für Homonyme gespeichert. Diese Zusatzinformationen erlauben es, einen durch die Spracherkennung erhaltenen Kandidaten um gleich auszusprechende Alternativen zu ergänzen und damit die Erkennungsrate der Anlage zu erhöhen.

Zweckmäßigerweise ist je eine Lexikonrubrik für ein allgemeines Vokabular, für Städtenamen und für die dort vorkommenden Nachnamen vorgesehen.

Die Steuerung der Sprachdialog-Anlage erfolgt durch einen programmgesteuerten Mikrocomputer. Die darin implementierte Steuersoftware sorgt unter anderem dafür, daß den Erkennern und dem Synthetisator rechtzeitig die benötigten orthographischen und phonetischen Informationen aus dem Lexikon zur Verfügung gestellt werden, und daß die Anlage einen Benutzer sprachgeführt zur Eingabe der jeweiligen Äußerungen auffordert. Darüber hinaus überwacht sie die in den Spracherkennern ablaufenden Timeouts, verarbeitet Ende- und Hilfebefehle und übernimmt die Fehlererkennung und - behandlung.

In dem Äußerungs-Erkenner und in dem Alphabet-Erkenner laufen interne Programmschleifen ab, die eine vom Benutzer eingegebene Äußerung zurückweisen oder nach Ablauf einer vorgegebenen Zeitspanne den Benutzer auffordern können, seine Äußerung erneut einzugeben.

Die Erfindung wird nachfolgend anhand eines Ausführungsbeispiels in Verbindung mit den beiliegenden Zeichnungen näher erläutert. Es zeigen:

Fig. 1 ein schematisches Blockschaltbild einer Sprachdialog-Anlage mit der erfindungsgemäßen kombinierten Spracherkennung und einem On-Line- Lexikon,

Fig. 2 ein Flußdiagramm für den Ablauf eines automatisierten Sprachdialogs zur Namenserkennung und Ausgabe einer dazugehörigen Rufnummer, der von der Sprachdialog-Anlage nach Fig. 1 durchgeführt wird.

Fig. 1 zeigt den prinzipiellen Aufbau einer Sprachdialog- Anlage, die eine Lexikon-gesteuerte Erkennung beliebiger Äußerungen, z. B. von Ortsnamen oder Nachnamen durch eine Kombination von Spracherkennern vornehmen und aufgrund einer ermittelten Äußerung (Erkennungsergebnis) eine der Äußerung zugeordnete Information (z. B. eine Rufnummer) ausgeben kann. Im einzelnen ist in Fig. 1 ein Fernsprechapparat 10 dargestellt, an dem ein Anrufer den Ortsnamen und den Nachnamen eines Teilnehmers, dessen Rufnummer er zu erfahren wünscht, oder bestimmte andere Äußerungen eingeben kann. Auf Seiten des Betreibers der Sprachdialog-Anlage ist wenigstens ein Analog-Digital-Wandler 80 angeordnet, der die analogen Sprachsignale vom Teilnehmer in digitale Signale umsetzt. Der Ausgang des Analog-Digital-Wandlers kann je mit dem Eingang eines Sprachspeichers 20 und eines Alphabet- oder Buchstaben- Erkenners 30 verbunden sein. Der Sprachspeicher 20 dient dazu, die vom Anrufer in den Fernsprechapparat 10 direkt eingegebene Äußerung, das ist z. B. der Name "Meier", für eine spätere Benutzung zwischenzuspeichern. Der Alphabet-Erkenner 30 empfängt über den Analog-Digital-Wandler 80 in Abhängigkeit vom Zustand des Sprachdialogablaufs eine buchstabierte Version der zuvor im Sprachspeicher 20 abgelegten, direkt eingegebenen Äußerung. Ein programmgesteuerter Mikrocomputer 120 sorgt dafür, daß die direkt eingegebene Äußerung in den Sprachspeicher 20 geladen wird und daß die buchstabierte Äußerung dem Alphabet-Erkenner 30 zugeführt wird. Der Ausgang des Alphabet-Erkenners 30 ist mit einem Speicher 40 verbunden, in dem eine Kandidatenliste orthographisch ähnlicher Äußerungen gespeichert ist, die vom Alphabet-Erkenner 30 während einer Vorauswahl ermittelt worden sind. Ein Äußerungs- Erkenner 50 verfügt über drei Eingänge, die jeweils mit dem Ausgang des Kandidatenspeichers 40, dem Sprachspeicher 20 und einem Online-Lexikon 70 verbunden sind. Der Äußerungs-Erkenner 50 arbeitet im sogenannten Keyword-Spotting-Modus, der es ermöglicht, daß die eigentliche Äußerung, z. B. "Meier", auch dann noch richtig extrahiert werden kann, wenn ihr Zusatzäußerungen wie "äh", "bitte" oder dergleichen vorhergehen bzw. nachfolgen. Der Ausgang des Keyword-Spotters 50 ist mit einem Erkennungsergebnis-Speicher 55 verbunden, in dem die Ergebnisäußerungen, das sind ähnlich lautende Namen, vom Keyword-Spotter 50 abgelegt werden. Die im Erkennungsergebnis-Speicher 55 abgelegten Äußerungen werden einem Synthetisator 60 zugeführt, der auf Basis der entsprechenden Informationen aus dem Lexikon der Reihe nach die Namen in synthetisierter Sprache über einen Digital- Analog-Wandler 85 zum Fernsprechapparat 10 des Teilnehmers überträgt. Der Synthetisator 60 kann auch die sprachlichen Aufforderungen an den Anrufer in Verbindung mit einer nicht dargestellten Datenbasis erzeugen, in der alle von der Anlage anzusagenden Texte in orthographischer bzw. phonetischer Form enthalten sind.

Das oben erwähnte Online-Lexikon 70 zeichnet sich vor allem dadurch aus, daß es gleichzeitig und in Echtzeit von dem Alphabet-Erkenner 30 für die Buchstabenerkennung, vom Keyword- Spotter 50 und vom Synthetisator 60 benutzt werden kann. Deshalb sind alle Informationen bezüglich der von der Anlage zu erkennenden und auszusprechenden Äußerungen in diesem Lexikon 70 gespeichert. Es handelt sich hierbei um orthographische und aussprache- bzw. betonungsbezogene Informationen, die in einem offline-Prozeß aus einem Aussprachewörterbuch 100 in das online-Lexikon 70 geladen werden. Zusätzlich sind im Lexikon 70 Informationen über Homonyme gespeichert, um das Erkennungsergebnis des Äußerungserkenners mit gleich klingenden Namen zu erweitern bzw. die buchstabierten Referenzäußerungen des Alphabeterkenners um orthographisch ähnliche Namen zu ergänzen, und damit die Wahrscheinlichkeit zu erhöhen, die richtige Äußerung mit zu erfassen. Dies sorgt auch für eine gesteigerte Erfolgsrate bei der Benutzung oder einen verbesserten Gesamtdurchsatz der Anlage, da zu erkennnende Äußerungen von den Spracherkennern 30, 50 seltener zurückgewiesen werden. Die Informationen über Homonyme ermöglichen es dem Äußerungserkenner, z. B. für eine Äußerung "Meier", alle im elektronischen Telefonbuch vorhandenen Schreibweisen, wie z. B. "Meier", "Mayer", "Maier" und "Meyer", zu finden und in die Liste der Erkennungsergebnisse aufzunehmen. Andererseits ist es dadurch dem Alphabeterkenner möglich, z. B. häufig auftretende und möglicherweise fälschlich verwendete Buchstabiervarianten, wie z. B. "MÜLLER" oder "MUELLER", selbst dann auf die richtige, buchstabierte Referenzäußerung abzubilden, wenn z. B. nur die Schreibweise mit "Ü" im Telefonbuch auftritt. Das beschriebene Online- Lexikon 70 unterstützt daher erstmalig sowohl die Spracherkennung als auch die Sprachsynthese.

Die Funktionsweise der Sprachdialog-Anlage wird nachfolgend anhand einer Namenserkennung ausführlicher erläutert. Es sei angenommen, daß die Sprachdialog-Anlage bereits den Ortsnamen kennt, in dem die Person wohnt, deren Rufnummer ein Anrufer erfahren möchte. Dazu hat die Anlage zunächst den Benutzer des Fernsprechapparates 10 aufgefordert, den Ortsnamen (z. B. Darmstadt) direkt, d. h. in nicht-buchstabierter Form einzugeben. Zweckmäßigerweise steuert der Mikrocomputer 120 die Anlage derart, daß der Ortsname nur dem Keyword-Spotter 50 zugeführt wird, um die Äußerung zu erkennen. Wie bereits erwähnt, ist der Keyword-Spotter in der Lage, Zusatzäußerungen, wie "äh" bzw. "bitte", zu tolerieren und als Information den Städtenamen allein zu extrahieren. Die Sprachdialog-Anlage kann auch derart ausgebildet sein, daß eine Vorauswahl von orthographisch ähnlichen Ortsnamen durch den Alphabet-Erkenner 30 für den Keyword-Spotter 50 dann erfolgt, wenn ein falsches oder überhaupt kein Erkennungsergebnis vom Keyword-Spotter 50 geliefert worden ist. Nachdem der Städtename erkannt worden ist, stellt die Sprachdialog-Anlage all die in einem elektonischen Telefonbuch 90 für diese Städtnamen gespeicherten Nachnamen aus dem Online-Lexikon 70 bereit. Es sei weiter angenommen, daß in dem Online-Lexikon 70 die Schreibweise aller Eigennamen, die für die Buchstabenerkennung im Alphabet-Erkenner 30 erforderlich sind, je eine Folge von Lautsymbolen für alle Eigennamen, die für die Spracherkennung im Keyword-Spotter erforderlich sind, sowie je eine Folge von Lautsymbolen einschließlich von Betonungsinformationen, die für die Sprachsynthese benötigt werden, enthalten sind. Darüber hinaus sind im elektronischen Telefonbuch 90, das die Nachnamen der Teilnehmer mit entsprechenden Telefonnummern und Adressen enthält, Verweise auf die entsprechenden Einträge im online-Lexikon enthalten.

Der Anrufer wird nunmehr durch einen Dialog geführt, in dessen Verlauf er aufgrund der Angabe des Ortsnamens und des Teilnehmernamens die gewünschte Telefonnummer erfährt.

Der folgende Sprachdialog zwischen dem Anrufer des Fernsprechapparats 10 und der Sprachdialog-Anlage ist in dem Flußdiagramm nach Fig. 2 erläutert.

Der Anrufer wird zunächst von der Anlage über den Synthetisator 60 sprachlich aufgefordert, den gewünschten Namen, z. B. "Meier", direkt einzugeben. Diese Eingabe wird anschließend in dem Sprachspeicher 20 zwischengespeichert. Dabei werden auch Zusatzäußerungen, wie "äh" und "bitte", in dem Sprachspeicher 20 mit aufgezeichnet. Anschließend wird der Anrufer sprachlich über den Synthetisator 60 aufgefordert, den zuvor direkt eingegebenen Namen zu buchstabieren. Daraufhin gibt der Teilnehmer die Buchstabenfolge M, E, I, E, R ein. In Verbindung mit den orthographischen Informationen, die in dem Online-Lexikon 70 abgelegt sind, führt der Alphabet-Erkenner 30 eine Ähnlichkeitsermittlung aus und trifft eine Vorauswahl aus der Liste der verfügbaren, im Online-Lexikon 70 unter dem Ortsnamen gespeicherten Nachnamen. Aufgrund von Erkennungsunsicherheiten ermittelt der Alphabet-Erkenner 30 mehrere Kandidaten, beispielsweise "Neier", "Meier", "Meter", "Mieter", "Neter", "Nieter", "Meiter", "Meider" usw. Diese gefundene Kandidatenliste wird in dem Speicher 40 abgelegt. Der programmgesteuerte Mikrocomputer 120 veranlaßt den Keyword-Spotter 50, die vorher im Sprachspeicher 20 zwischengespeicherte Benutzeräußerung "Meier" auszulesen und die vorausgewählten, im Speicher 40 stehenden Kandidaten zu laden. Auf der Grundlage einer Ähnlichkeitsermittlung vergleicht der Keyword-Spotter 50 die direkt eingegebene Namensäußerung "Meier" mit der Kandidatenliste, indem er die im Online-Lexikon 70 gespeicherten phonetischen Informationen benutzt. Als Erkennungsergebnis liefert der Keyword-Spotter 50 beispielsweise die Namen "Neier" und "Meier" und speichert sie in dem Ergebnisspeicher 55. Die Sprachdialog-Anlage weiß aufgrund der in dem Online-Lexikon 70 abgelegten phonetischen und betonungsbezogenen Informationen, wie die gefundenen Erkennungsergebnisse auszusprechen und zu betonen sind. Daraufhin werden nacheinander die gefundenen Namen, im vorliegenden Fall die Namen "Neier" und "Meier" über den Synthetisator 60 zum Fernsprechapparat 10 des Anrufers übertragen. Der Anrufer kann daraufhin den richtigen Namen auswählen. Mit diesem Nachnamen und dem erkannten Ortsnamen wird dann eine Datenbankanfrage an das elektronische Telefonbuch 90 gestartet. Die gefundenen Namen und Adressen werden nutzergesteuert vorgelesen, d. h. der Benutzer kann Einfluß darauf nehmen, wann die Sprachausgabe der gefundenen Namen und Adressen beendet und wie oft eine Liste vorgelesen wird oder zu welchem Namen zusätzliche Informationen ausgegeben werden sollen. In Problemfällen kann die Möglichkeit vorgesehen sein, daß der Anrufer sich zu einem Operator durchschalten läßt. Sobald der Benutzer der Sprachdialog-Anlage anzeigt, daß die über den Sprachsynthetisator 60 ausgegebenen Daten (Vorname, Nachname, Straße, Hausnummer) den Daten der Person entsprechen, deren Telefonnummer er sucht, veranlaßt der Mikrocomputer 120, daß die Anlage die entsprechende Telefonnummer aus dem Telefonbuch 90 ausliest und in sprachlicher Form dem Anrufer mitteilt.

Dank der Lexikon-gesteuerten Erkennung beliebiger Äußerungen durch die Kombination des Alphabet-Erkenners 30 und des Keyword-Spotters 50 ist es möglich, einen deutlich größeren Wortschatz mit akzeptabler Erkennungsrate als herkömmliche Anlagen zu verarbeiten, die nur einen Spracherkenner benutzen. Der Grund ist darin zu sehen, daß der Alphabet-Erkenner 30 eine Vorauswahl der zu erkennenden Wörter trifft und nur diese relativ kleine Auswahl in Frage kommender Wörter dem Keyword- Spotter 50 zur eigentlichen Erkennung zugeführt wird.

Claims

1. Sprachdialog-Verfahren zur automatisierten Ausgabe von Informationen, insbesondere einer Rufnummer für einen Benutzer, mit folgenden Schritten:

a) zeitweises Laden einer Vielzahl von vorbestimmten Äußerungen und der dazugehörenden orthographisch- phonetischen Informationen in ein Online- fähiges Lexikon (70), wobei die Informationen in Echtzeit verfügbar sind;
b) Sprachliches Auffordern des Benutzers zur Eingabe einer Äußerung;
c) Zwischenspeichern der eingegebenen Äußerung;
d) Sprachliches Auffordern des Benutzers, die eingegebene Äußerung zu buchstabieren;
e) unter Ansprechen auf die buchstabierte Äußerung Erkennen und Auswählen von mehreren der vorbestimmten Äußerungen mit Hilfe der in Schritt a) gespeicherten orthographisch-phonetischen Informationen auf der Grundlage einer Ähnlichkeitsermittlung;
f) Zuführen der in Schritt e) ausgewählten vorbestimmten Äußerungen und der zwischengespeicherten Äußerung zu einem Äußerungs-Erkenner (50);
g) Erkennen und Auswählen wenigstens einer vorbestimmten Äußerung aus den ausgewählten vorbestimmten Äußerungen auf der Grundlage eines Ähnlichkeitsvergleichs; und sequentielle Ausgabe der wenigstens einen in Schritt g) gefundenen vorbestimmten Äußerung sowie weiterer zugehöriger Informationen in synthetisierter Sprachform.

2. Sprachdialog-Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Schritt h) solange wiederholt wird, bis der Benutzer die synthetische Sprachausgabe der Äußerungen beendet.

3. Sprachdialog-Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Schritte e) und g) nach Ablauf einer vorbestimmten Zeitspanne beendet werden und der Benutzer zur erneuten Eingabe seiner Äußerung aufgefordert wird, wenn keine vorbestimmte Äußerung erkannt worden ist.

4. Sprachdialog-Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß der Benutzer eine der synthetisch ausgesprochenen Äußerungen als mit seiner Äußerung übereinstimmend identifiziert, und daß unter Ansprechen auf diese Äußerung eine Datenbankanfrage an ein echtzeitfähiges elektronisches Telefonbuch (90) gestartet wird, aus dem alle, das Kriterium der Äußerung erfüllenden Datensätze ausgelesen und dem Benutzer zur Auswahl gestellt werden, und daß der Benutzer anhand von Namen und Adresse den Datensatz identifizieren kann, dessen Rufnummer durch die Anlage ausgegeben werden soll.

5. Sprachdialog-Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß orthographisch-phonetische Informationen für die vorbestimmten Äußerungen zu vorbestimmten Zeitpunkten aus einem Online-fähigen Lexikon (70) geladen werden.

6. Sprachdialog-Anlage zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 5, mit folgenden Merkmalen:
eine Einrichtung zur Eingabe (10) einer Äußerung durch einen Benutzer, wenigstens ein Synthetisator (60) zur Erzeugung von Sprachsignalen für den Benutzer,
gekennzeichnet durch
einen Alphabet-Erkenner (30), der eine vom Benutzer buchstabierte Äußerung erkennen und orthographisch ähnliche Äußerungen aus einer Vielzahl vorbestimmter Äußerungen auswählen kann,
einen Äußerungs-Erkenner (50), der die vom Benutzer eingegebene Äußerung mit den vom Alphabet-Erkenner (30) ausgewählten vorbestimmten Äußerungen vergleicht und
wenigstens eine vorbestimmte Äußerung auf der Grundlage einer Ähnlichkeitsermittlung zur Ausgabe an den Benutzer liefert, und
wenigstens ein Online-fähiges Lexikon (70), das eine Vielzahl von vorbestimmten Äußerungen und die dazugehörenden orthographisch-phonetischen Informationen speichert, auf die der Alphabet-Erkenner (30), der Äußerungs-Erkenner (50) und der Synthetisator (60) in Echtzeit zugreifen können.

7. Sprachdialog-Anlage nach Anspruch 6, gekennzeichnet durch einen Zwischenspeicher (20), der die vom Benutzer eingegebene Äußerung vorübergehend speichert und durch einen Speicher (40), der die vom Alphabet-Erkenner (30) vorausgewählten vorbestimmten Äußerungen aufnimmt.

8. Sprachdialog-Anlage nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß der Äußerungs-Erkenner (50) im Keyword-Spotting-Modus arbeitet.

9. Sprachdialog-Anlage nach einem der Ansprüche 6 bis 8, dadurch gekennzeichnet, daß die im Lexikon (70) gespeicherten Daten orthographische, phonetische und betonungsbezogene Informationen für die vorbestimmten Äußerungen sind.

10. Sprachdialog-Anlage nach Anspruch 9, dadurch gekennzeichnet, daß im Lexikon (70) Zusatzinformationen über Homonyme gespeichert sind.

11. Sprachdialog-Anlage nach einem der Ansprüche 6 bis 10, dadurch gekennzeichnet, daß die vom Benutzer eingegebene Äußerung ein Ortsname, ein Familienname oder mehrere zusammenhängende Wörter sein kann.

12. Sprachdialog-Anlage nach einem der Ansprüche 6 bis 11, dadurch gekennzeichnet, daß je eine Rubrik des Online- fähigen Lexikons zum Speichern eines allgemeinen Vokabulars, der Ortsnamen und der Familiennamen vorgesehen ist.

13. Sprachdialog-Anlage nach einem der Ansprüche 6 bis 12, dadurch gekennzeichnet, daß ein programmgesteuerter Mikrocomputer (120) die Anlagensteuerung übernimmt.

14. Sprachdialog-Anlage nach einem der Ansprüche 6 bis 13, dadurch gekennzeichnet, daß der Äußerungs-Erkenner (50) und der Alphabet-Erkenner (30) derart ausgebildet sind, daß sie eine vom Benutzer eingegebene Äußerung zurückweisen und/oder nach Ablauf einer vorgegebenen Zeitspanne den Benutzer auffordern können, seine Äußerung erneut einzugeben.

15. Vorrichtung zur sprecherunabhängigen Spracherkennung, insbesondere zum Einsatz in einer Sprachdialog-Anlage nach einem der Ansprüche 6 bis 14 mit
einem Alphabet-Erkenner (30), der eine von einem Benutzer buchstabierte Äußerung erkennen und auf der Grundlage einer Ähnlichkeitsermittlung mehrere vorbestimmte Äußerungen aus einer Vielzahl vorbestimmter Äußerungen auswählen kann und
einem Äußerungs-Erkenner (50), der auf der Grundlage einer Ähnlichkeitsermittlung eine vom Benutzer eingegebene Äußerung mit den vom Alphabet-Erkenner (30) vorausgewählten vorbestimmten Äußerungen vergleicht und als Ergebnis wenigstens eine vorbestimmte Äußerung liefert.

16. Vorrichtung zur Spracherkennung nach Anspruch 15, dadurch gekennzeichnet, daß der Äußerungs-Erkenner (50) im Keyword-Spotting-Modus arbeitet.

17. Vorrichtung zur Spracherkennung nach Anspruch 15 oder 16, gekennzeichnet durch ein Lexikon (70), das orthographische und phonetische Informationen über die Vielzahl vorbestimmter Äußerungen speichert, auf die der Alphabet-Erkenner (30) und der Äußerungs-Erkenner (50) in Echtzeit zugreifen können, um ähnlich klingende bzw. orthographisch ähnliche Äußerungen zu ermitteln.