DE19532114C2 - Sprachdialog-System zur automatisierten Ausgabe von Informationen - Google Patents

Sprachdialog-System zur automatisierten Ausgabe von Informationen

Info

Publication number
DE19532114C2
DE19532114C2 DE1995132114 DE19532114A DE19532114C2 DE 19532114 C2 DE19532114 C2 DE 19532114C2 DE 1995132114 DE1995132114 DE 1995132114 DE 19532114 A DE19532114 A DE 19532114A DE 19532114 C2 DE19532114 C2 DE 19532114C2
Authority
DE
Germany
Prior art keywords
utterance
user
recognizer
predetermined
utterances
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE1995132114
Other languages
English (en)
Other versions
DE19532114A1 (de
Inventor
Georg Fries
Karlheinz Schuhmacher
Antje Wirth
Bernhard Kaspar
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom AG filed Critical Deutsche Telekom AG
Priority to DE1995132114 priority Critical patent/DE19532114C2/de
Priority to FR9610517A priority patent/FR2738382B1/fr
Priority to GB9618308A priority patent/GB2304957B/en
Publication of DE19532114A1 publication Critical patent/DE19532114A1/de
Application granted granted Critical
Publication of DE19532114C2 publication Critical patent/DE19532114C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4931Directory assistance systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

Die Erfindung betrifft ein Sprachdialog-Verfahren zur automatisierten Ausgabe von Informationen, insbesondere einer Rufnummer für einen Benutzer nach Anspruch 1, eine Sprachdialog-Anlage zur Durchführung des Sprachdialog- Verfahrens nach dem Oberbegriff des Anspruchs 6 sowie eine Vorrichtung zur sprecherunabhängigen Spracherkennung, insbesondere zum Einsatz in einer Sprachdialog-Anlage gemäß dem Anspruch 15.
Es sind Sprachdialog-Systeme zur automatisierten Sprachausgabe von Rufnummern bekannt, bei denen der Dialog zwischen einem Anrufer, der eine bestimmte Rufnummernauskunft wünscht, und dem System über das Telefon abgewickelt wird. Die derzeit betriebenen Sprachdialog-Systeme können allerdings nur einen festen, kleinen bis mittleren Wortschatz von etwa 1000 Wörtern erkennen. Beliebige Texte, darunter die Ausgabe von Ortsnamen, Familiennamen und der Rufnummer werden über einen Sprachsynthetisator ausgegeben. Es hat sich jedoch gezeigt, daß Fehler bei der Aussprache von Namen insbesondere dann auftreten, wenn die Namen nicht den üblichen deutschen Ausspracheregeln gehorchen.
Aus der DE 37 32 849 A1 ist ein akustisches Mensch/Maschinen- Dialogsystem bekannt, welches unter anderem ein Erkennungsmodul aufweist, in dem das von einem Benutzer eingegebene Sprachsignal analysiert wird. Hierzu weist das Erkennungsmodulist eine Wortfolgengenerierungseinheit auf, in der sprachspezifische Merkmale des eingegebenen Sprachsignals mit Hilfe eines phonetischen Wortlexikons auf Wortfolgen abgebildet werden. Da die Abbildung auf Wortfolgen nicht eindeutig ist, werden eine Syntaktisch-semantisch- pragmatische Inhaltsanalyse und zusätzlich statistische Methoden angewandt, um die einzig richtige Wortfolge zu gewinnen.
Aus der FR 2690 777 A1 ist ein Verfahren zur Steuerung eines Automaten durch Spracherkennung bekannt, nach dem ein Telekommunikationsteilnehmer einem Operator den Namen eines Teilnehmers mitteilt, mit dem dieser eine Kommunikation führen möchte. Anschließend buchstabiert der Operator den gehörten Namen über ein Mikrofon in eine Spracherkennungseinrichtung. Dem Operator wird danach sprachlich mitgeteilt, ob das buchstabierte Wort richtig erkannt worden ist. Ist das Wort richtig erkannt worden, sorgt der Automat dafür, dass der Telekommunikations- Teilnehmer mit dem gewünschten Teilnehmer verbunden wird.
Aus der US 5 357 596 ist ein Sprachdialogsystem zur Unterstützung einer Mensch-Computer-Interaktion bekannt. Das System umfaßt eine Spracherkennungseinheit zum Erkennen eines semantischen Inhaltes einer von einem Benutzer gesprochenen Äußerung und eine Einrichtung zur Erzeugung und sprachlichen Ausgabe einer Antwort unter Ansprechen auf den erkannten semantischen Inhalt der vom Benutzer eingegebenen Sprachäußerung. Die Spracherkennungseinheit weist eine Keyword-Erfassungseinrichtung auf, die eine sogenannte Keyword-Spottertechnik anwendet, um den semantischen Inhalt aus der gesprochenen Äußerung gewinnen zu können.
Der Erfindung liegt daher die Aufgabe zugrunde, ein Sprachdialog-Verfahren zur automatisierten Ausgabe von Informationen verfügbar zu machen und eine dazu geeignet ausgebildete Sprachdialog-Anlage zu schaffen, die ein sehr großes zu erkennendes Vokabular, d. h. etwa 10.000 bis 100.000 Wörter, verarbeiten und trotzdem eine akzeptable Erkennungsrate erreichen kann sowie Fehler bei der Sprachausgabe fremdsprachlicher Begriffe verringert oder sogar gänzlich vermeidet, sowie dazu eine Vorrichtung zur sprecherunab­ hängigen Spracherkennung anzugeben.
Die Erfindung löst dieses technische Problem mit den Verfahrensschritten des Sprachdialog-Verfahrens nach Anspruch 1, den Merkmalen der Sprachdialog-Anlage nach Anspruch 6 und den Vorrichtungsmerkmalen der sprecherunabhängigen Spracherkennung nach Anspruch 15.
Die Erfindung ist in der Lage ein sehr großes Vokabular mit einer akzeptablen Erkennungsrate zu verarbeiten, indem eine von einem Benutzer eingegebene Äußerung eine kombinierte Spracherkennung durchläuft. Bei dieser Äußerung kann es sich um einen Nachnamen, einen Vornamen, einen Straßennamen, einen Ortsnamen oder auch um zusammenhängende Wörter handeln. Die kombinierte Spracherkennung umfaßt einen Alphabet-Erkenner, der eine vom Benutzer buchstabierte Äußerung erkennen und daraufhin orthographisch ähnliche Äußerungen aus einer Vielzahl vorbestimmter Äußerungen auswählen kann. Der Begriff "orthographisch ähnliche Äußerung" wird im folgenden immer dann verwendet, wenn ausgedrückt werden soll, daß zwei oder mehrere Folgen ausgesprochener Buchstabenwörter ähnlich klingen (z. B. "es e es es e el" und "ef e es es e el". Als zweite Hauptkomponente umfaßt die kombinierte Spracherkennung einen Äußerungs- Erkenner, der die vom Benutzer direkt eingegebene Äußerung mit den vorbestimmten Äußerungen vergleicht, die den vom Alphabeterkenner ausgewählten vorbestimmten Äußerungen entsprechen. Auf der Grundlage einer Ähnlichkeitsermittlung liefert der Äußerungserkenner als Erkennungsergebnis wenigstens ein Wort zur Ausgabe an den Benutzer, das einer der Benutzeräußerung ähnlichen vorbestimmten Äußerung entspricht. Ein online-fähiges Lexikon dient dazu, orthographisch-phonetische Informationen für die Vielzahl vorbestimmter Äußerungen zu speichern, auf die der Alphabet-Erkenner, der Äußerungs- Erkenner und ein Synthetisator in Echtzeit zugreifen können.
Zweckmäßigerweise ist ein Zwischenspeicher vorgesehen, der die vom Benutzer direkt eingegebene Äußerung vorübergehend speichert, bevor sie an den Äußerungs-Erkenner weitergereicht wird. Darüber hinaus enthält die Anlage einen weiteren Speicher, in dem die vom Alphabet-Erkenner vorausgewählten, buchstabierten Referenzäußerungen in Form einer Kandidatenliste orthographisch ähnlicher Namen geladen werden.
Der Äußerungs-Erkenner arbeitet im Keyword-Spotting-Modus, so daß der Benutzer in bestimmten Grenzen Zusatzäußerungen vor und nach der eigentlichen Äußerung aussprechen kann, und der Äußerungs-Erkenner trotzdem in der Lage ist, die eigentliche Äußerung zu extrahieren.
Bei den im Lexikon gespeicherten orthographisch-phonetischen Informationen handelt es sich einmal um die Schreibweise der vorbestimmten Äußerungen, die der Alphabet-Erkenner benutzt, um eine buchstabierte Äußerung zu erkennen und daraus eine Vorauswahl orthographisch ähnlicher Namen für den Äußerungs- Erkenner zu treffen. Darüber hinaus sind im Lexikon phonetische Transkriptionen, beispielsweise für Ortsnamen und Nachnamen, gespeichert. Orthographie und phonetische Transkription von Eigennamen werden in einem offline Prozeß aus einem elektronischen Aussprachewörterbuch in das Lexikon übertragen. Dabei werden nur Eigennamen übernommen, die im elektronischen Telefonbuch vorkommen. Das elektronische Telefonbuch ist eine echtzeitfähige Datenbank, die die zur Informationsausgabe an den Benutzer benötigten Adressen und Rufnummern enthält. Um eine hohe Qualität auch bei der Sprachausgabe von Namen zu erhalten, die nicht den üblichen deutschen Ausspracheregeln gehorchen, sind neben der phonetischen Information auch betonungsbezogene Informationen der Begriffe gespeichert. Diese Sprachmerkmale geben die Betonung von Silben und Endungen auch fremdsprachlicher Wörter wieder.
Um zu vermeiden, daß aufgrund von akustischen Ähnlichkeiten zwischen Wörtern und/oder gesprochenen Buchstaben die Erkennungsergebnisse der kombinierten Spracherkennung zufällig beeinflußt werden, sind im Lexikon Zusatzinformationen für Homonyme gespeichert. Diese Zusatzinformationen erlauben es, einen durch die Spracherkennung erhaltenen Kandidaten um gleich auszusprechende Alternativen zu ergänzen und damit die Erkennungsrate der Anlage zu erhöhen.
Zweckmäßigerweise ist je eine Lexikonrubrik für ein allgemeines Vokabular, für Städtenamen und für die dort vorkommenden Nachnamen vorgesehen.
Die Steuerung der Sprachdialog-Anlage erfolgt durch einen programmgesteuerten Mikrocomputer. Die darin implementierte Steuersoftware sorgt unter anderem dafür, daß den Erkennern und dem Synthetisator rechtzeitig die benötigten orthographischen und phonetischen Informationen aus dem Lexikon zur Verfügung gestellt werden, und daß die Anlage einen Benutzer sprachgeführt zur Eingabe der jeweiligen Äußerungen auffordert. Darüber hinaus überwacht sie die in den Spracherkennern ablaufenden Timeouts, verarbeitet Ende- und Hilfebefehle und übernimmt die Fehlererkennung und - behandlung.
In dem Äußerungs-Erkenner und in dem Alphabet-Erkenner laufen interne Programmschleifen ab, die eine vom Benutzer eingegebene Äußerung zurückweisen oder nach Ablauf einer vorgegebenen Zeitspanne den Benutzer auffordern können, seine Äußerung erneut einzugeben.
Die Erfindung wird nachfolgend anhand eines Ausführungsbeispiels in Verbindung mit den beiliegenden Zeichnungen näher erläutert. Es zeigen:
Fig. 1 ein schematisches Blockschaltbild einer Sprachdialog-Anlage mit der erfindungsgemäßen kombinierten Spracherkennung und einem On-Line- Lexikon,
Fig. 2 ein Flußdiagramm für den Ablauf eines automatisierten Sprachdialogs zur Namenserkennung und Ausgabe einer dazugehörigen Rufnummer, der von der Sprachdialog-Anlage nach Fig. 1 durchgeführt wird.
Fig. 1 zeigt den prinzipiellen Aufbau einer Sprachdialog- Anlage, die eine Lexikon-gesteuerte Erkennung beliebiger Äußerungen, z. B. von Ortsnamen oder Nachnamen durch eine Kombination von Spracherkennern vornehmen und aufgrund einer ermittelten Äußerung (Erkennungsergebnis) eine der Äußerung zugeordnete Information (z. B. eine Rufnummer) ausgeben kann. Im einzelnen ist in Fig. 1 ein Fernsprechapparat 10 dargestellt, an dem ein Anrufer den Ortsnamen und den Nachnamen eines Teilnehmers, dessen Rufnummer er zu erfahren wünscht, oder bestimmte andere Äußerungen eingeben kann. Auf Seiten des Betreibers der Sprachdialog-Anlage ist wenigstens ein Analog-Digital-Wandler 80 angeordnet, der die analogen Sprachsignale vom Teilnehmer in digitale Signale umsetzt. Der Ausgang des Analog-Digital-Wandlers kann je mit dem Eingang eines Sprachspeichers 20 und eines Alphabet- oder Buchstaben- Erkenners 30 verbunden sein. Der Sprachspeicher 20 dient dazu, die vom Anrufer in den Fernsprechapparat 10 direkt eingegebene Äußerung, das ist z. B. der Name "Meier", für eine spätere Benutzung zwischenzuspeichern. Der Alphabet-Erkenner 30 empfängt über den Analog-Digital-Wandler 80 in Abhängigkeit vom Zustand des Sprachdialogablaufs eine buchstabierte Version der zuvor im Sprachspeicher 20 abgelegten, direkt eingegebenen Äußerung. Ein programmgesteuerter Mikrocomputer 120 sorgt dafür, daß die direkt eingegebene Äußerung in den Sprachspeicher 20 geladen wird und daß die buchstabierte Äußerung dem Alphabet-Erkenner 30 zugeführt wird. Der Ausgang des Alphabet-Erkenners 30 ist mit einem Speicher 40 verbunden, in dem eine Kandidatenliste orthographisch ähnlicher Äußerungen gespeichert ist, die vom Alphabet-Erkenner 30 während einer Vorauswahl ermittelt worden sind. Ein Äußerungs- Erkenner 50 verfügt über drei Eingänge, die jeweils mit dem Ausgang des Kandidatenspeichers 40, dem Sprachspeicher 20 und einem Online-Lexikon 70 verbunden sind. Der Äußerungs-Erkenner 50 arbeitet im sogenannten Keyword-Spotting-Modus, der es ermöglicht, daß die eigentliche Äußerung, z. B. "Meier", auch dann noch richtig extrahiert werden kann, wenn ihr Zusatzäußerungen wie "äh", "bitte" oder dergleichen vorhergehen bzw. nachfolgen. Der Ausgang des Keyword-Spotters 50 ist mit einem Erkennungsergebnis-Speicher 55 verbunden, in dem die Ergebnisäußerungen, das sind ähnlich lautende Namen, vom Keyword-Spotter 50 abgelegt werden. Die im Erkennungsergebnis-Speicher 55 abgelegten Äußerungen werden einem Synthetisator 60 zugeführt, der auf Basis der entsprechenden Informationen aus dem Lexikon der Reihe nach die Namen in synthetisierter Sprache über einen Digital- Analog-Wandler 85 zum Fernsprechapparat 10 des Teilnehmers überträgt. Der Synthetisator 60 kann auch die sprachlichen Aufforderungen an den Anrufer in Verbindung mit einer nicht dargestellten Datenbasis erzeugen, in der alle von der Anlage anzusagenden Texte in orthographischer bzw. phonetischer Form enthalten sind.
Das oben erwähnte Online-Lexikon 70 zeichnet sich vor allem dadurch aus, daß es gleichzeitig und in Echtzeit von dem Alphabet-Erkenner 30 für die Buchstabenerkennung, vom Keyword- Spotter 50 und vom Synthetisator 60 benutzt werden kann. Deshalb sind alle Informationen bezüglich der von der Anlage zu erkennenden und auszusprechenden Äußerungen in diesem Lexikon 70 gespeichert. Es handelt sich hierbei um orthographische und aussprache- bzw. betonungsbezogene Informationen, die in einem offline-Prozeß aus einem Aussprachewörterbuch 100 in das online-Lexikon 70 geladen werden. Zusätzlich sind im Lexikon 70 Informationen über Homonyme gespeichert, um das Erkennungsergebnis des Äußerungserkenners mit gleich klingenden Namen zu erweitern bzw. die buchstabierten Referenzäußerungen des Alphabeterkenners um orthographisch ähnliche Namen zu ergänzen, und damit die Wahrscheinlichkeit zu erhöhen, die richtige Äußerung mit zu erfassen. Dies sorgt auch für eine gesteigerte Erfolgsrate bei der Benutzung oder einen verbesserten Gesamtdurchsatz der Anlage, da zu erkennnende Äußerungen von den Spracherkennern 30, 50 seltener zurückgewiesen werden. Die Informationen über Homonyme ermöglichen es dem Äußerungserkenner, z. B. für eine Äußerung "Meier", alle im elektronischen Telefonbuch vorhandenen Schreibweisen, wie z. B. "Meier", "Mayer", "Maier" und "Meyer", zu finden und in die Liste der Erkennungsergebnisse aufzunehmen. Andererseits ist es dadurch dem Alphabeterkenner möglich, z. B. häufig auftretende und möglicherweise fälschlich verwendete Buchstabiervarianten, wie z. B. "MÜLLER" oder "MUELLER", selbst dann auf die richtige, buchstabierte Referenzäußerung abzubilden, wenn z. B. nur die Schreibweise mit "Ü" im Telefonbuch auftritt. Das beschriebene Online- Lexikon 70 unterstützt daher erstmalig sowohl die Spracherkennung als auch die Sprachsynthese.
Die Funktionsweise der Sprachdialog-Anlage wird nachfolgend anhand einer Namenserkennung ausführlicher erläutert. Es sei angenommen, daß die Sprachdialog-Anlage bereits den Ortsnamen kennt, in dem die Person wohnt, deren Rufnummer ein Anrufer erfahren möchte. Dazu hat die Anlage zunächst den Benutzer des Fernsprechapparates 10 aufgefordert, den Ortsnamen (z. B. Darmstadt) direkt, d. h. in nicht-buchstabierter Form einzugeben. Zweckmäßigerweise steuert der Mikrocomputer 120 die Anlage derart, daß der Ortsname nur dem Keyword-Spotter 50 zugeführt wird, um die Äußerung zu erkennen. Wie bereits erwähnt, ist der Keyword-Spotter in der Lage, Zusatzäußerungen, wie "äh" bzw. "bitte", zu tolerieren und als Information den Städtenamen allein zu extrahieren. Die Sprachdialog-Anlage kann auch derart ausgebildet sein, daß eine Vorauswahl von orthographisch ähnlichen Ortsnamen durch den Alphabet-Erkenner 30 für den Keyword-Spotter 50 dann erfolgt, wenn ein falsches oder überhaupt kein Erkennungsergebnis vom Keyword-Spotter 50 geliefert worden ist. Nachdem der Städtename erkannt worden ist, stellt die Sprachdialog-Anlage all die in einem elektonischen Telefonbuch 90 für diese Städtnamen gespeicherten Nachnamen aus dem Online-Lexikon 70 bereit. Es sei weiter angenommen, daß in dem Online-Lexikon 70 die Schreibweise aller Eigennamen, die für die Buchstabenerkennung im Alphabet-Erkenner 30 erforderlich sind, je eine Folge von Lautsymbolen für alle Eigennamen, die für die Spracherkennung im Keyword-Spotter erforderlich sind, sowie je eine Folge von Lautsymbolen einschließlich von Betonungsinformationen, die für die Sprachsynthese benötigt werden, enthalten sind. Darüber hinaus sind im elektronischen Telefonbuch 90, das die Nachnamen der Teilnehmer mit entsprechenden Telefonnummern und Adressen enthält, Verweise auf die entsprechenden Einträge im online-Lexikon enthalten.
Der Anrufer wird nunmehr durch einen Dialog geführt, in dessen Verlauf er aufgrund der Angabe des Ortsnamens und des Teilnehmernamens die gewünschte Telefonnummer erfährt.
Der folgende Sprachdialog zwischen dem Anrufer des Fernsprechapparats 10 und der Sprachdialog-Anlage ist in dem Flußdiagramm nach Fig. 2 erläutert.
Der Anrufer wird zunächst von der Anlage über den Synthetisator 60 sprachlich aufgefordert, den gewünschten Namen, z. B. "Meier", direkt einzugeben. Diese Eingabe wird anschließend in dem Sprachspeicher 20 zwischengespeichert. Dabei werden auch Zusatzäußerungen, wie "äh" und "bitte", in dem Sprachspeicher 20 mit aufgezeichnet. Anschließend wird der Anrufer sprachlich über den Synthetisator 60 aufgefordert, den zuvor direkt eingegebenen Namen zu buchstabieren. Daraufhin gibt der Teilnehmer die Buchstabenfolge M, E, I, E, R ein. In Verbindung mit den orthographischen Informationen, die in dem Online-Lexikon 70 abgelegt sind, führt der Alphabet-Erkenner 30 eine Ähnlichkeitsermittlung aus und trifft eine Vorauswahl aus der Liste der verfügbaren, im Online-Lexikon 70 unter dem Ortsnamen gespeicherten Nachnamen. Aufgrund von Erkennungsunsicherheiten ermittelt der Alphabet-Erkenner 30 mehrere Kandidaten, beispielsweise "Neier", "Meier", "Meter", "Mieter", "Neter", "Nieter", "Meiter", "Meider" usw. Diese gefundene Kandidatenliste wird in dem Speicher 40 abgelegt. Der programmgesteuerte Mikrocomputer 120 veranlaßt den Keyword-Spotter 50, die vorher im Sprachspeicher 20 zwischengespeicherte Benutzeräußerung "Meier" auszulesen und die vorausgewählten, im Speicher 40 stehenden Kandidaten zu laden. Auf der Grundlage einer Ähnlichkeitsermittlung vergleicht der Keyword-Spotter 50 die direkt eingegebene Namensäußerung "Meier" mit der Kandidatenliste, indem er die im Online-Lexikon 70 gespeicherten phonetischen Informationen benutzt. Als Erkennungsergebnis liefert der Keyword-Spotter 50 beispielsweise die Namen "Neier" und "Meier" und speichert sie in dem Ergebnisspeicher 55. Die Sprachdialog-Anlage weiß aufgrund der in dem Online-Lexikon 70 abgelegten phonetischen und betonungsbezogenen Informationen, wie die gefundenen Erkennungsergebnisse auszusprechen und zu betonen sind. Daraufhin werden nacheinander die gefundenen Namen, im vorliegenden Fall die Namen "Neier" und "Meier" über den Synthetisator 60 zum Fernsprechapparat 10 des Anrufers übertragen. Der Anrufer kann daraufhin den richtigen Namen auswählen. Mit diesem Nachnamen und dem erkannten Ortsnamen wird dann eine Datenbankanfrage an das elektronische Telefonbuch 90 gestartet. Die gefundenen Namen und Adressen werden nutzergesteuert vorgelesen, d. h. der Benutzer kann Einfluß darauf nehmen, wann die Sprachausgabe der gefundenen Namen und Adressen beendet und wie oft eine Liste vorgelesen wird oder zu welchem Namen zusätzliche Informationen ausgegeben werden sollen. In Problemfällen kann die Möglichkeit vorgesehen sein, daß der Anrufer sich zu einem Operator durchschalten läßt. Sobald der Benutzer der Sprachdialog-Anlage anzeigt, daß die über den Sprachsynthetisator 60 ausgegebenen Daten (Vorname, Nachname, Straße, Hausnummer) den Daten der Person entsprechen, deren Telefonnummer er sucht, veranlaßt der Mikrocomputer 120, daß die Anlage die entsprechende Telefonnummer aus dem Telefonbuch 90 ausliest und in sprachlicher Form dem Anrufer mitteilt.
Dank der Lexikon-gesteuerten Erkennung beliebiger Äußerungen durch die Kombination des Alphabet-Erkenners 30 und des Keyword-Spotters 50 ist es möglich, einen deutlich größeren Wortschatz mit akzeptabler Erkennungsrate als herkömmliche Anlagen zu verarbeiten, die nur einen Spracherkenner benutzen. Der Grund ist darin zu sehen, daß der Alphabet-Erkenner 30 eine Vorauswahl der zu erkennenden Wörter trifft und nur diese relativ kleine Auswahl in Frage kommender Wörter dem Keyword- Spotter 50 zur eigentlichen Erkennung zugeführt wird.

Claims (17)

1. Sprachdialog-Verfahren zur automatisierten Ausgabe von Informationen, insbesondere einer Rufnummer für einen Benutzer, mit folgenden Schritten:
  • a) zeitweises Laden einer Vielzahl von vorbestimmten Äußerungen und der dazugehörenden orthographisch- phonetischen Informationen in ein Online- fähiges Lexikon (70), wobei die Informationen in Echtzeit verfügbar sind;
  • b) Sprachliches Auffordern des Benutzers zur Eingabe einer Äußerung;
  • c) Zwischenspeichern der eingegebenen Äußerung;
  • d) Sprachliches Auffordern des Benutzers, die eingegebene Äußerung zu buchstabieren;
  • e) unter Ansprechen auf die buchstabierte Äußerung Erkennen und Auswählen von mehreren der vorbestimmten Äußerungen mit Hilfe der in Schritt a) gespeicherten orthographisch-phonetischen Informationen auf der Grundlage einer Ähnlichkeitsermittlung;
  • f) Zuführen der in Schritt e) ausgewählten vorbestimmten Äußerungen und der zwischengespeicherten Äußerung zu einem Äußerungs-Erkenner (50);
  • g) Erkennen und Auswählen wenigstens einer vorbestimmten Äußerung aus den ausgewählten vorbestimmten Äußerungen auf der Grundlage eines Ähnlichkeitsvergleichs; und sequentielle Ausgabe der wenigstens einen in Schritt g) gefundenen vorbestimmten Äußerung sowie weiterer zugehöriger Informationen in synthetisierter Sprachform.
2. Sprachdialog-Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Schritt h) solange wiederholt wird, bis der Benutzer die synthetische Sprachausgabe der Äußerungen beendet.
3. Sprachdialog-Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Schritte e) und g) nach Ablauf einer vorbestimmten Zeitspanne beendet werden und der Benutzer zur erneuten Eingabe seiner Äußerung aufgefordert wird, wenn keine vorbestimmte Äußerung erkannt worden ist.
4. Sprachdialog-Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß der Benutzer eine der synthetisch ausgesprochenen Äußerungen als mit seiner Äußerung übereinstimmend identifiziert, und daß unter Ansprechen auf diese Äußerung eine Datenbankanfrage an ein echtzeitfähiges elektronisches Telefonbuch (90) gestartet wird, aus dem alle, das Kriterium der Äußerung erfüllenden Datensätze ausgelesen und dem Benutzer zur Auswahl gestellt werden, und daß der Benutzer anhand von Namen und Adresse den Datensatz identifizieren kann, dessen Rufnummer durch die Anlage ausgegeben werden soll.
5. Sprachdialog-Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß orthographisch-phonetische Informationen für die vorbestimmten Äußerungen zu vorbestimmten Zeitpunkten aus einem Online-fähigen Lexikon (70) geladen werden.
6. Sprachdialog-Anlage zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 5, mit folgenden Merkmalen:
eine Einrichtung zur Eingabe (10) einer Äußerung durch einen Benutzer, wenigstens ein Synthetisator (60) zur Erzeugung von Sprachsignalen für den Benutzer,
gekennzeichnet durch
einen Alphabet-Erkenner (30), der eine vom Benutzer buchstabierte Äußerung erkennen und orthographisch ähnliche Äußerungen aus einer Vielzahl vorbestimmter Äußerungen auswählen kann,
einen Äußerungs-Erkenner (50), der die vom Benutzer eingegebene Äußerung mit den vom Alphabet-Erkenner (30) ausgewählten vorbestimmten Äußerungen vergleicht und
wenigstens eine vorbestimmte Äußerung auf der Grundlage einer Ähnlichkeitsermittlung zur Ausgabe an den Benutzer liefert, und
wenigstens ein Online-fähiges Lexikon (70), das eine Vielzahl von vorbestimmten Äußerungen und die dazugehörenden orthographisch-phonetischen Informationen speichert, auf die der Alphabet-Erkenner (30), der Äußerungs-Erkenner (50) und der Synthetisator (60) in Echtzeit zugreifen können.
7. Sprachdialog-Anlage nach Anspruch 6, gekennzeichnet durch einen Zwischenspeicher (20), der die vom Benutzer eingegebene Äußerung vorübergehend speichert und durch einen Speicher (40), der die vom Alphabet-Erkenner (30) vorausgewählten vorbestimmten Äußerungen aufnimmt.
8. Sprachdialog-Anlage nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß der Äußerungs-Erkenner (50) im Keyword-Spotting-Modus arbeitet.
9. Sprachdialog-Anlage nach einem der Ansprüche 6 bis 8, dadurch gekennzeichnet, daß die im Lexikon (70) gespeicherten Daten orthographische, phonetische und betonungsbezogene Informationen für die vorbestimmten Äußerungen sind.
10. Sprachdialog-Anlage nach Anspruch 9, dadurch gekennzeichnet, daß im Lexikon (70) Zusatzinformationen über Homonyme gespeichert sind.
11. Sprachdialog-Anlage nach einem der Ansprüche 6 bis 10, dadurch gekennzeichnet, daß die vom Benutzer eingegebene Äußerung ein Ortsname, ein Familienname oder mehrere zusammenhängende Wörter sein kann.
12. Sprachdialog-Anlage nach einem der Ansprüche 6 bis 11, dadurch gekennzeichnet, daß je eine Rubrik des Online- fähigen Lexikons zum Speichern eines allgemeinen Vokabulars, der Ortsnamen und der Familiennamen vorgesehen ist.
13. Sprachdialog-Anlage nach einem der Ansprüche 6 bis 12, dadurch gekennzeichnet, daß ein programmgesteuerter Mikrocomputer (120) die Anlagensteuerung übernimmt.
14. Sprachdialog-Anlage nach einem der Ansprüche 6 bis 13, dadurch gekennzeichnet, daß der Äußerungs-Erkenner (50) und der Alphabet-Erkenner (30) derart ausgebildet sind, daß sie eine vom Benutzer eingegebene Äußerung zurückweisen und/oder nach Ablauf einer vorgegebenen Zeitspanne den Benutzer auffordern können, seine Äußerung erneut einzugeben.
15. Vorrichtung zur sprecherunabhängigen Spracherkennung, insbesondere zum Einsatz in einer Sprachdialog-Anlage nach einem der Ansprüche 6 bis 14 mit
einem Alphabet-Erkenner (30), der eine von einem Benutzer buchstabierte Äußerung erkennen und auf der Grundlage einer Ähnlichkeitsermittlung mehrere vorbestimmte Äußerungen aus einer Vielzahl vorbestimmter Äußerungen auswählen kann und
einem Äußerungs-Erkenner (50), der auf der Grundlage einer Ähnlichkeitsermittlung eine vom Benutzer eingegebene Äußerung mit den vom Alphabet-Erkenner (30) vorausgewählten vorbestimmten Äußerungen vergleicht und als Ergebnis wenigstens eine vorbestimmte Äußerung liefert.
16. Vorrichtung zur Spracherkennung nach Anspruch 15, dadurch gekennzeichnet, daß der Äußerungs-Erkenner (50) im Keyword-Spotting-Modus arbeitet.
17. Vorrichtung zur Spracherkennung nach Anspruch 15 oder 16, gekennzeichnet durch ein Lexikon (70), das orthographische und phonetische Informationen über die Vielzahl vorbestimmter Äußerungen speichert, auf die der Alphabet-Erkenner (30) und der Äußerungs-Erkenner (50) in Echtzeit zugreifen können, um ähnlich klingende bzw. orthographisch ähnliche Äußerungen zu ermitteln.
DE1995132114 1995-08-31 1995-08-31 Sprachdialog-System zur automatisierten Ausgabe von Informationen Expired - Fee Related DE19532114C2 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE1995132114 DE19532114C2 (de) 1995-08-31 1995-08-31 Sprachdialog-System zur automatisierten Ausgabe von Informationen
FR9610517A FR2738382B1 (fr) 1995-08-31 1996-08-28 Systeme de dialogue vocal destine a la fourniture automatisee d'informations
GB9618308A GB2304957B (en) 1995-08-31 1996-09-02 Voice-dialog system for automated output of information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1995132114 DE19532114C2 (de) 1995-08-31 1995-08-31 Sprachdialog-System zur automatisierten Ausgabe von Informationen

Publications (2)

Publication Number Publication Date
DE19532114A1 DE19532114A1 (de) 1997-03-06
DE19532114C2 true DE19532114C2 (de) 2001-07-26

Family

ID=7770897

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1995132114 Expired - Fee Related DE19532114C2 (de) 1995-08-31 1995-08-31 Sprachdialog-System zur automatisierten Ausgabe von Informationen

Country Status (3)

Country Link
DE (1) DE19532114C2 (de)
FR (1) FR2738382B1 (de)
GB (1) GB2304957B (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006016298A1 (de) * 2005-11-18 2007-05-24 Primax Electronics Ltd., Neihu Hilfsbetriebssystem für tragbare Elektrogeräte

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19907341A1 (de) * 1999-02-20 2000-08-31 Lutz H Karolus Verfahren zur Bearbeitung von Daten als Abfrageinformationen
DE19907759C2 (de) * 1999-02-23 2002-05-23 Infineon Technologies Ag Verfahren und Einrichtung zur Buchstabiererkennung
JP2003509705A (ja) 1999-06-10 2003-03-11 インフィネオン テクノロジーズ アクチエンゲゼルシャフト 音声認識方法および音声認識装置
GB2353887B (en) 1999-09-04 2003-09-24 Ibm Speech recognition system
JP2001117828A (ja) * 1999-10-14 2001-04-27 Fujitsu Ltd 電子装置及び記憶媒体
EP1226576A2 (de) * 1999-11-04 2002-07-31 Telefonaktiebolaget Lm Ericsson System und verfahren zur steigerung der erkennungsrate von sprachbefehlen in übertragungsendgeräten eines fernwirksystems
EP1158491A3 (de) * 2000-05-23 2002-01-30 Vocalis Limited Spracheingabe und Wiederauffiden von Personendaten
DE10060654C1 (de) * 2000-12-06 2002-06-20 Varetis Ag Verfahren und Vorrichtung zur automatischen Auskunfterteilung mittels einer Suchmaschine
DE10207895B4 (de) * 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
AT5730U3 (de) * 2002-05-24 2003-08-25 Roland Moesl Verfahren zum beschlagworten von webseiten
EP1693829B1 (de) 2005-02-21 2018-12-05 Harman Becker Automotive Systems GmbH Sprachgesteuertes Datensystem

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3732849A1 (de) * 1987-09-29 1989-04-20 Siemens Ag System-architektur fuer ein akustisches mensch/maschine-dialogsystem
FR2690777A1 (fr) * 1992-04-30 1993-11-05 Lorraine Laminage Procédé de commande d'un automate par reconnaissance vocale.
US5357596A (en) * 1991-11-18 1994-10-18 Kabushiki Kaisha Toshiba Speech dialogue system for facilitating improved human-computer interaction

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3851113T3 (de) * 1987-10-08 1997-09-25 Nippon Electric Co Sprachgesteuerte Wählvorrichtung mit Speichern für vollständige Wahl für alle Benutzer und Kurzwahl für befugte Benutzer.
US5131045A (en) * 1990-05-10 1992-07-14 Roth Richard G Audio-augmented data keying
US5293451A (en) * 1990-10-23 1994-03-08 International Business Machines Corporation Method and apparatus for generating models of spoken words based on a small number of utterances
AU5803394A (en) * 1992-12-17 1994-07-04 Bell Atlantic Network Services, Inc. Mechanized directory assistance

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3732849A1 (de) * 1987-09-29 1989-04-20 Siemens Ag System-architektur fuer ein akustisches mensch/maschine-dialogsystem
US5357596A (en) * 1991-11-18 1994-10-18 Kabushiki Kaisha Toshiba Speech dialogue system for facilitating improved human-computer interaction
FR2690777A1 (fr) * 1992-04-30 1993-11-05 Lorraine Laminage Procédé de commande d'un automate par reconnaissance vocale.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006016298A1 (de) * 2005-11-18 2007-05-24 Primax Electronics Ltd., Neihu Hilfsbetriebssystem für tragbare Elektrogeräte

Also Published As

Publication number Publication date
GB2304957A (en) 1997-03-26
FR2738382A1 (fr) 1997-03-07
FR2738382B1 (fr) 1999-01-29
GB2304957B (en) 1999-09-29
DE19532114A1 (de) 1997-03-06
GB9618308D0 (en) 1996-10-16

Similar Documents

Publication Publication Date Title
DE69914131T2 (de) Positionshandhabung bei der Spracherkennung
DE60318544T2 (de) Sprachmodell für die Spracherkennung
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
DE69327188T2 (de) Einrichtung für automatische Spracherkennung
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
EP1927980B1 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
EP0802522B1 (de) Anordnung und Verfahren zur Aktionsermittlung, sowie Verwendung der Anordnung und des Verfahrens
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
EP1264302B1 (de) Verfahren zur spracheingabe eines zielortes mit hilfe eines definierten eingabedialogs in ein zielführungssystem
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
WO2003060877A1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE376501T1 (de) Spracherkennungssystem.
EP1184839A2 (de) Graphem-Phonem-Konvertierung
DE19532114C2 (de) Sprachdialog-System zur automatisierten Ausgabe von Informationen
DE102005018174A1 (de) Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11
DE102006036338A1 (de) Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem
EP1739655A2 (de) Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems
EP0981129A2 (de) Verfahren und Anordnung zum Durchführen einer Datenbankabfrage
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
EP2006835B1 (de) Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems
DE10129005B4 (de) Verfahren zur Spracherkennung und Spracherkennungssystem
EP0414238B1 (de) Sprachgesteuertes Archivsystem
DE10229207B3 (de) Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik
EP1457966A1 (de) Verfahren zum Ermitteln der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8110 Request for examination paragraph 44
D2 Grant after examination
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20110301