DE19532114C2 - Sprachdialog-System zur automatisierten Ausgabe von Informationen - Google Patents
Sprachdialog-System zur automatisierten Ausgabe von InformationenInfo
- Publication number
- DE19532114C2 DE19532114C2 DE1995132114 DE19532114A DE19532114C2 DE 19532114 C2 DE19532114 C2 DE 19532114C2 DE 1995132114 DE1995132114 DE 1995132114 DE 19532114 A DE19532114 A DE 19532114A DE 19532114 C2 DE19532114 C2 DE 19532114C2
- Authority
- DE
- Germany
- Prior art keywords
- utterance
- user
- recognizer
- predetermined
- utterances
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims description 18
- 230000004044 response Effects 0.000 claims description 5
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 claims 1
- 238000001514 detection method Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4931—Directory assistance systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
Die Erfindung betrifft ein Sprachdialog-Verfahren zur
automatisierten Ausgabe von Informationen, insbesondere einer
Rufnummer für einen Benutzer nach Anspruch 1, eine
Sprachdialog-Anlage zur Durchführung des Sprachdialog-
Verfahrens nach dem Oberbegriff des Anspruchs 6 sowie eine
Vorrichtung zur sprecherunabhängigen Spracherkennung,
insbesondere zum Einsatz in einer Sprachdialog-Anlage gemäß
dem Anspruch 15.
Es sind Sprachdialog-Systeme zur automatisierten
Sprachausgabe von Rufnummern bekannt, bei denen der Dialog
zwischen einem Anrufer, der eine bestimmte Rufnummernauskunft
wünscht, und dem System über das Telefon abgewickelt wird.
Die derzeit betriebenen Sprachdialog-Systeme können
allerdings nur einen festen, kleinen bis mittleren Wortschatz
von etwa 1000 Wörtern erkennen. Beliebige Texte, darunter
die Ausgabe von Ortsnamen, Familiennamen und der Rufnummer
werden über einen Sprachsynthetisator ausgegeben. Es hat sich
jedoch gezeigt, daß Fehler bei der Aussprache von Namen
insbesondere dann auftreten, wenn die Namen nicht den
üblichen deutschen Ausspracheregeln gehorchen.
Aus der DE 37 32 849 A1 ist ein akustisches Mensch/Maschinen-
Dialogsystem bekannt, welches unter anderem ein
Erkennungsmodul aufweist, in dem das von einem Benutzer
eingegebene Sprachsignal analysiert wird. Hierzu weist das
Erkennungsmodulist eine Wortfolgengenerierungseinheit auf, in
der sprachspezifische Merkmale des eingegebenen Sprachsignals
mit Hilfe eines phonetischen Wortlexikons auf Wortfolgen
abgebildet werden. Da die Abbildung auf Wortfolgen nicht
eindeutig ist, werden eine Syntaktisch-semantisch-
pragmatische Inhaltsanalyse und zusätzlich statistische
Methoden angewandt, um die einzig richtige Wortfolge zu
gewinnen.
Aus der FR 2690 777 A1 ist ein Verfahren zur Steuerung eines
Automaten durch Spracherkennung bekannt, nach dem ein
Telekommunikationsteilnehmer einem Operator den Namen eines
Teilnehmers mitteilt, mit dem dieser eine Kommunikation
führen möchte. Anschließend buchstabiert der Operator den
gehörten Namen über ein Mikrofon in eine
Spracherkennungseinrichtung. Dem Operator wird danach
sprachlich mitgeteilt, ob das buchstabierte Wort richtig
erkannt worden ist. Ist das Wort richtig erkannt worden,
sorgt der Automat dafür, dass der Telekommunikations-
Teilnehmer mit dem gewünschten Teilnehmer verbunden wird.
Aus der US 5 357 596 ist ein Sprachdialogsystem zur
Unterstützung einer Mensch-Computer-Interaktion bekannt. Das
System umfaßt eine Spracherkennungseinheit zum Erkennen eines
semantischen Inhaltes einer von einem Benutzer gesprochenen
Äußerung und eine Einrichtung zur Erzeugung und sprachlichen
Ausgabe einer Antwort unter Ansprechen auf den erkannten
semantischen Inhalt der vom Benutzer eingegebenen
Sprachäußerung. Die Spracherkennungseinheit weist eine
Keyword-Erfassungseinrichtung auf, die eine sogenannte
Keyword-Spottertechnik anwendet, um den semantischen Inhalt
aus der gesprochenen Äußerung gewinnen zu können.
Der Erfindung liegt daher die Aufgabe zugrunde, ein
Sprachdialog-Verfahren zur automatisierten Ausgabe von
Informationen verfügbar zu machen und eine dazu geeignet
ausgebildete Sprachdialog-Anlage zu schaffen, die ein sehr
großes zu erkennendes Vokabular, d. h. etwa 10.000 bis 100.000
Wörter, verarbeiten und trotzdem eine akzeptable
Erkennungsrate erreichen kann sowie Fehler bei der
Sprachausgabe fremdsprachlicher Begriffe verringert oder
sogar gänzlich vermeidet, sowie dazu eine Vorrichtung zur sprecherunab
hängigen Spracherkennung anzugeben.
Die Erfindung löst dieses technische Problem mit den
Verfahrensschritten des Sprachdialog-Verfahrens nach Anspruch
1, den Merkmalen der Sprachdialog-Anlage nach Anspruch 6 und
den Vorrichtungsmerkmalen der sprecherunabhängigen
Spracherkennung nach Anspruch 15.
Die Erfindung ist in der Lage ein sehr großes Vokabular mit
einer akzeptablen Erkennungsrate zu verarbeiten, indem eine
von einem Benutzer eingegebene Äußerung eine kombinierte
Spracherkennung durchläuft. Bei dieser Äußerung kann es sich
um einen Nachnamen, einen Vornamen, einen Straßennamen, einen
Ortsnamen oder auch um zusammenhängende Wörter handeln. Die
kombinierte Spracherkennung umfaßt einen Alphabet-Erkenner,
der eine vom Benutzer buchstabierte Äußerung erkennen und
daraufhin orthographisch ähnliche Äußerungen aus einer
Vielzahl vorbestimmter Äußerungen
auswählen kann. Der Begriff "orthographisch ähnliche
Äußerung" wird im folgenden immer dann verwendet, wenn
ausgedrückt werden soll, daß zwei oder mehrere Folgen
ausgesprochener Buchstabenwörter ähnlich klingen (z. B. "es e
es es e el" und "ef e es es e el". Als zweite Hauptkomponente
umfaßt die kombinierte Spracherkennung einen Äußerungs-
Erkenner, der die vom Benutzer direkt eingegebene Äußerung
mit den vorbestimmten Äußerungen vergleicht, die
den vom Alphabeterkenner ausgewählten vorbestimmten
Äußerungen entsprechen. Auf der
Grundlage einer Ähnlichkeitsermittlung liefert der
Äußerungserkenner als Erkennungsergebnis wenigstens ein Wort
zur Ausgabe an den Benutzer, das einer der Benutzeräußerung
ähnlichen vorbestimmten Äußerung entspricht. Ein
online-fähiges Lexikon dient dazu, orthographisch-phonetische
Informationen für die Vielzahl vorbestimmter Äußerungen zu
speichern, auf die der Alphabet-Erkenner, der Äußerungs-
Erkenner und ein Synthetisator in Echtzeit zugreifen können.
Zweckmäßigerweise ist ein Zwischenspeicher vorgesehen, der
die
vom Benutzer direkt eingegebene Äußerung vorübergehend
speichert, bevor sie an den Äußerungs-Erkenner weitergereicht
wird. Darüber hinaus enthält die Anlage einen weiteren
Speicher, in dem die vom Alphabet-Erkenner vorausgewählten,
buchstabierten Referenzäußerungen in Form einer
Kandidatenliste orthographisch ähnlicher Namen geladen werden.
Der Äußerungs-Erkenner arbeitet im Keyword-Spotting-Modus, so
daß der Benutzer in bestimmten Grenzen Zusatzäußerungen vor
und nach der eigentlichen Äußerung aussprechen kann, und der
Äußerungs-Erkenner trotzdem in der Lage ist, die eigentliche
Äußerung zu extrahieren.
Bei den im Lexikon gespeicherten orthographisch-phonetischen
Informationen handelt es sich einmal um die Schreibweise der
vorbestimmten Äußerungen, die der Alphabet-Erkenner benutzt,
um eine buchstabierte Äußerung zu erkennen und daraus eine
Vorauswahl orthographisch ähnlicher Namen für den Äußerungs-
Erkenner zu treffen. Darüber hinaus sind im Lexikon
phonetische Transkriptionen, beispielsweise für Ortsnamen und
Nachnamen, gespeichert. Orthographie und phonetische
Transkription von Eigennamen werden in einem offline Prozeß
aus einem elektronischen Aussprachewörterbuch in das Lexikon
übertragen. Dabei werden nur Eigennamen übernommen, die im
elektronischen Telefonbuch vorkommen. Das elektronische
Telefonbuch ist eine echtzeitfähige Datenbank, die die zur
Informationsausgabe an den Benutzer benötigten Adressen und
Rufnummern enthält. Um eine hohe Qualität auch bei der
Sprachausgabe von Namen zu erhalten, die nicht den üblichen
deutschen Ausspracheregeln gehorchen, sind neben der
phonetischen Information auch betonungsbezogene Informationen
der Begriffe gespeichert. Diese Sprachmerkmale geben die
Betonung von Silben und Endungen auch fremdsprachlicher Wörter
wieder.
Um zu vermeiden, daß aufgrund von akustischen Ähnlichkeiten
zwischen Wörtern und/oder gesprochenen Buchstaben die
Erkennungsergebnisse der kombinierten Spracherkennung zufällig
beeinflußt werden, sind im Lexikon Zusatzinformationen für
Homonyme gespeichert. Diese Zusatzinformationen erlauben es,
einen durch die Spracherkennung erhaltenen Kandidaten um
gleich auszusprechende Alternativen zu ergänzen und damit die
Erkennungsrate der Anlage zu erhöhen.
Zweckmäßigerweise ist je eine Lexikonrubrik für ein
allgemeines Vokabular, für Städtenamen und für die dort
vorkommenden Nachnamen vorgesehen.
Die Steuerung der Sprachdialog-Anlage erfolgt durch einen
programmgesteuerten Mikrocomputer. Die darin implementierte
Steuersoftware sorgt unter anderem dafür, daß den Erkennern
und dem Synthetisator rechtzeitig die benötigten
orthographischen und phonetischen Informationen aus dem
Lexikon zur Verfügung gestellt werden, und daß die Anlage
einen Benutzer sprachgeführt zur Eingabe der jeweiligen
Äußerungen auffordert. Darüber hinaus überwacht sie die in den
Spracherkennern ablaufenden Timeouts, verarbeitet Ende- und
Hilfebefehle und übernimmt die Fehlererkennung und -
behandlung.
In dem Äußerungs-Erkenner und in dem Alphabet-Erkenner laufen
interne Programmschleifen ab, die eine vom Benutzer
eingegebene Äußerung zurückweisen oder nach Ablauf einer
vorgegebenen Zeitspanne den Benutzer auffordern können, seine
Äußerung erneut einzugeben.
Die Erfindung wird nachfolgend anhand eines
Ausführungsbeispiels in Verbindung mit den beiliegenden
Zeichnungen näher erläutert. Es zeigen:
Fig. 1 ein schematisches Blockschaltbild einer
Sprachdialog-Anlage mit der erfindungsgemäßen
kombinierten Spracherkennung und einem On-Line-
Lexikon,
Fig. 2 ein Flußdiagramm für den Ablauf eines
automatisierten Sprachdialogs zur Namenserkennung
und Ausgabe einer dazugehörigen Rufnummer, der von
der Sprachdialog-Anlage nach Fig. 1 durchgeführt
wird.
Fig. 1 zeigt den prinzipiellen Aufbau einer Sprachdialog-
Anlage, die eine Lexikon-gesteuerte Erkennung beliebiger
Äußerungen, z. B. von Ortsnamen oder Nachnamen durch eine
Kombination von Spracherkennern vornehmen und aufgrund einer
ermittelten Äußerung (Erkennungsergebnis) eine der Äußerung
zugeordnete Information (z. B. eine Rufnummer) ausgeben kann.
Im einzelnen ist in Fig. 1 ein Fernsprechapparat 10
dargestellt, an dem ein Anrufer den Ortsnamen und den
Nachnamen eines Teilnehmers, dessen Rufnummer er zu erfahren
wünscht, oder bestimmte andere Äußerungen eingeben kann. Auf
Seiten des Betreibers der Sprachdialog-Anlage ist wenigstens
ein Analog-Digital-Wandler 80 angeordnet, der die analogen
Sprachsignale vom Teilnehmer in digitale Signale umsetzt. Der
Ausgang des Analog-Digital-Wandlers kann je mit dem Eingang
eines Sprachspeichers 20 und eines Alphabet- oder Buchstaben-
Erkenners 30 verbunden sein. Der Sprachspeicher 20 dient dazu,
die vom Anrufer in den Fernsprechapparat 10 direkt eingegebene
Äußerung, das ist z. B. der Name "Meier", für eine spätere
Benutzung zwischenzuspeichern. Der Alphabet-Erkenner 30
empfängt über den Analog-Digital-Wandler 80 in Abhängigkeit
vom Zustand des Sprachdialogablaufs eine buchstabierte Version
der zuvor im Sprachspeicher 20 abgelegten, direkt eingegebenen
Äußerung. Ein programmgesteuerter Mikrocomputer 120 sorgt
dafür, daß die direkt eingegebene Äußerung in den
Sprachspeicher 20 geladen wird und daß die buchstabierte
Äußerung dem Alphabet-Erkenner 30 zugeführt wird. Der Ausgang
des Alphabet-Erkenners 30 ist mit einem Speicher 40 verbunden,
in dem eine Kandidatenliste orthographisch ähnlicher
Äußerungen gespeichert ist, die vom Alphabet-Erkenner 30
während einer Vorauswahl ermittelt worden sind. Ein Äußerungs-
Erkenner 50 verfügt über drei Eingänge, die jeweils mit dem
Ausgang des Kandidatenspeichers 40, dem Sprachspeicher 20 und
einem Online-Lexikon 70 verbunden sind. Der Äußerungs-Erkenner
50 arbeitet im sogenannten Keyword-Spotting-Modus, der es
ermöglicht, daß die eigentliche Äußerung, z. B. "Meier", auch
dann noch richtig extrahiert werden kann, wenn ihr
Zusatzäußerungen wie "äh", "bitte" oder dergleichen
vorhergehen bzw. nachfolgen. Der Ausgang des Keyword-Spotters
50 ist mit einem Erkennungsergebnis-Speicher 55 verbunden, in
dem die Ergebnisäußerungen, das sind ähnlich lautende Namen,
vom Keyword-Spotter 50 abgelegt werden. Die im
Erkennungsergebnis-Speicher 55 abgelegten Äußerungen werden
einem Synthetisator 60 zugeführt, der auf Basis der
entsprechenden Informationen aus dem Lexikon der Reihe nach
die Namen in synthetisierter Sprache über einen Digital-
Analog-Wandler 85 zum Fernsprechapparat 10 des Teilnehmers
überträgt. Der Synthetisator 60 kann auch die sprachlichen
Aufforderungen an den Anrufer in Verbindung mit einer nicht
dargestellten Datenbasis erzeugen, in der alle von der Anlage
anzusagenden Texte in orthographischer bzw. phonetischer Form
enthalten sind.
Das oben erwähnte Online-Lexikon 70 zeichnet sich vor allem
dadurch aus, daß es gleichzeitig und in Echtzeit von dem
Alphabet-Erkenner 30 für die Buchstabenerkennung, vom Keyword-
Spotter 50 und vom Synthetisator 60 benutzt werden kann.
Deshalb sind alle Informationen bezüglich der von der Anlage
zu erkennenden und auszusprechenden Äußerungen in diesem
Lexikon 70 gespeichert. Es handelt sich hierbei um
orthographische und aussprache- bzw. betonungsbezogene
Informationen, die in einem offline-Prozeß aus einem
Aussprachewörterbuch 100 in das online-Lexikon 70 geladen
werden. Zusätzlich sind im Lexikon 70 Informationen über
Homonyme gespeichert, um das Erkennungsergebnis des
Äußerungserkenners mit gleich klingenden Namen zu erweitern
bzw. die buchstabierten Referenzäußerungen des
Alphabeterkenners um orthographisch ähnliche Namen zu
ergänzen, und damit die Wahrscheinlichkeit zu erhöhen, die
richtige Äußerung mit zu erfassen. Dies sorgt auch für eine
gesteigerte Erfolgsrate bei der Benutzung oder einen
verbesserten Gesamtdurchsatz der Anlage, da zu erkennnende
Äußerungen von den Spracherkennern 30, 50 seltener
zurückgewiesen werden. Die Informationen über Homonyme
ermöglichen es dem Äußerungserkenner, z. B. für eine Äußerung
"Meier", alle im elektronischen Telefonbuch vorhandenen
Schreibweisen, wie z. B. "Meier", "Mayer", "Maier" und "Meyer",
zu finden und in die Liste der Erkennungsergebnisse
aufzunehmen. Andererseits ist es dadurch dem Alphabeterkenner
möglich, z. B. häufig auftretende und möglicherweise fälschlich
verwendete Buchstabiervarianten, wie z. B. "MÜLLER" oder
"MUELLER", selbst dann auf die richtige, buchstabierte
Referenzäußerung abzubilden, wenn z. B. nur die Schreibweise
mit "Ü" im Telefonbuch auftritt. Das beschriebene Online-
Lexikon 70 unterstützt daher erstmalig sowohl die
Spracherkennung als auch die Sprachsynthese.
Die Funktionsweise der Sprachdialog-Anlage wird nachfolgend
anhand einer Namenserkennung ausführlicher erläutert. Es sei
angenommen, daß die Sprachdialog-Anlage bereits den Ortsnamen
kennt, in dem die Person wohnt, deren Rufnummer ein Anrufer
erfahren möchte. Dazu hat die Anlage zunächst den Benutzer des
Fernsprechapparates 10 aufgefordert, den Ortsnamen (z. B.
Darmstadt) direkt, d. h. in nicht-buchstabierter Form
einzugeben. Zweckmäßigerweise steuert der Mikrocomputer 120
die Anlage derart, daß der Ortsname nur dem Keyword-Spotter 50
zugeführt wird, um die Äußerung zu erkennen. Wie bereits
erwähnt, ist der Keyword-Spotter in der Lage,
Zusatzäußerungen, wie "äh" bzw. "bitte", zu tolerieren und als
Information den Städtenamen allein zu extrahieren. Die
Sprachdialog-Anlage kann auch derart ausgebildet sein, daß
eine Vorauswahl von orthographisch ähnlichen Ortsnamen durch
den Alphabet-Erkenner 30 für den Keyword-Spotter 50 dann
erfolgt, wenn ein falsches oder überhaupt kein
Erkennungsergebnis vom Keyword-Spotter 50 geliefert worden
ist. Nachdem der Städtename erkannt worden ist, stellt die
Sprachdialog-Anlage all die in einem elektonischen Telefonbuch
90 für diese Städtnamen gespeicherten Nachnamen aus dem
Online-Lexikon 70 bereit. Es sei weiter angenommen, daß in dem
Online-Lexikon 70 die Schreibweise aller Eigennamen, die für
die Buchstabenerkennung im Alphabet-Erkenner 30 erforderlich
sind, je eine Folge von Lautsymbolen für alle Eigennamen, die
für die Spracherkennung im Keyword-Spotter erforderlich sind,
sowie je eine Folge von Lautsymbolen einschließlich von
Betonungsinformationen, die für die Sprachsynthese benötigt
werden, enthalten sind. Darüber hinaus sind im elektronischen
Telefonbuch 90, das die Nachnamen der Teilnehmer mit
entsprechenden Telefonnummern und Adressen enthält, Verweise
auf die entsprechenden Einträge im online-Lexikon enthalten.
Der Anrufer wird nunmehr durch einen Dialog geführt, in dessen
Verlauf er aufgrund der Angabe des Ortsnamens und des
Teilnehmernamens die gewünschte Telefonnummer erfährt.
Der folgende Sprachdialog zwischen dem Anrufer des
Fernsprechapparats 10 und der Sprachdialog-Anlage ist in dem
Flußdiagramm nach Fig. 2 erläutert.
Der Anrufer wird zunächst von der Anlage über den
Synthetisator 60 sprachlich aufgefordert, den gewünschten
Namen, z. B. "Meier", direkt einzugeben. Diese Eingabe wird
anschließend in dem Sprachspeicher 20 zwischengespeichert.
Dabei werden auch Zusatzäußerungen, wie "äh" und "bitte", in
dem Sprachspeicher 20 mit aufgezeichnet. Anschließend wird der
Anrufer sprachlich über den Synthetisator 60 aufgefordert, den
zuvor direkt eingegebenen Namen zu buchstabieren. Daraufhin
gibt der Teilnehmer die Buchstabenfolge M, E, I, E, R ein. In
Verbindung mit den orthographischen Informationen, die in dem
Online-Lexikon 70 abgelegt sind, führt der Alphabet-Erkenner
30 eine Ähnlichkeitsermittlung aus und trifft eine Vorauswahl
aus der Liste der verfügbaren, im Online-Lexikon 70 unter dem
Ortsnamen gespeicherten Nachnamen. Aufgrund von
Erkennungsunsicherheiten ermittelt der Alphabet-Erkenner 30
mehrere Kandidaten, beispielsweise "Neier", "Meier", "Meter",
"Mieter", "Neter", "Nieter", "Meiter", "Meider" usw. Diese
gefundene Kandidatenliste wird in dem Speicher 40 abgelegt.
Der programmgesteuerte Mikrocomputer 120 veranlaßt den
Keyword-Spotter 50, die vorher im Sprachspeicher 20
zwischengespeicherte Benutzeräußerung "Meier" auszulesen und
die vorausgewählten, im Speicher 40 stehenden Kandidaten zu
laden. Auf der Grundlage einer Ähnlichkeitsermittlung
vergleicht der Keyword-Spotter 50 die direkt eingegebene
Namensäußerung "Meier" mit der Kandidatenliste, indem er die
im Online-Lexikon 70 gespeicherten phonetischen Informationen
benutzt. Als Erkennungsergebnis liefert der Keyword-Spotter 50
beispielsweise die Namen "Neier" und "Meier" und speichert sie
in dem Ergebnisspeicher 55. Die Sprachdialog-Anlage weiß
aufgrund der in dem Online-Lexikon 70 abgelegten phonetischen
und betonungsbezogenen Informationen, wie die gefundenen
Erkennungsergebnisse auszusprechen und zu betonen sind.
Daraufhin werden nacheinander die gefundenen Namen, im
vorliegenden Fall die Namen "Neier" und "Meier" über den
Synthetisator 60 zum Fernsprechapparat 10 des Anrufers
übertragen. Der Anrufer kann daraufhin den richtigen Namen
auswählen. Mit diesem Nachnamen und dem erkannten Ortsnamen
wird dann eine Datenbankanfrage an das elektronische
Telefonbuch 90 gestartet. Die gefundenen Namen und Adressen
werden nutzergesteuert vorgelesen, d. h. der Benutzer kann
Einfluß darauf nehmen, wann die Sprachausgabe der gefundenen
Namen und Adressen beendet und wie oft eine Liste vorgelesen
wird oder zu welchem Namen zusätzliche Informationen
ausgegeben werden sollen. In Problemfällen kann die
Möglichkeit vorgesehen sein, daß der Anrufer sich zu einem
Operator durchschalten läßt. Sobald der Benutzer der
Sprachdialog-Anlage anzeigt, daß die über den
Sprachsynthetisator 60 ausgegebenen Daten (Vorname, Nachname,
Straße, Hausnummer) den Daten der Person entsprechen, deren
Telefonnummer er sucht, veranlaßt der Mikrocomputer 120, daß
die Anlage die entsprechende Telefonnummer aus dem Telefonbuch
90 ausliest und in sprachlicher Form dem Anrufer mitteilt.
Dank der Lexikon-gesteuerten Erkennung beliebiger Äußerungen
durch die Kombination des Alphabet-Erkenners 30 und des
Keyword-Spotters 50 ist es möglich, einen deutlich größeren
Wortschatz mit akzeptabler Erkennungsrate als herkömmliche
Anlagen zu verarbeiten, die nur einen Spracherkenner benutzen.
Der Grund ist darin zu sehen, daß der Alphabet-Erkenner 30
eine Vorauswahl der zu erkennenden Wörter trifft und nur diese
relativ kleine Auswahl in Frage kommender Wörter dem Keyword-
Spotter 50 zur eigentlichen Erkennung zugeführt wird.
Claims (17)
1. Sprachdialog-Verfahren zur automatisierten Ausgabe von
Informationen, insbesondere einer Rufnummer für einen
Benutzer, mit folgenden Schritten:
- a) zeitweises Laden einer Vielzahl von vorbestimmten Äußerungen und der dazugehörenden orthographisch- phonetischen Informationen in ein Online- fähiges Lexikon (70), wobei die Informationen in Echtzeit verfügbar sind;
- b) Sprachliches Auffordern des Benutzers zur Eingabe einer Äußerung;
- c) Zwischenspeichern der eingegebenen Äußerung;
- d) Sprachliches Auffordern des Benutzers, die eingegebene Äußerung zu buchstabieren;
- e) unter Ansprechen auf die buchstabierte Äußerung Erkennen und Auswählen von mehreren der vorbestimmten Äußerungen mit Hilfe der in Schritt a) gespeicherten orthographisch-phonetischen Informationen auf der Grundlage einer Ähnlichkeitsermittlung;
- f) Zuführen der in Schritt e) ausgewählten vorbestimmten Äußerungen und der zwischengespeicherten Äußerung zu einem Äußerungs-Erkenner (50);
- g) Erkennen und Auswählen wenigstens einer vorbestimmten Äußerung aus den ausgewählten vorbestimmten Äußerungen auf der Grundlage eines Ähnlichkeitsvergleichs; und sequentielle Ausgabe der wenigstens einen in Schritt g) gefundenen vorbestimmten Äußerung sowie weiterer zugehöriger Informationen in synthetisierter Sprachform.
2. Sprachdialog-Verfahren nach Anspruch 1, dadurch
gekennzeichnet, daß der Schritt h) solange wiederholt
wird, bis der Benutzer die synthetische Sprachausgabe der
Äußerungen beendet.
3. Sprachdialog-Verfahren nach Anspruch 1 oder 2, dadurch
gekennzeichnet, daß die Schritte e) und g) nach Ablauf
einer vorbestimmten Zeitspanne beendet werden und der
Benutzer zur erneuten Eingabe seiner Äußerung
aufgefordert wird, wenn keine vorbestimmte Äußerung
erkannt worden ist.
4. Sprachdialog-Verfahren nach Anspruch 2 oder 3, dadurch
gekennzeichnet, daß der Benutzer eine der synthetisch
ausgesprochenen Äußerungen als mit seiner Äußerung
übereinstimmend identifiziert, und daß unter Ansprechen
auf diese Äußerung eine Datenbankanfrage an ein
echtzeitfähiges elektronisches Telefonbuch (90) gestartet
wird, aus dem alle, das Kriterium der Äußerung
erfüllenden Datensätze ausgelesen und dem Benutzer zur
Auswahl gestellt werden, und daß der Benutzer anhand von
Namen und Adresse den Datensatz identifizieren kann,
dessen Rufnummer durch die Anlage ausgegeben werden soll.
5. Sprachdialog-Verfahren nach einem der Ansprüche 1 bis 4,
dadurch gekennzeichnet, daß orthographisch-phonetische
Informationen für die vorbestimmten Äußerungen zu
vorbestimmten Zeitpunkten aus einem Online-fähigen
Lexikon (70) geladen werden.
6. Sprachdialog-Anlage zur Durchführung des Verfahrens nach
einem der Ansprüche 1 bis 5, mit folgenden Merkmalen:
eine Einrichtung zur Eingabe (10) einer Äußerung durch einen Benutzer, wenigstens ein Synthetisator (60) zur Erzeugung von Sprachsignalen für den Benutzer,
gekennzeichnet durch
einen Alphabet-Erkenner (30), der eine vom Benutzer buchstabierte Äußerung erkennen und orthographisch ähnliche Äußerungen aus einer Vielzahl vorbestimmter Äußerungen auswählen kann,
einen Äußerungs-Erkenner (50), der die vom Benutzer eingegebene Äußerung mit den vom Alphabet-Erkenner (30) ausgewählten vorbestimmten Äußerungen vergleicht und
wenigstens eine vorbestimmte Äußerung auf der Grundlage einer Ähnlichkeitsermittlung zur Ausgabe an den Benutzer liefert, und
wenigstens ein Online-fähiges Lexikon (70), das eine Vielzahl von vorbestimmten Äußerungen und die dazugehörenden orthographisch-phonetischen Informationen speichert, auf die der Alphabet-Erkenner (30), der Äußerungs-Erkenner (50) und der Synthetisator (60) in Echtzeit zugreifen können.
eine Einrichtung zur Eingabe (10) einer Äußerung durch einen Benutzer, wenigstens ein Synthetisator (60) zur Erzeugung von Sprachsignalen für den Benutzer,
gekennzeichnet durch
einen Alphabet-Erkenner (30), der eine vom Benutzer buchstabierte Äußerung erkennen und orthographisch ähnliche Äußerungen aus einer Vielzahl vorbestimmter Äußerungen auswählen kann,
einen Äußerungs-Erkenner (50), der die vom Benutzer eingegebene Äußerung mit den vom Alphabet-Erkenner (30) ausgewählten vorbestimmten Äußerungen vergleicht und
wenigstens eine vorbestimmte Äußerung auf der Grundlage einer Ähnlichkeitsermittlung zur Ausgabe an den Benutzer liefert, und
wenigstens ein Online-fähiges Lexikon (70), das eine Vielzahl von vorbestimmten Äußerungen und die dazugehörenden orthographisch-phonetischen Informationen speichert, auf die der Alphabet-Erkenner (30), der Äußerungs-Erkenner (50) und der Synthetisator (60) in Echtzeit zugreifen können.
7. Sprachdialog-Anlage nach Anspruch 6, gekennzeichnet durch
einen Zwischenspeicher (20), der die vom Benutzer
eingegebene Äußerung vorübergehend speichert und durch
einen Speicher (40), der die vom Alphabet-Erkenner (30)
vorausgewählten vorbestimmten Äußerungen aufnimmt.
8. Sprachdialog-Anlage nach Anspruch 6 oder 7, dadurch
gekennzeichnet, daß der Äußerungs-Erkenner (50) im
Keyword-Spotting-Modus arbeitet.
9. Sprachdialog-Anlage nach einem der Ansprüche 6 bis 8,
dadurch gekennzeichnet, daß die im Lexikon (70)
gespeicherten Daten orthographische, phonetische und
betonungsbezogene Informationen für die vorbestimmten
Äußerungen sind.
10. Sprachdialog-Anlage nach Anspruch 9, dadurch
gekennzeichnet, daß im Lexikon (70) Zusatzinformationen
über Homonyme gespeichert sind.
11. Sprachdialog-Anlage nach einem der Ansprüche 6 bis 10,
dadurch gekennzeichnet, daß die vom Benutzer eingegebene
Äußerung ein Ortsname, ein Familienname oder mehrere
zusammenhängende Wörter sein kann.
12. Sprachdialog-Anlage nach einem der Ansprüche 6 bis 11,
dadurch gekennzeichnet, daß je eine Rubrik des Online-
fähigen Lexikons zum Speichern eines allgemeinen
Vokabulars, der Ortsnamen und der Familiennamen
vorgesehen ist.
13. Sprachdialog-Anlage nach einem der Ansprüche 6 bis 12,
dadurch gekennzeichnet, daß ein programmgesteuerter
Mikrocomputer (120) die Anlagensteuerung übernimmt.
14. Sprachdialog-Anlage nach einem der Ansprüche 6 bis 13,
dadurch gekennzeichnet, daß der Äußerungs-Erkenner (50)
und der Alphabet-Erkenner (30) derart ausgebildet sind,
daß sie eine vom Benutzer eingegebene Äußerung
zurückweisen und/oder nach Ablauf einer vorgegebenen
Zeitspanne den Benutzer auffordern können, seine Äußerung
erneut einzugeben.
15. Vorrichtung zur sprecherunabhängigen Spracherkennung,
insbesondere zum Einsatz in einer Sprachdialog-Anlage
nach einem der Ansprüche 6 bis 14 mit
einem Alphabet-Erkenner (30), der eine von einem Benutzer buchstabierte Äußerung erkennen und auf der Grundlage einer Ähnlichkeitsermittlung mehrere vorbestimmte Äußerungen aus einer Vielzahl vorbestimmter Äußerungen auswählen kann und
einem Äußerungs-Erkenner (50), der auf der Grundlage einer Ähnlichkeitsermittlung eine vom Benutzer eingegebene Äußerung mit den vom Alphabet-Erkenner (30) vorausgewählten vorbestimmten Äußerungen vergleicht und als Ergebnis wenigstens eine vorbestimmte Äußerung liefert.
einem Alphabet-Erkenner (30), der eine von einem Benutzer buchstabierte Äußerung erkennen und auf der Grundlage einer Ähnlichkeitsermittlung mehrere vorbestimmte Äußerungen aus einer Vielzahl vorbestimmter Äußerungen auswählen kann und
einem Äußerungs-Erkenner (50), der auf der Grundlage einer Ähnlichkeitsermittlung eine vom Benutzer eingegebene Äußerung mit den vom Alphabet-Erkenner (30) vorausgewählten vorbestimmten Äußerungen vergleicht und als Ergebnis wenigstens eine vorbestimmte Äußerung liefert.
16. Vorrichtung zur Spracherkennung nach Anspruch 15, dadurch
gekennzeichnet, daß der Äußerungs-Erkenner (50) im
Keyword-Spotting-Modus arbeitet.
17. Vorrichtung zur Spracherkennung nach Anspruch 15 oder 16,
gekennzeichnet durch ein Lexikon (70), das
orthographische und phonetische Informationen über die
Vielzahl vorbestimmter Äußerungen speichert, auf die der
Alphabet-Erkenner (30) und der Äußerungs-Erkenner (50) in
Echtzeit zugreifen können, um ähnlich klingende bzw.
orthographisch ähnliche Äußerungen zu ermitteln.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1995132114 DE19532114C2 (de) | 1995-08-31 | 1995-08-31 | Sprachdialog-System zur automatisierten Ausgabe von Informationen |
FR9610517A FR2738382B1 (fr) | 1995-08-31 | 1996-08-28 | Systeme de dialogue vocal destine a la fourniture automatisee d'informations |
GB9618308A GB2304957B (en) | 1995-08-31 | 1996-09-02 | Voice-dialog system for automated output of information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1995132114 DE19532114C2 (de) | 1995-08-31 | 1995-08-31 | Sprachdialog-System zur automatisierten Ausgabe von Informationen |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19532114A1 DE19532114A1 (de) | 1997-03-06 |
DE19532114C2 true DE19532114C2 (de) | 2001-07-26 |
Family
ID=7770897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1995132114 Expired - Fee Related DE19532114C2 (de) | 1995-08-31 | 1995-08-31 | Sprachdialog-System zur automatisierten Ausgabe von Informationen |
Country Status (3)
Country | Link |
---|---|
DE (1) | DE19532114C2 (de) |
FR (1) | FR2738382B1 (de) |
GB (1) | GB2304957B (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102006016298A1 (de) * | 2005-11-18 | 2007-05-24 | Primax Electronics Ltd., Neihu | Hilfsbetriebssystem für tragbare Elektrogeräte |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19907341A1 (de) * | 1999-02-20 | 2000-08-31 | Lutz H Karolus | Verfahren zur Bearbeitung von Daten als Abfrageinformationen |
DE19907759C2 (de) * | 1999-02-23 | 2002-05-23 | Infineon Technologies Ag | Verfahren und Einrichtung zur Buchstabiererkennung |
JP2003509705A (ja) | 1999-06-10 | 2003-03-11 | インフィネオン テクノロジーズ アクチエンゲゼルシャフト | 音声認識方法および音声認識装置 |
GB2353887B (en) | 1999-09-04 | 2003-09-24 | Ibm | Speech recognition system |
JP2001117828A (ja) * | 1999-10-14 | 2001-04-27 | Fujitsu Ltd | 電子装置及び記憶媒体 |
EP1226576A2 (de) * | 1999-11-04 | 2002-07-31 | Telefonaktiebolaget Lm Ericsson | System und verfahren zur steigerung der erkennungsrate von sprachbefehlen in übertragungsendgeräten eines fernwirksystems |
EP1158491A3 (de) * | 2000-05-23 | 2002-01-30 | Vocalis Limited | Spracheingabe und Wiederauffiden von Personendaten |
DE10060654C1 (de) * | 2000-12-06 | 2002-06-20 | Varetis Ag | Verfahren und Vorrichtung zur automatischen Auskunfterteilung mittels einer Suchmaschine |
DE10207895B4 (de) * | 2002-02-23 | 2005-11-03 | Harman Becker Automotive Systems Gmbh | Verfahren zur Spracherkennung und Spracherkennungssystem |
AT5730U3 (de) * | 2002-05-24 | 2003-08-25 | Roland Moesl | Verfahren zum beschlagworten von webseiten |
EP1693829B1 (de) | 2005-02-21 | 2018-12-05 | Harman Becker Automotive Systems GmbH | Sprachgesteuertes Datensystem |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3732849A1 (de) * | 1987-09-29 | 1989-04-20 | Siemens Ag | System-architektur fuer ein akustisches mensch/maschine-dialogsystem |
FR2690777A1 (fr) * | 1992-04-30 | 1993-11-05 | Lorraine Laminage | Procédé de commande d'un automate par reconnaissance vocale. |
US5357596A (en) * | 1991-11-18 | 1994-10-18 | Kabushiki Kaisha Toshiba | Speech dialogue system for facilitating improved human-computer interaction |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3851113T3 (de) * | 1987-10-08 | 1997-09-25 | Nippon Electric Co | Sprachgesteuerte Wählvorrichtung mit Speichern für vollständige Wahl für alle Benutzer und Kurzwahl für befugte Benutzer. |
US5131045A (en) * | 1990-05-10 | 1992-07-14 | Roth Richard G | Audio-augmented data keying |
US5293451A (en) * | 1990-10-23 | 1994-03-08 | International Business Machines Corporation | Method and apparatus for generating models of spoken words based on a small number of utterances |
AU5803394A (en) * | 1992-12-17 | 1994-07-04 | Bell Atlantic Network Services, Inc. | Mechanized directory assistance |
-
1995
- 1995-08-31 DE DE1995132114 patent/DE19532114C2/de not_active Expired - Fee Related
-
1996
- 1996-08-28 FR FR9610517A patent/FR2738382B1/fr not_active Expired - Fee Related
- 1996-09-02 GB GB9618308A patent/GB2304957B/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3732849A1 (de) * | 1987-09-29 | 1989-04-20 | Siemens Ag | System-architektur fuer ein akustisches mensch/maschine-dialogsystem |
US5357596A (en) * | 1991-11-18 | 1994-10-18 | Kabushiki Kaisha Toshiba | Speech dialogue system for facilitating improved human-computer interaction |
FR2690777A1 (fr) * | 1992-04-30 | 1993-11-05 | Lorraine Laminage | Procédé de commande d'un automate par reconnaissance vocale. |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102006016298A1 (de) * | 2005-11-18 | 2007-05-24 | Primax Electronics Ltd., Neihu | Hilfsbetriebssystem für tragbare Elektrogeräte |
Also Published As
Publication number | Publication date |
---|---|
GB2304957A (en) | 1997-03-26 |
FR2738382A1 (fr) | 1997-03-07 |
FR2738382B1 (fr) | 1999-01-29 |
GB2304957B (en) | 1999-09-29 |
DE19532114A1 (de) | 1997-03-06 |
GB9618308D0 (en) | 1996-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69914131T2 (de) | Positionshandhabung bei der Spracherkennung | |
DE60318544T2 (de) | Sprachmodell für die Spracherkennung | |
DE60215272T2 (de) | Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen | |
DE69327188T2 (de) | Einrichtung für automatische Spracherkennung | |
DE60207742T2 (de) | Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes | |
EP1927980B1 (de) | Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen | |
EP0802522B1 (de) | Anordnung und Verfahren zur Aktionsermittlung, sowie Verwendung der Anordnung und des Verfahrens | |
EP0925578B1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
EP1264302B1 (de) | Verfahren zur spracheingabe eines zielortes mit hilfe eines definierten eingabedialogs in ein zielführungssystem | |
EP0994461A2 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung | |
WO2003060877A1 (de) | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner | |
DE376501T1 (de) | Spracherkennungssystem. | |
EP1184839A2 (de) | Graphem-Phonem-Konvertierung | |
DE19532114C2 (de) | Sprachdialog-System zur automatisierten Ausgabe von Informationen | |
DE102005018174A1 (de) | Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11 | |
DE102006036338A1 (de) | Verfahren zum Erzeugen einer kontextbasierten Sprachdialogausgabe in einem Sprachdialogsystem | |
EP1739655A2 (de) | Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems | |
EP0981129A2 (de) | Verfahren und Anordnung zum Durchführen einer Datenbankabfrage | |
DE10040063A1 (de) | Verfahren zur Zuordnung von Phonemen | |
DE60029456T2 (de) | Verfahren zur Online-Anpassung von Aussprachewörterbüchern | |
EP2006835B1 (de) | Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems | |
DE10129005B4 (de) | Verfahren zur Spracherkennung und Spracherkennungssystem | |
EP0414238B1 (de) | Sprachgesteuertes Archivsystem | |
DE10229207B3 (de) | Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik | |
EP1457966A1 (de) | Verfahren zum Ermitteln der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
8110 | Request for examination paragraph 44 | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |
Effective date: 20110301 |