-
Technisches
Gebiet
-
Die
vorliegende Erfindung betrifft die automatische Spracherkennung
und insbesondere ein Verfahren zur Verwendung von Ergänzungsinformationen,
die aus einer Datenbank abgerufen werden, in Verbindung mit einem
Fernsprechnetzwerk zur Unterstützung
eines Systems zur automatischen Spracherkennung (ASR) bei der Erkennung
eines von dem Benutzer gesprochenen Worts.
-
Allgemeiner
Stand der Technik
-
Für viele
Anwendungen ist es vorteilhaft, sich wiederholende Aufgaben mit
Computern zu automatisieren, so daß die Aufgaben schneller und
effizienter durchgeführt
werden können.
Die Spracherkennung, die eine Art von Sprachtechnologie ist, ermöglicht es
Personen, durch Verwendung gesprochener Wörter mit Computern in Wechselwirkung
zu treten. Die Spracherkennung ist jedoch schwierig aufgrund der
naturgemäßen Schwankungen
der Sprache bei verschiedenen Personen.
-
Eine
Anwendung für
die Spracherkennung besteht in einem Fernsprechnetzwerk. Durch Verwendung
von Systemen für
automatische Spracherkennung (ASR) können Personen über Telefon
kommunizieren, so daß einfache
Aufgaben ohne Eingreifen des Bedieners durchgeführt werden können. Zum Beispiel
kann Spracherkennung zum Wählen
verwendet werden, so daß sich
der Benutzer eine Rufnummer nicht merken muß, sie nachschlagen muß oder nach
ihr fragen muß.
Die Möglichkeit,
anstelle einer physischen Manipulation einer Benutzerschnittstelle
Sprache zu benutzen, hat die Nachfrage nach ASR-Technologie groß gehalten,
während
es zu weiteren Fortschritten in der Telekommunikation kam. Im allgemeinen
gibt es zwei Arten von in der Telekommunikation verwendeten ASR-Systemen:
sprecherabhängige
und sprecherunabhängige
Systeme.
-
Eine
häufige
Implementierung eines sprecherabhängigen automatischen Spracherkennungssystems
verwendet einen Computer, der durch einen bestimmten Sprecher dazu „trainiert" wird, auf die Sprachmuster
des Sprechers zu reagieren. Der Trainingsprozeß umfaßt das Vokalisieren eines Klangs (d.
h. eines Worts), um eine analoge Spracheingabe zu erzeugen, die
Umsetzung der Spracheingabe in Signaldaten, die Erzeugung einer
den Klang repräsentierenden
Vorlage und die Speicherung der indizierten Vorlage auf entsprechende
spezifische Reaktionsdaten, wie z. B. eine Computeranweisung, eine Aktion
zu initiieren.
-
Während Echtzeitoperationen
werden die vom Trainingssprecher gesprochenen Wörter digitalisiert und mit
der Menge sprecherabhängiger
Vorlagen in dem ASR-System verglichen, so daß eine Übereinstimmung zwischen den
gesprochenen Wörtern
und einer Vorlage eine bestimmte Reaktion durch den Computer auslösen kann.
Sprecherabhängige
ASR-Systeme werden hauptsächlich
dann verwendet, wenn der Trainingsprozeß gerechtfertigt werden kann,
z. B. wenn dieselben Einzelpersonen oft auf das System zugreifen.
-
Für Anwendungen,
bei denen kein individuelles Training gerechtfertigt werden kann,
muß ein sprecherunabhängiges ASR
verwendet werden. Eine häufige
Implementierung eines sprecherunabhängigen ASR-Systems verwendet
einen Computer zum Speichern einer zusammengesetzten Vorlage oder eines
Klusters von Vorlagen, die ein von einer Anzahl verschiedener Personen
gesprochenes Wort repräsentieren.
Die Vorlagen werden von zahlreichen Datenproben (d. h. von mehreren
Sprechern gesprochenen Wörtern)
abgeleitet, die vielfältige
Aussprachen und Variationen von Spracheigenschaften repräsentieren.
Sprecherunabhängige
Spracherkennungssysteme können
mit vielfältigen Personen ohne
sprecherspezifisches Training in Wechselwirkung treten.
-
Fernsprechanwendungen,
die sprecherunabhängige
ASR zur Erkennung gesprochener Nummern verwenden, sind in der Technik
bekannt. Diese Anwendungen sind besonders dann nützlich, wenn das Vokabular
des Sprechers auf einige wenige Menübefehle und/oder Zahlen (z.
B. 0–9)
beschränkt
ist. Es ist jedoch sehr schwierig, über das Fernsprechnetzwerk
gesprochene Buchstaben (A–Z)
zu erkennen. Tatsächlich
werden aufgrund verschiedener Arten von Rauschen und Bandbreitenbegrenzungen
in Verbindung mit vielfältigen
Sprachmustern unter einzelnen Sprechern durch die Fernsprechumgebung
alle ASR-Anwendungen (sprecherabhängig und sprecherunabhängig) fehleranfällig.
-
Dennoch
ist eine sehr gewünschte
kommerzielle Anwendung von ASR das Automatisieren von Aufgaben,
die kommerziellen Transaktionen zugeordnet sind, z. B. Kreditkartentransaktionen,
die über das
Fernsprechnetzwerk durchgeführt
werden. Wenn ein Kunde z. B. Waren oder Dienste über das Telefon erwerben möchte, könnte ASR
verwendet werden, um betreffende Informationen zu sammeln und die
Transaktion schnell und effizient mit minimalem Bedienereingriff
zu autorisieren.
-
Über Fernsprecher
durchgeführte
Käufe von Waren
oder Diensten, die mit einer Kredit-/Guthabenkarten durchgeführt werden,
können
erfordern, daß der
Kunde seinen Namen (oder andere vorbestimmte Informationen) als
Schritt bei der Transaktion angibt. Leider ist es die Erkennung
beliebiger gesprochener Wortinformationen (wie z. B. des Namens
des Kunden), wodurch die Verwendung von ASR-Technologie durch die
Einrichtungen, die sie am meisten benötigen, wie z. B. Unternehmen
mit hohem Umsatz, verhindert wurde.
-
Der
Grund dafür
besteht darin, daß Unternehmen
mit hohem Umsatz nicht nur ein ASR-System erfordern, um beliebige
gesprochene Wörter
(z. B. Eigennamen) zu erkennen, sondern auch einen allgegenwärtigen Zugriff
auf das ASR-System erfordern. Um z. B. den Bedürfnissen eines Unternehmens
mit hohem Umsatz mit potentiellen Kunden über ein gesamtes Land hinweg
unter Verwendung herkömmlicher
ASR-Systeme zu genügen,
müßten sprecherunabhängige Vorlagen,
die dem Namen jeder Person in dem gesamten Land entsprechen, durch
Verwendung der oben beschriebenen Techniken erzeugt und gespeichert
werden. Der gegenwärtige
Stand der Technik von ASR-Systemen ermöglicht jedoch keinen Vergleich
eines gesprochenen Namens mit einem der Millionen möglicher
Namen, die den gespeicherten Vorlagen entsprechen.
-
Deshalb
werden in der Technik Verbesserungen an ASR-Systemen benötigt, durch die solche Systeme
gesprochene Wörter
mit erhöhter
Fähigkeit automatisch
erkennen können.
-
WO-A-91
18386 betrifft die gleichzeitige sprecherunabhängige Spracherkennung und -verifikation über ein
Fernsprechnetzwerk, wobei über
das Fernsprechnetzwerk gesprochene alphanumerische Ketten erkannt
werden. Der Anrufer wird aufgefordert, jedes Zeichen einer Kette
zu sprechen, wobei ein sprecherunabhängiger Spracherkennungsalgorithmus
zur Erkennung jedes gesprochenen Zeichens verwendet wird. Kumulative
Erkennungsdifferenzen werden gespeichert, während jedes Zeichen gesprochen
und mit einer möglichen
Menge alphanumerischer Zeichen verglichen wird. Nachdem alle Zeichen
gesprochen wurden, wird die Referenzkette mit der niedrigsten kumulativen
Differenz als die erkannte Kette deklariert.
-
Kurze Darstellung
der Erfindung
-
Ein
Verfahren und System gemäß der Erfindung
werden in den unabhängigen
Ansprüchen
definiert. Bevorzugte Formen werden in den abhängigen Ansprüchen definiert.
-
Diese
Bedürfnisse
werden durch ein Verfahren und ein System zum Verwenden von Ergänzungsdaten
zur Verbesserung der Fähigkeit
eines ASR-Systems, so daß das
System beliebige gesprochene Wörter,
wie z. B. Eigennamen, schnell und genau erkennen kann, behandelt,
und es wird ein technischer Fortschritt erzielt.
-
In
Fernsprechanwendungen eines ASR-Systems ist es übliche Praxis, eine Rufnummer
von einem Anrufer zu erbitten. Die Rufnummer des Anrufers kann durch
Sprach- oder andere
bekannte Verfahren, wie z. B. Anrufer-ID oder Tonwahleingabe erhalten
werden. Gemäß einem
Ausführungsbeispiel des
Verfahrens und Systems der vorliegenden Erfindung dient deshalb
die Rufnummer des Anrufers als Index zum Abrufen von Text (d. h.
des Namens des Anrufers) aus einer Datenbank. Mit diesem Text werden
dann die einem ASR-System verfügbaren
Auswahlmöglichkeiten
begrenzt oder spezifiziert.
-
Genauer
gesagt wird mit der Rufnummer des Anrufers auf eine Ergänzungsdatenbank
zugegriffen, um der Rufnummer zugeordneten Text abzurufen. Bei dem
obenerwähnten
Ausführungsbeispiel
wird den Namen des Anrufers enthaltender Text aus der Ergänzungsdatenbank
abgerufen. Der Text des Namens des Anrufers umfaßt eine digitalisierte alphanumerische
Darstellung des Eigennamens des Anrufers. Mit einem Text-zu-Sprache-System
wird der Text des Namens des Anrufers wie in der Technik bekannt
in eine Phonemtranskription transkribiert. Die Phonemtranskription
des Namens wird in dem ASR-System als sprecherunabhängige Vorlage
gespeichert, so daß Sprache,
die der Transkription entspricht, durch das ASR-System erkannt werden kann.
-
Das
Abrufen und Konvertieren von Ergänzungstextdaten
in eine Phonemtranskription ermöglicht
es dem ASR-System, sofort auf gesprochene Wörter zu reagieren, die der
Transkription der Daten entsprechen, die in Abwesenheit eines sprecherspezifischen
Trainings abgerufen werden.
-
Während Echtzeitanwendungen
des obigen Ausführungsbeispiels
wird ein Telefonanruf von einem Dienstanbieter empfangen, der ein
ASR-System gemäß der vorliegenden
Erfindung betreibt. Der Anrufer, der mit Kreditkarte eine Ware oder
einen Dienst erwerben möchte,
wird zur Angabe einer Rufnummer und eines Namens aufgefordert. Auf
der Basis der vom Anrufer angegebenen Rufnummer wird auf eine Ergänzungsdatenbank
(z. B. ein elektronisches Rufnummerverzeichnis) zugegriffen, um
den Text eines der Rufnummer zugeordneten Namens abzurufen. Ein
Text-zu-Sprache-System
erzeugt eine Phonemtranskription des Texts des aus der Datenbank
abgerufenen Namens. Die Phonemtranskription wird dann als sprecherunabhängige Vorlage
zur Verwendung durch das ASR-System zum Erkennen des Namens, so
wie er vom Anrufer gesprochen wird, verwendet.
-
Wenn
der vom Anrufer gesprochene Name aufgrund einer ungewöhnlichen
Aussprache von Namen, einer schlechten Fernsprechübertragungsqualität, aufgrund
von Anrufern, deren Stimmen schwierig zu erkennen sind, usw. nicht
durch das ASR-System erkannt wird, wird der Anrufer aufgefordert,
eine Buchstabierung seines Namens buchstabenweise anzugeben. Das
Text-zu-Sprache-System kann verwendet werden, um eine Phonemtranskription
der Buchstabierung des geschriebenen Namens, so wie er aus der Datenbank
abgerufen wird, zu erzeugen. Die Buchstabierung des aus der Datenbank
abgerufenen Namens wird ebenfalls als sprecherunabhängige Vorlage
in dem ASR-System gespeichert, so daß das System versuchen kann,
die Buchstabierung des Namens des Anrufers (so wie sie durch den Anrufer
gesprochen wird) zu erkennen.
-
Wenn
keine Übereinstimmung
der gesprochenen Äußerung des
Namens des Anrufers und der Phonemtranskription (auf der Basis etablierter
Spracherkennungsalgorithmen) hergestellt werden kann, wird die Verbindung
zu einer Person geroutet.
-
Kurze Beschreibung
der Zeichnungen
-
1 ist
ein vereinfachtes Blockschaltbild von telefon- und benutzerinteraktiven
Systemen, die einem ASR-System gemäß einem Ausführungsbeispiel
der vorliegenden Erfindung zugeordnet sind;
-
2 ist
ein vereinfachtes Blockschaltbild des ASR-Systems von 1, das zur
Bereitstellung von Spracherkennung und -verifikation gemäß einem Ausführungsbeispiel
der vorliegenden Erfindung verwendet wird.
-
3 ist
ein Flußdiagramm
eines beispielhaften Verfahrens gemäß der vorliegenden Erfindung.
-
Ausführliche
Beschreibung
-
1 zeigt
zwei Systeme 100A und 100B gemäß einem Ausführungsbeispiel
der vorliegenden Erfindung. Das Sprachfernsprechsystem 100A enthält eine
anrufende Station 102, Telekommunikationsleitungen 103A und 103B und
einen Vermittlungsdienstpunkt (SSP) 105, der sich in einem öffentlichen
Fernsprechwählnetz 107 befindet.
Der Klarheit halber ist ein einziger Vermittlungsdienstpunkt gezeigt,
obwohl ein funktionsfähiges öffentliches
Fernsprechwählnetz
ein verbundenes Netzwerk von SSPs umfaßt. Die Telefonleitungsschnittstelleneinheit 108 schützt Geräte des ASR-Systems 110 vor Netzwerkfehlfunktionen,
wie z. B. Stromspitzen, und digitalisiert ankommende Sprache von
der anrufenden Station 102, wenn die Ursprungssprache nicht bereits digitalisiert
ist, bevor sie an das System abgeliefert wird.
-
Der
SSP 105 ist eine lokale digitale Vermittlung mit verteilter
Steuerung, wie z. B. eine Vermittlung des Typs 5ESS®, so
wie sie in AT & T
Technical Journal, Band 64, Nr. 6, Juli-August 1985, Seiten 1303–1564, dem
Bell Laboratories Record vom November 1981, Seite 258, und in dem
Bell Laboratories Record vom Dezember 1981, Seite 290 (hergestellt
von AT & T) beschrieben
wird. Als Alternative kann der SSP 105 eine analoge oder
digitale Vermittlung mit verteilter Steuerung sein, wie z. B. ein ISDN-Vermittlungssystem,
so wie es aus dem US Patent Nr. 4,592,048, ausgegeben an M. W. Beckner
et al., am 27. 5. 1986, bekannt ist. In 1 ist der
SSP 105 über
kundenidentifizierte Leitungen 103 mit der anrufenden Station 102 verbunden
und kommuniziert außerdem über die
Leitung 121B wie nachstehend beschrieben mit dem Host-Computer 124.
-
Außerdem zeigt 1 ein
benutzerinteraktives System 100B mit einem Mikrophon 104 und
einer Mikrophonschnittstelleneinheit 109. Das Mikrophon 104 kann
sich in einem Kiosk oder in einem Geldautomaten (nicht gezeigt)
befinden, das bzw. der von einem Dienstanbieter als Verbindung zwischen
dem ASR-System und dem Verbraucher betrieben wird, wie in der Technik
bekannt ist.
-
Ankommende
Sprache wird durch das Mikrophon 104 in elektrische Signale
transformiert und über
die Kommunikationsstrecke 106A zu der Mikrophonschnittstelleneinheit 109 geleitet.
Die Mikrophonschnittstelleneinheit 109 wandelt ankommende Sprachsignale
vor der Ablieferung an das ASR-System 110 über die
Kommunikationsstrecke 106B in digitale Daten um.
-
Das
(in der nachstehenden 2 ausführlicher beschriebene) ASR-System 110 kommuniziert über einen Datenbus 125 mit
dem Host-Computer 124. Der Host-Computer 124 enthält eine
zentrale Verarbeitungseinheit (CPU) 126 zur Steuerung des Gesamtbetriebs
des Computers, Direktzugriffsspeicher (RAM) 128 zur vorübergehenden
Datenspeicherung, Nur-Lesespeicher (ROM) 130 für permanente Datenspeicherung
und eine nichtflüchtige
Datenbank 134 zum Speichern von dem Host-Computer 124 zugeordneten
Steuerprogrammen. Die CPU 126 kommuniziert über Datenbusse 132 mit
dem RAM 128 und dem ROM 130. Ähnlich kommuniziert die CPU 126 über den
Datenbus 133 mit der nichtflüchtigen Datenbank 134.
Die Eingangs-/Ausgangs-(E/A)Schnittstelle 136 ist über den
Datenbus 135 mit dem Host-Computer 124 verbunden,
um den Datenfluß aus
dem lokalen Netzwerk (LAN) 138, das über die Datenstrecke 139 mit
der E/A-Schnittstelle 136 kommuniziert, der Ergänzungsdatenbank 140, die über die
Datenstrecke 141 mit der E/A-Schnittstelle 136 kommuniziert,
und dem Datendienstnetzwerk 142, das über die Telekommunikationsleitung 121A,
digitale Daten zu dem Host-Computer 124 sendet, dem SSP 105 und
der Datenstrecke 121B zu ermöglichen, wie nachstehend beschrieben
wird.
-
2 zeigt
ein vereinfachtes Blockschaltbild einer beispielhaften Ausführungsform
des ASR-Systems 110 von 1. Das ASR-System 110,
das entweder zu sprecherunabhängiger
oder sprecherabhängiger
Spracherkennung fähig
ist, enthält
eine CPU 202 zur Steuerung des Gesamtbetriebs des Systems.
Die CPU 202 besitzt mehrere Datenbusse, die allgemein durch
die Bezugszahl 203 repräsentiert werden.
Außerdem
ist ein Direktzugriffsspeicher (RAM) 204, ein Nur-Lesespeicher
(ROM) 206, eine Sprachgeneratoreinheit 218 zum
Ausgeben von Grußnachrichten
und Aufforderungen für
einen Anrufer und ein Text-zu-Sprache-(TTS-)System 219 (das mit
der CPU 202 und der RAM 204 kommuniziert) zum
Transkribieren geschriebenen Textes in eine Phonemtranskription,
wie in der Technik bekannt ist, gezeigt.
-
Der
RAM 204 ist durch den Bus 203 mit der CPU 202 verbunden
und liefert eine vorübergehende Speicherung
von Sprachdaten, wie z. B. von durch einen Anrufer an einer anrufenden
Station 102 oder einer Mikrophonstation 104 gesprochenen
Wörtern, von
sprecherabhängigen
Vorlagen 214 und sprecherunabhängigen Vorlagen 216.
Der ROM 206, der ebenfalls durch den Datenbus 203 mit
der CPU 202 verbunden ist, liefert eine permanente Speicherung von
Spracherkennungs- und -verifikationsdaten, darunter ein Spracherkennungsalgorithmus 208 und Modelle
von Phonemen 210. Bei diesem Ausführungsbeispiel wird ein auf
Phonemen basierender Spracherkennungsalgorithmus 208 verwendet,
obwohl viele andere nützliche
Ansätze
zur Spracherkennung in der Technik bekannt sind.
-
Ein
Phonem ist ein technischer Begriff, der eine Einheit einer Menge
kleinster Einheiten von Sprache bedeutet, die mit anderen solchen
Einheiten kombiniert werden kann, um größere Sprachsegmente, z. B.
Morpheme, zu bilden. Zum Beispiel können die phonetischen Segmente
des gesprochenen Worts „Operator" durch eine Kombination
von Phonemen repräsentiert
werden, wie z. B. „aa", „p", „axr", „ey", „dx" und „axr". Modelle von Phonemen 210 werden
durch Verwendung von Spracherkennungsklassendaten zusammengestellt,
die aus den Äußerungen
einer Probe von Sprechern in einem vorherigen Offline-Prozeß abgeleitet
werden. Während
des Prozesses werden Wörter,
die gewählt
werden, um so alle Phoneme der Sprache zu repräsentieren, von einer großen Anzahl
von Trainingssprechern (z. B. 1000) gesprochen. Die Äußerungen
werden durch eine trainierte Person verarbeitet, die einen geschriebenen
Text des Inhalts der Äußerungen
erzeugt.
-
Der
geschriebene Text des Worts wird dann durch eine Text-zu-Sprache-Einheit,
wie z. B. das TTS-System 219, empfangen, so daß sie eine
Phonemtranskription des geschriebenen Texts unter Verwendung von
Regeln der Text-zu-Sprache-Umsetzung erzeugen kann, wie in der Technik
bekannt ist. Die Phonemtranskription des geschriebenen Texts wird
dann mit den Phonemen verglichen, die aus dem Betrieb des Spracherkennungsalgorithmus 208 abgeleitet
werden, der die Äußerungen
mit den Modellen von Phonemen 210 vergleicht. Die Modelle
der Phoneme 210 werden während dieses Prozesses des „Modelltrainings" eingestellt, bis
eine angemessene Übereinstimmung
zwischen dem aus der Text-zu-Sprache-Transkription der Äußerung abgeleitetem Phonem
und den durch den Spracherkennungsalgorithmus 208 erkannten
Phonemen erhalten wird, wobei in der Technik bekannte Einstelltechniken
verwendet werden.
-
Während des
Erkennungsprozesses werden Modelle der Phoneme 210 in Verbindung
mit dem Spracherkennungsalgorithmus 208 verwendet. Genauer
gesagt vergleicht der Spracherkennungsalgorithmus 208 ein
gesprochenes Wort mit etablierten Phonemmodellen. Wenn der Spracherkennungsalgorithmus
bestimmt, daß eine Übereinstimmung
besteht (d. h. wenn die gesprochene Äußerung gemäß vordefinierten Parametern
statistisch mit den Phonemmodellen übereinstimmt), wird eine Liste
von Phonemen erzeugt.
-
Da
die Modelle der Phoneme 210 eine Verteilung von charakteristischen
Eigenschaften eines gesprochenen Worts über eine große Sprecherpopulation
hinweg repräsentieren,
können
die Modelle für einen
allgegenwärtigen
Zugriff auf ein ASR-System verwendet werden, das dieselbe durch
die Trainingssprecher repräsentierte
Sprecherpopulation versorgt (d. h. amerikanische Ureinwohner, spanisch
sprechende Populationen usw.).
-
Die
sprecherunabhängige
Vorlage 216 ist eine Liste von Phonemen, die eine erwartete Äußerung oder
Phase repräsentieren.
Eine sprecherunabhängige
Vorlage 216 wird erzeugt, indem geschriebener Text durch
das TTS-System 219 verarbeitet wird, um eine Liste von
Phonemen zu erzeugen, die die erwarteten Aussprachen des geschriebenen Worts
bzw. der geschriebenen Phrase exemplifizieren. Im allgemeinen werden
mehrere Vorlagen in dem RAM 204 gespeichert, damit sie
dem Spracherkennungsalgorithmus 208 verfügbar sind.
Die Aufgabe des Algorithmus 208 besteht darin, auszuwählen, welche
Vorlage am besten mit den Phonemen in einer gesprochenen Äußerung übereinstimmt.
-
Sprecherabhängige Vorlagen 214 werden erzeugt,
indem ein Sprecher eine Äußerung eines Worts
oder einer Phrase gibt und indem die Äußerung durch Verwendung des
Spracherkennungsalgorithmus 208 und der Modelle von Phonemen 210 verarbeitet
wird, um eine Liste von Phonemen zu erzeugen, die die durch den
Algorithmus erkannten Phoneme umfassen. Diese Liste von Phonemen
ist die sprecherabhängige
Vorlage 214 für
diese bestimmte Äußerung.
-
Während Echtzeitspracherkennungsoperationen
wird eine Äußerung durch
den Spracherkennungsalgorithmus 208 unter Verwendung von
Modellen der Phoneme 210 dergestalt verarbeitet, daß eine Liste
von Phonemen erzeugt wird. Diese Liste von Phonemen wird mit der
durch die sprecherunabhängigen
Vorlagen 216 und die sprecherabhängigen Vorlagen 214 bereitgestellten
Liste verglichen, wobei in der Technik bekannte Techniken verwendet
werden. Der Spracherkennungsalgorithmus 208 meldet Ergebnisse
des Vergleichs.
-
3 ist
ein Flußdiagramm
der Aktionen, die in dem ASR-System 110 unternommen werden, wenn
das System in einem sprecherunabhängigen Modus betrieben wird
(ein Ausführungsbeispiel
des Verfahrens der vorliegenden Erfindung).
-
Als
ein Beispiel für
eine kommerzielle Anwendung der vorliegenden Erfindung nehme man
an, daß ein
Kunde von einem privaten Fernsprecher (anrufende Station 102)
aus anruft und per Kreditkarte einen Dienst kaufen will, der von
einem Dienstanbieter angeboten wird, der das ASR-System 110 und den
Host-Computer 124 verwendet. In diesem Beispiel hat der
Kunde den Dienst noch nie gekauft, so daß das ASR-System 110 nicht
darauf trainiert ist, die bestimmten Sprachmuster des Kunden zu
erkennen (d. h. es sind keine sprecherabhängigen Vorlagen 214 für diesen
Kunden eingerichtet). Damit die Kreditkartentransaktion authorisiert
werden kann, muß das
ASR-System 110 jedoch den Namen des Kunden empfangen und
erkennen.
-
Das
Beispiel beginnt, wenn das ASR-System 110 im Schritt 300 eine
vom Kunden eingeleitete ankommende Verbindung empfängt, die über die
Telekommunikationsleitung 103A, 103B und den SSP 105 des öffentlichen
Fernsprechwählnetzes 107 geroutet
wird.
-
Alternativ
dazu könnte
der Kunde eine Dienstbestellung von einem Kiosk aus tätigen, in
dem ein benutzerinteraktives System mit einer Mikrophonstation 104 untergebracht
ist. Wenn dies der Fall ist, wird eine ankommende „Verbindung" von dem ASR-System 110 empfangen,
wenn eine Kundeneingabe (z. B. Sprache) an der Mikrophonstation 104 erkannt
und über
die Kommunikationsstrecke 106B an das System abgeliefert
wird.
-
Sowohl
in dem Telefonsystem als auch in dem benutzerinteraktiven System
wird die ankommende Verbindung durch eine Schnittstelleneinheit verarbeitet
(d. h. eine Fernsprechanschlußschnittstelleneinheit 108 bzw.
eine Mikrophonschnittstelleneinheit 109), um sicherzu stellen,
daß alle
in dem ASR-System 110 empfangene Eingaben in einem gemeinsamen
digitalen Format vorliegen.
-
Wie
in Schritt 302 gezeigt, gibt die Sprachgeneratoreinheit 218 des
ASR-Systems 110 eine Begrüßung aus und fordert den Kunden
zur Eingabe zum Beispiel eines vorbestimmten Index (d. h. einer privaten
Rufnummer), eines dem Index zugeordneten Namens und möglicherweise
einer Buchstabierung des Namens auf. Als Alternative könnte das System
das Auffordern des Anrufers zur Eingabe einer Buchstabierung des
Namens zurückstellen,
bis dies in dem Prozeß benötigt wird,
wie nachstehend beschrieben wird.
-
Der
Prozeß wird
mit dem Bestimmungsschritt 304 fortgesetzt, in dem bestimmt
wird, ob die angeforderte Eingabe empfangen wurde. Wenn das Ergebnis
von Schritt 304 eine „NEIN"-Entscheidung ist,
wird der Prozeß mit
dem Schritt 306 fortgesetzt, in dem die Verbindung zu einer
Vermittlungsperson geroutet wird, und der Prozeß endet in dem Endeschritt 308.
-
Wenn
das Ergebnis im Schritt 304 eine „JA"-Entscheidung ist, wird der Prozeß im Schritt 318 fortgesetzt,
in dem die Äußerung des
Index, Namens und der Buchstabierung des Namens durch den Kunden
in dem RAM 204 des ASR-Systems 110 gespeichert
wird. In dem obigen Beispiel hat der Kunde den Index durch Sprechen
angegeben. Wenn der Index die private Rufnummer des Kunden ist,
kann er durch andere bekannte Techniken, wie z. B. Anrufer-ID oder
Tonwahleingabe abgerufen werden.
-
Der
Prozeß wird
im Schritt 310 fortgesetzt, in dem versucht wird, den Index
des Anrufers durch Verwendung des Spracherkennungsalgorithmus 208 und
der Modellphoneme (für
Ziffern) 210 zu erkennen. Mit dem Index werden wie nachstehend
beschrieben Informationen aus einer Ergänzungsdatenbank abgerufen.
Wenn Unbestimmtheit über
bestimmte Ziffern des Index besteht, kann das System so programmiert
sein, daß es
mehrere Möglichkeiten erkennt.
Im Bestimmungsschritt 314 wird bestimmt, ob der Index des
Kunden in dem vorherigen Schritt erkannt wurde. Wenn das Ergebnis
des Bestimmungsschritts eine „NEIN"-Entscheidung ist,
wird der Prozeß im
Schritt 306 fortgesetzt, in dem die Verbindung zu einer
Vermittlungsperson geroutet wird, und der Prozeß endet in dem Endeschritt 308.
-
Wenn
das Ergebnis in dem Bestimmungsschritt 314 eine „JA"-Entscheidung ist,
wird der Prozeß in
Schritt 316 fortgesetzt, in dem die CPU 202 des
ASR-Systems 110 ergänzende
Daten von dem Host-Computer 124 anfordert. In dem obigen
Beispiel sind die gewünschten
ergänzenden
Daten eine digital gespeicherte Darstellung des Namens des Kunden
(z. B. der Name, der der von dem Kunden empfangenen privaten Rufnummer
zugeordnet ist), wie z. B. im ASCII-Textformat.
-
Wenn
die Anforderung von ergänzenden
Daten in der CPU 126 des Host-Computers 124 empfangen
wird, bestimmt die CPU 126, auf welche Ergänzungsdatenbank
zugegriffen werden muß,
indem sie den Index (z. B. die vom Kunden angegebene Rufnummer)
zum Abrufen einer digitalen Repräsentation
(z. B. ASCII-Textformat) des Namens des Kunden verwendet. Die CPU 126 führt die
Bestimmung auf der Basis von aus der nichtflüchtigen Datenbank 134 empfangenen
Anweisungen durch.
-
Wenn
der Dienstanbieter z. B. eine große Einrichtung ist, kann er
eine Hilfsdatenbank 140, wie z. B. eine CD-ROM-Datenbank,
führen,
die über
die Datenstrecke 141 und die E/A-Schnittstelle 136 mit dem
Host-Computer 124 kommuniziert. Die Datenbank 140 könnte umfassende
Kundeninformationen enthalten, wie z. B. Adressen und Namen, Kreditkarten-Kontennummern
und nach Rufnummer indizierte bisherige Käufe, enthalten. Wenn der Dienstanbieter eine
kleine Einrichtung mit einer sich schnell ändernden Kundenbasis ist, kann
jedoch auch eine begrenzte Ergänzungsdatenbank
in dem Host-Computer 124 (z. B. in dem RAM 128)
gespeichert werden.
-
Als
Alternative können
bestimmte Dienstanbieter ein Computernetzwerk (z. B. ein LAN 138)
führen,
aus dem über
die Datenstrecke 139 und die E/A-Schnittstelle 136 ergänzende Daten
zu dem Host-Computer 124 heruntergeladen werden können.
-
In
dem obigen Beispiel nehme man an, daß der Dienstanbieter einen
von dem Telekommunikationsnetz, das das öffentliche Fernsprechwesennetz 107 betreibt,
angebotenen Datendienst bestellt hat. Der Datendienst 142 enthält eine
Datenbank, in der er ein elektronisches Telefonbuch speichert, das
die Rufnummer und die entsprechenden Kundennamen aller häuslichen
Fernsprecher in den Vereinigten Staaten enthält. In dem obigen Beispiel
sendet der Datendienst 142 digitale Informationsdatenpakete
(z. B. einen Text des Namens eines Kunden) über die Telekommunikationsleitung 121A zu
dem SSP 105. Der SSP 105 liefert die digitalen
Informationen über die
Telekommunikationsleitung 121B zu der E/A-Schnittstelle 136 an
den Host-Computer 124 ab, so daß ein Text des Kundennamens
von dem Host-Computer 124 abgerufen
und in dem RAM 128 gespeichert werden kann. Wenn mehrere
Name abgerufen werden (aufgrund mehrerer Möglichkeiten von privaten Rufnummern
oder wenn der Rufnummer mehrere Namen zugeordnet sind), werden dem Host-Computer
alle möglichen
Namen angegeben.
-
Der
Prozeß wird
im Schritt 318 fortgesetzt, in dem als Reaktion auf eine
aus der CPU 202 empfangenen Anforderung der Text bzw. die
Texte des aus der Ergänzungsdatenbank
abgerufenen Namens aus dem RAM 128 abgerufen und durch
das TTS-System 219 verarbeitet werden, so daß eine Phonemtranskription
eines Texts erzeugt und als sprecherunabhängige Vorlage in dem RAM 204 gespeichert
wird. Wie im Schritt 320 gezeigt, wird die Erkennung des Namens
des Anrufers, so wie er vom Anrufer gesprochen (und im RAM 204 gespeichert)
wird, unter Verwendung des Sprachalgorithmus 208, der Modelle von
Phonemen 210 und der sprecherunabhängigen Vorlage bzw. der sprecherunabhängigen Vorlagen, die
im Schritt 318 erzeugt wurden, versucht.
-
In
dem Bestimmungsschritt 322 wird bestimmt, ob im Schritt 320 eine
Erkennung stattgefunden hat. Wenn das Ergebnis von 322 eine „JA"-Entscheidung ist,
wird der Prozeß im
Schritt 324 fortgesetzt, in dem die Transaktion authorisiert
wird, und der Prozeß endet
im Schritt 326. Wenn das Ergebnis von 322 eine „NEIN"-Entscheidung ist, wird der Prozeß im Schritt 328 fortgesetzt,
in dem eine Phonemtranskription der Buchstabierung des abgerufenen Namens
des Kundens (so wie er von der Datenbank abgerufen wird) durch das
TTS-System erzeugt und als zweite sprecherunabhängige Vorlage gespeichert wird.
Im Schritt 330 wird eine Erkennung der Buchstabierung des
Namens des Kunden, so wie er von dem Kunden gesprochen wird, unter
Verwendung des Spracherkennungsalgorithmus 208, der Modelle von
Phonemen 210 und der im Schritt 328 erzeugten zweiten
sprecherunabhängigen
Vorlage versucht. Der Prozeß wird
mit dem Bestimmungsschritt 332 fortgesetzt, in dem bestimmt
wird, ob die Buchstabierung des Namens des Anrufers erkannt wurde.
Wenn im Schritt 332 eine „NEIN"-Entscheidung getroffen wurde, geht
der Prozeß zum
Schritt 306, in dem die Verbindung zu einer Vermittlungsperson
geroutet wird, und der Prozeß endet
im Schritt 308. Wenn im Schritt 332 eine „JA"-Entscheidung getroffen
wird, wird der Prozeß mit
Schritt 324 fortgesetzt, in dem die Transaktion authorisiert
wird, und der Prozeß endet im
Schritt 326.
-
Das
obige Beispiel zeigt Echtzeitinteraktionen zwischen einem Kunden,
der ein Telefon oder ein benutzer interaktives System verwendet,
einem ASR-System 110, einem Host-Computer 124 und
einer Ergänzungsdatenbank.
Es kann jedoch andere Ausführungsformen
geben, in denen das LAN 138 auf das ASR-System 110 zugreift,
oder Ausführungsformen,
bei denen Kundennamen über
einen Zeitraum hinweg aufgezeichnet und in einer Datenbank gespeichert
werden und das ASR-System 110 und der Host-Computer 124 periodisch
auf den durch die Datenbank 142 bereitgestellten Datendienst
zugreifen.
-
Das
Verfahren und System der vorliegenden Erfindung erzielen insofern
Vorteile gegenüber
dem Stand der Technik als ein ASR-System beliebige gesprochene Wörter ohne
sprecherspezifisches Training erkennen kann. Es versteht sich, daß die oben beschriebenen
Ausführungsformen
lediglich zur Veranschaulichung dienen und daß zahlreiche andere Anordnungen
von Fachleuten konzipiert werden können, ohne vom Schutzumfang
der Erfindung abzuweichen, der durch die folgenden Ansprüche definiert wird.