DE69633883T2

DE69633883T2 - Verfahren zur automatischen Spracherkennung von willkürlichen gesprochenen Worten

Info

Publication number: DE69633883T2
Application number: DE69633883T
Authority: DE
Inventors: Roger Borgan Naperville Garberg; Michael Allen Chicago Yudkowsky
Original assignee: AT&T Corp; AT&T IPM Corp
Current assignee: AT&T Corp
Priority date: 1995-03-30
Filing date: 1996-03-20
Publication date: 2005-11-17
Anticipated expiration: 2016-03-21
Also published as: JP3561076B2; EP0735736A3; EP0735736A2; ES2233954T3; EP0735736B1; JPH08320696A; DE69633883D1; US5724481A

Description

Technisches Gebiet
Die vorliegende Erfindung betrifft die automatische Spracherkennung und insbesondere ein Verfahren zur Verwendung von Ergänzungsinformationen, die aus einer Datenbank abgerufen werden, in Verbindung mit einem Fernsprechnetzwerk zur Unterstützung eines Systems zur automatischen Spracherkennung (ASR) bei der Erkennung eines von dem Benutzer gesprochenen Worts.
Allgemeiner Stand der Technik
Für viele Anwendungen ist es vorteilhaft, sich wiederholende Aufgaben mit Computern zu automatisieren, so daß die Aufgaben schneller und effizienter durchgeführt werden können. Die Spracherkennung, die eine Art von Sprachtechnologie ist, ermöglicht es Personen, durch Verwendung gesprochener Wörter mit Computern in Wechselwirkung zu treten. Die Spracherkennung ist jedoch schwierig aufgrund der naturgemäßen Schwankungen der Sprache bei verschiedenen Personen.
Eine Anwendung für die Spracherkennung besteht in einem Fernsprechnetzwerk. Durch Verwendung von Systemen für automatische Spracherkennung (ASR) können Personen über Telefon kommunizieren, so daß einfache Aufgaben ohne Eingreifen des Bedieners durchgeführt werden können. Zum Beispiel kann Spracherkennung zum Wählen verwendet werden, so daß sich der Benutzer eine Rufnummer nicht merken muß, sie nachschlagen muß oder nach ihr fragen muß. Die Möglichkeit, anstelle einer physischen Manipulation einer Benutzerschnittstelle Sprache zu benutzen, hat die Nachfrage nach ASR-Technologie groß gehalten, während es zu weiteren Fortschritten in der Telekommunikation kam. Im allgemeinen gibt es zwei Arten von in der Telekommunikation verwendeten ASR-Systemen: sprecherabhängige und sprecherunabhängige Systeme.
Eine häufige Implementierung eines sprecherabhängigen automatischen Spracherkennungssystems verwendet einen Computer, der durch einen bestimmten Sprecher dazu „trainiert" wird, auf die Sprachmuster des Sprechers zu reagieren. Der Trainingsprozeß umfaßt das Vokalisieren eines Klangs (d. h. eines Worts), um eine analoge Spracheingabe zu erzeugen, die Umsetzung der Spracheingabe in Signaldaten, die Erzeugung einer den Klang repräsentierenden Vorlage und die Speicherung der indizierten Vorlage auf entsprechende spezifische Reaktionsdaten, wie z. B. eine Computeranweisung, eine Aktion zu initiieren.
Während Echtzeitoperationen werden die vom Trainingssprecher gesprochenen Wörter digitalisiert und mit der Menge sprecherabhängiger Vorlagen in dem ASR-System verglichen, so daß eine Übereinstimmung zwischen den gesprochenen Wörtern und einer Vorlage eine bestimmte Reaktion durch den Computer auslösen kann. Sprecherabhängige ASR-Systeme werden hauptsächlich dann verwendet, wenn der Trainingsprozeß gerechtfertigt werden kann, z. B. wenn dieselben Einzelpersonen oft auf das System zugreifen.
Für Anwendungen, bei denen kein individuelles Training gerechtfertigt werden kann, muß ein sprecherunabhängiges ASR verwendet werden. Eine häufige Implementierung eines sprecherunabhängigen ASR-Systems verwendet einen Computer zum Speichern einer zusammengesetzten Vorlage oder eines Klusters von Vorlagen, die ein von einer Anzahl verschiedener Personen gesprochenes Wort repräsentieren. Die Vorlagen werden von zahlreichen Datenproben (d. h. von mehreren Sprechern gesprochenen Wörtern) abgeleitet, die vielfältige Aussprachen und Variationen von Spracheigenschaften repräsentieren. Sprecherunabhängige Spracherkennungssysteme können mit vielfältigen Personen ohne sprecherspezifisches Training in Wechselwirkung treten.
Fernsprechanwendungen, die sprecherunabhängige ASR zur Erkennung gesprochener Nummern verwenden, sind in der Technik bekannt. Diese Anwendungen sind besonders dann nützlich, wenn das Vokabular des Sprechers auf einige wenige Menübefehle und/oder Zahlen (z. B. 0–9) beschränkt ist. Es ist jedoch sehr schwierig, über das Fernsprechnetzwerk gesprochene Buchstaben (A–Z) zu erkennen. Tatsächlich werden aufgrund verschiedener Arten von Rauschen und Bandbreitenbegrenzungen in Verbindung mit vielfältigen Sprachmustern unter einzelnen Sprechern durch die Fernsprechumgebung alle ASR-Anwendungen (sprecherabhängig und sprecherunabhängig) fehleranfällig.
Dennoch ist eine sehr gewünschte kommerzielle Anwendung von ASR das Automatisieren von Aufgaben, die kommerziellen Transaktionen zugeordnet sind, z. B. Kreditkartentransaktionen, die über das Fernsprechnetzwerk durchgeführt werden. Wenn ein Kunde z. B. Waren oder Dienste über das Telefon erwerben möchte, könnte ASR verwendet werden, um betreffende Informationen zu sammeln und die Transaktion schnell und effizient mit minimalem Bedienereingriff zu autorisieren.
Über Fernsprecher durchgeführte Käufe von Waren oder Diensten, die mit einer Kredit-/Guthabenkarten durchgeführt werden, können erfordern, daß der Kunde seinen Namen (oder andere vorbestimmte Informationen) als Schritt bei der Transaktion angibt. Leider ist es die Erkennung beliebiger gesprochener Wortinformationen (wie z. B. des Namens des Kunden), wodurch die Verwendung von ASR-Technologie durch die Einrichtungen, die sie am meisten benötigen, wie z. B. Unternehmen mit hohem Umsatz, verhindert wurde.
Der Grund dafür besteht darin, daß Unternehmen mit hohem Umsatz nicht nur ein ASR-System erfordern, um beliebige gesprochene Wörter (z. B. Eigennamen) zu erkennen, sondern auch einen allgegenwärtigen Zugriff auf das ASR-System erfordern. Um z. B. den Bedürfnissen eines Unternehmens mit hohem Umsatz mit potentiellen Kunden über ein gesamtes Land hinweg unter Verwendung herkömmlicher ASR-Systeme zu genügen, müßten sprecherunabhängige Vorlagen, die dem Namen jeder Person in dem gesamten Land entsprechen, durch Verwendung der oben beschriebenen Techniken erzeugt und gespeichert werden. Der gegenwärtige Stand der Technik von ASR-Systemen ermöglicht jedoch keinen Vergleich eines gesprochenen Namens mit einem der Millionen möglicher Namen, die den gespeicherten Vorlagen entsprechen.
Deshalb werden in der Technik Verbesserungen an ASR-Systemen benötigt, durch die solche Systeme gesprochene Wörter mit erhöhter Fähigkeit automatisch erkennen können.
WO-A-91 18386 betrifft die gleichzeitige sprecherunabhängige Spracherkennung und -verifikation über ein Fernsprechnetzwerk, wobei über das Fernsprechnetzwerk gesprochene alphanumerische Ketten erkannt werden. Der Anrufer wird aufgefordert, jedes Zeichen einer Kette zu sprechen, wobei ein sprecherunabhängiger Spracherkennungsalgorithmus zur Erkennung jedes gesprochenen Zeichens verwendet wird. Kumulative Erkennungsdifferenzen werden gespeichert, während jedes Zeichen gesprochen und mit einer möglichen Menge alphanumerischer Zeichen verglichen wird. Nachdem alle Zeichen gesprochen wurden, wird die Referenzkette mit der niedrigsten kumulativen Differenz als die erkannte Kette deklariert.
Kurze Darstellung der Erfindung
Ein Verfahren und System gemäß der Erfindung werden in den unabhängigen Ansprüchen definiert. Bevorzugte Formen werden in den abhängigen Ansprüchen definiert.
Diese Bedürfnisse werden durch ein Verfahren und ein System zum Verwenden von Ergänzungsdaten zur Verbesserung der Fähigkeit eines ASR-Systems, so daß das System beliebige gesprochene Wörter, wie z. B. Eigennamen, schnell und genau erkennen kann, behandelt, und es wird ein technischer Fortschritt erzielt.
In Fernsprechanwendungen eines ASR-Systems ist es übliche Praxis, eine Rufnummer von einem Anrufer zu erbitten. Die Rufnummer des Anrufers kann durch Sprach- oder andere bekannte Verfahren, wie z. B. Anrufer-ID oder Tonwahleingabe erhalten werden. Gemäß einem Ausführungsbeispiel des Verfahrens und Systems der vorliegenden Erfindung dient deshalb die Rufnummer des Anrufers als Index zum Abrufen von Text (d. h. des Namens des Anrufers) aus einer Datenbank. Mit diesem Text werden dann die einem ASR-System verfügbaren Auswahlmöglichkeiten begrenzt oder spezifiziert.
Genauer gesagt wird mit der Rufnummer des Anrufers auf eine Ergänzungsdatenbank zugegriffen, um der Rufnummer zugeordneten Text abzurufen. Bei dem obenerwähnten Ausführungsbeispiel wird den Namen des Anrufers enthaltender Text aus der Ergänzungsdatenbank abgerufen. Der Text des Namens des Anrufers umfaßt eine digitalisierte alphanumerische Darstellung des Eigennamens des Anrufers. Mit einem Text-zu-Sprache-System wird der Text des Namens des Anrufers wie in der Technik bekannt in eine Phonemtranskription transkribiert. Die Phonemtranskription des Namens wird in dem ASR-System als sprecherunabhängige Vorlage gespeichert, so daß Sprache, die der Transkription entspricht, durch das ASR-System erkannt werden kann.
Das Abrufen und Konvertieren von Ergänzungstextdaten in eine Phonemtranskription ermöglicht es dem ASR-System, sofort auf gesprochene Wörter zu reagieren, die der Transkription der Daten entsprechen, die in Abwesenheit eines sprecherspezifischen Trainings abgerufen werden.
Während Echtzeitanwendungen des obigen Ausführungsbeispiels wird ein Telefonanruf von einem Dienstanbieter empfangen, der ein ASR-System gemäß der vorliegenden Erfindung betreibt. Der Anrufer, der mit Kreditkarte eine Ware oder einen Dienst erwerben möchte, wird zur Angabe einer Rufnummer und eines Namens aufgefordert. Auf der Basis der vom Anrufer angegebenen Rufnummer wird auf eine Ergänzungsdatenbank (z. B. ein elektronisches Rufnummerverzeichnis) zugegriffen, um den Text eines der Rufnummer zugeordneten Namens abzurufen. Ein Text-zu-Sprache-System erzeugt eine Phonemtranskription des Texts des aus der Datenbank abgerufenen Namens. Die Phonemtranskription wird dann als sprecherunabhängige Vorlage zur Verwendung durch das ASR-System zum Erkennen des Namens, so wie er vom Anrufer gesprochen wird, verwendet.
Wenn der vom Anrufer gesprochene Name aufgrund einer ungewöhnlichen Aussprache von Namen, einer schlechten Fernsprechübertragungsqualität, aufgrund von Anrufern, deren Stimmen schwierig zu erkennen sind, usw. nicht durch das ASR-System erkannt wird, wird der Anrufer aufgefordert, eine Buchstabierung seines Namens buchstabenweise anzugeben. Das Text-zu-Sprache-System kann verwendet werden, um eine Phonemtranskription der Buchstabierung des geschriebenen Namens, so wie er aus der Datenbank abgerufen wird, zu erzeugen. Die Buchstabierung des aus der Datenbank abgerufenen Namens wird ebenfalls als sprecherunabhängige Vorlage in dem ASR-System gespeichert, so daß das System versuchen kann, die Buchstabierung des Namens des Anrufers (so wie sie durch den Anrufer gesprochen wird) zu erkennen.
Wenn keine Übereinstimmung der gesprochenen Äußerung des Namens des Anrufers und der Phonemtranskription (auf der Basis etablierter Spracherkennungsalgorithmen) hergestellt werden kann, wird die Verbindung zu einer Person geroutet.
Kurze Beschreibung der Zeichnungen
1 ist ein vereinfachtes Blockschaltbild von telefon- und benutzerinteraktiven Systemen, die einem ASR-System gemäß einem Ausführungsbeispiel der vorliegenden Erfindung zugeordnet sind;
2 ist ein vereinfachtes Blockschaltbild des ASR-Systems von 1, das zur Bereitstellung von Spracherkennung und -verifikation gemäß einem Ausführungsbeispiel der vorliegenden Erfindung verwendet wird.
3 ist ein Flußdiagramm eines beispielhaften Verfahrens gemäß der vorliegenden Erfindung.
Ausführliche Beschreibung
1 zeigt zwei Systeme 100A und 100B gemäß einem Ausführungsbeispiel der vorliegenden Erfindung. Das Sprachfernsprechsystem 100A enthält eine anrufende Station 102, Telekommunikationsleitungen 103A und 103B und einen Vermittlungsdienstpunkt (SSP) 105, der sich in einem öffentlichen Fernsprechwählnetz 107 befindet. Der Klarheit halber ist ein einziger Vermittlungsdienstpunkt gezeigt, obwohl ein funktionsfähiges öffentliches Fernsprechwählnetz ein verbundenes Netzwerk von SSPs umfaßt. Die Telefonleitungsschnittstelleneinheit 108 schützt Geräte des ASR-Systems 110 vor Netzwerkfehlfunktionen, wie z. B. Stromspitzen, und digitalisiert ankommende Sprache von der anrufenden Station 102, wenn die Ursprungssprache nicht bereits digitalisiert ist, bevor sie an das System abgeliefert wird.
Der SSP 105 ist eine lokale digitale Vermittlung mit verteilter Steuerung, wie z. B. eine Vermittlung des Typs 5ESS^®, so wie sie in AT & T Technical Journal, Band 64, Nr. 6, Juli-August 1985, Seiten 1303–1564, dem Bell Laboratories Record vom November 1981, Seite 258, und in dem Bell Laboratories Record vom Dezember 1981, Seite 290 (hergestellt von AT & T) beschrieben wird. Als Alternative kann der SSP 105 eine analoge oder digitale Vermittlung mit verteilter Steuerung sein, wie z. B. ein ISDN-Vermittlungssystem, so wie es aus dem US Patent Nr. 4,592,048, ausgegeben an M. W. Beckner et al., am 27. 5. 1986, bekannt ist. In 1 ist der SSP 105 über kundenidentifizierte Leitungen 103 mit der anrufenden Station 102 verbunden und kommuniziert außerdem über die Leitung 121B wie nachstehend beschrieben mit dem Host-Computer 124.
Außerdem zeigt 1 ein benutzerinteraktives System 100B mit einem Mikrophon 104 und einer Mikrophonschnittstelleneinheit 109. Das Mikrophon 104 kann sich in einem Kiosk oder in einem Geldautomaten (nicht gezeigt) befinden, das bzw. der von einem Dienstanbieter als Verbindung zwischen dem ASR-System und dem Verbraucher betrieben wird, wie in der Technik bekannt ist.
Ankommende Sprache wird durch das Mikrophon 104 in elektrische Signale transformiert und über die Kommunikationsstrecke 106A zu der Mikrophonschnittstelleneinheit 109 geleitet. Die Mikrophonschnittstelleneinheit 109 wandelt ankommende Sprachsignale vor der Ablieferung an das ASR-System 110 über die Kommunikationsstrecke 106B in digitale Daten um.
Das (in der nachstehenden 2 ausführlicher beschriebene) ASR-System 110 kommuniziert über einen Datenbus 125 mit dem Host-Computer 124. Der Host-Computer 124 enthält eine zentrale Verarbeitungseinheit (CPU) 126 zur Steuerung des Gesamtbetriebs des Computers, Direktzugriffsspeicher (RAM) 128 zur vorübergehenden Datenspeicherung, Nur-Lesespeicher (ROM) 130 für permanente Datenspeicherung und eine nichtflüchtige Datenbank 134 zum Speichern von dem Host-Computer 124 zugeordneten Steuerprogrammen. Die CPU 126 kommuniziert über Datenbusse 132 mit dem RAM 128 und dem ROM 130. Ähnlich kommuniziert die CPU 126 über den Datenbus 133 mit der nichtflüchtigen Datenbank 134. Die Eingangs-/Ausgangs-(E/A)Schnittstelle 136 ist über den Datenbus 135 mit dem Host-Computer 124 verbunden, um den Datenfluß aus dem lokalen Netzwerk (LAN) 138, das über die Datenstrecke 139 mit der E/A-Schnittstelle 136 kommuniziert, der Ergänzungsdatenbank 140, die über die Datenstrecke 141 mit der E/A-Schnittstelle 136 kommuniziert, und dem Datendienstnetzwerk 142, das über die Telekommunikationsleitung 121A, digitale Daten zu dem Host-Computer 124 sendet, dem SSP 105 und der Datenstrecke 121B zu ermöglichen, wie nachstehend beschrieben wird.
2 zeigt ein vereinfachtes Blockschaltbild einer beispielhaften Ausführungsform des ASR-Systems 110 von 1. Das ASR-System 110, das entweder zu sprecherunabhängiger oder sprecherabhängiger Spracherkennung fähig ist, enthält eine CPU 202 zur Steuerung des Gesamtbetriebs des Systems. Die CPU 202 besitzt mehrere Datenbusse, die allgemein durch die Bezugszahl 203 repräsentiert werden. Außerdem ist ein Direktzugriffsspeicher (RAM) 204, ein Nur-Lesespeicher (ROM) 206, eine Sprachgeneratoreinheit 218 zum Ausgeben von Grußnachrichten und Aufforderungen für einen Anrufer und ein Text-zu-Sprache-(TTS-)System 219 (das mit der CPU 202 und der RAM 204 kommuniziert) zum Transkribieren geschriebenen Textes in eine Phonemtranskription, wie in der Technik bekannt ist, gezeigt.
Der RAM 204 ist durch den Bus 203 mit der CPU 202 verbunden und liefert eine vorübergehende Speicherung von Sprachdaten, wie z. B. von durch einen Anrufer an einer anrufenden Station 102 oder einer Mikrophonstation 104 gesprochenen Wörtern, von sprecherabhängigen Vorlagen 214 und sprecherunabhängigen Vorlagen 216. Der ROM 206, der ebenfalls durch den Datenbus 203 mit der CPU 202 verbunden ist, liefert eine permanente Speicherung von Spracherkennungs- und -verifikationsdaten, darunter ein Spracherkennungsalgorithmus 208 und Modelle von Phonemen 210. Bei diesem Ausführungsbeispiel wird ein auf Phonemen basierender Spracherkennungsalgorithmus 208 verwendet, obwohl viele andere nützliche Ansätze zur Spracherkennung in der Technik bekannt sind.
Ein Phonem ist ein technischer Begriff, der eine Einheit einer Menge kleinster Einheiten von Sprache bedeutet, die mit anderen solchen Einheiten kombiniert werden kann, um größere Sprachsegmente, z. B. Morpheme, zu bilden. Zum Beispiel können die phonetischen Segmente des gesprochenen Worts „Operator" durch eine Kombination von Phonemen repräsentiert werden, wie z. B. „aa", „p", „axr", „ey", „dx" und „axr". Modelle von Phonemen 210 werden durch Verwendung von Spracherkennungsklassendaten zusammengestellt, die aus den Äußerungen einer Probe von Sprechern in einem vorherigen Offline-Prozeß abgeleitet werden. Während des Prozesses werden Wörter, die gewählt werden, um so alle Phoneme der Sprache zu repräsentieren, von einer großen Anzahl von Trainingssprechern (z. B. 1000) gesprochen. Die Äußerungen werden durch eine trainierte Person verarbeitet, die einen geschriebenen Text des Inhalts der Äußerungen erzeugt.
Der geschriebene Text des Worts wird dann durch eine Text-zu-Sprache-Einheit, wie z. B. das TTS-System 219, empfangen, so daß sie eine Phonemtranskription des geschriebenen Texts unter Verwendung von Regeln der Text-zu-Sprache-Umsetzung erzeugen kann, wie in der Technik bekannt ist. Die Phonemtranskription des geschriebenen Texts wird dann mit den Phonemen verglichen, die aus dem Betrieb des Spracherkennungsalgorithmus 208 abgeleitet werden, der die Äußerungen mit den Modellen von Phonemen 210 vergleicht. Die Modelle der Phoneme 210 werden während dieses Prozesses des „Modelltrainings" eingestellt, bis eine angemessene Übereinstimmung zwischen dem aus der Text-zu-Sprache-Transkription der Äußerung abgeleitetem Phonem und den durch den Spracherkennungsalgorithmus 208 erkannten Phonemen erhalten wird, wobei in der Technik bekannte Einstelltechniken verwendet werden.
Während des Erkennungsprozesses werden Modelle der Phoneme 210 in Verbindung mit dem Spracherkennungsalgorithmus 208 verwendet. Genauer gesagt vergleicht der Spracherkennungsalgorithmus 208 ein gesprochenes Wort mit etablierten Phonemmodellen. Wenn der Spracherkennungsalgorithmus bestimmt, daß eine Übereinstimmung besteht (d. h. wenn die gesprochene Äußerung gemäß vordefinierten Parametern statistisch mit den Phonemmodellen übereinstimmt), wird eine Liste von Phonemen erzeugt.
Da die Modelle der Phoneme 210 eine Verteilung von charakteristischen Eigenschaften eines gesprochenen Worts über eine große Sprecherpopulation hinweg repräsentieren, können die Modelle für einen allgegenwärtigen Zugriff auf ein ASR-System verwendet werden, das dieselbe durch die Trainingssprecher repräsentierte Sprecherpopulation versorgt (d. h. amerikanische Ureinwohner, spanisch sprechende Populationen usw.).
Die sprecherunabhängige Vorlage 216 ist eine Liste von Phonemen, die eine erwartete Äußerung oder Phase repräsentieren. Eine sprecherunabhängige Vorlage 216 wird erzeugt, indem geschriebener Text durch das TTS-System 219 verarbeitet wird, um eine Liste von Phonemen zu erzeugen, die die erwarteten Aussprachen des geschriebenen Worts bzw. der geschriebenen Phrase exemplifizieren. Im allgemeinen werden mehrere Vorlagen in dem RAM 204 gespeichert, damit sie dem Spracherkennungsalgorithmus 208 verfügbar sind. Die Aufgabe des Algorithmus 208 besteht darin, auszuwählen, welche Vorlage am besten mit den Phonemen in einer gesprochenen Äußerung übereinstimmt.
Sprecherabhängige Vorlagen 214 werden erzeugt, indem ein Sprecher eine Äußerung eines Worts oder einer Phrase gibt und indem die Äußerung durch Verwendung des Spracherkennungsalgorithmus 208 und der Modelle von Phonemen 210 verarbeitet wird, um eine Liste von Phonemen zu erzeugen, die die durch den Algorithmus erkannten Phoneme umfassen. Diese Liste von Phonemen ist die sprecherabhängige Vorlage 214 für diese bestimmte Äußerung.
Während Echtzeitspracherkennungsoperationen wird eine Äußerung durch den Spracherkennungsalgorithmus 208 unter Verwendung von Modellen der Phoneme 210 dergestalt verarbeitet, daß eine Liste von Phonemen erzeugt wird. Diese Liste von Phonemen wird mit der durch die sprecherunabhängigen Vorlagen 216 und die sprecherabhängigen Vorlagen 214 bereitgestellten Liste verglichen, wobei in der Technik bekannte Techniken verwendet werden. Der Spracherkennungsalgorithmus 208 meldet Ergebnisse des Vergleichs.
3 ist ein Flußdiagramm der Aktionen, die in dem ASR-System 110 unternommen werden, wenn das System in einem sprecherunabhängigen Modus betrieben wird (ein Ausführungsbeispiel des Verfahrens der vorliegenden Erfindung).
Als ein Beispiel für eine kommerzielle Anwendung der vorliegenden Erfindung nehme man an, daß ein Kunde von einem privaten Fernsprecher (anrufende Station 102) aus anruft und per Kreditkarte einen Dienst kaufen will, der von einem Dienstanbieter angeboten wird, der das ASR-System 110 und den Host-Computer 124 verwendet. In diesem Beispiel hat der Kunde den Dienst noch nie gekauft, so daß das ASR-System 110 nicht darauf trainiert ist, die bestimmten Sprachmuster des Kunden zu erkennen (d. h. es sind keine sprecherabhängigen Vorlagen 214 für diesen Kunden eingerichtet). Damit die Kreditkartentransaktion authorisiert werden kann, muß das ASR-System 110 jedoch den Namen des Kunden empfangen und erkennen.
Das Beispiel beginnt, wenn das ASR-System 110 im Schritt 300 eine vom Kunden eingeleitete ankommende Verbindung empfängt, die über die Telekommunikationsleitung 103A, 103B und den SSP 105 des öffentlichen Fernsprechwählnetzes 107 geroutet wird.
Alternativ dazu könnte der Kunde eine Dienstbestellung von einem Kiosk aus tätigen, in dem ein benutzerinteraktives System mit einer Mikrophonstation 104 untergebracht ist. Wenn dies der Fall ist, wird eine ankommende „Verbindung" von dem ASR-System 110 empfangen, wenn eine Kundeneingabe (z. B. Sprache) an der Mikrophonstation 104 erkannt und über die Kommunikationsstrecke 106B an das System abgeliefert wird.
Sowohl in dem Telefonsystem als auch in dem benutzerinteraktiven System wird die ankommende Verbindung durch eine Schnittstelleneinheit verarbeitet (d. h. eine Fernsprechanschlußschnittstelleneinheit 108 bzw. eine Mikrophonschnittstelleneinheit 109), um sicherzu stellen, daß alle in dem ASR-System 110 empfangene Eingaben in einem gemeinsamen digitalen Format vorliegen.
Wie in Schritt 302 gezeigt, gibt die Sprachgeneratoreinheit 218 des ASR-Systems 110 eine Begrüßung aus und fordert den Kunden zur Eingabe zum Beispiel eines vorbestimmten Index (d. h. einer privaten Rufnummer), eines dem Index zugeordneten Namens und möglicherweise einer Buchstabierung des Namens auf. Als Alternative könnte das System das Auffordern des Anrufers zur Eingabe einer Buchstabierung des Namens zurückstellen, bis dies in dem Prozeß benötigt wird, wie nachstehend beschrieben wird.
Der Prozeß wird mit dem Bestimmungsschritt 304 fortgesetzt, in dem bestimmt wird, ob die angeforderte Eingabe empfangen wurde. Wenn das Ergebnis von Schritt 304 eine „NEIN"-Entscheidung ist, wird der Prozeß mit dem Schritt 306 fortgesetzt, in dem die Verbindung zu einer Vermittlungsperson geroutet wird, und der Prozeß endet in dem Endeschritt 308.
Wenn das Ergebnis im Schritt 304 eine „JA"-Entscheidung ist, wird der Prozeß im Schritt 318 fortgesetzt, in dem die Äußerung des Index, Namens und der Buchstabierung des Namens durch den Kunden in dem RAM 204 des ASR-Systems 110 gespeichert wird. In dem obigen Beispiel hat der Kunde den Index durch Sprechen angegeben. Wenn der Index die private Rufnummer des Kunden ist, kann er durch andere bekannte Techniken, wie z. B. Anrufer-ID oder Tonwahleingabe abgerufen werden.
Der Prozeß wird im Schritt 310 fortgesetzt, in dem versucht wird, den Index des Anrufers durch Verwendung des Spracherkennungsalgorithmus 208 und der Modellphoneme (für Ziffern) 210 zu erkennen. Mit dem Index werden wie nachstehend beschrieben Informationen aus einer Ergänzungsdatenbank abgerufen. Wenn Unbestimmtheit über bestimmte Ziffern des Index besteht, kann das System so programmiert sein, daß es mehrere Möglichkeiten erkennt. Im Bestimmungsschritt 314 wird bestimmt, ob der Index des Kunden in dem vorherigen Schritt erkannt wurde. Wenn das Ergebnis des Bestimmungsschritts eine „NEIN"-Entscheidung ist, wird der Prozeß im Schritt 306 fortgesetzt, in dem die Verbindung zu einer Vermittlungsperson geroutet wird, und der Prozeß endet in dem Endeschritt 308.
Wenn das Ergebnis in dem Bestimmungsschritt 314 eine „JA"-Entscheidung ist, wird der Prozeß in Schritt 316 fortgesetzt, in dem die CPU 202 des ASR-Systems 110 ergänzende Daten von dem Host-Computer 124 anfordert. In dem obigen Beispiel sind die gewünschten ergänzenden Daten eine digital gespeicherte Darstellung des Namens des Kunden (z. B. der Name, der der von dem Kunden empfangenen privaten Rufnummer zugeordnet ist), wie z. B. im ASCII-Textformat.
Wenn die Anforderung von ergänzenden Daten in der CPU 126 des Host-Computers 124 empfangen wird, bestimmt die CPU 126, auf welche Ergänzungsdatenbank zugegriffen werden muß, indem sie den Index (z. B. die vom Kunden angegebene Rufnummer) zum Abrufen einer digitalen Repräsentation (z. B. ASCII-Textformat) des Namens des Kunden verwendet. Die CPU 126 führt die Bestimmung auf der Basis von aus der nichtflüchtigen Datenbank 134 empfangenen Anweisungen durch.
Wenn der Dienstanbieter z. B. eine große Einrichtung ist, kann er eine Hilfsdatenbank 140, wie z. B. eine CD-ROM-Datenbank, führen, die über die Datenstrecke 141 und die E/A-Schnittstelle 136 mit dem Host-Computer 124 kommuniziert. Die Datenbank 140 könnte umfassende Kundeninformationen enthalten, wie z. B. Adressen und Namen, Kreditkarten-Kontennummern und nach Rufnummer indizierte bisherige Käufe, enthalten. Wenn der Dienstanbieter eine kleine Einrichtung mit einer sich schnell ändernden Kundenbasis ist, kann jedoch auch eine begrenzte Ergänzungsdatenbank in dem Host-Computer 124 (z. B. in dem RAM 128) gespeichert werden.
Als Alternative können bestimmte Dienstanbieter ein Computernetzwerk (z. B. ein LAN 138) führen, aus dem über die Datenstrecke 139 und die E/A-Schnittstelle 136 ergänzende Daten zu dem Host-Computer 124 heruntergeladen werden können.
In dem obigen Beispiel nehme man an, daß der Dienstanbieter einen von dem Telekommunikationsnetz, das das öffentliche Fernsprechwesennetz 107 betreibt, angebotenen Datendienst bestellt hat. Der Datendienst 142 enthält eine Datenbank, in der er ein elektronisches Telefonbuch speichert, das die Rufnummer und die entsprechenden Kundennamen aller häuslichen Fernsprecher in den Vereinigten Staaten enthält. In dem obigen Beispiel sendet der Datendienst 142 digitale Informationsdatenpakete (z. B. einen Text des Namens eines Kunden) über die Telekommunikationsleitung 121A zu dem SSP 105. Der SSP 105 liefert die digitalen Informationen über die Telekommunikationsleitung 121B zu der E/A-Schnittstelle 136 an den Host-Computer 124 ab, so daß ein Text des Kundennamens von dem Host-Computer 124 abgerufen und in dem RAM 128 gespeichert werden kann. Wenn mehrere Name abgerufen werden (aufgrund mehrerer Möglichkeiten von privaten Rufnummern oder wenn der Rufnummer mehrere Namen zugeordnet sind), werden dem Host-Computer alle möglichen Namen angegeben.
Der Prozeß wird im Schritt 318 fortgesetzt, in dem als Reaktion auf eine aus der CPU 202 empfangenen Anforderung der Text bzw. die Texte des aus der Ergänzungsdatenbank abgerufenen Namens aus dem RAM 128 abgerufen und durch das TTS-System 219 verarbeitet werden, so daß eine Phonemtranskription eines Texts erzeugt und als sprecherunabhängige Vorlage in dem RAM 204 gespeichert wird. Wie im Schritt 320 gezeigt, wird die Erkennung des Namens des Anrufers, so wie er vom Anrufer gesprochen (und im RAM 204 gespeichert) wird, unter Verwendung des Sprachalgorithmus 208, der Modelle von Phonemen 210 und der sprecherunabhängigen Vorlage bzw. der sprecherunabhängigen Vorlagen, die im Schritt 318 erzeugt wurden, versucht.
In dem Bestimmungsschritt 322 wird bestimmt, ob im Schritt 320 eine Erkennung stattgefunden hat. Wenn das Ergebnis von 322 eine „JA"-Entscheidung ist, wird der Prozeß im Schritt 324 fortgesetzt, in dem die Transaktion authorisiert wird, und der Prozeß endet im Schritt 326. Wenn das Ergebnis von 322 eine „NEIN"-Entscheidung ist, wird der Prozeß im Schritt 328 fortgesetzt, in dem eine Phonemtranskription der Buchstabierung des abgerufenen Namens des Kundens (so wie er von der Datenbank abgerufen wird) durch das TTS-System erzeugt und als zweite sprecherunabhängige Vorlage gespeichert wird. Im Schritt 330 wird eine Erkennung der Buchstabierung des Namens des Kunden, so wie er von dem Kunden gesprochen wird, unter Verwendung des Spracherkennungsalgorithmus 208, der Modelle von Phonemen 210 und der im Schritt 328 erzeugten zweiten sprecherunabhängigen Vorlage versucht. Der Prozeß wird mit dem Bestimmungsschritt 332 fortgesetzt, in dem bestimmt wird, ob die Buchstabierung des Namens des Anrufers erkannt wurde. Wenn im Schritt 332 eine „NEIN"-Entscheidung getroffen wurde, geht der Prozeß zum Schritt 306, in dem die Verbindung zu einer Vermittlungsperson geroutet wird, und der Prozeß endet im Schritt 308. Wenn im Schritt 332 eine „JA"-Entscheidung getroffen wird, wird der Prozeß mit Schritt 324 fortgesetzt, in dem die Transaktion authorisiert wird, und der Prozeß endet im Schritt 326.
Das obige Beispiel zeigt Echtzeitinteraktionen zwischen einem Kunden, der ein Telefon oder ein benutzer interaktives System verwendet, einem ASR-System 110, einem Host-Computer 124 und einer Ergänzungsdatenbank. Es kann jedoch andere Ausführungsformen geben, in denen das LAN 138 auf das ASR-System 110 zugreift, oder Ausführungsformen, bei denen Kundennamen über einen Zeitraum hinweg aufgezeichnet und in einer Datenbank gespeichert werden und das ASR-System 110 und der Host-Computer 124 periodisch auf den durch die Datenbank 142 bereitgestellten Datendienst zugreifen.
Das Verfahren und System der vorliegenden Erfindung erzielen insofern Vorteile gegenüber dem Stand der Technik als ein ASR-System beliebige gesprochene Wörter ohne sprecherspezifisches Training erkennen kann. Es versteht sich, daß die oben beschriebenen Ausführungsformen lediglich zur Veranschaulichung dienen und daß zahlreiche andere Anordnungen von Fachleuten konzipiert werden können, ohne vom Schutzumfang der Erfindung abzuweichen, der durch die folgenden Ansprüche definiert wird.

Claims

Verfahren zur Ausführung in einem ASR-System (110) zur automatischen Spracherkennung mit einer ersten Datenbank (204, 206), die Wortmodelle und Korrelationsdaten, auf denen Worterkennungsentscheidungen zumindest teilweise basieren, speichert, wobei das Verfahren in einer zweiten Ergänzungsdatenbank (128, 140) gespeicherte Informationen verwendet, um die Fähigkeiten des ASR-Systems zu erweitern, mit den folgenden Schritten: Empfangen (304) einer Eingabe von einem Benutzer, wobei die Eingabe einen ersten und einen zweiten Teil aufweist; Speichern (310) der vom Benutzer erhaltenen Eingabe in dem ASR-System; wobei das ASR-System den ersten Teil der von dem Benutzer abgerufenen Eingabe erkennt (312); Identifizieren und Abrufen (318) von in der Ergänzungsdatenbank gespeicherten Ergänzungsinformationen bezüglich des ersten Teils der Eingabe; Erzeugen einer aus den aus der Ergänzungsdatenbank abgerufenen Informationen abgeleiteten Vorlage (320); und Verwenden der Vorlage (322) zum Erkennen des zweiten Teils der vom Benutzer gesprochenen Eingabe.
Verfahren nach Anspruch 1, wobei der Schritt des Empfangens einer Eingabe von einem Benutzer den Schritt des Empfangens einer gesprochenen Nummer und eines gesprochenen Namens entsprechend dem ersten bzw. dem zweiten Teil der Eingabe umfaßt.
Verfahren nach Anspruch 2, wobei der Schritt des Verwendens der Vorlage zum Erkennen des zweiten Teils den Schritt des Verwendens eines Spracherkennungsalgorithmus zum Erkennen des gesprochenen Namens umfaßt.
Verfahren nach Anspruch 1, wobei der Schritt des Erzeugens einer Vorlage den folgenden Schritt umfaßt: Verwenden eines Text-zu-Sprache-Systems (219) zum Erzeugen einer Phonemtranskription des zweiten Teils der Eingabe.
Verfahren nach Anspruch 1, wobei der Schritt des Empfangens einer Eingabe von einem Benutzer den Schritt des Empfangens eines Index und einer gesprochenen Äußerung (310) entsprechend dem ersten bzw. dem zweiten Teil der Eingabe umfaßt.
ASR-System zur automatischen Spracherkennung (110) zur Verwendung in Verbindung mit einem Fernsprechnetz (100A), wobei das ASR-System folgendes umfaßt: eine anrufende Station (102), die von einem Vermittlungsdienstpunkt (105) versorgt wird; Mittel (103B, 106B) zum Empfangen einer Eingabe; eine Fernsprechanschlußschnittstelleneinheit (108) zum Abliefern der aus der anrufenden Station empfangenen Eingabe an einen Direktzugriffsspeicher (128) eines Host-Computers (124); eine zentrale Verarbeitungseinheit (126) in dem Host-Computer zum Abrufen von Ergänzungsinformationen aus einer Ergänzungsdatenbank (128, 140); ein Text-zu-Sprache-Mittel (219) zum Erzeugen einer Phonemtranskription der aus der Ergänzungsdatenbank empfangenen Ergänzungsinformationen; und ein Spracherkennungsmittel (110) zum Erkennen einer den Ergänzungsinformationen zugeordneten Äußerung.
ASR-System nach Anspruch 6, wobei die Ergänzungsdatenbank eine von einem Datendienstanbieter geführte Datenbank (140) ist.
ASR-System nach Anspruch 6, wobei die Phonemtranskription als eine sprecherunabhängige Vorlage verwendet wird.
ASR-System nach Anspruch 6, wobei das Mittel zum Empfangen einer Eingabe ein Anrufer-ID-Dienst oder ein Tonwahleingabemittel ist.
ASR-System nach Anspruch 6, wobei das Spracherkennungsmittel einen Algorithmus zum Vergleichen von Modellphonemen mit gesprochenen Äußerungen umfaßt.