DE69633883T2 - Verfahren zur automatischen Spracherkennung von willkürlichen gesprochenen Worten - Google Patents

Verfahren zur automatischen Spracherkennung von willkürlichen gesprochenen Worten Download PDF

Info

Publication number
DE69633883T2
DE69633883T2 DE69633883T DE69633883T DE69633883T2 DE 69633883 T2 DE69633883 T2 DE 69633883T2 DE 69633883 T DE69633883 T DE 69633883T DE 69633883 T DE69633883 T DE 69633883T DE 69633883 T2 DE69633883 T2 DE 69633883T2
Authority
DE
Germany
Prior art keywords
input
database
asr system
speech recognition
spoken
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69633883T
Other languages
English (en)
Other versions
DE69633883D1 (de
Inventor
Roger Borgan Naperville Garberg
Michael Allen Chicago Yudkowsky
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
AT&T IPM Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp, AT&T IPM Corp filed Critical AT&T Corp
Application granted granted Critical
Publication of DE69633883D1 publication Critical patent/DE69633883D1/de
Publication of DE69633883T2 publication Critical patent/DE69633883T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/38Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections
    • H04M3/382Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42204Arrangements at the exchange for service or number selection by voice
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q3/00Selecting arrangements
    • H04Q3/42Circuit arrangements for indirect selecting controlled by common circuits, e.g. register controller, marker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2242/00Special services or facilities
    • H04M2242/22Automatic class or number identification arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/38Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections
    • H04M3/382Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords
    • H04M3/385Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords using speech signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42025Calling or Called party identification service
    • H04M3/42034Calling party identification service
    • H04M3/42059Making use of the calling party identifier
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4931Directory assistance systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q3/00Selecting arrangements
    • H04Q3/72Finding out and indicating number of calling subscriber

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft die automatische Spracherkennung und insbesondere ein Verfahren zur Verwendung von Ergänzungsinformationen, die aus einer Datenbank abgerufen werden, in Verbindung mit einem Fernsprechnetzwerk zur Unterstützung eines Systems zur automatischen Spracherkennung (ASR) bei der Erkennung eines von dem Benutzer gesprochenen Worts.
  • Allgemeiner Stand der Technik
  • Für viele Anwendungen ist es vorteilhaft, sich wiederholende Aufgaben mit Computern zu automatisieren, so daß die Aufgaben schneller und effizienter durchgeführt werden können. Die Spracherkennung, die eine Art von Sprachtechnologie ist, ermöglicht es Personen, durch Verwendung gesprochener Wörter mit Computern in Wechselwirkung zu treten. Die Spracherkennung ist jedoch schwierig aufgrund der naturgemäßen Schwankungen der Sprache bei verschiedenen Personen.
  • Eine Anwendung für die Spracherkennung besteht in einem Fernsprechnetzwerk. Durch Verwendung von Systemen für automatische Spracherkennung (ASR) können Personen über Telefon kommunizieren, so daß einfache Aufgaben ohne Eingreifen des Bedieners durchgeführt werden können. Zum Beispiel kann Spracherkennung zum Wählen verwendet werden, so daß sich der Benutzer eine Rufnummer nicht merken muß, sie nachschlagen muß oder nach ihr fragen muß. Die Möglichkeit, anstelle einer physischen Manipulation einer Benutzerschnittstelle Sprache zu benutzen, hat die Nachfrage nach ASR-Technologie groß gehalten, während es zu weiteren Fortschritten in der Telekommunikation kam. Im allgemeinen gibt es zwei Arten von in der Telekommunikation verwendeten ASR-Systemen: sprecherabhängige und sprecherunabhängige Systeme.
  • Eine häufige Implementierung eines sprecherabhängigen automatischen Spracherkennungssystems verwendet einen Computer, der durch einen bestimmten Sprecher dazu „trainiert" wird, auf die Sprachmuster des Sprechers zu reagieren. Der Trainingsprozeß umfaßt das Vokalisieren eines Klangs (d. h. eines Worts), um eine analoge Spracheingabe zu erzeugen, die Umsetzung der Spracheingabe in Signaldaten, die Erzeugung einer den Klang repräsentierenden Vorlage und die Speicherung der indizierten Vorlage auf entsprechende spezifische Reaktionsdaten, wie z. B. eine Computeranweisung, eine Aktion zu initiieren.
  • Während Echtzeitoperationen werden die vom Trainingssprecher gesprochenen Wörter digitalisiert und mit der Menge sprecherabhängiger Vorlagen in dem ASR-System verglichen, so daß eine Übereinstimmung zwischen den gesprochenen Wörtern und einer Vorlage eine bestimmte Reaktion durch den Computer auslösen kann. Sprecherabhängige ASR-Systeme werden hauptsächlich dann verwendet, wenn der Trainingsprozeß gerechtfertigt werden kann, z. B. wenn dieselben Einzelpersonen oft auf das System zugreifen.
  • Für Anwendungen, bei denen kein individuelles Training gerechtfertigt werden kann, muß ein sprecherunabhängiges ASR verwendet werden. Eine häufige Implementierung eines sprecherunabhängigen ASR-Systems verwendet einen Computer zum Speichern einer zusammengesetzten Vorlage oder eines Klusters von Vorlagen, die ein von einer Anzahl verschiedener Personen gesprochenes Wort repräsentieren. Die Vorlagen werden von zahlreichen Datenproben (d. h. von mehreren Sprechern gesprochenen Wörtern) abgeleitet, die vielfältige Aussprachen und Variationen von Spracheigenschaften repräsentieren. Sprecherunabhängige Spracherkennungssysteme können mit vielfältigen Personen ohne sprecherspezifisches Training in Wechselwirkung treten.
  • Fernsprechanwendungen, die sprecherunabhängige ASR zur Erkennung gesprochener Nummern verwenden, sind in der Technik bekannt. Diese Anwendungen sind besonders dann nützlich, wenn das Vokabular des Sprechers auf einige wenige Menübefehle und/oder Zahlen (z. B. 0–9) beschränkt ist. Es ist jedoch sehr schwierig, über das Fernsprechnetzwerk gesprochene Buchstaben (A–Z) zu erkennen. Tatsächlich werden aufgrund verschiedener Arten von Rauschen und Bandbreitenbegrenzungen in Verbindung mit vielfältigen Sprachmustern unter einzelnen Sprechern durch die Fernsprechumgebung alle ASR-Anwendungen (sprecherabhängig und sprecherunabhängig) fehleranfällig.
  • Dennoch ist eine sehr gewünschte kommerzielle Anwendung von ASR das Automatisieren von Aufgaben, die kommerziellen Transaktionen zugeordnet sind, z. B. Kreditkartentransaktionen, die über das Fernsprechnetzwerk durchgeführt werden. Wenn ein Kunde z. B. Waren oder Dienste über das Telefon erwerben möchte, könnte ASR verwendet werden, um betreffende Informationen zu sammeln und die Transaktion schnell und effizient mit minimalem Bedienereingriff zu autorisieren.
  • Über Fernsprecher durchgeführte Käufe von Waren oder Diensten, die mit einer Kredit-/Guthabenkarten durchgeführt werden, können erfordern, daß der Kunde seinen Namen (oder andere vorbestimmte Informationen) als Schritt bei der Transaktion angibt. Leider ist es die Erkennung beliebiger gesprochener Wortinformationen (wie z. B. des Namens des Kunden), wodurch die Verwendung von ASR-Technologie durch die Einrichtungen, die sie am meisten benötigen, wie z. B. Unternehmen mit hohem Umsatz, verhindert wurde.
  • Der Grund dafür besteht darin, daß Unternehmen mit hohem Umsatz nicht nur ein ASR-System erfordern, um beliebige gesprochene Wörter (z. B. Eigennamen) zu erkennen, sondern auch einen allgegenwärtigen Zugriff auf das ASR-System erfordern. Um z. B. den Bedürfnissen eines Unternehmens mit hohem Umsatz mit potentiellen Kunden über ein gesamtes Land hinweg unter Verwendung herkömmlicher ASR-Systeme zu genügen, müßten sprecherunabhängige Vorlagen, die dem Namen jeder Person in dem gesamten Land entsprechen, durch Verwendung der oben beschriebenen Techniken erzeugt und gespeichert werden. Der gegenwärtige Stand der Technik von ASR-Systemen ermöglicht jedoch keinen Vergleich eines gesprochenen Namens mit einem der Millionen möglicher Namen, die den gespeicherten Vorlagen entsprechen.
  • Deshalb werden in der Technik Verbesserungen an ASR-Systemen benötigt, durch die solche Systeme gesprochene Wörter mit erhöhter Fähigkeit automatisch erkennen können.
  • WO-A-91 18386 betrifft die gleichzeitige sprecherunabhängige Spracherkennung und -verifikation über ein Fernsprechnetzwerk, wobei über das Fernsprechnetzwerk gesprochene alphanumerische Ketten erkannt werden. Der Anrufer wird aufgefordert, jedes Zeichen einer Kette zu sprechen, wobei ein sprecherunabhängiger Spracherkennungsalgorithmus zur Erkennung jedes gesprochenen Zeichens verwendet wird. Kumulative Erkennungsdifferenzen werden gespeichert, während jedes Zeichen gesprochen und mit einer möglichen Menge alphanumerischer Zeichen verglichen wird. Nachdem alle Zeichen gesprochen wurden, wird die Referenzkette mit der niedrigsten kumulativen Differenz als die erkannte Kette deklariert.
  • Kurze Darstellung der Erfindung
  • Ein Verfahren und System gemäß der Erfindung werden in den unabhängigen Ansprüchen definiert. Bevorzugte Formen werden in den abhängigen Ansprüchen definiert.
  • Diese Bedürfnisse werden durch ein Verfahren und ein System zum Verwenden von Ergänzungsdaten zur Verbesserung der Fähigkeit eines ASR-Systems, so daß das System beliebige gesprochene Wörter, wie z. B. Eigennamen, schnell und genau erkennen kann, behandelt, und es wird ein technischer Fortschritt erzielt.
  • In Fernsprechanwendungen eines ASR-Systems ist es übliche Praxis, eine Rufnummer von einem Anrufer zu erbitten. Die Rufnummer des Anrufers kann durch Sprach- oder andere bekannte Verfahren, wie z. B. Anrufer-ID oder Tonwahleingabe erhalten werden. Gemäß einem Ausführungsbeispiel des Verfahrens und Systems der vorliegenden Erfindung dient deshalb die Rufnummer des Anrufers als Index zum Abrufen von Text (d. h. des Namens des Anrufers) aus einer Datenbank. Mit diesem Text werden dann die einem ASR-System verfügbaren Auswahlmöglichkeiten begrenzt oder spezifiziert.
  • Genauer gesagt wird mit der Rufnummer des Anrufers auf eine Ergänzungsdatenbank zugegriffen, um der Rufnummer zugeordneten Text abzurufen. Bei dem obenerwähnten Ausführungsbeispiel wird den Namen des Anrufers enthaltender Text aus der Ergänzungsdatenbank abgerufen. Der Text des Namens des Anrufers umfaßt eine digitalisierte alphanumerische Darstellung des Eigennamens des Anrufers. Mit einem Text-zu-Sprache-System wird der Text des Namens des Anrufers wie in der Technik bekannt in eine Phonemtranskription transkribiert. Die Phonemtranskription des Namens wird in dem ASR-System als sprecherunabhängige Vorlage gespeichert, so daß Sprache, die der Transkription entspricht, durch das ASR-System erkannt werden kann.
  • Das Abrufen und Konvertieren von Ergänzungstextdaten in eine Phonemtranskription ermöglicht es dem ASR-System, sofort auf gesprochene Wörter zu reagieren, die der Transkription der Daten entsprechen, die in Abwesenheit eines sprecherspezifischen Trainings abgerufen werden.
  • Während Echtzeitanwendungen des obigen Ausführungsbeispiels wird ein Telefonanruf von einem Dienstanbieter empfangen, der ein ASR-System gemäß der vorliegenden Erfindung betreibt. Der Anrufer, der mit Kreditkarte eine Ware oder einen Dienst erwerben möchte, wird zur Angabe einer Rufnummer und eines Namens aufgefordert. Auf der Basis der vom Anrufer angegebenen Rufnummer wird auf eine Ergänzungsdatenbank (z. B. ein elektronisches Rufnummerverzeichnis) zugegriffen, um den Text eines der Rufnummer zugeordneten Namens abzurufen. Ein Text-zu-Sprache-System erzeugt eine Phonemtranskription des Texts des aus der Datenbank abgerufenen Namens. Die Phonemtranskription wird dann als sprecherunabhängige Vorlage zur Verwendung durch das ASR-System zum Erkennen des Namens, so wie er vom Anrufer gesprochen wird, verwendet.
  • Wenn der vom Anrufer gesprochene Name aufgrund einer ungewöhnlichen Aussprache von Namen, einer schlechten Fernsprechübertragungsqualität, aufgrund von Anrufern, deren Stimmen schwierig zu erkennen sind, usw. nicht durch das ASR-System erkannt wird, wird der Anrufer aufgefordert, eine Buchstabierung seines Namens buchstabenweise anzugeben. Das Text-zu-Sprache-System kann verwendet werden, um eine Phonemtranskription der Buchstabierung des geschriebenen Namens, so wie er aus der Datenbank abgerufen wird, zu erzeugen. Die Buchstabierung des aus der Datenbank abgerufenen Namens wird ebenfalls als sprecherunabhängige Vorlage in dem ASR-System gespeichert, so daß das System versuchen kann, die Buchstabierung des Namens des Anrufers (so wie sie durch den Anrufer gesprochen wird) zu erkennen.
  • Wenn keine Übereinstimmung der gesprochenen Äußerung des Namens des Anrufers und der Phonemtranskription (auf der Basis etablierter Spracherkennungsalgorithmen) hergestellt werden kann, wird die Verbindung zu einer Person geroutet.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist ein vereinfachtes Blockschaltbild von telefon- und benutzerinteraktiven Systemen, die einem ASR-System gemäß einem Ausführungsbeispiel der vorliegenden Erfindung zugeordnet sind;
  • 2 ist ein vereinfachtes Blockschaltbild des ASR-Systems von 1, das zur Bereitstellung von Spracherkennung und -verifikation gemäß einem Ausführungsbeispiel der vorliegenden Erfindung verwendet wird.
  • 3 ist ein Flußdiagramm eines beispielhaften Verfahrens gemäß der vorliegenden Erfindung.
  • Ausführliche Beschreibung
  • 1 zeigt zwei Systeme 100A und 100B gemäß einem Ausführungsbeispiel der vorliegenden Erfindung. Das Sprachfernsprechsystem 100A enthält eine anrufende Station 102, Telekommunikationsleitungen 103A und 103B und einen Vermittlungsdienstpunkt (SSP) 105, der sich in einem öffentlichen Fernsprechwählnetz 107 befindet. Der Klarheit halber ist ein einziger Vermittlungsdienstpunkt gezeigt, obwohl ein funktionsfähiges öffentliches Fernsprechwählnetz ein verbundenes Netzwerk von SSPs umfaßt. Die Telefonleitungsschnittstelleneinheit 108 schützt Geräte des ASR-Systems 110 vor Netzwerkfehlfunktionen, wie z. B. Stromspitzen, und digitalisiert ankommende Sprache von der anrufenden Station 102, wenn die Ursprungssprache nicht bereits digitalisiert ist, bevor sie an das System abgeliefert wird.
  • Der SSP 105 ist eine lokale digitale Vermittlung mit verteilter Steuerung, wie z. B. eine Vermittlung des Typs 5ESS®, so wie sie in AT & T Technical Journal, Band 64, Nr. 6, Juli-August 1985, Seiten 1303–1564, dem Bell Laboratories Record vom November 1981, Seite 258, und in dem Bell Laboratories Record vom Dezember 1981, Seite 290 (hergestellt von AT & T) beschrieben wird. Als Alternative kann der SSP 105 eine analoge oder digitale Vermittlung mit verteilter Steuerung sein, wie z. B. ein ISDN-Vermittlungssystem, so wie es aus dem US Patent Nr. 4,592,048, ausgegeben an M. W. Beckner et al., am 27. 5. 1986, bekannt ist. In 1 ist der SSP 105 über kundenidentifizierte Leitungen 103 mit der anrufenden Station 102 verbunden und kommuniziert außerdem über die Leitung 121B wie nachstehend beschrieben mit dem Host-Computer 124.
  • Außerdem zeigt 1 ein benutzerinteraktives System 100B mit einem Mikrophon 104 und einer Mikrophonschnittstelleneinheit 109. Das Mikrophon 104 kann sich in einem Kiosk oder in einem Geldautomaten (nicht gezeigt) befinden, das bzw. der von einem Dienstanbieter als Verbindung zwischen dem ASR-System und dem Verbraucher betrieben wird, wie in der Technik bekannt ist.
  • Ankommende Sprache wird durch das Mikrophon 104 in elektrische Signale transformiert und über die Kommunikationsstrecke 106A zu der Mikrophonschnittstelleneinheit 109 geleitet. Die Mikrophonschnittstelleneinheit 109 wandelt ankommende Sprachsignale vor der Ablieferung an das ASR-System 110 über die Kommunikationsstrecke 106B in digitale Daten um.
  • Das (in der nachstehenden 2 ausführlicher beschriebene) ASR-System 110 kommuniziert über einen Datenbus 125 mit dem Host-Computer 124. Der Host-Computer 124 enthält eine zentrale Verarbeitungseinheit (CPU) 126 zur Steuerung des Gesamtbetriebs des Computers, Direktzugriffsspeicher (RAM) 128 zur vorübergehenden Datenspeicherung, Nur-Lesespeicher (ROM) 130 für permanente Datenspeicherung und eine nichtflüchtige Datenbank 134 zum Speichern von dem Host-Computer 124 zugeordneten Steuerprogrammen. Die CPU 126 kommuniziert über Datenbusse 132 mit dem RAM 128 und dem ROM 130. Ähnlich kommuniziert die CPU 126 über den Datenbus 133 mit der nichtflüchtigen Datenbank 134. Die Eingangs-/Ausgangs-(E/A)Schnittstelle 136 ist über den Datenbus 135 mit dem Host-Computer 124 verbunden, um den Datenfluß aus dem lokalen Netzwerk (LAN) 138, das über die Datenstrecke 139 mit der E/A-Schnittstelle 136 kommuniziert, der Ergänzungsdatenbank 140, die über die Datenstrecke 141 mit der E/A-Schnittstelle 136 kommuniziert, und dem Datendienstnetzwerk 142, das über die Telekommunikationsleitung 121A, digitale Daten zu dem Host-Computer 124 sendet, dem SSP 105 und der Datenstrecke 121B zu ermöglichen, wie nachstehend beschrieben wird.
  • 2 zeigt ein vereinfachtes Blockschaltbild einer beispielhaften Ausführungsform des ASR-Systems 110 von 1. Das ASR-System 110, das entweder zu sprecherunabhängiger oder sprecherabhängiger Spracherkennung fähig ist, enthält eine CPU 202 zur Steuerung des Gesamtbetriebs des Systems. Die CPU 202 besitzt mehrere Datenbusse, die allgemein durch die Bezugszahl 203 repräsentiert werden. Außerdem ist ein Direktzugriffsspeicher (RAM) 204, ein Nur-Lesespeicher (ROM) 206, eine Sprachgeneratoreinheit 218 zum Ausgeben von Grußnachrichten und Aufforderungen für einen Anrufer und ein Text-zu-Sprache-(TTS-)System 219 (das mit der CPU 202 und der RAM 204 kommuniziert) zum Transkribieren geschriebenen Textes in eine Phonemtranskription, wie in der Technik bekannt ist, gezeigt.
  • Der RAM 204 ist durch den Bus 203 mit der CPU 202 verbunden und liefert eine vorübergehende Speicherung von Sprachdaten, wie z. B. von durch einen Anrufer an einer anrufenden Station 102 oder einer Mikrophonstation 104 gesprochenen Wörtern, von sprecherabhängigen Vorlagen 214 und sprecherunabhängigen Vorlagen 216. Der ROM 206, der ebenfalls durch den Datenbus 203 mit der CPU 202 verbunden ist, liefert eine permanente Speicherung von Spracherkennungs- und -verifikationsdaten, darunter ein Spracherkennungsalgorithmus 208 und Modelle von Phonemen 210. Bei diesem Ausführungsbeispiel wird ein auf Phonemen basierender Spracherkennungsalgorithmus 208 verwendet, obwohl viele andere nützliche Ansätze zur Spracherkennung in der Technik bekannt sind.
  • Ein Phonem ist ein technischer Begriff, der eine Einheit einer Menge kleinster Einheiten von Sprache bedeutet, die mit anderen solchen Einheiten kombiniert werden kann, um größere Sprachsegmente, z. B. Morpheme, zu bilden. Zum Beispiel können die phonetischen Segmente des gesprochenen Worts „Operator" durch eine Kombination von Phonemen repräsentiert werden, wie z. B. „aa", „p", „axr", „ey", „dx" und „axr". Modelle von Phonemen 210 werden durch Verwendung von Spracherkennungsklassendaten zusammengestellt, die aus den Äußerungen einer Probe von Sprechern in einem vorherigen Offline-Prozeß abgeleitet werden. Während des Prozesses werden Wörter, die gewählt werden, um so alle Phoneme der Sprache zu repräsentieren, von einer großen Anzahl von Trainingssprechern (z. B. 1000) gesprochen. Die Äußerungen werden durch eine trainierte Person verarbeitet, die einen geschriebenen Text des Inhalts der Äußerungen erzeugt.
  • Der geschriebene Text des Worts wird dann durch eine Text-zu-Sprache-Einheit, wie z. B. das TTS-System 219, empfangen, so daß sie eine Phonemtranskription des geschriebenen Texts unter Verwendung von Regeln der Text-zu-Sprache-Umsetzung erzeugen kann, wie in der Technik bekannt ist. Die Phonemtranskription des geschriebenen Texts wird dann mit den Phonemen verglichen, die aus dem Betrieb des Spracherkennungsalgorithmus 208 abgeleitet werden, der die Äußerungen mit den Modellen von Phonemen 210 vergleicht. Die Modelle der Phoneme 210 werden während dieses Prozesses des „Modelltrainings" eingestellt, bis eine angemessene Übereinstimmung zwischen dem aus der Text-zu-Sprache-Transkription der Äußerung abgeleitetem Phonem und den durch den Spracherkennungsalgorithmus 208 erkannten Phonemen erhalten wird, wobei in der Technik bekannte Einstelltechniken verwendet werden.
  • Während des Erkennungsprozesses werden Modelle der Phoneme 210 in Verbindung mit dem Spracherkennungsalgorithmus 208 verwendet. Genauer gesagt vergleicht der Spracherkennungsalgorithmus 208 ein gesprochenes Wort mit etablierten Phonemmodellen. Wenn der Spracherkennungsalgorithmus bestimmt, daß eine Übereinstimmung besteht (d. h. wenn die gesprochene Äußerung gemäß vordefinierten Parametern statistisch mit den Phonemmodellen übereinstimmt), wird eine Liste von Phonemen erzeugt.
  • Da die Modelle der Phoneme 210 eine Verteilung von charakteristischen Eigenschaften eines gesprochenen Worts über eine große Sprecherpopulation hinweg repräsentieren, können die Modelle für einen allgegenwärtigen Zugriff auf ein ASR-System verwendet werden, das dieselbe durch die Trainingssprecher repräsentierte Sprecherpopulation versorgt (d. h. amerikanische Ureinwohner, spanisch sprechende Populationen usw.).
  • Die sprecherunabhängige Vorlage 216 ist eine Liste von Phonemen, die eine erwartete Äußerung oder Phase repräsentieren. Eine sprecherunabhängige Vorlage 216 wird erzeugt, indem geschriebener Text durch das TTS-System 219 verarbeitet wird, um eine Liste von Phonemen zu erzeugen, die die erwarteten Aussprachen des geschriebenen Worts bzw. der geschriebenen Phrase exemplifizieren. Im allgemeinen werden mehrere Vorlagen in dem RAM 204 gespeichert, damit sie dem Spracherkennungsalgorithmus 208 verfügbar sind. Die Aufgabe des Algorithmus 208 besteht darin, auszuwählen, welche Vorlage am besten mit den Phonemen in einer gesprochenen Äußerung übereinstimmt.
  • Sprecherabhängige Vorlagen 214 werden erzeugt, indem ein Sprecher eine Äußerung eines Worts oder einer Phrase gibt und indem die Äußerung durch Verwendung des Spracherkennungsalgorithmus 208 und der Modelle von Phonemen 210 verarbeitet wird, um eine Liste von Phonemen zu erzeugen, die die durch den Algorithmus erkannten Phoneme umfassen. Diese Liste von Phonemen ist die sprecherabhängige Vorlage 214 für diese bestimmte Äußerung.
  • Während Echtzeitspracherkennungsoperationen wird eine Äußerung durch den Spracherkennungsalgorithmus 208 unter Verwendung von Modellen der Phoneme 210 dergestalt verarbeitet, daß eine Liste von Phonemen erzeugt wird. Diese Liste von Phonemen wird mit der durch die sprecherunabhängigen Vorlagen 216 und die sprecherabhängigen Vorlagen 214 bereitgestellten Liste verglichen, wobei in der Technik bekannte Techniken verwendet werden. Der Spracherkennungsalgorithmus 208 meldet Ergebnisse des Vergleichs.
  • 3 ist ein Flußdiagramm der Aktionen, die in dem ASR-System 110 unternommen werden, wenn das System in einem sprecherunabhängigen Modus betrieben wird (ein Ausführungsbeispiel des Verfahrens der vorliegenden Erfindung).
  • Als ein Beispiel für eine kommerzielle Anwendung der vorliegenden Erfindung nehme man an, daß ein Kunde von einem privaten Fernsprecher (anrufende Station 102) aus anruft und per Kreditkarte einen Dienst kaufen will, der von einem Dienstanbieter angeboten wird, der das ASR-System 110 und den Host-Computer 124 verwendet. In diesem Beispiel hat der Kunde den Dienst noch nie gekauft, so daß das ASR-System 110 nicht darauf trainiert ist, die bestimmten Sprachmuster des Kunden zu erkennen (d. h. es sind keine sprecherabhängigen Vorlagen 214 für diesen Kunden eingerichtet). Damit die Kreditkartentransaktion authorisiert werden kann, muß das ASR-System 110 jedoch den Namen des Kunden empfangen und erkennen.
  • Das Beispiel beginnt, wenn das ASR-System 110 im Schritt 300 eine vom Kunden eingeleitete ankommende Verbindung empfängt, die über die Telekommunikationsleitung 103A, 103B und den SSP 105 des öffentlichen Fernsprechwählnetzes 107 geroutet wird.
  • Alternativ dazu könnte der Kunde eine Dienstbestellung von einem Kiosk aus tätigen, in dem ein benutzerinteraktives System mit einer Mikrophonstation 104 untergebracht ist. Wenn dies der Fall ist, wird eine ankommende „Verbindung" von dem ASR-System 110 empfangen, wenn eine Kundeneingabe (z. B. Sprache) an der Mikrophonstation 104 erkannt und über die Kommunikationsstrecke 106B an das System abgeliefert wird.
  • Sowohl in dem Telefonsystem als auch in dem benutzerinteraktiven System wird die ankommende Verbindung durch eine Schnittstelleneinheit verarbeitet (d. h. eine Fernsprechanschlußschnittstelleneinheit 108 bzw. eine Mikrophonschnittstelleneinheit 109), um sicherzu stellen, daß alle in dem ASR-System 110 empfangene Eingaben in einem gemeinsamen digitalen Format vorliegen.
  • Wie in Schritt 302 gezeigt, gibt die Sprachgeneratoreinheit 218 des ASR-Systems 110 eine Begrüßung aus und fordert den Kunden zur Eingabe zum Beispiel eines vorbestimmten Index (d. h. einer privaten Rufnummer), eines dem Index zugeordneten Namens und möglicherweise einer Buchstabierung des Namens auf. Als Alternative könnte das System das Auffordern des Anrufers zur Eingabe einer Buchstabierung des Namens zurückstellen, bis dies in dem Prozeß benötigt wird, wie nachstehend beschrieben wird.
  • Der Prozeß wird mit dem Bestimmungsschritt 304 fortgesetzt, in dem bestimmt wird, ob die angeforderte Eingabe empfangen wurde. Wenn das Ergebnis von Schritt 304 eine „NEIN"-Entscheidung ist, wird der Prozeß mit dem Schritt 306 fortgesetzt, in dem die Verbindung zu einer Vermittlungsperson geroutet wird, und der Prozeß endet in dem Endeschritt 308.
  • Wenn das Ergebnis im Schritt 304 eine „JA"-Entscheidung ist, wird der Prozeß im Schritt 318 fortgesetzt, in dem die Äußerung des Index, Namens und der Buchstabierung des Namens durch den Kunden in dem RAM 204 des ASR-Systems 110 gespeichert wird. In dem obigen Beispiel hat der Kunde den Index durch Sprechen angegeben. Wenn der Index die private Rufnummer des Kunden ist, kann er durch andere bekannte Techniken, wie z. B. Anrufer-ID oder Tonwahleingabe abgerufen werden.
  • Der Prozeß wird im Schritt 310 fortgesetzt, in dem versucht wird, den Index des Anrufers durch Verwendung des Spracherkennungsalgorithmus 208 und der Modellphoneme (für Ziffern) 210 zu erkennen. Mit dem Index werden wie nachstehend beschrieben Informationen aus einer Ergänzungsdatenbank abgerufen. Wenn Unbestimmtheit über bestimmte Ziffern des Index besteht, kann das System so programmiert sein, daß es mehrere Möglichkeiten erkennt. Im Bestimmungsschritt 314 wird bestimmt, ob der Index des Kunden in dem vorherigen Schritt erkannt wurde. Wenn das Ergebnis des Bestimmungsschritts eine „NEIN"-Entscheidung ist, wird der Prozeß im Schritt 306 fortgesetzt, in dem die Verbindung zu einer Vermittlungsperson geroutet wird, und der Prozeß endet in dem Endeschritt 308.
  • Wenn das Ergebnis in dem Bestimmungsschritt 314 eine „JA"-Entscheidung ist, wird der Prozeß in Schritt 316 fortgesetzt, in dem die CPU 202 des ASR-Systems 110 ergänzende Daten von dem Host-Computer 124 anfordert. In dem obigen Beispiel sind die gewünschten ergänzenden Daten eine digital gespeicherte Darstellung des Namens des Kunden (z. B. der Name, der der von dem Kunden empfangenen privaten Rufnummer zugeordnet ist), wie z. B. im ASCII-Textformat.
  • Wenn die Anforderung von ergänzenden Daten in der CPU 126 des Host-Computers 124 empfangen wird, bestimmt die CPU 126, auf welche Ergänzungsdatenbank zugegriffen werden muß, indem sie den Index (z. B. die vom Kunden angegebene Rufnummer) zum Abrufen einer digitalen Repräsentation (z. B. ASCII-Textformat) des Namens des Kunden verwendet. Die CPU 126 führt die Bestimmung auf der Basis von aus der nichtflüchtigen Datenbank 134 empfangenen Anweisungen durch.
  • Wenn der Dienstanbieter z. B. eine große Einrichtung ist, kann er eine Hilfsdatenbank 140, wie z. B. eine CD-ROM-Datenbank, führen, die über die Datenstrecke 141 und die E/A-Schnittstelle 136 mit dem Host-Computer 124 kommuniziert. Die Datenbank 140 könnte umfassende Kundeninformationen enthalten, wie z. B. Adressen und Namen, Kreditkarten-Kontennummern und nach Rufnummer indizierte bisherige Käufe, enthalten. Wenn der Dienstanbieter eine kleine Einrichtung mit einer sich schnell ändernden Kundenbasis ist, kann jedoch auch eine begrenzte Ergänzungsdatenbank in dem Host-Computer 124 (z. B. in dem RAM 128) gespeichert werden.
  • Als Alternative können bestimmte Dienstanbieter ein Computernetzwerk (z. B. ein LAN 138) führen, aus dem über die Datenstrecke 139 und die E/A-Schnittstelle 136 ergänzende Daten zu dem Host-Computer 124 heruntergeladen werden können.
  • In dem obigen Beispiel nehme man an, daß der Dienstanbieter einen von dem Telekommunikationsnetz, das das öffentliche Fernsprechwesennetz 107 betreibt, angebotenen Datendienst bestellt hat. Der Datendienst 142 enthält eine Datenbank, in der er ein elektronisches Telefonbuch speichert, das die Rufnummer und die entsprechenden Kundennamen aller häuslichen Fernsprecher in den Vereinigten Staaten enthält. In dem obigen Beispiel sendet der Datendienst 142 digitale Informationsdatenpakete (z. B. einen Text des Namens eines Kunden) über die Telekommunikationsleitung 121A zu dem SSP 105. Der SSP 105 liefert die digitalen Informationen über die Telekommunikationsleitung 121B zu der E/A-Schnittstelle 136 an den Host-Computer 124 ab, so daß ein Text des Kundennamens von dem Host-Computer 124 abgerufen und in dem RAM 128 gespeichert werden kann. Wenn mehrere Name abgerufen werden (aufgrund mehrerer Möglichkeiten von privaten Rufnummern oder wenn der Rufnummer mehrere Namen zugeordnet sind), werden dem Host-Computer alle möglichen Namen angegeben.
  • Der Prozeß wird im Schritt 318 fortgesetzt, in dem als Reaktion auf eine aus der CPU 202 empfangenen Anforderung der Text bzw. die Texte des aus der Ergänzungsdatenbank abgerufenen Namens aus dem RAM 128 abgerufen und durch das TTS-System 219 verarbeitet werden, so daß eine Phonemtranskription eines Texts erzeugt und als sprecherunabhängige Vorlage in dem RAM 204 gespeichert wird. Wie im Schritt 320 gezeigt, wird die Erkennung des Namens des Anrufers, so wie er vom Anrufer gesprochen (und im RAM 204 gespeichert) wird, unter Verwendung des Sprachalgorithmus 208, der Modelle von Phonemen 210 und der sprecherunabhängigen Vorlage bzw. der sprecherunabhängigen Vorlagen, die im Schritt 318 erzeugt wurden, versucht.
  • In dem Bestimmungsschritt 322 wird bestimmt, ob im Schritt 320 eine Erkennung stattgefunden hat. Wenn das Ergebnis von 322 eine „JA"-Entscheidung ist, wird der Prozeß im Schritt 324 fortgesetzt, in dem die Transaktion authorisiert wird, und der Prozeß endet im Schritt 326. Wenn das Ergebnis von 322 eine „NEIN"-Entscheidung ist, wird der Prozeß im Schritt 328 fortgesetzt, in dem eine Phonemtranskription der Buchstabierung des abgerufenen Namens des Kundens (so wie er von der Datenbank abgerufen wird) durch das TTS-System erzeugt und als zweite sprecherunabhängige Vorlage gespeichert wird. Im Schritt 330 wird eine Erkennung der Buchstabierung des Namens des Kunden, so wie er von dem Kunden gesprochen wird, unter Verwendung des Spracherkennungsalgorithmus 208, der Modelle von Phonemen 210 und der im Schritt 328 erzeugten zweiten sprecherunabhängigen Vorlage versucht. Der Prozeß wird mit dem Bestimmungsschritt 332 fortgesetzt, in dem bestimmt wird, ob die Buchstabierung des Namens des Anrufers erkannt wurde. Wenn im Schritt 332 eine „NEIN"-Entscheidung getroffen wurde, geht der Prozeß zum Schritt 306, in dem die Verbindung zu einer Vermittlungsperson geroutet wird, und der Prozeß endet im Schritt 308. Wenn im Schritt 332 eine „JA"-Entscheidung getroffen wird, wird der Prozeß mit Schritt 324 fortgesetzt, in dem die Transaktion authorisiert wird, und der Prozeß endet im Schritt 326.
  • Das obige Beispiel zeigt Echtzeitinteraktionen zwischen einem Kunden, der ein Telefon oder ein benutzer interaktives System verwendet, einem ASR-System 110, einem Host-Computer 124 und einer Ergänzungsdatenbank. Es kann jedoch andere Ausführungsformen geben, in denen das LAN 138 auf das ASR-System 110 zugreift, oder Ausführungsformen, bei denen Kundennamen über einen Zeitraum hinweg aufgezeichnet und in einer Datenbank gespeichert werden und das ASR-System 110 und der Host-Computer 124 periodisch auf den durch die Datenbank 142 bereitgestellten Datendienst zugreifen.
  • Das Verfahren und System der vorliegenden Erfindung erzielen insofern Vorteile gegenüber dem Stand der Technik als ein ASR-System beliebige gesprochene Wörter ohne sprecherspezifisches Training erkennen kann. Es versteht sich, daß die oben beschriebenen Ausführungsformen lediglich zur Veranschaulichung dienen und daß zahlreiche andere Anordnungen von Fachleuten konzipiert werden können, ohne vom Schutzumfang der Erfindung abzuweichen, der durch die folgenden Ansprüche definiert wird.

Claims (10)

  1. Verfahren zur Ausführung in einem ASR-System (110) zur automatischen Spracherkennung mit einer ersten Datenbank (204, 206), die Wortmodelle und Korrelationsdaten, auf denen Worterkennungsentscheidungen zumindest teilweise basieren, speichert, wobei das Verfahren in einer zweiten Ergänzungsdatenbank (128, 140) gespeicherte Informationen verwendet, um die Fähigkeiten des ASR-Systems zu erweitern, mit den folgenden Schritten: Empfangen (304) einer Eingabe von einem Benutzer, wobei die Eingabe einen ersten und einen zweiten Teil aufweist; Speichern (310) der vom Benutzer erhaltenen Eingabe in dem ASR-System; wobei das ASR-System den ersten Teil der von dem Benutzer abgerufenen Eingabe erkennt (312); Identifizieren und Abrufen (318) von in der Ergänzungsdatenbank gespeicherten Ergänzungsinformationen bezüglich des ersten Teils der Eingabe; Erzeugen einer aus den aus der Ergänzungsdatenbank abgerufenen Informationen abgeleiteten Vorlage (320); und Verwenden der Vorlage (322) zum Erkennen des zweiten Teils der vom Benutzer gesprochenen Eingabe.
  2. Verfahren nach Anspruch 1, wobei der Schritt des Empfangens einer Eingabe von einem Benutzer den Schritt des Empfangens einer gesprochenen Nummer und eines gesprochenen Namens entsprechend dem ersten bzw. dem zweiten Teil der Eingabe umfaßt.
  3. Verfahren nach Anspruch 2, wobei der Schritt des Verwendens der Vorlage zum Erkennen des zweiten Teils den Schritt des Verwendens eines Spracherkennungsalgorithmus zum Erkennen des gesprochenen Namens umfaßt.
  4. Verfahren nach Anspruch 1, wobei der Schritt des Erzeugens einer Vorlage den folgenden Schritt umfaßt: Verwenden eines Text-zu-Sprache-Systems (219) zum Erzeugen einer Phonemtranskription des zweiten Teils der Eingabe.
  5. Verfahren nach Anspruch 1, wobei der Schritt des Empfangens einer Eingabe von einem Benutzer den Schritt des Empfangens eines Index und einer gesprochenen Äußerung (310) entsprechend dem ersten bzw. dem zweiten Teil der Eingabe umfaßt.
  6. ASR-System zur automatischen Spracherkennung (110) zur Verwendung in Verbindung mit einem Fernsprechnetz (100A), wobei das ASR-System folgendes umfaßt: eine anrufende Station (102), die von einem Vermittlungsdienstpunkt (105) versorgt wird; Mittel (103B, 106B) zum Empfangen einer Eingabe; eine Fernsprechanschlußschnittstelleneinheit (108) zum Abliefern der aus der anrufenden Station empfangenen Eingabe an einen Direktzugriffsspeicher (128) eines Host-Computers (124); eine zentrale Verarbeitungseinheit (126) in dem Host-Computer zum Abrufen von Ergänzungsinformationen aus einer Ergänzungsdatenbank (128, 140); ein Text-zu-Sprache-Mittel (219) zum Erzeugen einer Phonemtranskription der aus der Ergänzungsdatenbank empfangenen Ergänzungsinformationen; und ein Spracherkennungsmittel (110) zum Erkennen einer den Ergänzungsinformationen zugeordneten Äußerung.
  7. ASR-System nach Anspruch 6, wobei die Ergänzungsdatenbank eine von einem Datendienstanbieter geführte Datenbank (140) ist.
  8. ASR-System nach Anspruch 6, wobei die Phonemtranskription als eine sprecherunabhängige Vorlage verwendet wird.
  9. ASR-System nach Anspruch 6, wobei das Mittel zum Empfangen einer Eingabe ein Anrufer-ID-Dienst oder ein Tonwahleingabemittel ist.
  10. ASR-System nach Anspruch 6, wobei das Spracherkennungsmittel einen Algorithmus zum Vergleichen von Modellphonemen mit gesprochenen Äußerungen umfaßt.
DE69633883T 1995-03-30 1996-03-20 Verfahren zur automatischen Spracherkennung von willkürlichen gesprochenen Worten Expired - Lifetime DE69633883T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US413330 1989-09-27
US08/413,330 US5724481A (en) 1995-03-30 1995-03-30 Method for automatic speech recognition of arbitrary spoken words

Publications (2)

Publication Number Publication Date
DE69633883D1 DE69633883D1 (de) 2004-12-30
DE69633883T2 true DE69633883T2 (de) 2005-11-17

Family

ID=23636825

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69633883T Expired - Lifetime DE69633883T2 (de) 1995-03-30 1996-03-20 Verfahren zur automatischen Spracherkennung von willkürlichen gesprochenen Worten

Country Status (5)

Country Link
US (1) US5724481A (de)
EP (1) EP0735736B1 (de)
JP (1) JP3561076B2 (de)
DE (1) DE69633883T2 (de)
ES (1) ES2233954T3 (de)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822727A (en) 1995-03-30 1998-10-13 At&T Corp Method for automatic speech recognition in telephony
JPH10105368A (ja) * 1996-07-12 1998-04-24 Senshu Ginkou:Kk 音声による処理依頼受付装置及び方法
WO1998035491A1 (en) * 1997-02-05 1998-08-13 British Telecommunications Public Limited Company Voice-data interface
GR1003372B (el) * 1997-09-23 2000-05-04 Συσκευη καταχωρησης ψηφιοποιημενων φωνητικων πληροφοριων και ανακτησης τους μεσω τηλεφωνου με αναγνωριση φωνης
US6404876B1 (en) 1997-09-25 2002-06-11 Gte Intelligent Network Services Incorporated System and method for voice activated dialing and routing under open access network control
WO1999018566A2 (en) * 1997-10-07 1999-04-15 Koninklijke Philips Electronics N.V. A method and device for activating a voice-controlled function in a multi-station network through using both speaker-dependent and speaker-independent speech recognition
US6058364A (en) * 1997-11-20 2000-05-02 At&T Corp. Speech recognition of customer identifiers using adjusted probabilities based on customer attribute parameters
EP0942575A3 (de) * 1998-03-12 2001-11-14 Novcom N.V. Adaptives Fernsprechbeantwortungssystem
US6278771B1 (en) * 1998-03-19 2001-08-21 Ameritech Corporation Method and system for providing enhanced call waiting with verification and name change service
US8855998B2 (en) 1998-03-25 2014-10-07 International Business Machines Corporation Parsing culturally diverse names
US8812300B2 (en) 1998-03-25 2014-08-19 International Business Machines Corporation Identifying related names
US6963871B1 (en) 1998-03-25 2005-11-08 Language Analysis Systems, Inc. System and method for adaptive multi-cultural searching and matching of personal names
US6798868B1 (en) * 1998-11-02 2004-09-28 Verizon Services Corp. Call notification service for use with call waiting
FR2786600B1 (fr) * 1998-11-16 2001-04-20 France Telecom Procede de recherche par le contenu de documents textuels utilisant la reconnaissance vocale
US7263489B2 (en) * 1998-12-01 2007-08-28 Nuance Communications, Inc. Detection of characteristics of human-machine interactions for dialog customization and analysis
US6691089B1 (en) * 1999-09-30 2004-02-10 Mindspeed Technologies Inc. User configurable levels of security for a speaker verification system
US20030191625A1 (en) * 1999-11-05 2003-10-09 Gorin Allen Louis Method and system for creating a named entity language model
US7286984B1 (en) * 1999-11-05 2007-10-23 At&T Corp. Method and system for automatically detecting morphemes in a task classification system using lattices
US8392188B1 (en) 1999-11-05 2013-03-05 At&T Intellectual Property Ii, L.P. Method and system for building a phonotactic model for domain independent speech recognition
US6513003B1 (en) 2000-02-03 2003-01-28 Fair Disclosure Financial Network, Inc. System and method for integrated delivery of media and synchronized transcription
US6690772B1 (en) * 2000-02-07 2004-02-10 Verizon Services Corp. Voice dialing using speech models generated from text and/or speech
US6473734B1 (en) * 2000-03-27 2002-10-29 Motorola, Inc. Methodology for the use of verbal proxies for dynamic vocabulary additions in speech interfaces
US8290768B1 (en) 2000-06-21 2012-10-16 International Business Machines Corporation System and method for determining a set of attributes based on content of communications
US9699129B1 (en) 2000-06-21 2017-07-04 International Business Machines Corporation System and method for increasing email productivity
US6408277B1 (en) 2000-06-21 2002-06-18 Banter Limited System and method for automatic task prioritization
US6873686B1 (en) 2000-08-09 2005-03-29 Bellsouth Intellectual Property Corporation Network and method for providing a calling name telecommunications service with automatic speech recognition capability
US6907111B1 (en) 2000-08-09 2005-06-14 Bellsouth Intellectual Property Corporation Network and method for providing a name and number delivery telecommunications services with automatic speech recognition capability
US6505163B1 (en) * 2000-08-09 2003-01-07 Bellsouth Intellectual Property Corporation Network and method for providing an automatic recall telecommunications service with automatic speech recognition capability
US6778640B1 (en) * 2000-08-09 2004-08-17 Bellsouth Intellectual Property Corporation Network and method for providing a user interface for a simultaneous ring telecommunications service with automatic speech recognition capability
US6826529B1 (en) 2000-08-09 2004-11-30 Bellsouth Intellectual Property Corporation Network and method for providing a call screening telecommunications service with automatic speech recognition capability
US8041023B1 (en) 2000-09-29 2011-10-18 Aspect Software, Inc. System and method of using a phone to access information in a call center
US7644057B2 (en) * 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
US7127397B2 (en) * 2001-05-31 2006-10-24 Qwest Communications International Inc. Method of training a computer system via human voice input
US20040002850A1 (en) * 2002-03-14 2004-01-01 Shaefer Leonard Arthur System and method for formulating reasonable spelling variations of a proper name
US7389230B1 (en) 2003-04-22 2008-06-17 International Business Machines Corporation System and method for classification of voice signals
US8495002B2 (en) * 2003-05-06 2013-07-23 International Business Machines Corporation Software tool for training and testing a knowledge base
US20050187913A1 (en) 2003-05-06 2005-08-25 Yoram Nelken Web-based customer service interface
US7073203B2 (en) * 2003-08-08 2006-07-11 Simms Fishing Products Corporation Foot-covering component of a stocking foot wader including gravel guard and method for manufacturing
US20050065789A1 (en) * 2003-09-23 2005-03-24 Sherif Yacoub System and method with automated speech recognition engines
US7440895B1 (en) 2003-12-01 2008-10-21 Lumenvox, Llc. System and method for tuning and testing in a speech recognition system
US20070005586A1 (en) * 2004-03-30 2007-01-04 Shaefer Leonard A Jr Parsing culturally diverse names
DE602004024172D1 (de) * 2004-05-21 2009-12-31 Harman Becker Automotive Sys Automatische Erzeugung einer Wortaussprache für die Spracherkennung
US7099445B2 (en) * 2004-06-22 2006-08-29 International Business Machines Corporation Name-alias based delivery of subscriber services
US8923838B1 (en) 2004-08-19 2014-12-30 Nuance Communications, Inc. System, method and computer program product for activating a cellular phone account
US7533018B2 (en) * 2004-10-19 2009-05-12 Motorola, Inc. Tailored speaker-independent voice recognition system
WO2008066981A2 (en) * 2006-08-21 2008-06-05 Western Slope Utilities, Inc. Systems and methods for pipeline rehabilitation installation
ATE405088T1 (de) 2006-08-30 2008-08-15 Research In Motion Ltd Verfahren, computerprogramm und vorrichtung zur eindeutigen identifizierung von einem kontakt in einer kontaktdatenbank durch eine einzige sprachäusserung
US9386154B2 (en) * 2007-12-21 2016-07-05 Nuance Communications, Inc. System, method and software program for enabling communications between customer service agents and users of communication devices
US8484034B2 (en) * 2008-03-31 2013-07-09 Avaya Inc. Arrangement for creating and using a phonetic-alphabet representation of a name of a party to a call
US8391464B1 (en) 2010-06-24 2013-03-05 Nuance Communications, Inc. Customer service system, method, and software program product for responding to queries using natural language understanding
US9118669B2 (en) 2010-09-30 2015-08-25 Alcatel Lucent Method and apparatus for voice signature authentication
CN102479508B (zh) * 2010-11-30 2015-02-11 国际商业机器公司 用于将文本转换成语音的方法和系统
US9058586B2 (en) 2011-07-29 2015-06-16 International Business Machines Corporation Identification of a person located proximite to a contact identified in an electronic communication client
JP5818271B2 (ja) * 2013-03-14 2015-11-18 Necフィールディング株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8809898D0 (en) * 1988-04-27 1988-06-02 British Telecomm Voice-operated service
US5127043A (en) * 1990-05-15 1992-06-30 Vcs Industries, Inc. Simultaneous speaker-independent voice recognition and verification over a telephone network
US5303299A (en) * 1990-05-15 1994-04-12 Vcs Industries, Inc. Method for continuous recognition of alphanumeric strings spoken over a telephone network
US5125022A (en) * 1990-05-15 1992-06-23 Vcs Industries, Inc. Method for recognizing alphanumeric strings spoken over a telephone network
US5165095A (en) * 1990-09-28 1992-11-17 Texas Instruments Incorporated Voice telephone dialing
US5212730A (en) * 1991-07-01 1993-05-18 Texas Instruments Incorporated Voice recognition of proper names using text-derived recognition models
CA2088080C (en) * 1992-04-02 1997-10-07 Enrico Luigi Bocchieri Automatic speech recognizer
US5297183A (en) * 1992-04-13 1994-03-22 Vcs Industries, Inc. Speech recognition system for electronic switches in a cellular telephone or personal communication network
US5479489A (en) * 1994-11-28 1995-12-26 At&T Corp. Voice telephone dialing architecture

Also Published As

Publication number Publication date
JP3561076B2 (ja) 2004-09-02
EP0735736A3 (de) 1998-10-07
EP0735736A2 (de) 1996-10-02
ES2233954T3 (es) 2005-06-16
EP0735736B1 (de) 2004-11-24
JPH08320696A (ja) 1996-12-03
DE69633883D1 (de) 2004-12-30
US5724481A (en) 1998-03-03

Similar Documents

Publication Publication Date Title
DE69633883T2 (de) Verfahren zur automatischen Spracherkennung von willkürlichen gesprochenen Worten
DE69839068T2 (de) System und Verfahren zur automatischen Verarbeitung von Anruf und Datenübertragung
CN111246027B (zh) 一种实现人机协同的语音通讯系统及方法
DE60305458T2 (de) System und verfahren zur bereitstellung einer nachrichtengestützten kommunikationsinfrastruktur für einen automatisierten anrufzentralenbetrieb
DE69635015T2 (de) Automatische vokabularerzeugung für auf einem telekommunikationsnetzwerk basierte sprachgesteuerte wahl
DE69922872T2 (de) Automatischer Hotelportier mit Spracherkennung
DE69934275T2 (de) Gerät und Verfahren um die Benutzerschnittstelle der integrierten Sprachantwortsystemen zu verbessern
EP0780829B1 (de) Verfahren zur automatischen Spracherkennung für die Telefonie
DE69333645T2 (de) Sprachgesteuertes Kommunikationssystem mit gemeinsamen Teilnehmeridentifizierern
US7275032B2 (en) Telephone call handling center where operators utilize synthesized voices generated or modified to exhibit or omit prescribed speech characteristics
DE69824508T2 (de) Fernsprechbasiertes Anweisungssystem
DE60118844T2 (de) Sprachfilter zur Ersetzung von erkannten Worten einer Sprachmitteilung
AU704831B2 (en) Method for reducing database requirements for speech recognition systems
US8213579B2 (en) Method for interjecting comments to improve information presentation in spoken user interfaces
DE69733740T2 (de) Statistische Datenbank-Korrektur von alphanumerischen Kontennummern unter Verwendung von Spracherkennung
EP1241600A1 (de) Verfahren und Kommunikationssystem zur Generierung von Antwortmeldungen
DE60018349T2 (de) Erzeugung von einem Namenwörterbuch aus aufgezeichneten telephonischen Grüssen für die Spracherkennung
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE19751123C1 (de) Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen
EP1249016B1 (de) Verfahren zur sprachgesteuerten identifizierung des nutzers eines telekommunikationsanschlusses im telekommunikationsnetz beim dialog mit einem sprachgesteuerten dialogsystem
CA2149012C (en) Voice activated telephone set
WO2001067435A9 (de) Verfahren zum sprachgesteuerten initiieren von in einem gerät ausführbaren aktionen durch einen begrenzten benutzerkreis
DE69910412T2 (de) Sprachgesteuerte navigation für einen elektronischen post leser
DE19514849A1 (de) Verfahren zur Fernsteuerung und Vorrichtung dafür
Hirschberg et al. Voice response systems: Technologies and applications

Legal Events

Date Code Title Description
8364 No opposition during term of opposition