DE69329855T2 - Methode zur erkennung alphanumerischer zeichenketten, die über ein telefonnetz gesprochen werden - Google Patents

Methode zur erkennung alphanumerischer zeichenketten, die über ein telefonnetz gesprochen werden

Info

Publication number
DE69329855T2
DE69329855T2 DE69329855T DE69329855T DE69329855T2 DE 69329855 T2 DE69329855 T2 DE 69329855T2 DE 69329855 T DE69329855 T DE 69329855T DE 69329855 T DE69329855 T DE 69329855T DE 69329855 T2 DE69329855 T2 DE 69329855T2
Authority
DE
Germany
Prior art keywords
string
spoken
characters
character
caller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69329855T
Other languages
English (en)
Other versions
DE69329855D1 (de
Inventor
K. Hunt
B. Schalk
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
VCS Industries Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VCS Industries Inc filed Critical VCS Industries Inc
Application granted granted Critical
Publication of DE69329855D1 publication Critical patent/DE69329855D1/de
Publication of DE69329855T2 publication Critical patent/DE69329855T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/30Individual registration on entry or exit not involving the use of a pass
    • G07C9/32Individual registration on entry or exit not involving the use of a pass in combination with an identity check
    • G07C9/37Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/38Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections
    • H04M3/382Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Facsimile Transmission Control (AREA)
  • Interface Circuits In Exchanges (AREA)
  • Exchange Systems With Centralized Control (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
  • Facsimiles In General (AREA)

Description

  • Diese Anmeldung hängt mit dem US-Patent Nr. 5.127.043 zusammen.
  • Die vorliegende Erfindung betrifft allgemein Spracherkennungstechniken und insbesondere ein Spracherkennungs/Sprecherverifikationsverfahren und -system, um es einem Anrufer zu ermöglichen, Zugriff auf einen oder mehrere Dienste über ein Fernsprechnetz zu erhalten.
  • Sprecherverifikation ist der Prozess der Verifikation einer von einer Person behaupteten Identität durch Analyse eines Musters der Stimme dieser Person. Diese Art der Sicherheit beruht auf der Annahme, dass jede Person eindeutig durch ihre Stimme identifiziert werden kann. Das von einer Verifikationstechnik erreichte Maß an Sicherheit hängt davon ab, wie gut der Verifikationsalgorithmus die Stimme eines autorisierten Benutzers von allen nicht autorisierten Benutzern unterscheidet. In US-A-4910782 wird ein Sprecherverifikationssystem beschrieben, in dem die Anruferverifikation auf einem Passwort als Eingangsmuster beruht, das ein Wort umfasst.
  • Es wäre wünschenswert, Sprecherverifikationskonzepte zu verwenden, um die Identität eines Telefonanrufers zu verifizieren. Solche Konzepte sind jedoch nicht erfolgreich implementiert worden. Insbesondere hat es sich als schwierig erwiesen, über ein Fernsprechnetz kostengünstige und genaue Sprecherverifikation zu verschaffen. Im Allgemeinen liegt dies daran, dass das Fernsprechnetz eine herausfordernde Umgebung ist, die die Sprachqualität durch Einbringen verschiedener Arten von Rauschen und Bandbegrenzungen verschlechtert. Die Schwierigkeit beim Verschaffen von auf dem Telefon basierender Sprecherverifikation wird weiterhin durch die Tatsache verstärkt, dass viele Arten Mikrofone in herkömmlichen Ferusprechrufstationen verwendet werden. Diese Mikrofone enthalten Kohlekontakthörer, Elektrethörer und Elektretsprechmuscheln. Jede dieser Einrichtungen besitzt einzigartige Eigenschaften, die den Klang einer Stimme einer Person über das Fernsprechnetz beeinflussen.
  • Angesichts der inhärenten Beschränkungen nach dem Stand der Technik sowie des dürftigen Frequenzverhaltens des Fernsprechnetzes war es nicht möglich, ein Sprachererkennungs- und Sprecherverifikationssystem in ein Fernsprechnetz zu integrieren.
  • Der Erfindung liegt als Aufgabe zugrunde, über ein Fernsprechnetz gesprochene alphanumerische Zeichenfolgen zu erkennen.
  • Der Erfindung liegt weiterhin als Aufgabe zugrunde, ein Verfahren zur Erkennung alphanumerischer Zeichenfolgen zu beschreiben, bei dem Erkennung auf Basis einer Gesamtheit alphanumerischer Zeichen gegenüber individueller Zeichenerkennung erfolgt.
  • Eine weitere Aufgabe der Erfindung ist somit, ein Verfahren zur Erkennung alphanumerischer Zeichenfolgen zu beschreiben, das keine hohe Erkennungsgenauigkeit für einzelne Zeichen erfordert, um Erkennung einer gesprochenen alphanumerischen Zeichenfolge zu erhalten.
  • Der Erfindung liegt auch als Aufgabe zugrunde, ein Verfahren und ein System zur Spracherkennung und Sprecherverifikation über ein Fernsprechnetz zu verschaffen.
  • Noch eine weitere Aufgabe der Erfindung ist, simultane sprecherunabhängige Spracherkennung und Sprecherverifikation zu verschaffen, um den Zugriff auf Dienste über einen bandbegrenzten Kommunikationskanal zu erleichtern.
  • Eine andere Aufgabe der Erfindung ist, ein Verfahren zum Verifizieren der von einem Individuum am Telefon behaupteten Identität zu verschaffen, um es dem Individuum zu ermöglichen, Zugriff auf Dienste oder Privilegien zu erhalten, die auf autorisierte Benutzer beschränkt sind.
  • In einer bevorzugten Ausführungsform werden diese und andere Aufgaben der Erfindung in einem Verfahren gelöst, das es einem Anrufer ermöglicht, durch Eingabe eines gesprochenen Passwortes, das aus einer Vielzahl Ziffern besteht, Zugriff auf Dienste zu erhalten. Vorzugsweise beginnt das Verfahren mit einer Aufforderung an den Anrufer, das Passwort auszusprechen, beginnend mit einer ersten Ziffer und endend mit einer letzten Ziffer des Passwortes. Jede gesprochene Ziffer des Passwortes wird dann mit Hilfe eines sprecherunabhängigen Spracherkennungsalgorithnus erkannt. Im Anschluss an die Eingabe der letzten Ziffer wird eine Entscheidung getroffen, ob das Passwort gültig ist. Wenn das der Fall ist, wird die Identität des Anrufers unter Verwendung eines Sprecherverifikationsalgorithmus verifiziert.
  • Dieses Verfahren wird erfindungsgemäß unter Verwendung eines Systems implementiert, das eines digitalen Prozessor umfasst sowie mit dem digitalen Prozessor verbundene Speichermittel, vom digitalen Prozessor gesteuerte Aufforderungsmittel, um den Anrufer aufzufordern, ein Passwort auszusprechen, beginnend mit einer ersten Ziffer und endend mit einer letzten Ziffer des Passwortes, vom digitalen Prozessor gesteuerte Sprachverarbeitungsmittel zum Bewirken einer mehrstufigen Datenreduktion und zum Erzeugen von resultierenden Spracherkennungs- und Sprecherverifikationsparameterdaten sowie Sprachererkennungs- und Sprecherverifikationsentscheidungsroutinen. Die Speichermittel enthalten einen Festwertspeicher (ROM) zum Speichern von Spracherkennungsmerkmaltransformationsdaten und Spracherkennungsklassenreferenzdaten, die beide aus einer ersten Vielzahl (z. B. 1000) Trainingssprecher über ein Fernsprechnetz abgeleitet worden sind. Das ROM speichert auch Sprecherverifikationsmerkmaltransformationsdaten, die aus einer zweiten Vielzahl (z. B. 100-150) Trainingssprecher über ein Fernsprechnetz abgeleitet worden sind. Die Spracherkennungsmerkmaltransformationsdaten und -klassenrefererenzdaten und die Sprecherverifikationsmerkmaltransformationsdaten werden in Offlinetrainingsprozeduren abgeleitet. Das Speichermittel enthält auch eine Datenbank mit Sprecherverifikationsklassenreferenzdaten, die von Benutzern stammen, die für den Zugriff auf die Dienste autorisiert sind.
  • Die Spracherkennungsroutine umfasst Transformationsmittel, die die für jede Ziffer erzeugten Sprachmerkmaldaten und die Spracherkennungsmerkmaltransformationsdaten empfangen und in Reaktion darauf für jede Ziffer Spracherkennungsparameterdaten erzeugen. Eine Zifferentscheidungsroutine empfängt die Spracherkennungsparameterdaten und die (ziffferelative) Spracherkennungsklassenreferenzdaten und erzeugt in Reaktion darauf eine Ausgabe, die diese Ziffer anzeigt. Die Spracherkennungsroutine kann auch eine Passwortgültigkeitserklärungsroutine enthalten, die auf die Eingabe der letzten Ziffer des Passwortes anspricht, um zu bestimmen, ob das Passwort gültig ist.
  • Die Spracherkennungsroutine wird vom digitalen Prozessor gesteuert und spricht auf eine Bestimmung an, dass das Passwort gültig ist, um zu bestimmen, ob der Anrufer ein autorisierter Benutzer ist. Diese Routine enthält Transformationsmittel, die die für jede Ziffer erzeugten Sprachmerkmaldaten und die Sprecherverifikationsmerkmaltransformationsdaten empfangen und in Reaktion darauf für jede Ziffer Sprecherverifikationsparameterdaten erzeugen. Eine Verifizierungsroutine empfängt die Sprecherverifikationsparameterdaten und die (sprecherrelative) Sprecherverifikationsklassenreferenzdaten und erzeugt in Reaktion darauf eine Ausgabe, die anzeigt, ob der Anrufer ein autorisierter Benutzer ist.
  • Beim Betrieb des Verfahrens und Systems der Erfindung soll angenommen werden, dass ein Anrufer einen Anruf von einem herkömmlichen Rufstationstelefon aus zu einer Institution tätigt, um Zugriff auf einen Auftragseingabedienst zu erhalten, auf den sich der Anrufer zuvor abonniert hat. Der Anrufer hat sich auch zuvor bei der Sprecherverifikationsdatenbank angemeldet, die seine Sprecherverifikationsklassenreferenzdaten enthält. Die Institution enthält geeignete Eingabe/Ausgabe-Einrichtungen, die mit dem System verbunden sind (oder damit integriert), um Signale zur und von der Fernsprechleitung zu koppeln. Sobald der Gesprächsaufbau hergestellt ist, steuert der Prozessor die Aufforderungsmittel an, um den Benutzer aufzufordern, mit der zifferweisen Eingabe des dem Benutzer zuvor zugewiesenen Passwortes zu beginnen. Der Spracherkennungsalgorithmus verarbeitet jede Ziffer und verwendet eine statistische Erkennungsstrategie, um zu bestimmen, welche Ziffer (null bis neun und "Oh") gesprochen worden ist. Nachdem alle Ziffern erkannt worden sind, wird eine Prüfung durchgeführt, um zu bestimmen, ob das eingegebene Passwort für das System gültig ist. Falls ja, wird der Anrufer unter Vorbehalt akzeptiert. Mit anderen Worten, wenn das Passwort gültig ist, "weiß" das System, wie der Anrufer zu sein behauptet und wo die Kontierungsinformation gespeichert ist.
  • Danach führt das System eine Sprecherverifikation beim Anrufer aus, um zu bestimmen, ob das eingegebene Passwort von einer zuvor in der Sprecherverifikationsreferenzdatenbank angemeldeten und dem eingegebenen Passwort zugewiesenen Stimme gesprochen worden ist. Wenn der Verifikationsalgorithmus eine "Übereinstimmung" feststellt, wird der Zugriff zum Auftragseingabedienst verschafft. Wenn der Algorithmus nahezu die Stimme mit der davon gespeicherten Version zur Übereinstimmung bringt, aber nicht innerhalb eines zuvor bestimmten Akzeptanzkriteriums, fordert das System den Anrufer auf, zusätzliche persönliche Informationen einzugeben (z. B. die Sozialversicherungsnummer des Anrufers oder sein Geburtsdatum), um die Identität des behaupteten Besitzers des Passwortes zu überprüfen. Wenn der Anrufer eine solche Information nicht liefern kann, weist das System die Zugriffsanfrage zurück, und das Gespräch wird beendet.
  • Sobald der Anrufer Zugriff auf den Auftragseingabedienst erhält, soll angenommen werden, dass er einen Auftrag für ein Produkt oder einen Dienst erteilen will, das oder der eindeutig durch eine alphanumerische Zeichenfolge identifiziert wird, die dem Anrufer bekannt ist. Gemäß einem anderen Merkmal der Erfindung ist auch ein Verfahren zum Erkennen solcher alphanumerischer Zeichenfolgen implementiert, das eine spezielle Erkennungsstrategie verwendet, die keine hohe Einzelzeichenerkennungsgenauigkeit benötigt, um eine Erkennung der gesprochenen alphanumerischen Zeichenfolge zu erhalten. Beim Betrieb fordert das System den Anrufer auf, jedes Zeichen einer zu erkennenden Zeichenfolge auszusprechen, beginnend mit einem ersten Zeichen und endend mit einem letzten Zeichen. Jedes Zeichen wird dann erfasst und analysiert, wobei der sprecherunabhängige Spracherkennungsalgorithmus verwendet wird. Das Verfahren weist einen Erkennungsabstand zwischen jedem gesprochenen Eingabezeichen und dem entsprechenden Buchstaben oder der Ziffer an der gleichen Position innerhalb jeder alphanumerischen Referenzzeichenfolge zu. Nachdem jedes Zeichen ausgesprochen, erfasst und analysiert worden ist, wird jeder Referenzzeichenfolgenabstand erhöht und der Prozess wird fortgesetzt, wobei Abstände für jede Referenzzeichenfolge akkumuliert werden, bis das letzte Zeichen ausgesprochen worden ist. Die Referenzzeichenfolge mit dem kleinsten kumulativen Abstand wird dann zur erkannten Zeichenfolge erklärt.
  • Im Vorstehenden sind einige der relevanteren Aufgaben der Erfindung umrissen. Diese Aufgaben sollten als rein illustrativ für einige der wichtigeren Merkmale und Anwendungen der Erfindung gemeint sein. Viele andere günstige Ergebnisse können durch Anwenden der offenbarten Erfindung in anderer Weise oder durch Abwandeln der Erfindung, wie beschrieben werden soll, erhalten werden. Daher können andere Aufgaben und ein breiteres Verständnis der Erfindung durch Verweisen auf die folgende detaillierte Beschreibung der bevorzugten Ausführungsform erhalten werden.
  • Für ein vollständigeres Verständnis der vorliegenden Erfindung und ihrer Vorteile soll auf die folgende detaillierte Beschreibung zusammen mit der zugehörigen Zeichnung verwiesen werden. Es zeigen:
  • Fig. I eine schematische Darstellung eines Fernsprechnetzes mit einer Rufstation, die mit einem digitalen Verarbeitungssystem eines Diensteanbieters wie beispielsweise einer finanziellen Institution verbunden werden kann;
  • Fig. 2 eine schematische Darstellung eines digitalen Verarbeitungssystems von Fig. I zur Verwendung bei der Verschaffung von sprecherunabhängiger Spracherkennung und Sprecherverifikation gemäß der Lehre der vorliegenden Erfindung;
  • Fig. 3 ein Blockschaltbild des bevorzugten Erkennungs/Verifikationsalgorithmus dieser Erfindung;
  • Fig. 4 einen Ablaufplan, der die Verifizierungsroutine von Fig. 3 beschreibt;
  • Fig. 5 eine Darstellung eines Teils einer Tabelle, die alphanumerische Zeichenfolgen zur Verwendung in einem Auftragseingabesystem enthält;
  • Fig. 6 einen Ablaufplan, der ein Verfahren zur Erkennung von über ein Fernsprechnetz gesprochenen alphanumerischen Zeichenfolgen gemäß der Lehre der vorliegenden Erfindung enthält;
  • Fig. 7 einen Ablaufplan, der ein alternatives Verfahren zur Erkennung von über ein Fernsprechnetz gesprochenen alphanumerischen Zeichenfolgen gemäß der Lehre der vorliegenden Erfindung enthält.
  • Gleiche Bezugszeichen beziehen sich auf ähnliche Teile und/oder Schritte in den verschiedenen Ansichten der Zeichnung.
  • Fig. 1 erläutert ein Blockschaltbild eines herkömmlichen Fernsprechnetzes 10 mit einer Rufstation 12, die mit einem digitalen Verarbeitungssystem 14 einer finanziellen Institution verbunden werden kann. Gemäß der Lehre der vorliegenden Erfindung enthält das digitale Verarbeitungssystem 14 einen sprecherunabhängigen Spracherkennungsalgorithmus 48 und einen zugehörigen Sprecherverifikationsalgorithmus 50, um den sprachgesteuerten Zugriff auf einen oder mehrere von der finanziellen Institution angebotenen Dienste 20 zu erleichtern. Gemäß der Lehre der vorliegenden Erfindung enthält das digitale Verarbeitungssystem 14 einen sprecherunabhängigen Spracherkennungsalgorithmus 48 und einen zugehörigen Sprecherverifikationsalgorithmus 50 zur Erleichterung von sprachgesteuertem Zugriff auf einen oder mehrere von der finanziellen Institution angebotene Dienste. Diese Dienste enthalten, ohne darauf beschränkt zu sein, Kontostandsabfragen und elektronischen Zahlungsverkehr. Außerdem sollte man sich bewusst sein, dass die Lehre der Erfindung, auch wenn die folgende Diskussion die Verwendung von Spracherkennung und Sprecherverifikation im Rahmen des Zugriffs auf in einer finanziellen Institution gespeicherte Informationen beschreibt, nicht hierauf beschränkt ist. Die Erfindung kann für zahlreiche andere Anwendungen verwendet werden, wie Kreditkartengültigkeitserklärung, Auftragseingabe von Waren/Diensten und persönliche Identfikationsgültigkeitserklärung. Weiterhin sollte man sich bewusst sein, dass das Fernsprechnetz andere nach dem Stand der Technik herkömmliche Dienste und Vermittlungssysteme enthalten kann. Daher kann die Rufstation12 vor der Verbindung mit dem Diensteanbieter über ein zentrales Amt oder eine andere Vermittlungseinrichtung, wie ein Durchgangsamt oder ein Fernnetzbetreibervermittlungssystem verbunden werden.
  • Anhand von Fig. 2 wird ein Blockschaltbild des digitalen Verarbeitungssystems der vorliegenden Erfindung zur Verschaffung von simultaner sprecherunabhängiger Spracherkennung und Sprecherverifikation gezeigt. Das System enthält eine Zentraleinheit (CPU) 30 zum Steuern des Gesamtbetriebs des Systems. Die CPU enthält Daten-, Adress- und Steuerbusse, die allgemein durch das Bezugszeichen 32 dargestellt werden. Wie in Fig. 2 zu erkennen ist, enthält das System auch herkömmliche Eingabe/Ausgabeeinrichtungen wie z. B. eine Tastatur 34, Displayterminal 36, Sprachgenerator 38 und Drucker 40. Eine Kommunikationsschnittstelle 42 (die mikroprozessorgesteuert sein kann) koppelt das System mit der Fernsprechleitung. Ein Direktzugriffsspeicher ("RAM") 44 ist über den Bus 32 mit der CPU verbunden, um vorübergehende Speicherung von durch diese verarbeiteten Daten zu verschaffen. Ein Festwertspeicher ("ROM") 45 ist in gleicher Weise mit dem digitalen Prozessor verbunden, um permanente Speicherung spezieller Erkennungs- und Verifikationsdaten zu verschaffen, wie weiter unten beschrieben werden soll. Ein Plattenspeicher 46 unterstützt Steuerprogramme, die einen Spracherkennungsalgorithmus 48 und einen Sprecherverifikationsalgorithmus 50 sowie geeignete Steuerprogramme (nicht abgebildet) enthalten.
  • Gemäß der Erfindung speichert ROM 45 Spracherkennungsreferenzinformationen zur Verwendung durch den Spracherkennungsalgorithmus 48. Diese Informationen bestehen aus zwei (2) Arten: Spracherkennungsmerkmaltransformationsdaten 52a und Spracherkennungsklassenreferenzdaten 52b, die aus einer ersten Vielzahl von Trainingssprechern über ein Fernsprechnetz abgeleitet worden sind. Insbesondere werden Spracherkennungsmerkmaltransformationsdaten 52a und Spracherkennungsklassenreferenzdaten 52b in einem vorherigen Offlineprozess aus einer Spracherkennungstrainingsdatenbank (nicht abgebildet) abgeleitet, die "Ziffer"daten von einer großen Zahl Trainingssprecher (z. B.) 1000 enthält, die über das Fernsprechnetz gesammelt worden sind. Diese Trainingsdatenbank 52 enthält Orts- und Ferndaten, und wesentliche Datenmengen werden über Kohlekontakthörermikrofone und Elektrethörermikrofone gesammelt. Die Spracherkennungsklassenreferenzdaten 52b enthalten eine Repräsentation für jedes Zifferwort (z. B. "eins", "zwei" usw.) als von dem Spracherkennungsalgorithmus 48 zu erkennende Klasse. Die Repräsentation der Klasse für die Ziffer "eins" wird beispielsweise aus den Daten von allen Trainingssprechern abgeleitet, die die Ziffer "eins" ausgesprochen haben.
  • Die Spracherkennungstrainingsdatenbank ist somit entworfen worden, um die Verteilung akustischer charakteristischer Merkmale jedes Zifferwortes über eine große Zahl von Sprechern zu repräsentieren. Der Zweck und die Wirkung der an dieser Datenbank ausgeführten Analyse ist, die Parameter eines mehrstufigen Datenreduktionsprozesses zu optimieren, um diejenigen charakteristischen Merkmale zu entdecken und genau zu repräsentieren, die es von jedem anderen Zifferwort unterscheiden, ungeachtet des Sprechers.
  • Gemäß einem anderen Merkmal der Erfindung unterstützt der ROM 45 auch Sprecherverifikationsmerkmaltransformationsdaten 52c. Diese Daten werden in einem vorherigen Offlineprozess aus einer Sprecherverifikationstrainingsdatenbank (nicht abgebildet) abgeleitet. Insbesondere enthält die Sprecherverifikationstrainingsdatenbank vorzugsweise von ungefähr 100-150 Trainingssprechern erzeugte Daten, die über das Fernsprechnetz gesammelt worden sind. Diese Trainingsdatenbank enthält Orts- und Ferndaten, und wesentliche Datenmengen werden über Kohlekontakthörermikrofone und Elektrethörermikrofine gesammelt. Jeder Trainingssprecher wird mit einem Skript versehen, das Zufallsziffernfolgen enthält. Die Folgen werden in einer zuvor bestimmten Anzahl (z. B. 5) gesonderter Aufnahmesitzungen gesprochen, wobei die erste Aufnahmesitzung eine zuvor bestimmte Anzahl (z. B. 5) Durchläufe der gesprochenen Ziffern in zufälliger Reihenfolge enthält. Die nachfolgenden Sitzungen enthalten jeweils eine zuvor bestimmte Anzahl (z. B. 3) von Durchläufen der gesprochenen Daten in zufälliger Reihenfolge, und jede Aufnahmesitzung ist von der vorherigen Sitzung um zumindest einen Tag getrennt.
  • Die Sprecherverifikationstrainingsdatenbank ist somit entworfen worden, um die Verteilung akustischer charakteristischer Merkmale jedes von einem speziellen Trainingssprecher gesprochenen Zifferwortes über mehrfache Äußerungen des Zifferwortes durch diesen Sprecher zu repräsentieren. Der Zweck und die Wirkung der an dieser Datenbank ausgeführten Analyse ist, die Parameter eines mehrstufigen Datenreduktionsprozesses zu optimieren, um diejenigen charakteristischen Merkmale jedes von jedem speziellen Trainingssprecher geäußerten Zifferwortes zu entdecken und genau zu repräsentieren, die es von dem gleichen Zifferwort unterscheidet, das von jedem anderen Trainuingssprecher geäußert worden ist.
  • Die Sprecherverifikationstechnik erfordert, dass autorisierte Benutzer des Systems (d. h. diejenigen Personen, von denen erwartet wird, dass sie über das Fernsprechsystem Zugriff auf Informationen anfragen) sich zuvor im System angemeldet haben. Daher enthält das System 14 auch eine Sprecherverifikationsreferenzdatenbank 55, die Sprecherverifikationsklassenrefererenzdaten umfasst, die von Benutzern gesammelt worden sind, die autorisiert sind, auf die Dienste zuzugreifen. Anmeldung erfolgt vorzugsweise, indem man den Benutzer fünfmal ein zehnziffriges Wort aussprechen lässt. Zur weiteren Sicherheit wird der Benutzer gebeten, einige sachliche persönliche Fragen zu beantworten, die mit Hilfe von Ziffern beantwortet können, die der Spracherkennungsalgorithmus 48 erkennen kann. Diese Fragen können, ohne darauf beschränkt zu sein, die Sozialversicherungsnumer, Kontonummer oder das Geburtsdatum des Benutzers enthalten. Jede "Klasse" der Sprecherverifikationsklassenreferenzdaten repräsentiert einen autorisierten Benutzer des Systems. Die Klassenreferenzdaten für alle autorisierten Benutzer des Systems werden dann in der Sprecherverifikationsreferenzdatenbank 55 gespeichert.
  • Das System 14 enthält auch eine Transaktionsdatenbank 56 zum Speichern finanzieller und Transaktionsdaten, wie Kontostände, Kreditinformationen und ähnliches. Diese Informationen werden vorzugsweise an zuvor bestimmten, von dem Passwort des Anrufers adressierten Stellen gespeichert. Somit identifiziert das Passwort sowohl den Anrufer als auch die Daten, auf die zugegriffen werden soll.
  • Beim Betrieb des bevorzugten Verfahrens soll angenommen werden, dass ein Anrufer einen Anruf von der Rufstation 12 aus zu der finanziellen Institution tätigt, um Zugriff auf Kontoinformationen zu erhalten. Der Anrufer hat sich auch zuvor bei der Sprecherverifikationsdatenbank 55 angemeldet. Sobald der Gesprächsaufbau hergestellt ist, fordert der Sprachgenerator 38 den Benutzer auf, mit der zifferweisen Eingabe des zuvor bestimmten Passwortes des Benutzers zu beginnen, beginnend mit der ersten Ziffer und endend mit der letzten Ziffer des Passwortes. Das Anfordern der Ziffern kann auch in jeder beliebigen Weise oder Reihenfolge erfolgen. Die Signale werden über die Kommunikationsschnittstelle 42 mit der Fernsprechleitung gekoppelt. Nach Aussprechen jeder Ziffer verarbeitet der Spracherkennungsalgorithmus 48 die empfangenen Informationen und verwendet, wie weiter unten beschrieben werden soll, eine statistische Erkennungsstrategie, um die Ziffer zu bestimmen (null bis neun und "Oh").
  • Nachdem alle Ziffern erkannt worden sind, wird eine Prüfung durchgeführt, um zu bestimmen, ob das eingegebene Passwort für das System gültig ist. Wenn das Ergebnis der Prüfung positiv ist, wird der Anrufer unter Vorbehalt akzeptiert, weil das System "weiß", wie der Anrufer zu sein behauptet und somit wo die Kontoinformationen gespeichert sind. Danach nutzt das System den Sprecherverifikationsalgorithmus 50, um eine Sprecherverifikation beim Anrufer auszuführen, um zu bestimmen, ob das eingegebene Passwort von einer zuvor in der Datenbank 55 angemeldeten und dem eingegebenen Passwort zugewiesenen Stimme gesprochen worden ist. Wenn der Verifikationsalgorithmus 50 innerhalb zuvor bestimmter Akzeptanzkriteria eine "Übereinstimmung" feststellt, wird der Zugriff auf die Daten oder andere Systemdiensten zugelassen. Wenn der Algorithmus 50 die eingegebene Stimme nicht nahezu mit einer in der Datenbank 55 gespeicherten Stimme zur Übereinstimmung bringen kann, weist das System die Zugriffsanfrage zurück, und das Gespräch wird beendet. Wenn der Algorithmus 50 nahezu die eingegebene Stimme mit einer in der Datenbank 55 gespeicherten Stimme zur Übereinstimmung bringt, aber nicht innerhalb eines zuvor bestimmter Akzeptanzkriteriums, fordert das System den Anrufer auf, zusätzliche zu dem Passwort gehörende persönliche Informationen einzugeben (z. B. die Sozialversicherungsnummer oder die Kontonummer des Anrufers), um die Identität des behaupteten Besitzers des Passwortes näher zu überprüfen. Wenn der Anrufer eine solche Information nicht liefern kann, weist das System die Zugriffsanfrage zurück, und das Gespräch wird beendet. Korrekte Eingabe der geforderten Informationen ermöglicht es dem Anrufer, Zugriff auf den Dienst zu erhalten.
  • Anhand von Fig. 3 wird ein Blockschaltbild einer bevorzugten Ausführungsform des Spracherkennungsalgorithmus 48 und Sprecherverifikationsalgorithmus 50 gezeigt. Wie man sehen wird, teilen die Algorithmen 48 und 50 sich die im oberen Teil des Blockschaltbildes dargestellten Funktionsblöcke. Diese Blöcke umfassen ein Sprachverarbeitungsmittel zum Ausführen einer ersten Stufe eines mehrstufigen Datenreduktionsprozesses. Insbesondere extrahiert ein Merkmalsextraktor 60 bei Eingabe von Sprache in das System 14 eine Menge von Primärmerkmalen, die alle 10 Millisekunden in Echtzeit verarbeitet werden. Die Primärmerkmale enthalten heuristisch entwickelte Zeitbereichsmerkmale (z. B. Nulldurchgangsraten) und Frequenzbereichsinformationen, wie z. B. schnelle Fouriertransformationskoeffizienten (FFT-Koeffizienten; FFT: Fast Fourier Transform). Die Ausgabe des Merkmalextaktors 60 ist eine reduzierte Datenmenge (ungefähr 4000 Datenpunkte/Äußerung statt der ursprünglich ungefähr 8000 Datenpunkte/Äußerung) und wird einer Triggerroutine 62 zugeführt, die unter Verwendung der Primärmerkmale gesprochene Wörter erfasst. Die Triggerroutine ist mit einer Sekundärmerkmalroutine 63 verbunden, um aus den Primärmerkmalen "Sekundärmerkmale" zu berechnen. Die Sekundärmerkmale ergeben sich vorzugsweise aus nichtlinearen Transformationen der Primärmerkmale. Die Ausgabe der Routine 63 ist mit der phonetischen Segmentierungsroutine 64 verbunden. Nach der Erfassung einer Äußerung und der Berechnung der Sekundärmerkmale sorgt die phonetische Segmentierungsroutine 64 für automatische Segmentierung. Um Segmentierung zu erhalten, lokalisiert die phonetische Segmentierungsroutine 64 vorzugsweise Stimmhaftigkeitsgrenzen durch Bestimmung einer optimalen Zustandssequenz eines Zweizustands-Markow-Prozesses, basiert auf einer Sequenz von skalaren Diskriminantenfunktionswerten. Die Diskriminantenftinktionswerte werden von einer zweiklassigen Fisher- Lineartransformation von Sekundärmerkmalsvektoren erzeugt. Die Stimmhaftigkeitsgrenzen werden dann als Ankerpunkte für nachfolgende phonetische Segmentierung verwendet.
  • Nachdem die phonetischen Grenzen mit der Routine der phonetischen Segmentierung lokalisiert worden sind, werden die phonetischen Einheiten der Äußerung analysiert und mit einer Tertiärmerkmalsberechnungsroutine 65 sogenannte "Tertiärmerkmale" berechnet. Diese Tertiärmerkmale umfassen vorzugsweise innerhalb der phonetischen Grenzen aus den Sekundärmerkmalen abgeleitete Informationen (z. B. Mittelwert oder Varianz). Die Tertiärmerkmale werden sowohl von dem Spracherkennungsalgorithmus 48 als auch dem Sprecherverifikationsalgorithmus 50 verwendet, wie beschrieben werden soll. Die Ausgabe der Routine 65 ist ein Tertiärmerkmalsvektor von ungefähr 300 Datenpunkten/Äußerung. Wie man dann sehen kann, repräsentiert der obere Teil von Fig. 3 die erste Stufe eines mehrstufigen Datenreduktionsprozesses, der die zu analysierende Datenmenge wesentlich reduziert, aber die notwendige Trennbarkeit, ob zifferrelativ oder sprecherrelativ, beibehält; notwendig, um Erkennung bzw. Verifikation zu erhalten. Der mittlere Abschnitt von Fig. 3 repräsentiert eine zweite Stufe des Datenreduktionsprozesses und umfasst die Transformationsroutinen 49a und 49b, wie beschrieben werden soll.
  • Um sprecherunabhägige Spracherkennung zu bewirken, werden die Tertiärmerkmale zuerst der Spracherkennungslineartransfomationsroutine 49a zugeführt. Diese Routine multipliziert den Tertiärmerkmalsvektor mit den Spracherkennungsmerkmaltransformationsdaten (die eine Matrix sind) 52a, um für jede Ziffer einen Spracherkermungsparameterdatenvektor zu erzeugen. Die Ausgabe der Transformationsroutine 49a wird dann einer statistischen Spracherkennungsentscheidungsroutine 66a zum Vergleich mit den Spracherkennungsklassenreferenzdaten 52b zugeführt. Die Ausgabe der Entscheidungsroutine ist eine Ja/Nein-Entscheidung, die identifiziert, ob die Ziffer erkannt worden ist und, falls ja, welche Ziffer ausgesprochen worden ist.
  • Die Entscheidungsroutine 66a wertet ausdrücklich ein Maß der Wortähnlichkeit für jede der elf Ziffern (null bis neun und "Oh") in dem Wortschatz aus. Die Spracherkennungsklassenreferenzdaten 52b enthalten verschiedene von der Entscheidungsstrategie verwendete Elemente (z. B. Akzeptanzschwellen für jede Ziffernklasse, inverse Kovarianzen und Mittelwertvektoren für jede Klasse). Damit eine Ziffer erklärt wird (in Gegensatz zum Zurückgewiesenwerden), müssen gewisse Akzeptanzkriterien erfüllt sein. Die Akzeptanzkriterien können, ohne darauf beschränkt zu sein, Folgendes enthalten. Der Spracherkennungsalgorithmus bestimmt die beste Übereinstimmung zwischen den Klassenreferenzdaten und dem Spracherkennungsparametervektor für die Ziffer; diese beste Übereinstimmung ist die sogenannte "erste Wahl". Die zweitbeste Übereinstimmung ist "zweite Wahl". Jede Wahl hat ihre eigene Übereinstimmungspunktzahl. Die Ziffer wird erklärt, wenn (1) die Übereinstimmungspunktzahl der ersten Wahl unter einer zuvor bestimmten Schwelle liegt und (2) der Unterschied zwischen den Übereinstimmungspunktzahlen der Ziffern der ersten Wahl und der zweiten Wahl größer ist als eine andere zuvor bestimmte Schwelle. Wenn alle Ziffern des Passwortes erkannt worden sind, ist der Spracherkennungsteil des Verfahrens abgeschlossen.
  • Um Sprecherverifikation zu erhalten, werden die Tertiärmerkmale auch einer Lineartransformationsroutine 49b zugeführt, die jeden Tertiärmerkmalsvektor mit den Sprecherverifikationsmerkmalstransformationsdaten (die eine Matrix sind) multipliziert. Die Ausgabe der Routine 49b ist für jede Ziffer des Passwortes ein Np Elementvektor p der Sprecherverifikationsparameterdaten, wobei Np vorzugsweise gleich 25 ist. Der Sprecherverifikationsparameterdatenvektor p wird dann einer Verifizierungsroutine 66b eingegeben, die auch die Sprecherverifikationsklassenreferenzdaten 52c für den Anrufer empfängt. Insbesondere werden die Sprecherverifikationsklassenreferenzdaten von der Sprecherverifikationsklassenreferenzdatenbank 55 geliefert. Wie oben erwähnt, wird die Adresse der Sprecherverifikationsklassenreferenzdaten des Anrufers in der Datenbank 55 durch das Passwort definiert, das aus dem Spracherkennungsalgorithmus 48 abgeleitet worden ist.
  • Die Verifizierungsroutine 66b erzeugt eine von drei verschiedenen Ausgaben: AKZEPTIEREN, ZURÜCKWEISEN und PRÜFEN. Eine Ausgabe AKZEPTIEREN autorisiert den Anrufer, auf Daten aus der Transaktionsdatenbank 56 zuzugreifen. Die Ausgabe ZURÜCKWEISEN wird gegeben, wenn der Verifizierer die angebliche Identität des Anrufers bestreitet. Die Ausgabe PRÜFEN initiiert den Anforderungsschritt, in dem zusätzliche Folgefragen gestellt werden, um die Identität des Anrufers zu verifizieren.
  • Anhand von Fig. 4 wird ein Ablaufplan der Verifizierungsroutine 66b von Fig. 3 gezeigt. Zur Hintergrundinformation beginnt die Routine nach der Bestimmung, vorzugsweise durch den Spracherkennungsalgorithmus 48, dass das Passwort gültig ist. Obwohl in der bevorzugten Ausführungsform jeder Sprecherverifikationsparametervektor erzeugt wird, wenn jede Ziffer erkannt ist, ist es ebenso möglich, das Erzeugen der Sprecherverifikationsparametervektoren zu unterlassen, bis ein Test ausgeführt worden ist, um zu bestimmen, ob das Passwort gültig ist.
  • Die Verifizierungsroutine beginnt bei Schritt 78. Insbesondere werden die Np Element Sprecherverifikationsparametervektoren für jede Ziffer des gesprochenen Passwortes mit den zuvor erzeugten, in der Sprecherverifikationsreferenzdatenbank 55 gespeicherten Sprecherverifikationsklassenreferenzdatenvektoren verglichen. Zuerst wird in Schritt 80 ein gewichteter euklidischer Abstand d(i) für jede Ziffer berechnet:
  • mit: p(i,j) die j-te Komponente des von der i-ten Ziffer in der heutigen Passworteingabesequenz der Länge Nd erzeugten Vektors der Länge Np, pr(i,j) die j-te Komponente des Referenzvektors der i-ten Ziffer des angeblichen angemeldeten Anrufers,
  • ein konstanter Wichtungsfaktor, der zuvor berechnet worden ist, um optimale Leistungsfähigkeit des Systems zu ergeben und
  • d(i) das resultierende euklidische Abstandsmaß für die i-te Ziffer in der heutigen Passworteingabesequenz.
  • Der Abstandsvektor d wird dann in aufsteigender Reihenfolge sortiert:
  • d(i), ..., d(Nd) = , ...,
  • Ein Gesamtheitsabstand wird dann in Schritt 82 als gewichtete Kombination dieser sortierten Abstände berechnet:
  • mit d der sortierte Abstandsvektor
  • w2 ein anderer konstanter Wichtungsvektor, der zuvor berechnet worden ist, um optimale Leistungsfähigkeit des Systems zu ergeben und
  • D das resultierende Gesamtheitsabstandsmaß für die gesamte heutige Passworteingabesequenz hinsichtlich des angeblichen angemeldeten Anrufers.
  • Bei Schritt 84 wird der Gesamtheitsabstand mit zwei (2) Akzeptanzschwellen verglichen, einer oberen Schwelle und einer unteren Schwelle. Wenn der Gesamtheitsabstand unterhalb der unteren Akzeptanzschwelle liegt, ist die Überprüfung positiv und der Anrufer erhält unmittelbar Zugriff auf den angeforderten Dienst. Dies ist die Ausgabe 88 AKZEPTIEREN. Wenn der Abstand größer ist als die obere Schwelle, wird der Zugriff des Anrufers auf den Dienst verweigert und das Verfahren endet. Dies entspricht der Ausgabe 89 ZURÜCKWEISEN. Wenn das Ergebnis der Überprüfung 84 zwischen der oberen und der unteren Schwelle liegt, setzt sich das Verfahren bei Schritt 90 fort, indem es den Anrufer auffordert, eine oder mehrere sachliche Fragen zu beantworten, die eindeutig zu dem Passwort gehören. Dies ist die Ausgabe PRÜFEN. Der Anrufer wird beispielsweise gebeten, seine Sozialversicherungsnummer oder Kontonummer auszusprechen. Der Anrufer kann auch aufgefordert werden, eine solche Identifizierungsinformation manuell mit Hilfe der Tastatur des Telefons oder durch das Führen einer Kreditkarte oder Ähnlichem durch einen Kartenleser einzugeben. Natürlich hängt die Art und der Umfang der von dem System angeforderten persönlichen Informationen vollständig vom Systembetreiber und dem Maß der vom Betreiber und Anrufer gewünschten Sicherheit ab. Dann wird in Schritt 92 eine Überprüfung ausgeführt, um zu bestimmen, ob die Fragen korrekt beantwortet worden sind. Wenn das Ergebnis der Überprüfung positiv ist, erhält der Anrufer wieder Zugriff auf den angeforderten Dienst. Wenn das Ergebnis der Überprüfung negativ ist, wird der Zugriff verweigert und das Verfahren endet.
  • Folglich kann man sehen, dass die vorliegende Erfindung ein Spracherkennungs/Sprecherverifikationssystem und -verfahren verschafft mit mehreren Vorteilen gegenüber auf dem Telefon beruhenden Datenzugriffskonzepten nach dem Stand der Technik. Die der begrenzten Frequenzantwortumgebung eines Fernsprechnetzes eigenen Probleme werden durch die Verwendung eines sprecherunabhängigen Spracherkennungssystems und eines Sprecherverifikationssystems veringert. Der Sprecherverifikationsalgorithmus wird mit einer Sprecherverifikationstrainingsdatenbank "trainiert", die im Gegensatz zu Wortklassifikationen Sprecherklassifikationen enthält. Außerdem nutzt der Verifikationsalgorithmus Tertiärmerkmale und Sprecherverifikationsmerkmaltransformationsparameter, um für jede Ziffer des eingegebenen Passwortes einen vorzugsweise aus 25 Elementen bestehenden Vektor zu berechnen. Diese Vektoren werden dann mit Sprecherverifikationsklassenreferenzdaten (für den Anrufer) verglichen und für jede Ziffer wird ein euklidischer Abstand berechnet. Danach wird ein Gesamtheitsabstand für das gesamte Passwort berechnet und mit den beiden Akzeptanzschwellen verglichen, um zu bestimmen, ob die Stimme des Anrufers mit dessen zuvor gespeicherten Stimmenproben übereinstimmt. Anrufer, die "beinahe passen", müssen ein zusätzliches Sicherheitsniveau durchlaufen, bevor der Zugriff auf die Daten oder den Dienst autorisiert wird.
  • Das digitale Verarbeitungssystem kann, ohne darauf beschränkt zu sein, ein AT-Personalcomputer von IBM sein, der zum Speichern von und Zugreifen auf Verifikationsreferenzdaten mit einem lokalen Netz verbunden ist. Für auf dem Telefon beruhende Anwendungen, die vertraulichen Zugriff auf Informationen erfordern, hat das System 14 zahlreiche Anwendungen. Nur als Beispiel hat die Sprecherverifikation über das Fernsprechnetz ein wesentliches Potential, um Visitenkartenschwindel zu eliminieren. Außerdem können Banken und andere finanzielle Institutionen für auf dem Telefon beruhende Kontozugriffssysteme mehr Sicherheit bieten. Derzeit nutzen Banksysteme persönliche Identifikationsnummern oder "PIN"-Ziffern, die über die Tastatur des Telefons eingegeben werden, um die Berechtigung für den Systemzugriff zu bestimmen. Sprecherverifikation kann ebenso wie PIN-Ziffern verwendet werden, um zu bestimmen, ob ein Anrufer für den Zugriff auf Kontoinformationen autorisiert ist. Andere Anwendungen für das oben beschriebene System enthalten Kreditinformationszugriff, Fernverkehrsfernsprechnetzzugriff und elektronischen Zahlungsverkehr. Weil die Sprecherverifikation zusammen mit Spracherkennung arbeitet, können mobile Telefonbenutzer durch Verwendung des Systems jede beliebige automatisierte Anwendung nutzen. Die Leistungsfähigkeit des Systems wird anhand von Rückweiseraten autorisierter Benutzer (Fehler vom Typ 1) und Akzeptanzraten für Gelegenheitsbetrüger (Fehler vom Typ 2) charakterisiert. Rückweisung autorisierter Benutzer muss für die meisten Anwendungen unter 2% liegen. Gleichzeitig muss die Akzeptanz von Gelegenheitsbetrügern auch unter 2% gehalten werden. Im Allgemeinen gibt es einen deutlichen Kompromiss zwischen diesen Fehlerraten, da das Erhöhen der Schwellen, um die Rückweisung autorisierter Benutzer zu verringern, immer zu einer erhöhten Akzeptanz von Gelegenheitsbetrügern führen wird und umgekehrt. Fehlerraten sind aus einer vorbereitenden Datenbank bestimmt worden, die eine Mischung aus Elektret- und Kohlekontaktmikrofonen für einzelne Sprecher enthielt. Bei diesem Test lagen die Fehlerraten für den Typ 1 unter 2%, während die Fehlerraten für den Typ 2 ebenfalls unter 2% lagen. Durch Erhöhen der Größe und Verschiedenheit der Daten in der Sprecherverifikationstrainingfsdatenbank 55 werden verbesserte Raten erhalten.
  • Wie oben beschrieben, kann das digitale Verarbeitungssystem von Fig. 2 für zahlreiche Anwendungen verwendet werden. Eine solche Anwendung ist ein telefonisches Auftragseingabesystem, in dem autorisierte Benutzer des Systems die Möglichkeit haben, sich in das System einzuwählen und, nach einer Verifikation wie oben beschrieben, über codierte alphanumerische Zeichenfolgen Produkte oder Dienste zu bestellen. Wie beispielsweise in Fig. 5 zu sehen ist, kann das telefonische Auftragseingabesystem eine Tabelle 100 aus alphanumerischen Zeichenfolgen 102 umfassen, die jeweils ein Teil oder eine Komponente identifizieren, die von dem Anrufer über das Fernsprechnetz durch Eingabe einer dem Teil oder der Komponente entsprechenden alphanumerischen Zeichenfolge bestellt werden kann. Wie in Fig. 5 gezeigt wird, umfasst jede alphanumerische Zeichenfolge 102 Buchstaben des Alphabets und/oder die Ziffern "null" bis "neun". Eine Zeichenfolge umfasst so die Zeichen "FA4921R3". Natürlich kann eine alphanumerische Zeichenfolge 102 nur aus Ziffern, nur aus Buchstaben oder einer Kombination aus beiden zusammengesetzt sein. Das Auftragseingabesystem enthält eine zuvor bestimmte endliche Menge der alphanumerischen Zeichenfolgen 102.
  • Die Klassenreferenzdaten 52b, die die verschiedenen Zeichen der alphanumerischen Zeichenfolgen repräsentieren, sowie die Steuerwörter "Stopp" und "Löschen" werden entsprechend der oben beschriebenen Lehre erzeugt. Insbesondere werden die Spracherkennungsklassenreferenzdaten 52b erweitert, um alphanumerische Zeichenfolgen, die über ein Fernsprechnetz gesprochen werden, automatisch zu erkennen.
  • Weil ein derartig ausgedehnter Wortschatz so schwierig zu erkennen ist, wird eine spezielle Erkennungsstrategie verwendet, um hohe Genauigkeit zu erhalten. Die Strategie verwendet einen auf einer Gesamtheit beruhenden Erkennungsansatz statt einer Einzelzeichenerkennung. Insbesondere erfolgt Erkennung entsprechend diesem Aspekt der vorliegenden Erfindung nicht auf Zeichenebene. Dagegen werden einzeln gesprochene Zeichen nur erfasst und analysiert. Sobald eine Gesamtheit von Zeichen (entsprechend einer alphanumerischen Zeichenfolge) auf diese Weise verarbeitet worden ist, erfolgt Erkennung an der Gesamtheit selbst im Gegensatz zu irgendwelchen einzelnen Zeichen darin. Wie gezeigt werden soll, erfordert die Strategie keine hohe Erkennungsgenauigkeitr für einzelne Zeichen, um eine Erkennung der gesprochenen alphanumerischen Zeichenfolge zu erreichen.
  • Gemäß der Erfindung wird angenommen, dass eine gesprochene alphanumerische Zeichenfolge ein Element der gegebenen endlichen Menge von in der Datenbank 56 oder einem anderen geeigneten Speichergebiet zuvor gespeicherten alphanumerischen Zeichenfolgen ist. Beim Betrieb wird vorzugsweise die Identität des Zugriff auf den Auftragseingabedienst wünschenden Anrufers zuerst gemäß den oben in den Fig. 3-4 beschriebenen Verfahren verifiziert. Im Allgemeinen beinhaltet das Verfahren zum Erkennen einer gesprochenen alphanumerischen Zeichenfolge das Bestimmen eines Erkennungsabstandes zwischen jeder gesprochenen Eingabe und dem entsprechenden Buchstaben oder der entsprechenden Ziffer an der gleichen Position innerhalb jeder in der Datenbank repräsentierten Zeichenfolge. Jeder Erkennungsabstand ist vorzugsweise ein Maß für die akustische Unähnlichkeit zwischen einer gesprochenen Eingabe und einem hypothetischen Zeichen. Wenn beispielsweise "A" gesprochen wird, ist zu erwarten, dass der Erkennungsabstand für "A" ziemlich niedrig ist. Es ist auch wahrscheinlich, dass die Abstände für Zeichen, die ähnlich klingen wie "A", wie z. B. "8", "H" und "K" höher, aber auch ziemlich niedrig sein werden und dass Abstände für sehr unähnliche Zeichen wie "9", "Q" und "W" ziemlich hoch sein werden.
  • Anhand von Fig. 6 wird ein Ablaufplan der bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens zum Erkennen alphanumerischer Zeichenfolgen gezeigt. Von jeder der zuvor bestimmten Referenzzeichenfolgen wird angenommen, dass sie zumindest zwei Zeichen umfassen, die entweder Buchstaben oder Zeichen oder eine Kombination aus Buchstaben oder Zeichen sein können.
  • Das Verfahren beginnt bei Schritt 104, indem ein kumulativer Erkennungsabstand für jede der Referenzzeichenfolgen auf null initialisiert wird. Bei Schritt 105 wird der Anrufer aufgefordert, ein alphanumerisches Zeichen in einer zu erkennenden alphanumerischen Zeichenfolge auszusprechen, beginnend mit dem ersten Zeichen in der Zeichenfolge. Das Verfahren wird in Schritt 106 fortgesetzt, um das gesprochene alphanumerische Zeichen zu erfassen und zu analysieren. Diese Funktion wird mit dem zuvor beschriebenen Erkennungsalgorithmus 48 erhalten. Dann wird eine Prüfung ausgeführt, um zu bestimmen, ob ein zuvor bestimmtes Kommando, z. B. "Stopp" gesprochen worden ist. Ein solches Kommando gibt an, dass bereits alle Zeichen der Zeichenfolge gesprochen worden sind. Wenn das Ergebnis der Prüfung 107 negativ ist, setzt sich das Verfahren bei Schritt 108 fort, um ein Maß für eine akustische Unähnlichkeit zwischen dem gesprochenen alphanumerischen Zeichen und einem entsprechenden alphanumerischen Zeichen jeder der Referenzzeichenfolgen zum Erzeugen eines anfänglichen Erkennungsabstandes für jede der Referenzzeichenfolgen zu berechnen. Wenn insbesondere der Anrufer das erste Zeichen einer Eingabezeichenfolge spricht, vergleicht Schritt 108 dieses Zeichen mit dem ersten Zeichen jeder der Referenzzeichenfolgen. In Schritt 110 wird der kumulative Erkennungsabstand für jede der Referenzzeichenfolgen um den in Schritt 108 berechneten Erkennungsabstand erhöht.
  • Das Verfahren kehrt dann zurück und wiederholt die Schritte 105, 106, 107, 108 und 110 für jedes folgende alphanumerische Zeichen in der zu erkennenden alphanumerischen Zeichenfolge und das entsprechende alphanumerische Zeichen jeder der Referenzzeichenfolgen. Wenn zu irgendeinem Zeitpunkt während dieses Prozesses das Ergebnis der Prüfung 107 positiv ist, was angibt, dass bereits alle Zeichen gesprochen worden sind, führt das Verfahren bei Schritt 112 eine Prüfung aus, um zu bestimmen, welche der Referenzzeichenfolgen den kleinsten kumulativen Erkennungsabstand hat. Für die Referenzzeichenfolge mit dem kleinsten kumulativen Erkennungsabstand wird in Schritt 114 dann angenommen, dass sie die vom Anrufer gesprochene alphanumerische Zeichenfolge ist.
  • Auf Wunsch kann Schritt 107 weggelassen werden. Wenn beispielsweise die zu erkennende alphanumerische Zeichenfolge eine feste Länge hat, kann das Verfahren nach Empfang einer zuvor bestimmten Anzahl Zeichen automatisch Schritt 112 initiieren.
  • Die oben beschriebene Technik hat sich selbst bei Zeichenfolgen mit nur zwei Zeichen als ziemlich robust erwiesen. Im Allgemeinen sind lange Zeichenfolgen leichter zu erkennen als kurze Zeichenfolgen, weil zur Bestimmung, welche Zeichenfolge (aus einer endlichen Menge) gesprochen worden ist, mehr Informationen zur Verfügung stehen. Die Größe der Zeichenfolgendatenbank ist aus zwei Gründen wichtig. Erstens nimmt die Zeichenfolgengenauigkeit für eine feste Zeichenfolge mit zunehmender Größe (d. h. Anzahl möglicher Zeichenfolgen) der Datenbank ab. Zweitens wird bei zunehmender Datenbankgröße mehr Rechenaufwand benötigt.
  • Es sei bemerkt, dass die Erkennungsgenauigkeit für einzelne Zeichen nicht gleichmäßig hoch sein muss, um hohe Zeichenfolgengenauigkeit zu erhalten. Wenn beispielsweise die mittlere Substitutionsrate für den alphanumerischen Wortschatz 15% beträgt (d. h. 15% der Zeit, die ein gesprochenes Zeichen einzeln falsch erkannt wird), dann sollte für alphanumerische Zeichenfolgen mit vier (4) Zeichen eine mittlere Zeichenfolgensubstitutionsrate von weniger als 2% erreichbar sein.
  • Wenngleich das Verfahren von Fig. 6 vorgezogen wird, könnte die Erkennungsstrategie auch durch Berechnung akustischer Ähnlichkeiten zwischen gesprochenen und gespeicherten Zeichen und Erzeugung von Erkennungswerten in Reaktion darauf ausgeführt werden. Größere Referenzwerte würden dann Zeichen zugewiesen werden, die größere akustische Ähnlichkeiten haben. Bei diesem Ansatz würde die Referenzzeichenfolge mit dem höchsten kombinierten Referenzwert zur erkannten Zeichenfolge erklärt werden. Und wenngleich das Verfahren zur Erkennung alphanumerischer Zeichenfolgen im Rahmen eines auf Sprecherverifikation folgenden Auftragseingabesystems beschrieben worden ist, sind die Lehren der Erfindung nicht auf derartige Anwendungen beschränkt.
  • Bei der oben beschriebenen Ausführungsform kann der Erkenner mit einer Basis nacheinander gesprochener Ziffern arbeiten. Mit anderen Worten, der Anrufer wird aufgefordert (mittels Wörtern oder Tönen), jedes Zeichen der zu erkennenden Zeichenfolge auszusprechen. Dieser Ansatz soll jedoch nicht als Beschränkung aufgefasst werden. Die Techniken der vorliegenden Erfindung sind gleichermaßen anwendbar, wenn der Erkenner auf "kontinuierliche" Weise arbeitet. In diesem Fall braucht das System den Anrufer nur direkt oder indirekt (d. h. durch einen früheren Befehl) aufzufordern, die Zeichenfolge selbst auszusprechen, statt jedes spezielle Zeichen der Zeichenfolge. Der Erkenner analysiert dann die gesprochene Zeichenfolge und lokalisiert die Grenzen zwischen jedem Paar gesprochener Zeichen. Sobald die Zeichengrenzen lokalisiert worden sind, werden die Schritte 108, 110, 112 und 114 des Verfahrens ausgeführt, um zu bestimmen, welche Referenzzeichenfolge die "beste" Übereinstimmung mit der tatsächlich vom Anrufer gesprochenen Zeichenfolge ist.
  • Insbesondere und mit Bezug auf Fig. 7 soll angenommen werden, dass die zu erkennende Zeichenfolge zumindest ein erstes und zweites Zeichen hat. Das Verfahren beginnt bei Schritt 204 durch Initialisierung eines kumulativen Erkennungsabstandes für jede der Referenzzeichenfolgen auf null. Bei Schritt 205 wird der Anrufer direkt oder indirekt aufgefordert, Zeichen in einer zu erkennenden Zeichenfolge auszusprechen. Bei Schritt 206 antwortet der Anrufer auf die Aufforderung, indem er die Zeichenfolge in "kontinuierlicher" Weise ausspricht, d. h. ohne Pause zwischen einzelnen Zeichen und ohne Aufforderung zwischen einzelnen Zeichen. Das Verfahren setzt sich dann bei Schritt 208 fort, um die von dem Anrufer gesprochene Zeichenfolge zu analysieren, um eine Grenze zwischen dem ersten und zweiten Zeichen der gesprochenen Zeichenfolge zu lokalisieren.
  • Sobald die Grenze lokalisiert worden ist, geht das Verfahren zu Schritt 210, um ein Maß akustischer Unähnlichkeit zwischen dem gesprochenen ersten Zeichen und dem ersten Zeichen jeder der Referenzzeichenfolgen zu berechnen, um einen Erkennungsabstand für jede der Referenzzeichenfolgen zu erzeugen. Dieser Schritt ist der gleiche wie Schritt 108 in Fig. 6. Der kumulative Erkennungsabstand für jede der Referenzzeichenfolgen wird dann bei Schritt 212 um den in Schritt 210 erzeugten Erkennungsabstand erhöht. Das Verfahren setzt sich fort, indem ein Maß akustischer Unähnlichkeit zwischen dem gesprochenen zweiten Zeichen und dem zweiten Zeichen jeder der Referenzzeichenfolgen berechnet wird, um einen Erkennungsabstand für jede der Referenzzeichenfolgen zu erzeugen. Der kumulative Erkennungsabstand für jede der Referenzzeichenfolgen wird wieder erhöht, dieses Mal um den für das zweite Zeichen erzeugten Erkennungsabstand. Für die weiteren Zeichen in der Zeichenfolge würden ähnliche Schritte ausgeführt werden.
  • Sobald alle Zeichenpositionen in der Zeichenfolge analysiert worden sind, ist das Ergebnis der Prüfung von Schritt 209 positiv und das Verfahren setzt sich bei Schritt 216 fort, um zu bestimmen, welche der Referenzzeichenfolgen einen niedrigsten kumulativen Erkennungsabstand hat. Die Referenzzeichenfolge mit dem niedrigsten kumulativen Erkennungsabstand wird dann bei Schritt 218 zur vom Anrufer gesprochenen Zeichenfolge erklärt.
  • Obwohl dies nicht einschränkend gemeint ist, wird die Analyse der gesprochenen Zeichenfolge vorzugsweise unter Verwendung von Hidden Markov Modeling ausgeführt, wobei Grenzen zwischen Zeichen (Schritt 208) lokalisiert werden, indem der wahrscheinlichste Pfad über ein Zustandsmodell-Zeit-Gitter gefunden wird. Der wahrscheinlichste Pfad aus dem Pfadraum (der Menge aller möglichen Pfade) wird gewählt, indem ein dynamischer Programmierungsalgorithmus verwendet wird. Insbesondere ist das Gitter eine mehrdimensionale Struktur mit Dimensionen "Zeit" und "Zustandsmodell". Die Zeitdimension entspricht der Zeitachse der eingegebenen Erkennungssprache. Die Zustandsmodelldimension entspricht den Wörtern des Wortschatzes und den Zuständen innerhalb jedes Wortes. Jeder Schritt in der Zeitdimension kann eine Änderung oder einen Übergang in der Zustandsmodelldimension bewirken. Die Zustandmodellübergänge sind folgendermaßen beschränkt: (1) innerhalb eines Modells sind Übergänge nur erlaubt zwischen einem Zustand und diesem selbst oder zwischen einem Zustand und einem höheren Zustand und (2) zwischen Modellen sind Übergänge nur zwischen dem letzten Zustand eines Modells und dem Anfangszustand eines Modells erlaubt.
  • Mit jedem Übergang sind Kosten verbunden. Diese setzen sich aus einer zustandsmodellabhängigen Wahrscheinlichkeit und einer Übergangswahrscheinlichkeit zusammen. Der wahrscheinlichste Pfad entspricht dem Pfad mit den niedrigsten Kosten. Er wird mit Hilfe eines dynamischen Programmierungsalgorithmus gefunden. Sobald der wahrscheinlichste Pfad gefunden worden ist, dienen Übergänge zwischen Modellen in der Zustandsmodelldimension als Grenzorte zwischen Wörtern.
  • Eine ausführlichere Darstellung des oben beschriebenen Konzepts wird in Bahl et al., A Maximum Likelihood Approach To Continous Speech Reco gnition, IEEE Transactions On Pattern Analysis And Machine Intelligence, PAIMI-S. S. 179-190 (1983), und Levinson et al., An Introduction To The Application Of The Theory Of Probabilistic Functions Of A Markov Process To Automatic Speech Recognition, Bell Systems Technical Journal, Bd. 62, S. 1035-1075 (1983), beschrieben.
  • Dem Fachkundigen sollte bewusst sein, dass die oben beschriebenen speziellen Ausführungsformen in einfacher Weise als Grundlage zur Abwandlung oder dem Entwurf anderer Strukturen oder Verfahren zum Ausführen des gleichen Zweckes der vorliegenden Erfindung verwendet werden können. Der Spracherkennungsalgorithmus 48 könnte auch sprecherabhängig sein statt sprecherunabhängig, wie in der bevorzugten Ausführungsform beschrieben. Der Fachkundige sollte sich auch realisieren, dass solche gleichwertigen Konstruktionen den Rahmen der Erfindung, wie sie in den beigefügten Ansprüchen dargelegt wird, nicht verlassen.

Claims (8)

1. Verfahren, unter Verwendung eines Verarbeitungssystems, zum Erkennen von Zeichenfolgen, die von einem Anrufer über ein Fernsprechnetz gesprochen werden, wobei das Verarbeitungssystem einen digitalen Prozessor enthält, Mittel zum Koppeln mit dem Fernsprechnetz und Speichermittel zum Speichern eines zuvor bestimmten Satzes von Referenzzeichenfolgen, die jeweils zumindest zwei Zeichen haben, mit den folgenden Schritten:
(a) Initialisieren eines kumulativen Erkennungsabstandes für jede der Referenzzeichenfolgen auf null;
(b) Auffordern des Anrufers, Zeichen in einer aufeinander folgend gesprochenen, zu erkennenden Zeichenfolge auszusprechen, wobei die zu erkennende Zeichenfolge zumindest erste und zweite Zeichen hat;
(c) Analysieren der vom Anrufer gesprochenen Zeichenfolge, um eine Grenze zwischen den ersten und zweiten Zeichen der gesprochenen Zeichenfolge zu lokalisieren;
(d) Berechnen eines Maßes akustischer Unähnlichkeit zwischen dem gesprochenen ersten Zeichen und dem ersten Zeichen jeder der Referenzzeichenfolgen zum Erzeugen eines Erkennungsabstandes für jede der Referenzzeichenfolgen;
(e) Erhöhen des kumulativen Erkennungsabstandes für jede der Referenzzeichenfolgen um den in Schritt (d) erzeugten Erkennungsabstand;
(f) Berechnen eines Maßes akustischer Unähnlichkeit zwischen dem gesprochenen zweiten Zeichen und dem zweiten Zeichen jeder der Referenzzeichenfolgen zum Erzeugen eines Erkennungsabstandes für jede der Referenzzeichenfolgen;
(g) Erhöhen des kumulativen Erkennungsabstandes für jede der Referenzzeichenfolgen um den in Schritt (f) erzeugten Erkennungsabstand;
(h) Bestimmen, welche der Referenzzeichenfolgen einen niedrigsten kumulativen Erkennungsabstand hat, und
(i) Erklären der Referenzzeichenfolge mit dem niedrigsten kumulativen Erkennungsabstand zur vom Anrufer gesprochenen Zeichenfolge.
2. Verfahren nach Anspruch 1, wobei die Zeichen einer Referenzzeichenfolge Buchstaben sind.
3. Verfahren nach Anspruch 1, wobei die Zeichen einer Referenzzeichenfolge Ziffern sind.
4. Verfahren nach Anspruch 1, wobei die Zeichen einer Referenzzeichenfolge sowohl Buchstaben als auch Ziffern enthalten.
5. Verfahren, unter Verwendung eines Verarbeitungssystems, zum Erkennen von Zeichenfolgen, die von einem Anrufer über ein Fernsprechnetz gesprochen werden, wobei das Verarbeitungssystem einen digitalen Prozessor enthält, Mittel zum Koppeln mit dem Fernsprechnetz und Speichermittel zum Speichern eines zuvor bestimmten Satzes von Referenzzeichenfolgen, die jeweils zumindest zwei Zeichen haben, mit den folgenden Schritten:
(a) Initialisieren eines kombinierten Erkennungswertes für jede der Referenzzeichenfolgen auf null;
(b) Auffordern des Anrufers, Zeichen in einer aufeinander folgend gesprochenen, zu erkennenden Zeichenfolge auszusprechen, wobei die zu erkennende Zeichenfolge zumindest erste und zweite Zeichen hat;
(c) Analysieren der vom Anrufer gesprochenen Zeichenfolge, um eine Grenze zwischen den ersten und zweiten Zeichen der gesprochenen Zeichenfolge zu lokalisieren;
(d) Berechnen eines Maßes akustischer Ähnlichkeit zwischen dem gesprochenen ersten Zeichen und dem ersten Zeichen jeder der Referenzzeichenfolgen zum Erzeugen eines Erkennungswertes für jede der Referenzzeichenfolgen;
(e) Erhöhen des kombinierten Erkennungswertes für jede der Referenzzeichenfolgen um den in Schritt (d) erzeugten Erkennungswert;
(f) Berechnen eines Maßes akustischer Ähnlichkeit zwischen dem gesprochenen zweiten Zeichen und dem zweiten Zeichen jeder der Referenzzeichenfolgen zum Erzeugen eines Erkennungswertes für jede der Referenzzeichenfolgen;
(g) Erhöhen des kombinierten Erkennungswertes für jede der Referenzzeichenfolgen um den in Schritt (f) erzeugten Erkennungswert;
(h) Bestimmen, welche der Referenzzeichenfolgen einen höchsten kombinierten Erkennungswert hat, und
(i) Erklären der Referenzzeichenfolge mit dem höchsten kombinierten Erkennungswert zur vom Anrufer gesprochenen Zeichenfolge.
6. Verfahren nach Anspruch 5, wobei die Zeichen einer Referenzzeichenfolge Buchstaben sind.
7. Verfahren nach Anspruch 5, wobei die Zeichen einer Referenzzeichenfolge Ziffern sind.
8. Verfahren nach Anspruch 5, wobei die Zeichen einer Referenzzeichenfolge sowohl Buchstaben als auch Ziffern enthalten.
DE69329855T 1992-06-22 1993-06-22 Methode zur erkennung alphanumerischer zeichenketten, die über ein telefonnetz gesprochen werden Expired - Fee Related DE69329855T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/901,759 US5303299A (en) 1990-05-15 1992-06-22 Method for continuous recognition of alphanumeric strings spoken over a telephone network
PCT/US1993/005956 WO1994000838A1 (en) 1992-06-22 1993-06-22 Method for recognizing alphanumeric strings spoken over a telephone network

Publications (2)

Publication Number Publication Date
DE69329855D1 DE69329855D1 (de) 2001-02-15
DE69329855T2 true DE69329855T2 (de) 2001-11-22

Family

ID=25414767

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69329855T Expired - Fee Related DE69329855T2 (de) 1992-06-22 1993-06-22 Methode zur erkennung alphanumerischer zeichenketten, die über ein telefonnetz gesprochen werden

Country Status (8)

Country Link
US (1) US5303299A (de)
EP (1) EP0647344B1 (de)
AT (1) ATE198675T1 (de)
AU (1) AU671662B2 (de)
CA (1) CA2138774A1 (de)
DE (1) DE69329855T2 (de)
ES (1) ES2155071T3 (de)
WO (1) WO1994000838A1 (de)

Families Citing this family (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6678360B1 (en) 1985-07-10 2004-01-13 Ronald A. Katz Technology Licensing, L.P. Telephonic-interface statistical analysis system
US5359645A (en) 1985-07-10 1994-10-25 First Data Corporation Inc. Voice-data telephonic interface control system
US4845739A (en) 1985-07-10 1989-07-04 Fdr Interactive Technologies Telephonic-interface statistical analysis system
US5793846A (en) 1985-07-10 1998-08-11 Ronald A. Katz Technology Licensing, Lp Telephonic-interface game control system
US5898762A (en) * 1985-07-10 1999-04-27 Ronald A. Katz Technology Licensing, L.P. Telephonic-interface statistical analysis system
US5828734A (en) 1985-07-10 1998-10-27 Ronald A. Katz Technology Licensing, Lp Telephone interface call processing system with call selectivity
US5365574A (en) * 1990-05-15 1994-11-15 Vcs Industries, Inc. Telephone network voice recognition and verification using selectively-adjustable signal thresholds
US5454062A (en) * 1991-03-27 1995-09-26 Audio Navigation Systems, Inc. Method for recognizing spoken words
US5748840A (en) * 1990-12-03 1998-05-05 Audio Navigation Systems, Inc. Methods and apparatus for improving the reliability of recognizing words in a large database when the words are spelled or spoken
US5592389A (en) * 1990-12-03 1997-01-07 Ans, Llp Navigation system utilizing audio CD player for data storage
US5297183A (en) * 1992-04-13 1994-03-22 Vcs Industries, Inc. Speech recognition system for electronic switches in a cellular telephone or personal communication network
US5450524A (en) * 1992-09-29 1995-09-12 At&T Corp. Password verification system based on a difference of scores
US5440662A (en) * 1992-12-11 1995-08-08 At&T Corp. Keyword/non-keyword classification in isolated word speech recognition
US5613037A (en) * 1993-12-21 1997-03-18 Lucent Technologies Inc. Rejection of non-digit strings for connected digit speech recognition
JPH07210190A (ja) * 1993-12-30 1995-08-11 Internatl Business Mach Corp <Ibm> 音声認識方法及びシステム
DE4408086A1 (de) * 1994-03-10 1995-09-14 Telefonbau & Normalzeit Gmbh Verfahren zur Erkennung von buchstabierten Namen oder Begriffen für Kommunikations-Vermittlungsanlagen
AU703597B2 (en) * 1994-03-18 1999-03-25 Nuance Communications, Inc. Speech controlled vehicle alarm system
US5724481A (en) * 1995-03-30 1998-03-03 Lucent Technologies Inc. Method for automatic speech recognition of arbitrary spoken words
US5822727A (en) * 1995-03-30 1998-10-13 At&T Corp Method for automatic speech recognition in telephony
US5651056A (en) * 1995-07-13 1997-07-22 Eting; Leon Apparatus and methods for conveying telephone numbers and other information via communication devices
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
US5737489A (en) * 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
US5774858A (en) * 1995-10-23 1998-06-30 Taubkin; Vladimir L. Speech analysis method of protecting a vehicle from unauthorized accessing and controlling
US5893057A (en) * 1995-10-24 1999-04-06 Ricoh Company Ltd. Voice-based verification and identification methods and systems
US6081660A (en) * 1995-12-01 2000-06-27 The Australian National University Method for forming a cohort for use in identification of an individual
US5917890A (en) * 1995-12-29 1999-06-29 At&T Corp Disambiguation of alphabetic characters in an automated call processing environment
US5917889A (en) * 1995-12-29 1999-06-29 At&T Corp Capture of alphabetic or alphanumeric character strings in an automated call processing environment
US5940476A (en) 1996-06-28 1999-08-17 Distributed Software Development, Inc. System and method for identifying an unidentified caller
US5799065A (en) * 1996-05-06 1998-08-25 Matsushita Electric Industrial Co., Ltd. Call routing device employing continuous speech
US5832440A (en) 1996-06-10 1998-11-03 Dace Technology Trolling motor with remote-control system having both voice--command and manual modes
US5842161A (en) * 1996-06-25 1998-11-24 Lucent Technologies Inc. Telecommunications instrument employing variable criteria speech recognition
US6529881B2 (en) 1996-06-28 2003-03-04 Distributed Software Development, Inc. System and method for identifying an unidentified customer at the point of sale
US7006605B1 (en) * 1996-06-28 2006-02-28 Ochopee Big Cypress Llc Authenticating a caller before providing the caller with access to one or more secured resources
US5901203A (en) * 1996-06-28 1999-05-04 Distributed Software Development, Inc. Computer-based system and method for identifying an unidentified caller
US6205204B1 (en) 1996-06-28 2001-03-20 Distributed Software Development, Inc. System and method for identifying an unidentified person using an ambiguity-resolution criterion
US6137863A (en) * 1996-12-13 2000-10-24 At&T Corp. Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition
US6061654A (en) * 1996-12-16 2000-05-09 At&T Corp. System and method of recognizing letters and numbers by either speech or touch tone recognition utilizing constrained confusion matrices
US7346564B1 (en) 1997-02-07 2008-03-18 Frederic J Kirklin System for merchandise ordering and order fulfillment
US6101241A (en) * 1997-07-16 2000-08-08 At&T Corp. Telephone-based speech recognition for data collection
US6219453B1 (en) 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6154579A (en) * 1997-08-11 2000-11-28 At&T Corp. Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US7406084B2 (en) * 1997-09-19 2008-07-29 Nokia Siemens Networks Gmbh & Co. Kg Flexible software architecture for a call processing system
US6141661A (en) * 1997-10-17 2000-10-31 At&T Corp Method and apparatus for performing a grammar-pruning operation
US6122612A (en) * 1997-11-20 2000-09-19 At&T Corp Check-sum based method and apparatus for performing speech recognition
CA2306095A1 (en) * 1997-11-20 1999-06-03 Nielsen Media Research, Inc. Voice recognition unit for audience measurement system
US6205428B1 (en) 1997-11-20 2001-03-20 At&T Corp. Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers
US6208965B1 (en) 1997-11-20 2001-03-27 At&T Corp. Method and apparatus for performing a name acquisition based on speech recognition
US6223158B1 (en) 1998-02-04 2001-04-24 At&T Corporation Statistical option generator for alpha-numeric pre-database speech recognition correction
US6205261B1 (en) 1998-02-05 2001-03-20 At&T Corp. Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6400805B1 (en) 1998-06-15 2002-06-04 At&T Corp. Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition
US7937260B1 (en) 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
US6324510B1 (en) * 1998-11-06 2001-11-27 Lernout & Hauspie Speech Products N.V. Method and apparatus of hierarchically organizing an acoustic model for speech recognition and adaptation of the model to unseen domains
US7679534B2 (en) 1998-12-04 2010-03-16 Tegic Communications, Inc. Contextual prediction of user words and user actions
US7319957B2 (en) * 2004-02-11 2008-01-15 Tegic Communications, Inc. Handwriting and voice input with automatic correction
US7720682B2 (en) * 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
US8938688B2 (en) * 1998-12-04 2015-01-20 Nuance Communications, Inc. Contextual prediction of user words and user actions
US7712053B2 (en) 1998-12-04 2010-05-04 Tegic Communications, Inc. Explicit character filtering of ambiguous text entry
US7881936B2 (en) 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US6526292B1 (en) * 1999-03-26 2003-02-25 Ericsson Inc. System and method for creating a digit string for use by a portable phone
US7181399B1 (en) * 1999-05-19 2007-02-20 At&T Corp. Recognizing the numeric language in natural spoken dialogue
US6510427B1 (en) * 1999-07-19 2003-01-21 Ameritech Corporation Customer feedback acquisition and processing system
US7590538B2 (en) * 1999-08-31 2009-09-15 Accenture Llp Voice recognition system for navigating on the internet
DE19952049A1 (de) * 1999-10-28 2001-05-10 Siemens Ag Verfahren und Anordnung zur Verifikation eines Sprechers anhand eines Rechners
US6526382B1 (en) * 1999-12-07 2003-02-25 Comverse, Inc. Language-oriented user interfaces for voice activated services
US20040049386A1 (en) * 2000-12-14 2004-03-11 Meinrad Niemoeller Speech recognition method and system for a small device
US6892051B2 (en) * 2001-06-25 2005-05-10 Cingular Wireless Ii, Llc System and method for providing an adapter module
US6889065B2 (en) * 2001-06-25 2005-05-03 Cingular Wireless Ii, Llc System and method for providing an adapter module
JP2003036097A (ja) * 2001-07-25 2003-02-07 Sony Corp 情報検出装置及び方法、並びに情報検索装置及び方法
US7113572B2 (en) * 2001-10-03 2006-09-26 Cingular Wireless Ii, Llc System and method for recognition of and automatic connection using spoken address information received in voice mails and live telephone conversations
US8583440B2 (en) 2002-06-20 2013-11-12 Tegic Communications, Inc. Apparatus and method for providing visual indication of character ambiguity during text entry
US7386892B2 (en) * 2003-07-17 2008-06-10 International Business Machines Corporation Method and apparatus for detecting password attacks using modeling techniques
US7363224B2 (en) * 2003-12-30 2008-04-22 Microsoft Corporation Method for entering text
US8095364B2 (en) 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US20070094021A1 (en) * 2005-10-25 2007-04-26 Bossemeyer Robert W Jr Spelling sequence of letters on letter-by-letter basis for speaker verification
US8255216B2 (en) 2006-10-30 2012-08-28 Nuance Communications, Inc. Speech recognition of character sequences
US8055502B2 (en) * 2006-11-28 2011-11-08 General Motors Llc Voice dialing using a rejection reference
US7853492B1 (en) 2008-03-17 2010-12-14 Kirklin Frederic J System for merchandise ordering and order fulfillment
WO2009124562A1 (en) * 2008-04-08 2009-10-15 Agnitio S.L. Method of generating a temporarily limited and/or usage limited means and/or status, method of obtaining a temporarily limited and/or usage limited means and/or status, corresponding system and computer readable medium
US8386238B2 (en) * 2008-11-05 2013-02-26 Citrix Systems, Inc. Systems and methods for evaluating a sequence of characters
US8677385B2 (en) 2010-09-21 2014-03-18 The Nielsen Company (Us), Llc Methods, apparatus, and systems to collect audience measurement data
US9483459B1 (en) * 2012-03-31 2016-11-01 Google Inc. Natural language correction for speech input
CN103996228B (zh) * 2014-05-12 2016-08-24 深圳市威富多媒体有限公司 一种基于语音及人脸识别的门禁道闸管理方法及装置
CN103985170B (zh) * 2014-05-12 2016-06-08 深圳市威富多媒体有限公司 一种云车库管理方法及装置
US11735169B2 (en) 2020-03-20 2023-08-22 International Business Machines Corporation Speech recognition and training for data inputs
US11537661B2 (en) 2020-10-02 2022-12-27 PolyAI Limited Systems and methods for conversing with a user

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4363102A (en) * 1981-03-27 1982-12-07 Bell Telephone Laboratories, Incorporated Speaker identification system using word recognition templates
JPS59178587A (ja) * 1983-03-30 1984-10-09 Nec Corp 話者確認システム
US4910782A (en) * 1986-05-23 1990-03-20 Nec Corporation Speaker verification system
US4827518A (en) * 1987-08-06 1989-05-02 Bell Communications Research, Inc. Speaker verification system using integrated circuit cards
US5125022A (en) * 1990-05-15 1992-06-23 Vcs Industries, Inc. Method for recognizing alphanumeric strings spoken over a telephone network

Also Published As

Publication number Publication date
ES2155071T3 (es) 2001-05-01
EP0647344A1 (de) 1995-04-12
US5303299A (en) 1994-04-12
ATE198675T1 (de) 2001-01-15
AU4645393A (en) 1994-01-24
WO1994000838A1 (en) 1994-01-06
CA2138774A1 (en) 1994-01-06
EP0647344A4 (de) 1996-03-13
DE69329855D1 (de) 2001-02-15
EP0647344B1 (de) 2001-01-10
AU671662B2 (en) 1996-09-05

Similar Documents

Publication Publication Date Title
DE69329855T2 (de) Methode zur erkennung alphanumerischer zeichenketten, die über ein telefonnetz gesprochen werden
DE69132996T2 (de) Gleichzeitige sprecherunabhängige Spracherkennung und -verifizierung über ein Telefonnetz
DE69428606T2 (de) Sprachgesteuerter kontozugang über ein fernsprechnetz
DE69325387T2 (de) Spracherkennung und sprecherverifizierung über ein telefonnetzwerk mittels selektiv einstellbarer signalschwellwerte
DE69822179T2 (de) Verfahren zum lernen von mustern für die sprach- oder die sprechererkennung
DE69425818T2 (de) System und verfahren zur sprachbefehlssteuerung und sprecheridentitätsprüfung
US5127043A (en) Simultaneous speaker-independent voice recognition and verification over a telephone network
DE69624848T2 (de) Verfahren zum überprüfen eines sprechers
DE69031189T2 (de) Sprachverifizierungseinrichtung zur Prüfung der Identität des Benutzers einer Telefonkreditkarte
DE69615748T2 (de) Verfahren und Gerät zur Sprecherprüfung mittels Unterscheidung der Prototypen-Zusammenstellung
DE60213595T2 (de) Hintergrundlernen von sprecherstimmen
DE69636057T2 (de) Sprecherverifizierungssystem
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE69800320T2 (de) Verfahren und Vorrichtung zur Sprechererkennung durch Prüfung von mündlicher Information mittels Zwangsdekodierung
DE69813597T2 (de) Mustererkennung, die mehrere referenzmodelle verwendet
DE69430162T2 (de) System und Verfahren zur passiven Sprachverifizierung in einem Fernsprechnetzwerk
DE60026106T2 (de) System und Verfahren zur Sprachererkennung mittels Sprachmodellen
EP1006507A1 (de) Verfahren zur Durchführung einer Sprechererkennung
CA2365302A1 (en) Method of recognizing alphanumeric strings spoken over a telephone network

Legal Events

Date Code Title Description
8332 No legal effect for de
8370 Indication related to discontinuation of the patent is to be deleted
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee
8327 Change in the person/name/address of the patent owner

Owner name: SCANSOFT, INC. (N.D.GES.D. STAATES DELAWARE), PEAB

8328 Change in the person/name/address of the agent

Representative=s name: TIEDTKE, BUEHLING, KINNE & PARTNER GBR, 80336 MUENCHEN