DE69131689T2 - Gleichzeitige sprecherunabhängige sprachererkennung und sprecherverifikation über einen fernsprechnetz - Google Patents

Gleichzeitige sprecherunabhängige sprachererkennung und sprecherverifikation über einen fernsprechnetz

Info

Publication number
DE69131689T2
DE69131689T2 DE69131689T DE69131689T DE69131689T2 DE 69131689 T2 DE69131689 T2 DE 69131689T2 DE 69131689 T DE69131689 T DE 69131689T DE 69131689 T DE69131689 T DE 69131689T DE 69131689 T2 DE69131689 T2 DE 69131689T2
Authority
DE
Germany
Prior art keywords
data
voice
password
voice recognition
caller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69131689T
Other languages
English (en)
Other versions
DE69131689D1 (de
Inventor
Alan Hunt
Thomas Schalk
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
VCS Industries Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US07/523,486 external-priority patent/US5127043A/en
Application filed by VCS Industries Inc filed Critical VCS Industries Inc
Publication of DE69131689D1 publication Critical patent/DE69131689D1/de
Application granted granted Critical
Publication of DE69131689T2 publication Critical patent/DE69131689T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/30Individual registration on entry or exit not involving the use of a pass
    • G07C9/32Individual registration on entry or exit not involving the use of a pass in combination with an identity check
    • G07C9/37Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/38Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections
    • H04M3/382Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Monitoring And Testing Of Exchanges (AREA)
  • Control Of Vending Devices And Auxiliary Devices For Vending Devices (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)
  • Telephone Function (AREA)

Description

  • Die vorliegende Erfindung betrifft im allgemeinen Stimmerkennungstechniken und insbesondere ein Stimmerkennungs-/Nachweis- Verfahren und -System, das es einem Anrufer ermöglicht, Zugriff zu einer oder mehrere Dienstleistungen über ein Telefonnetz zu erhalten.
  • Stimmnachweis ist das Verfahren zum Nachweisen bzw. Überprüfen bzw. Bestätigen einer von einer Person beanspruchten Identität, indem eine Probe der Stimme dieser Person analysiert wird. Diese Sicherheitsform basiert auf der Prämisse, daß jede Person einzigartig durch ihre Stimme identifiziert werden kann. Die durch eine Nachweistechnik geleistete Sicherheitshöhe hängt davon ab, wie gut der Nachweisalgorithmus die Stimme eines autorisierten Benutzers von allen nichtautorisierten Benutzern unterscheidet.
  • Es wäre wünschenswert, Stimmnachweisschemata zu verwenden, um die Identität eines Telefonanrufers nachzuweisen. Solche Schemata wurden jedoch nicht erfolgreich ausgeführt. Insbesondere hat es sich als schwierig erwiesen, einen kosteneffektiven und genauen Stimmnachweis über ein Telefonnetz zu liefern. Grund dafür ist, daß das Telefonnetz eine herausfordernde Umgebung ist, welche die Sprachqualität durch das Einführen verschiedener Arten von Geräusch bzw. Rausch und Bandbeschränkungen verschlechtert. Die Schwierigkeit bei der Lieferung eines Stimmnachweises auf Telefonbasis wird des weiteren durch die Tatsache kompliziert, daß viele Arten von Mikrophonen in herkömmlichen Telefonstationen verwendet werden. Diese Mikrophone beinhalten Kohle-Knopfharidapparate, Elektret-Handapparate und Elektret-Sprechtelefone. Jede dieser Vorrichtungen besitzt einzigartige akustische Eigenschaften, welche die Weise, in wel cher die Stimme einer Person über das Telefonnetz klingen kann, beeinflussen.
  • Die US-PS 4,363,102 offenbart eine Sprecher-Erkennungs- und Nachweisanordnung, in welcher akustische Merkmalsschablonen für vorbestimmte Bezugswörter gespeichert sind. Jede Schablone ist ein standardisierter Satz von akustischen Merkmalen für ein Wort, welcher beispielsweise durch Mittelung der Werte von akustischen Merkmalen von einer Vielzahl von Sprechern gebildet ist. Sprach-"Korrespondenzsignale", welche zum Erkennen des Inhalts des Sprechmusters eines Sprechers erhalten werden, werden gleichzeitig verwendet werden, um den Sprecher zu erkennen. Distanzmessungen werden durchgeführt, indem Distanzmessungseinrichtugnen verwendet werden, und während der Erkennung wird eine Schablonenübereinstimmungs- bzw. -vergleichstechnik verwendet, um einen Satz von Distanzen bzw. Abständen zu erzeugen (ein Abstand für jede Utteranz bzw. Äußerung bzw. Sprechweise für die Eingangssequenz).
  • Es ist eine Aufgabe der vorliegenden Erfindung, über ein Telefon gesprochene alphanumerische Sequenzen zu erkennen.
  • Es ist eine weitere Aufgabe der Erfindung, ein Verfahren zum Erkennen alphanumerischer Sequenzen zu beschreiben, worin die Erkennung auf der Basis einer Gesamtheit alphanumerischer Kennzeichen bzw. Ziffern bzw. Stellen im Gegensatz zur Einzelkennzeichen-Erkennung erfolgt.
  • Es ist so eine weitere Aufgabe der Erfindung, ein Verfahren zum Erkennen alphanumerischer Sequenzen zu beschreiben, das nicht eine hohe, individuelle Kennzeichenerkennungsgenauigkeit erfordert, um ein Erkennen einer gesprochenen alphanumerischen Sequenz zu erreichen.
  • Es ist auch eine Aufgabe der vorliegenden Erfindung, ein Verfahren und ein System zur Stimmerkennung und zum Stimmnachweis über ein Telefonnetz zur Verfügung zu stellen.
  • Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein Verfahren und ein System zur Verfügung zu stellen, das es einem Anrufer ermöglicht, Zugang zu einer oder mehreren Dienstleistungen über ein Telefonnetz, unter Verwendung Stimmengesteuerter Zugriffstechniken zu erhalten.
  • Es ist eine noch weitere Aufgabe der Erfindung, eine(n) simultane(n) sprecherunabhängige(n) Stimmerkennung und Stimmnachweis zur Verfügung zu stellen, um den Zugriff zu Dienstleistungen über bandbeschränkte Kommunikationskanäle zu erleichtern.
  • Es ist eine weitere Aufgabe der Erfindung, ein Verfahren zum Nachweis der beanspruchten Identität eines Individuums an einem Telefon zur Verfügung zu stellen, um es dem Individuum zu ermöglichen, Zugriff zu Dienstleistungen oder Privilegien zu erhalten, welche für autorisierte Benutzer beschränkt sind. Gemäß einem ersten Aspekt der vorliegenden Erfindung wird ein System geliefert, um es einem autorisierten Benutzer zu ermöglichen, Zugang zu einer oder mehreren Dienstleistungen über ein Telefonnetz zu erhalten, indem ein Paßwort mit einer Vielzahl von Stellen gesprochen wird, umfassend:
  • einen Digital-Prozessor;
  • Speichereinrichtungen, welche mit dem Digital-Prozessor zum Speichern verbunden sind, von:
  • Stimmerkennungsmerkmal-Transformationsdaten und Stimmerkennungsklasse-Referenzdaten, welche von einer ersten Vielzahl von Schulungssprechern über ein Telefonnetz bzw. -Netzwerk hergeleitet sind; Stimmnachweismerkmal-Transformationsdaten, welche von einer zweiten Vielzahl von Schulungssprechern über ein Telefonnetz bzw. -Netzwerk hergeleitet sind, und Stimmnachweisklasse-Referenzdaten, welche Daten umfassen, die von Benutzern hergeleitet sind, welche für den Zugriff der Dienstleistungen berechtigt sind;
  • Aufforderungseinrichtungen, welche durch den Digital-Prozessor gesteuert sind, um einen Sprecher aufzufordern, ein Paßwort beginnend mit einer ersten Stelle und endend mit einer letzten Stelle davon, zu sprechen;
  • Sprachverarbeitungseinrichtungen, welche durch den Digital- Prozessor gesteuert sind, zum Empfangen jeder Stelle und zum Erzeugen von Sprachmerkmal-Daten;
  • Stimmerkennungseinrichtungen, welche durch den Digital-Prozessor gesteuert sind, umfassend:
  • Transformationseinrichtungen zum Empfangen der Sprachmerkmal- Daten, welche für jede Stelle erzeugt sind und der Spracherkennungsmerkmal-Transformationsdaten, und in Antwort darauf Stimmerkennungsparameter-Daten für jede Stelle erzeugen;
  • Entscheidungseinrichtungen, welche mit den Transformationseinrichtungen zum Empfangen der Stimmerkennungsparameter-Daten und der Stimmerkennungsklasse-Referenzdaten verbunden sind, und in Antwort darauf eine Ausgabe erzeugen, welche entscheidet, ob das Paßwort gültig ist; und
  • Stimmnachweiseinrichtungen, welche durch den Digital-Prozessor gesteuert sind, und auf eine Entscheidung, daß das Paßwort gültig ist, antworten, um zu bestimmen, ob der Anrufer ein berechtigter Benutzer ist, umfassend:
  • Transformationseinrichtungen zum Empfangen der Sprachmerkmal- Daten, welche für jede Stelle erzeugt sind und der Sprachnachweismerkmal-Transformationsdaten und in Antwort darauf Stimmnachweisparameter-Daten für jede Stelle erzeugen; und Nachweiseinrichtungen, welche mit der Transformationseinrichtung der Stimmnachweiseinrichtung verbunden sind, um die Stimmnachweisparameter-Daten und die Stimmnachweisklasse- Referenzdaten zu empfangen und in Antwort darauf eine Ausgabe erzeugen, welche anzeigt, ob der Anrufer ein berechtigter Benutzer ist.
  • Gemäß einem zweiten Aspekt der vorliegenden Erfindung wird ein Verfahren zur Verfügung gestellt, das es einem Anrufer ermöglicht, Zugang zu einer oder mehreren Dienstleistungen über ein Telefonnetz zu erhalten, indem er ein Paßwort mit einer Vielzahl von Stellen spricht, umfassend die Schritte:
  • Vorsehen eines Digital-Prozessors und von Speichereinrichtungen, welche mit dem Digital-Prozessor verbunden sind;
  • Speichern von Stimmerkennungsmerkmal-Transformationsdaten und von Stimmerkennungsklasse-Referenzdaten, welche von einer Vielzahl von Schulungssprechern über ein Telefonnetz bzw. - Netzwerk hergeleitet sind; von Stimmnachweismerkmal-Transformationsdaten, welche von einer zweiten Vielzahl von Schulungssprechern über ein Telefonnetz bzw. -Netzwerk hergeleitet sind, und von Stimmnachweisklasse-Referenzdaten, welche Daten umfassen, die von Benutzern hergeleitet sind, die für den Zugriff zu den Dienstleistungen berechtigt sind, in den Speichereinrichtungen;
  • Auffordern des Sprechers, ein Paßwort beginnend mit einer ersten Stelle und endend mit einer letzten Stelle davon zu sprechen;
  • Erzeugen von Sprachmerkmal-Daten für jede gesprochene Stelle, unter Verwendung einer Sprachverarbeitungseinrichtung, welche durch den Digital-Prozessor gesteuert ist;
  • Erzeugen von Stimmerkennungsparameter-Daten für jede Stelle;
  • Empfangen der Sprachmerkmaldaten, welche für jede Stelle erzeugt sind, und der Spracherkennungsmerkmal-Transformationsdaten in Transformationseinrichtungen und in Antwort darauf;
  • Anwenden der Sprachmerkmaldaten und Sprachnachweismerkmal- Transformationsdaten auf eine Sprachnachweismerkmalstransformation, um einen zweiten Satz von Parametern für jede gesprochene Stelle zu erzeugen, wobei der zweite Satz in einem Sprachnachweissystem verwendet wird;
  • Erkennen einer jeden gesprochenen Stelle des Paßwortes unter Verwendung des ersten Satzes von Parametern;
  • Feststellen, ob das Paßwort gültig ist, basierend auf den empfangenen Stimmerkennungsklasse-Referenzdaten, nach dem Eingang der letzten Stelle des Paßwortes;
  • wenn das Paßwort gültig ist, Feststellen, ob der Sprecher ein berechtigter Benutzer ist, indem Stimmnachweiseinrichtungen verwendet werden, die durch den Digital-Prozessor gesteuert sind und auf das Bestimmen, daß das Paßwort gültig ist, antworten, umfassend:
  • Empfangen der Sprachmerkmaldaten, welche für jede Stelle erzeugt sind und der Stimmnachweismerkmal-Transformationsdaten in Transformationseinrichtungen und in Antwort darauf Erzeugen von Stimmnachweisparameter-Daten für jede Stelle; und
  • Empfangen der Stimmnachweisparameter-Daten und der Stimmnachweisklasse-Referenzdaten unter Verwendung von Nachweiseinrichtungen, welche mit den Transformationseinrichtungen der Stimmnachweiseinrichtung verbunden sind und in Antwort darauf eine Ausgabe erzeugen, welche anzeigt, ob der Sprecher ein berechtigter Benutzer ist.
  • Bei der Durchführung des Verfahrens und des Systemes der Erfindung soll angenommen werden, daß der Anrufer den Anruf aus einer herkömmlichen stationären Telefoneinheit an eine Institution durchführt, um Zugriff zu einer Auftragseingangs- Dienstleistung zu erhalten, in welche sich der Anrufer vorher eingeschrieben hat. Der Anrufer hat sich auch vorher in die Stimmnachweis-Datenbank eingeschrieben, was seine oder ihre Stimmnachweisklasse-Referenzdaten umfaßt. Die Institution umfaßt geeignete Eingangs-/Ausgangseinrichtungen, welche mit dem System verbunden sind (oder integral damit ausgeführt sind), um mit Signalen in und aus der Telefonleitung zu interferieren. Sobald die Anruf-Einrichtung aufgebaut worden ist, steuert der Digital-Prozessor die Abfrageeinrichtung, um den Anrufer aufzufordern, Schritt für Schritt den Eingang des vorherbestimmten Paßwortes des Anrufers zu beginnen. Der Stimmerkennungsalgorithmus verarbeitet jede Stelle und verwendet eine statistische Erkennungsstrategie, um zu bestimmen, welche Zahl bzw. Stelle (null bis neun und "oh") gesprochen wird. Nachdem alle Stellen erkannt worden sind, wird ein Test durchgeführt, um zu bestimmen, ob das eingegebene Paßwort für das System gültig ist. Wenn ja, wird der Anrufer bedingt angenommen. Mit anderen Worten, weiß, wenn das Paßwort gültig ist, das System, wer der Anrufer beansprucht zu sein und wo die Kontoinformation gespeichert ist.
  • Danach führt das System einen Stimmnachweis an dem Anrufer durch, um zu bestimmen, ob das eingegebene Paßwort durch eine Stimme gesprochen worden ist, welche vorher in der Stimmnachweis-Referenzdatenbank eingetragen wurde und dem eingegebenen Paßwort zugeschrieben worden ist. Wenn der Nachweisalgorithmus eine "Übereinstimmung" aufbaut, wird ein Zugriff auf die Auftragseingangs- bzw. Zugangsdienstleistung zur Verfügung gestellt. Wenn der Algorithmus im wesentlichen mit der dafür gespeicherten Version der Stimme übereinstimmt, jedoch nicht innerhalb eines vorher bestimmten Annahmekriteriums liegt, fordert das System den Anrufer auf, zusätzliche persönliche Informationen (zum Beispiel die Sozialversicherungsnummer oder das Geburtsdatum des Anrufers) einzugeben, um des weiteren die Identität der beanspruchten Inhaberschaft des Paßwortes zu überprüfen. Wenn der Anrufer eine solche Information nicht liefern kann, weist das System den Zugriffsanspruch zurück und der Anruf wird beendet.
  • Sobald der Anrufer Zugriff zu den Auftragseingangs-Dienstleistungen erhält, soll angenommen werden, daß er oder sie dann einen Auftrag für ein Produkt/eine Ware, welche gänzlich durch eine alphanumerische Sequenz, die dem Anrufer bekannt ist, identifiziert ist, anzugeben wünscht. Gemäß einem weiteren Merkmal der Erfindung wird ein Verfahren zum Erkennen solcher alphanumerischen Sequenzen eingerichtet, das eine spezielle Erkennungsstrategie verwendet, welche keine hohe, individuelle Merkmalserkennungsgenauigkeit erfordert, um eine Erkennung der gesprochenen alphanumerischen Sequenz zu erreichen. Im Betrieb fordert das System den Anrufer auf, jede Einzelheit einer Sequenz, welche erkannt werden soll, zu sprechen, beginnend mit einem ersten Merkmal und endend mit einem letzten Merkmal. Jedes Merkmal wird dann eingefangen und analysiert, unter Verwendung des sprecherabhängigen Stimmerkennungsalgorithmus. Das Verfahren ordnet einen Erkennungsabstand zwischen jedem gesprochenen Eingangsmerkmal und dem entsprechenden Buchstaben oder der Stelle in der gleichen Position innerhalb einer jeden bezugsalphanumerischen Sequenz zu. Nachdem jedes Merkmal bzw. jede Stelle gesprochen ist, aufgefangen und analysiert worden ist, wird jede Bezugssequenzdistanz inkrementiert und das Verfahren wird fortgeführt, indem Abstände bzw. Distanzen für jede Referenzsequenz gesammelt werden, bis das letzte Merkmal gesprochen ist. Die Referenzsequenz mit der niedrigsten kumulativen Distanz wird dann zur erkannten Sequenz erklärt.
  • Das Vorhergehende hat einige der wesentlicheren Aufgaben der vorliegenden Erfindung dargestellt. Diese Gegenstände bzw. Aufgaben sollten nur als veranschaulichend für einige hauptsächlichere Merkmale und Anwendungen der Erfindung angesehen werden. Viele andere vorteilhafte Ergebnisse können erhalten werden, indem die offenbarte Verbindung in verschiedener Weise oder modifizierender Weise der Erfindung, wie beschrieben werden wird, durchgeführt werden. Dementsprechend werden weitere Gegenstände und ein genaueres Verständnis der Erfindung unter Bezugnahme auf die folgende genaue Beschreibung der bevorzugten Ausführungsform verstanden werden.
  • Für ein vollständigeres Verständnis der vorliegenden Erfindung und der Vorteile davon sollte Bezug auf die folgende genaue Beschreibung in Verbindung mit den begleitenden Zeichnungen genommen werden, worin:
  • Fig. 1 ein schematisches Diagramm eines Telefonnetzes mit einer Anrufstation ist, die mit einem Digital-Prozessorsystem eines Dienstleisters, wie einem Finanzinstitut, ist;
  • Fig. 2 ein schematisches Diagramm des Digital-Prozessorsystemes von Fig. 1 ist, in Verwendung zur Lieferung sprecherabhängiger(m) Stimmerkennung und Stimmnachweis, entsprechend der Lehre der vorliegenden Erfindung;
  • Fig. 3 ein Blockdiagramm des bevorzugten Stimmerkennungs- Nachweisalgorithmus dieser Erfindung ist;
  • Fig. 4 ein Fließdiagramm ist, das die Nachweisroutine von Fig. 3 beschreibt;
  • Fig. 5 eine Darstellung eines Tischteiles ist, welche alphanumerische Sequenzen zur Verwendung in einem Auftragseingangssystem umfaßt; und
  • Fig. 6 ein Fließdiagramm ist, das ein Verfahren zum Erkennen alphanumerischer Sequenzen ist, die über ein Telefonnetz gesprochen werden, gemäß der Lehre der vorliegenden Erfindung.
  • Gleiche Bezugsziffern beziehen sich auf gleiche Teile und/oder Schritte über die verschiedenen Ansichten der Zeichnungen.
  • Fig. 1 zeigt ein Blockdiagramm eines herkömmlichen Telephonnetzes 10 mit einer Anrufstation 12, die mit einem Digital- Prozessorsystem 14 eines Finanzinstitutes verbindbar ist. Gemäß der Lehre der vorliegenden Erfindung umfaßt das digitale Verarbeitungssystem 14 einen sprecherunabhängigen Stimmerkennungsalgorithmus 48 und einen damit verbundenen Stimmnachweisalgorithmus 50, um einen stimmkontrollierten Zugriff zu einer oder mehreren Dienstleistungen 20 zu erleichtern, welche durch das Finanzinstitut angeboten werden. Diese Dienstleistungen umfassen, sind aber nicht beschränkt auf, Konto-Saldo-Anfragen und elektronischen Kapitaltransfer. Darüber hinaus sollte, während die folgende Erörterung die Verwendung von Stimmerkennung/-nachweis im Zusammenhang mit dem Zugriff auf in einem Finanzinstitut gespeicherten Informationen beschreibt, verstanden werden, daß die Lehre der Erfindung nicht so begrenzt ist. Die Erfindung kann für zahlreiche weitere Anwendungen verwendet werden, wie Kreditkartenvalidierung, Auftragseingang von Waren/Dienstleistungen und Personenidentifikationsvalidierung. Des weiteren sollte auch verstanden werden, daß das Telefonnetz weitere Vorrichtungen und im Stand der Technik herkömmliche Schaltsysteme umfassen kann. Dementsprechend kann die Anrufstation 12 durch ein Zentralbüro oder andere Schalteinrichtungen, wie einer Zugriffsreihe- bzw. Kaskade oder eines Austauschträger-Schaltsystems verbunden werden, vor dem Verbinden mit dem Dienstleistungslieferanten.
  • Unter Bezugnahme auf Fig. 2 ist ein Blockdiagramm eines digitalen Verarbeitungssystems 14 der vorliegenden Erfindung zum Vorsehen gleichzeitiger sprecherunabhängiger(m) Stimmerkennung und Stimmnachweis gezeigt. Das System umfaßt eine zentrale Verarbeitungseinheit bzw. einen Zentralrechner (CPU) 30 zur Steuerung des Gesamtbetriebes des Systemes. Der CPU umfaßt Daten-, Adreß- und Steuerbusse, welche allgemein durch die Bezugsziffer 32 dargestellt sind. Wie in Fig. 2 gezeigt ist, um faßt das System 14 auch herkömmliche Eingabe-/Ausgabevorrichtungen, wie eine Tastatur 34, einen Bildschirmanschluß 36, Sprachgenerator 38 und Drucker 40. Eine Kommunikationsschnittstelle 42 (welche mikroprozessorgesteuert sein kann) bildet die Schnittstelle des Systemes mit der Telefonleitung. Ein direktzugriffsspeicher ("RAM") 44 ist mit der CPU durch einen Bus 32 verbunden, um eine vorübergehende Speicherung von dadurch verarbeiteten Daten zu liefern. Ein Festspeicher bzw. Nurlesespeicher ("ROM") 45 ist ebenfalls mit dem Digital- Prozessor zum Vorsehen dauerhafter Speicherung von speziellen Erkennungs- und Nachweisdaten verbunden, wie unten beschrieben werden wird. Ein Magnetplattenspeicher 46 unterstützt Steuerprogramme, umfassend einen Stimmerkennungsalgorithmus 48 und einen Stimmnachweisalgorithmus 50 sowie geeignete Steuerprogramme (nicht gezeigt).
  • Gemäß der Erfindung speichert der ROM 45 Stimmerkennungs- Referenzinformation zur Verwendung durch den Stimmerkennungsalgorithmus 48. Diese Information ist zweierlei Art: Stimmerkennungsmerkmal-Transformationsdaten 52a und Stimmerkennungsklasse-Referenzdaten 52b, die von einer ersten Vielzahl von Schulungssprechern über ein Telefonnetz hergeleitet sind. Insbesondere werden Stimmerkennungsmerkmal-Transformationsdaten 52a und Stimmerkennungsklasse-Referenzdaten 52b in einem vorhergehenden Off-line-Verfahren, von einer Stimmerkennungsschulungsdatenbank (nicht gezeigt) hergeleitet, umfassend Stellen- bzw. Zahlendaten aus einer großen Anzahl von Schulungssprechern (zum Beispiel 1000), die über das Telefonnetz gesammelt wurden. Diese Schulungsdatenbank 52 umfaßt Daten von lokalen und Ferngesprächen und eine beträchtliche Menge von Daten wird durch Kohleknopf-Handapparatmikrophone und Elektret-Handapparatmikrophone gesammelt. Die Stimmerkennungsklasse-Referenzdaten 52 umfassen eine Darstellung für jedes Stellenwort (z. B. "eins", "zwei", etc.) als eine "Klasse", welche durch den Stimmerkennungsalgorithmus 48 erkannt werden soll. Beispielsweise wird die Darstellung der Klasse für die Stelle "eins" aus den Daten von allen Schulungssprechern hergeleitet, welche die Stelle "eins" gesprochen haben.
  • Die Stimmerkennungsschulungsdatenbank ist demzufolge ausgestaltet, um die Verteilung von akustischen Merkmalen eines jeden Stellenwortes über eine große Sprecherpopulation darzustellen. Zweck und Wirkung der auf dieser Datenbank durchgeführten Analyse ist es, die Parameter eines vielstufigen Datenreduktionsverfahren zu optimieren, um jene Eigenschaften eines einstelligen bzw. Stellenwortes zu entdecken und genau darzustellen, welche es von allen anderen einstelligen Wörtern, unabhängig vom Sprecher, unterscheidet.
  • Gemäß einem weiteren Merkmal der Erfindung unterstützt der ROM 45 auch Stimmnachweismerkmal-Transformationsdaten 52c. Diese Daten werden, in einem vorangehenden Off-line-Verfahren aus einer Stimmnachweisschulungsdatenbank (nicht gezeigt) abgeleitet. Insbesondere umfaßt die Stimmnachweisschulungsdatenbank vorzugsweise Daten, welche von etwa 100 bis 150 Schulungssprechern erzeugt werden, und wird über das Telefonnetz gesammelt. Die Datenbank umfaßt Daten von lokalen und Ferngesprächen und wesentliche Mengen von Daten werden durch Kohleknopf- Handapparatmikrophone und Elektret-Handapparatmikrophone gesammelt. Jeder Schulungssprecher wird mit einem Script versehen, das zufällige Stellensequenzen enthält. Die Sequenzen werden in einer vorbestimmten Anzahl (z. B. 5) von separaten Aufzeichnungssitzungen gesprochen, wobei die erste Aufzeichnungssession eine vorbestimmte Anzahl (z. B. 5) von Durchgängen der in zufälliger Ordnung gesprochenen Stellen enthält. Die nachfolgenden Sessionen enthalten jeweils eine vorbestimmte Anzahl (z. B. 3) von Durchgängen von in zufälliger Ordnung gesprochenen Stellen und jede Aufzeichnungssitzung ist von der vorhergehenden Sitzung durch wenigstens einen Tag getrennt.
  • Die Stimmnachweis-Schulungsdatenbank ist demnach ausgestaltet, um die Verteilung von akustischen Eigenschaften eines jeden einstelligen bzw. Stellenwortes darzustellen, das durch einen besonderen Schulungssprecher über vielfache Sprechweisen bzw. Äußerungen des Stellenwortes durch den Sprecher gesprochen wird. Der Zweck und die Wirkung der auf dieser Datenbank durchgeführten Analyse ist es, die Parameter eines vielstufigen Datenreduktionsverfahrens zu optimieren, um jene Eigenschaften eines jeden einstelligen Wortes zu entdecken und genau darzustellen, das durch jeden besonderen Schulungssprecher ausgesprochen bzw. geäußert wird, die es von dem gleichen einstelligen Wort unterscheiden, welche durch andere Schulungssprecher ausgesprochen werden.
  • Die Stimmnachweistechnik erfordert es, daß die autorisierten Benutzer des Systemes sich vorher in das System eingetragen bzw. eingeschrieben haben (d. h. jene Personen, welche über das Telefonsystem anrufen, um auf Informationen zuzugreifen). Dementsprechend umfaßt das System 14 auch eine Stimmnachweis- Referenzdatenbank 55, welche Stimmnachweisklasse-Referenzdaten 52d umfaßt, die von dem Benutzer gesammelt wurden, welcher für den Zugriff auf Dienstleistungen autorisiert ist. Die Einschreibung wird vorzugsweise durchgeführt, indem man den Benutzer ein 10-stelliges Paßwort fünfmal sprechen läßt. Zur weiteren Sicherheit wird der Anrufer gebeten, einige sachliche persönliche Fragen zu beantworten, welche beantwortet werden können, indem Stellen verwendet werden, die durch den Stimmerkennungsalgorithmus 48 erkennbar sind. Diese Fragen können die Sozialversicherungsnummer, Kontonummer oder das Geburtsdatum des Benutzers umfassen, sind aber nicht darauf beschränkt. Jede "Klasse" der Stimmnachweisklasse-Referenzdaten stellt einen autorisierten Benutzer des Systemes dar. Die Klasse-Referenzdaten aller autorisierten Benutzer des Systemes werden dann in die Stimmnachweis-Referenzdatenbank 55 eingespeichert.
  • Das System 14 umfaßt auch eine Transaktionsdatenbank 50 zum Speichern von Finanz- und Transaktionsdaten, wie Konto-Salden, Kreditinformationen und dergleichen. Diese Information wird vorzugsweise in vorbestimmten Stellen, die durch das Paßwort des Anrufers adressiert werden, gespeichert. Demnach identifi ziert das Paßwort sowohl den Anrufer als auch die Stelle der Daten, auf welche zugegriffen werden soll.
  • Bei der Durchführung des bevorzugten Verfahrens soll angenommen werden, daß ein Anrufer einen Anruf von der Anrufstation 12 an das Finanzinstitut richtet, um Zugriff zu Kontoinformationen zu haben. Der Anrufer hat sich vorher in die Stimmnachweis-Referenzdatenbank 55 eingeschrieben. Sobald der Anrufanschluß aufgebaut ist, fordert der Sprachgenerator 38 des digitalen Verarbeitungssystemes 14 den Anrufer auf, mit dem Stelle-für-Stelle-Eingang des vorbestimmten Paßwortes des Anrufers zu beginnen, wobei mit der ersten Stelle begonnen wird und mit der letzten Stelle davon aufgehört wird. Das Anfordern der Stellen kann alternativ in jeder gewünschten Weise oder Sequenz bewirkt werden. Die Signale bilden mit der Telefonleitung durch die Kommunikationsschnittstelle 42 eine Schnittstelle. Jede Stelle wird gesprochen, der Stimmerkennungsalgorithmus 48 verarbeitet die empfangene Information und, wie unten beschrieben werden wird, verwendet eine statistische Erkennungs-/Entscheidungsstrategie um die Stelle zu bestimmen (null bis neun und "oh").
  • Nachdem alle Stellen erkannt wurden, wird ein Test durchgeführt, um zu bestimmen, ob das eingegebene Paßwort für das System gültig ist. Wenn das Ergebnis des Tests positiv ist, wird der Anrufer angenommen, weil das System "weiß", wer der Anrufer beansprucht zu sein und daher wo die Kontoinformation gespeichert ist. Danach benutzt das System den Stimmnachweisalgorithmus 50, um einen Stimmnachweis an dem Anrufer durchzuführen, um zu bestimmen, ob das eingegebene Paßwort durch eine Stimme gesprochen wurde, welche vorher in die Datenbank 55 eingeschrieben und dem eingegebenen Paßwort zugeschrieben wurde. Wenn der Algorithmus 50 eine "Übereinstimmung" innerhalb den vorbestimmten Zulassungskriterien aufbaut, wird der Zugriff zu den Daten oder anderen Systemdienstleistungen erlaubt. Wenn der Algorithmus 50 nicht wesentlich die eingegebene Stimme mit einer in der Datenbank 55 gespeicherten Stimme als übereinstimmend feststellen kann, weist das System die Zugriffsanforderung zurück und der Anruf wird beendet. Wenn der Algorithmus 50 die eingegebene Stimme im wesentlichen mit einer gespeicherten Stimme in der Datenbank 55 zur Deckung bringen kann, jedoch nicht innerhalb eines vorbestimmten Zulassungskriteriums, fordert das System den Anrufer auf, zusätzliche persönliche Informationen einzugeben (z. B. die Sozialversicherungsnummer oder Kontonummer des Anrufers), welche mit dem Paßwort verbunden sind, um weiter die Identität des beanspruchten Benutzers des Paßwortes zu überprüfen. Wenn der Anrufer eine solche Information nicht liefern kann, weist das System die Zugriffsanforderung zurück und der Anruf wird beendet. Eine korrekte Eingabe der geforderten Information ermöglicht es dem Anrufer, Zugriff zu der Dienstleistung zu erhalten.
  • Bezugnehmend nun auf die Fig. 3 ist ein Blockdiagramm einer bevorzugten Ausführungsform der Stimmerkennungs- und Stimmnachweisalgorithmen 48 und 50 gezeigt. Wie gesehen werden wird, teilen die Algorithmen 48 und 50 die funktionellen Blöcke, die in dem oberen Abschnitt des Blockdiagramms dargestellt sind. Diese Blöcke umfassen eine Sprachverarbeitungseinrichtung zur Durchführung einer ersten Reihe eines mehrstufigen Datenreduktionsverfahrens. Insbesondere extrahiert beim Eingeben von Sprache in das System 14 eine Merkmalsextraktionsvorrichtung 16 einen Satz von ersten Merkmalen, welche in Realzeit alle 10 ms berechnet werden. Die primären Merkmale umfassen heuristisch bzw. experimentell entwickelte Zeitdomänmerkmale (zum Beispiel Null-Kreuzraten) und Frequenzdomäninformationen, wie schnelle Fouriertransformations-Koeffizienten ("FFT"). Die Ausgabe der Merkmalsextraktionseinrichtung 60 ist ein reduzierter Datensatz (etwa 4000 Datenpunkte/Aussprache bzw. Utteranz bzw. Änderung anstelle der ursprünglich etwa 8000 Datenpunkte/Aussprache bzw. Äußerung) und wird auf eine Triggerroutine 62 angewendet, welche gesprochene Worte unter Verwendung der primären Merkmale einfängt. Die Triggerroutine ist mit einer zweiten Merkmalsroutine 63 zum Berechnen "zwei ter Merkmale" aus den ersten Merkmalen verbunden. Die zweiten bzw. Sekundärmerkmale resultieren vorzugsweise aus nichtlinearen Transformationen der primären Merkmale. Der Ausgang der Routine 63 ist mit der phonetischen Segmentierungsroutine 64 verbunden. Sobald eine Äußerung eingefangen ist und die sekundären Merkmale berechnet sind, liefert die Routine 64 eine automatische phonetische Segmentierung. Um eine Segmentierung zu erreichen, lokalisiert die phonetische Segmentierungsroutine 64 vorzugsweise Stimmgrenzen, indem eine optimale Zustandssequenz eines Doppelzustand-Markovverfahrens basierend auf einer Sequenz von Skalardiskriminantenfunktionswerten bestimmt werden wird. Die Diskriminantenfunktionswerte werden durch eine Fisher-Lineartransformation zweiter Klasse von sekundären Merkmalsvektoren erzeugt. Die Stimmgrenzen werden dann als Ankerpunkte für eine nachfolgende phonetische Segmentierung verwendet.
  • Nachdem die phonetischen Grenzen durch die phonetische Segmentierungsroutine lokalisiert sind, werden die individuellen phonetischen Einheiten der Äußerung analysiert und die sogenannten "tertiären Merkmale" werden durch eine tertiäre Merkmalsberechnungsroutine 65 berechnet. Diese tertiären Merkmale umfassen vorzugsweise Informationen (z. B. Mittel oder Abwandlungen), welche aus den sekundären Merkmalen innerhalb der phonetischen Grenzen abgeleitet sind. Die tertiären Merkmale werden sowohl für den Stimmerkennungsalgorithmus 48 als auch für den Stimmnachweisalgorithmus 50, wie beschrieben werden wird, verwendet. Die Ausgabe der Routine 65 ist ein tertiärer Merkmalsvektor von etwa 300 Datenpunkten/Äußerung. Wie dann gesehen werden kann, stellt der obere Abschnitt von Fig. 3 die erste Reihe bzw. Folge des mehrstufigen Datenreduktionsverfahrens dar, was wesentlich die Menge an zu analysierenden Daten reduziert, aber immer noch die notwendige Klassentrennung erhält, ob stellenbezogen oder sprecherbezogen, welche erforderlich ist, um eine Erkennung bzw. einen Nachweis zu erreichen. Der mittlere Abschnitt von Fig. 3 stellt eine zweite Reihe des Datenreduktionsverfahrens dar und, wie beschrieben werden wird, umfaßt die Transformationsroutinen 49a und 49b.
  • Um sprecherunabhängige Stimmerkennung zu bewirken, werden die tertiären Merkmale zunächst in die Stimmerkennung- Lineartransformationsroutine 49a eingespeist. Diese Routine multipliziert den tertiären Merkmalvektor mit den Stimmerkennungsmerkmal-Transformationsdaten (welche eine Matrix sind) 52a, um einen Stimmerkennungsparameterdatenvektor für jede Stelle zu erzeugen. Die Ausgabe der Transformationsroutine 49a wird dann in einer Stimmerkennungsstatistik-Entscheidungsroutine 66a zum Vergleich mit den Stimmerkennungsklasse-Referenzdaten 52b angewendet. Der Ausgang der Entscheidungsroutine 66a ist eine Ja/Nein-Entscheidung, welche feststellt, ob die Stelle erkannt ist, und wenn ja, welche Stelle gesprochen wurde.
  • Insbesondere bewertet die Entscheidungsroutine 66a ein Maß an Wortähnlichkeit für jede der elf Stellen (null bis neun und oh) im Vokabular. Die Stimmerkennungsklasse-Referenzdaten 52b umfassen verschiedene Elemente (zum Beispiel Zulassungsschwellen für jede Stellenklasse, inverse Ko-Varianten und Mittelvektoren für jede Klasse), die durch die Entscheidungsstrategie verwendet werden. Für eine zu erklärende Stelle (im Gegensatz zurückgewiesen zu werden) müssen bestimmte Zulassungskriterien erfüllt werden. Die Zulassungskriterien können die folgenden umfassen, müssen aber nicht darauf beschränkt sein.
  • Der Stimmerkennungsalgorithmus bestimmt die engste Übereinstimmung zwischen den Klassereferenzdaten und dem Stimmerkennungsparametervektor für die Stelle; diese engste Übereinstimmung ist eine sogenannte "erste Wahl". Die nächstengste Übereinstimmung ist eine "zweite Wahl". Jede Wahl hat ihre eigene Übereinstimmungsmarke. Die Stelle ist deklariert, wenn (1) die Übereinstimmungsmarke der ersten Wahl unter einem vorbestimmten Schwellenwert liegt und (2) der Unterschied zwischen der bzw. den Übereinstimmungsmarke(n) der erste Wahl- und zweite Wahlstellen größer als ein anderer vorbestimmter Schwellenwert ist. Wenn alle Stellen des Paßwortes erkannt wurden, ist der Stimmerkennungsabschnitt des Verfahrens beendet.
  • Um einen Stimmnachweis zu bewirken, werden die tertiären Merkmale auch in eine Lineartransformationsroutine 49b eingespeist, welche jeden tertiären Merkmalsvektor durch das bzw. die Stimmnachweismerkmal-Transformationsdaten (das bzw. die eine Matrix ist bzw. sind) multipliziert. Die Ausgabe der Routine 49b ist ein Np-Elementvektor p von Stimmnachweisparameterdaten für jede Stelle des Paßwortes, wobei Np vorzugsweise etwa gleich 25 ist. Der Stimmnachweisparameterdatenvektor p wird dann in eine Nachweisroutine 66b eingegeben, welche auch die Stimmnachweisklasse-Referenzdaten 52d für den Anrufer empfängt. Insbesondere wird das Stimmnachweisklasse-Referenzdatum aus der Stimmnachweis-Referenzdatenbank 55 geliefert. Wie oben festgestellt wurde, wird die Adresse in der Datenbank 55 der Stimmnachweisklasse-Referenzdaten des Anrufers durch das Paßwort des Anrufers definiert, das durch den Stimmerkennungsalgorithmus 48 hergeleitet ist.
  • Die Nachweisroutine 66b erzeugt eine von drei verschiedenen Ausgaben: ZULASSEN, ZURÜCKWEISEN und PRÜFEN. Eine ZULASSEN- Ausgabe autorisiert den Anrufer, auf Daten aus der Transaktionsdatenbank 56 zuzugreifen. Die ZURÜCKWEISEN-Ausgabe wird geliefert, wenn die Nachweiseinrichtung die behauptete Identität des Anrufers bestreitet. Die ÜBERPRÜFEN-Ausgabe initiiert die Aufforderungsstufe, worin zusätzliche ergänzende Fragen gestellt werden, um die Identität des Anrufers nachzuweisen.
  • Bezugnehmend nun auf Fig. 4 ist, ein Fließdiagramm der Nachweisroutine 66b von Fig. 3 gezeigt. Als Hintergrund, die Routine beginnt nach der Bestimmung, vorzugsweise durch den Stimmerkennungsalgorithmus 48, daß das Paßwort gültig ist. Obwohl bei der bevorzugten Ausführungsform der Stimmnachweisparametervektor erzeugt wird, indem jede Stelle erkannt wird, ist es auch möglich, die Stimmnachweisparametervektoren solange nicht zu erzeugen, bis ein Test durchgeführt worden ist, um zu bestimmen, ob das Paßwort gültig ist.
  • Die Nachweisroutine beginnt bei Schritt 78. Inbesondere werden die Np-Element-Stimmnachweisparametervektoren für jede Stelle des gesprochenen Paßwortes mit den vorher erzeugten Stimmnachweisklasse-Referenzdatenvektoren, die in der Stimmnachweis- Referenzdatenbank 55 gespeichert sind, verglichen. Zunächst wird eine gewichtete euklidische Distanz d(i) für jede Stelle bei Schritt 80 berechnet:
  • D(i) - [ w&sub1;(j) (p(i,j) - pr(i,j)²)1/2]
  • worin: p(i,j) die j-te Komponente des Länge-Np-Vektors ist, der aus der i-ten Stelle in der Länge Nd der derzeitigen Paßworteingangssequenz erzeugt wird,
  • pr(i,j) ist die j-te Komponente des Referenzvektors von der i-ten Stelle für den behaupteten eingeschriebenen Anrufer ist,
  • w&sub1; ein konstanter Wichtungsvektor ist, der vorberechnet ist, um eine optimale Systemleistung zu ergeben, und
  • d(i) die resultierende gewichtete euklidische Distanzmessung für die i-te Stelle in der laufenden Paßwort-Eingangssequenz ist.
  • Der Distanz- bzw. Abstandsvektor d wird dann aufsteigend sortiert:
  • d(i),...,d(Nd) = , ... (d(i))
  • Eine Gesamtdistanz wird dann bei Schritt 82 als eine gewichtete Kombination dieser sortierten Abstände berechnet:
  • D = w&sub2;(i) d(i)
  • worin: d der sortierte Distanzvektor ist,
  • w&sub2; ein weiterer konstanter Wichtungsvektor ist, der vorberechnet ist, um eine optimale Systemleistung zu ergeben, und
  • D die resultierende Gesamtdistanzmessung für die gesamte laufende Paßworteingangssequenz ist, im Hinblick auf den behauptet eingeschriebenen Anrufer.
  • Bei Schritt 84 wird die Gesamtdistanz mit zwei (2) Zulassungsschwellenwerten, einem oberen Schwellenwert und einem unteren Schwellenwert, verglichen. Wenn die Gesamtdistanz unter dem unteren Zulassungsschwellenwert liegt, ist der Test positiv und der Anrufer erhält sofortigen Zugriff zu der angeforderten Dienstleistung. Das ist die "ZULASSEN"-Ausgabe 88. Wenn die Distanz größer als der obere Schwellenwert ist, wird der Zugriff des Anrufers zu der Dienstleistung versagt und das Verfahren wird beendet. Das entspricht der "ZURÜCKWEISEN"-Ausgabe 89. Befindet sich das Ergebnis des Tests 84 zwischen den unteren und oberen Schwellenwerten, geht das Verfahren bei Schritt 90 weiter, indem der Anrufer aufgefordert wird, eine oder mehrere Sachfragen zu beantworten, welche einzigartig mit dem Paßwort verbunden sind. Das ist die "ÜBERPRÜFEN"-Ausgabe. Beispielsweise wird der Anrufer aufgefordert, seine/ihre Sozialversicherungsnummer oder seine/ihre Kontonummer zu sprechen. Alternativ dazu kann der Aufrufer aufgefordert werden, solche Identifizierungsinformationen händisch durch die Telefontastatur oder durch Ziehen einer Kreditkarte oder dergleichen durch eine Kartenlesevorrichtung einzugeben. Natürlich hängt die Art und der Umfang der persönlichen Information, welche durch das System angefordert wird, vollständig von dem Systembetreiber und dem Grad an Sicherheit ab, welche durch den Anrufer und den Betreiber gewünscht wird. Bei Schritt 92 wird dann eine Überprüfung durchgeführt, um festzustellen, ob die Frage(n) korrekt beantwortet worden ist bzw. sind. Ist das Ergebnis der Überprüfung positiv, erhält der Anrufer wieder Zugriff zu der angeforderten Dienstleistung. Wenn das Ergebnis der Überprüfung bei Schritt 92 negativ ist, wird ein Zugriff verweigert und das Verfahren beendet.
  • Dementsprechend kann gesehen werden, daß die vorliegende Erfindung ein Stimmerkennungs-/Nachweissystem und ein Verfahren mit verschiedenen Vorteilen im Vergleich zu auf Telefon basierenden Zugriffsschemata des Standes der Technik liefert. Die Probleme, welche inhärent in der limitierten Frequenz- Antwortumgebung eines Telefonnetzes sind, werden durch die Verwendung eines sprecherunabhängigen Stimmerkennungssystemes und eines Stimmnachweisalgorithmus verbessert. Der Stimmnachweisalgorithmus wird durch eine Stimmnachweis-Schulungsdatenbank "geschult", welche Sprecher-Klassifizierungen im Gegensatz zu Wort-Klassifizierungen umfaßt. Darüber hinaus verwendet der Nachweisalgorithmus tertiäre Merkmale und Stimmnachweismerkmal-Transformationsparameter, um einen vorzugsweise 25-Element-Vektor für jede gesprochene Stelle des eingegebenen Paßwortes zu berechnen. Diese Vektoren werden dann mit Stimmnachweisklasse-Referenzdaten (für den Anrufer) verglichen und eine gewichtete euklidische Distanz wird für jede Stelle berechnet. Eine Gesamtdistanz für das gesamte Paßwort wird dann berechnet und mit zwei Zulassungsschwellenwerten verglichen, um zu bestimmen, ob die Stimme des Anrufers mit seiner oder ihrer vorher gespeicherten Stimmschablone übereinstimmt. Anrufer, welche eine "nahezu Übereinstimmung" liefern, müssen eine zusätzliche Sicherheitsebene durchlaufen, bevor ein Zugriff zu den Daten oder Dienstleistungen erlaubt wird.
  • Das digitale Verarbeitungssystem der Erfindung kann ein IBM AT Personalcomputer sein, ist aber nicht darauf beschränkt, welcher mit einem Ortsnetz verbunden ist, um Nachweisreferenzdaten zu speichern und darauf zuzugreifen. Für auf Telefon basierende Anwendungen, welche einen vertraulichen Zugriff auf Informationen erfordern, weist das System 14 zahlreiche Verwendungen auf. Nur beispielsweise weist ein Stimmnachweis über das Telefonnetz ein wesentliches Potential für den Ausschluß von Telefonkartenbetrug auf. Zusätzlich können Banken und andere Finanzinstitute mehr Sicherheit für auf Telefon basierende Kontozugriffssysteme liefern. Derzeit benutzen Banksysteme Identifikationsnummern oder "PIN"-Stellen bzw. -Nummern, welche über die Telefontastatur eingegeben werden, um die Eignung für den Systemzugang zu bestimmen. Stimmnachweis sowie PIN- Stellen bzw. -Nummer können verwendet werden, um zu bestimmen, ob der Benutzer für einen Zugriff zur Kontoinformation autorisiert ist. Weitere Verwendungen für das oben beschriebene System umfassen Kreditinformationzugriff, Ferngespräch- Netzzugriff und elektronischen Kapitaltransfer. Da der Stimmnachweis in Verbindung mit Stimmerkennung arbeitet, können Drehtelefon-Benutzer ebenfalls jede automatisierte Verwendung, welche das System anwendet, verwenden.
  • Die Leistungsfähigkeit des Systemes ist durch die Zurückweisungsrate von autorisierten Benutzern (Fehlertyp 1) und zufälligen Zulassungsraten von "Hochstaplern" (Fehlertyp 2) charakterisiert. Die Zurückweisung von autorisierten Benutzern muß weniger als 2% für die meisten Anwendungen betragen. Gleichzeitig muß auch die zufällige Zulassung von "Hochstaplern" unter 2% gehalten werden. Im allgemeinen besteht ein definierter Kompromiß zwischen diesen Fehlerraten, da ein Erhöhen der Schwellenwerte, um eine Zurückweisung von autorisierten Benutzern zu vermindern, immer in einer erhöhten zufälligen Zulassung von Hochstaplern resultieren wird und umgekehrt. Fehlerraten wurden aus einer vorläufigen Datenbank bestimmt, welche eine Mischung von Elektret- und Kohle-Knopfmikrophonen für individuelle Sprecher enthält. Bei diesem Test lagen die Fehlertyp 1-Raten unter 2%, während Fehlertyp 2-Raten ebenfalls unter 2% lagen. Verbesserte Raten werden erhalten, indem die Größe und Vielfalt der Daten in der Stimmnachweis- Schulungsdatenbank 55 erhöht werden.
  • Wie oben beschrieben worden ist, kann das digitale Verarbeitungssystem 14 von Fig. 2 für zahlreiche Anwendungen verwendet werden. Eine solche Anwendung ist ein Telefonauftrag-Eingangssystem, worin autorisierte Benutzer des Systems die Fähigkeit bzw. Möglichkeit haben, sich in das System einzuwählen und nach einem wie oben beschriebenen Nachweis, Waren/Dienstleistungen über kodierte, alphanumerische Sequenzen zu ordern. Wie aus Fig. 5 ersichtlich ist, kann das Telefonauftrag- Eingangssystem einen Tisch 100 von alphanumerischen Sequenzen 102 umfassen, welche jede einen Teil oder Bestandteil identifizieren, der durch den Anrufer über das Telefonnetz über die Eingabe einer alphanumerischen Sequenz bestellt werden kann, die dem Teil oder Bestandteil entspricht. Wie in Fig. 5 gezeigt ist, umfaßt jede alphanumerische Sequenz 102 Buchstaben des Alphabets und/oder die Stellen bzw. Ziffern "null" bis "neun". Beispielsweise umfaßt eine Sequenz die Zeichen "FA4921R3". Natürlich kann eine alphanumerische Sequenz nur aus Ziffern, nur Buchstaben oder einer Kombination aus beiden bestehen. Das Auftrag-Eingangssystem umfaßt einen vorbestimmten endlichen Satz der alphanumerischen Sequenzen 102.
  • Die Klasse-Referenzdaten 52b, welche die verschiedenen Zeichen der alphanumerischen Sequenz darstellen sowie die Steuerworte "stop" und "löschen" werden gemäß der oben beschriebenen Lehre erzeugt. Insbesondere werden die Stimmerkennungsklasse-Referenzdaten 52b erweitert, um Darstellungen für jedes Zeichen des Erkennungsvokabulars (das Alphabet, die Ziffern "null" bis "neun", "stop" und "löschen") zu umfassen. Dieses Vokabular wird dann durch den Stimmerkennungsalgorithmus 48 zum Zweck der automatischen Erkennung alphanumerischer Sequenzen, welche über das Telefonnetz gesprochen werden, verwendet.
  • Weil solch ein umfangreiches Vokabular so schwierig zu erkennen ist, wird eine spezielle Erkennungsstrategie verwendet, um hohe Genauigkeit zu erhalten. Die Strategie verwendet einen auf Gesamtheit basierenden Erkennungsansatz, anstelle einer Einzelzeichenerkennung. Insbesondere tritt gemäß diesem Aspekt der vorliegenden Erfindung eine Erkennung nicht auf der Zeichenebene auf. Vielmehr werden einzeln gesprochene Merkmale nur aufgefangen und analysiert. Sobald eine Gesamtheit von Zeichen (entsprechend einer alphanumerischen Sequenz) auf diese Weise verarbeitet ist, findet die Erkennung an der Gesamtheit selbst, im Gegensatz zu irgendwelchen einzelnen Zeichen darin, statt. Wie gezeigt werden wird, erfordert die Strategie keine hohe Einzelzeichenerkennungsgenauigkeit, um eine Erkennung der gesprochenen alphanumerischen Sequenz zu erreichen.
  • Gemäß der Erfindung wird davon ausgegangen, daß eine gesprochene alphanumerische Sequenz ein Mitglied des gegebenen endlichen Satzes alphanumerischer Sequenzen ist, welche vorher in der Datenbank 56 oder einem anderen geeigneten Speicherbereich gespeichert wurde. Im Betrieb wird zunächst die Identität des Anrufers, der Zugriff zu der Auftrag-Eingabe-Dienstleistung wünscht, gemäß den in den Fig. 3 bis 4 oben beschriebenen Verfahren nachgewiesen. Im allgemeinen beinhaltet das Verfahren zum Erkennen einer gesprochenen alphanumerischen Sequenz das Bestimmen einer Erkennungsdistanz zwischen jeder gesprochenen Eingabe und dem entsprechenden Buchstaben oder der Ziffer in der gleichen Position innerhalb jeder in der Datenbank dargestellten Sequenz. Jede Erkennungsdistanz ist vorzugsweise ein Maß der akustischen Unähnlichkeit zwischen einer gesprochenen Eingabe und einem hypothetischen Zeichen. Beispielsweise wird, wenn ein "A" gesprochen wird, die Erkennungsdistanz für "A" als ganz niedrig erwartet. Es ist auch wahrscheinlich, daß die Distanzen für Zeichen, welche ähnlich zu "A" klingen, wie "8", "H", "J" und "K", höher sein werden, jedoch auch ziemlich niedrig und daß Distanzen für hoch unähnliche Zeichen, wie "9", "Q" und "W" ziemlich hoch sein werden.
  • Bezugnehmend auf Fig. 6 wird nun ein Fließdiagramm der bevorzugten Ausführungsform des Verfahrens zum Erkennen alphanumerischer Sequenzen gemäß der Erfindung gezeigt. Es wird angenommen, daß jede der alphanumerische Sequenz-Referenzen wenig stens zwei Zeichen umfaßt, die entweder Buchstaben, Ziffern oder Kombinationen von Buchstaben und Ziffern sein können.
  • Das Verfahren beginnt bei Schritt 104 durch Initialisieren auf "Null" einer kumulativen Erkennungsdistanz für jede der alphanumerischen Referenzsequenzen. Bei Schritt 105 wird der Anrufer aufgefordert, ein alphanumerisches Zeichen in einer zu erkennenden alphanumerischen Sequenz zu sprechen, beginnend mit dem ersten Zeichen in der Sequenz. Das Verfahren setzt sich bei Schritt 106 fort, um das gesprochene alphanumerische Zeichen einzufangen und zu analysieren. Diese Funktion wird durch den Erkennungsalgorithmus 48, wie vorher beschrieben, bewirkt. Es wird dann ein Test 107 durchgeführt, um zu bestimmen, ob ein vorbestimmter Befehl, zum Beispiel "stop" gesprochen wurde. Ein solcher Befehl zeigt an, daß alle der Zeichen der Sequenz bereits gesprochen worden sind. Wenn das Ergebnis des Tests 107 negativ ist, setzt das Verfahren bei Schritt 108 fort, um ein Maß akustischer Unähnlichkeit zwischen dem alphanumerischen Zeichen und einem entsprechenden alphanumerischen Zeichen jeder alphanumerischen Referenzsequenz zu berechnen, um eine Anfangserkennungsdistanz für jede der alphanumerischen Referenzsequenzen zu erzeugen. Insbesondere vergleicht, wenn ein Anrufer das erste Zeichen einer Eingabesequenz spricht, der Schritt 108 dieses Zeichen mit dem ersten Zeichen jeder der Referenzsequenzen. Bei Schritt 110 wird die kumulative Erkennungsdistanz für jede der Referenzsequenzen durch die in Schritt 108 berechnete Erkennungsdistanz inkrementiert bzw. vermehrt.
  • Das Verfahren kehrt dann zurück und wiederholt die Schritte 105, 106, 107, 108 und 110 für jedes nachfolgende alphanumerische Zeichen in der zu erkennenden alphanumerischen Sequenz und das entsprechende alphanumerische Zeichen jeder der alphanumerischen Referenzsequenzen. Wenn zu jeder Zeit während dieses Verfahrens das Ergebnis des Tests 107 positiv ist, was anzeigt, daß alle Zeichen der Sequenz bereits gesprochen worden sind, führt das Verfahren bei Schritt 112 einen Test durch, um zu bestimmen, welche der alphanumerischen Referenzsequenzen die niedrigste kumulative Erkennungsdistanz aufweist. Die alphanumerische Referenzsequenz mit der niedrigsten kumulativen Erkennungsdistanz wird dann in Schritt 114 angenommen, die durch den Anrufer gesprochene alphanumerische Sequenz zu sein.
  • Wenn gewünscht, kann der Schritt 107 weggelassen werden. Wenn beispielsweise die zu erkennende alphanumerische Sequenz eine festgelegte Länge besitzt, kann das Verfahren automatisch Schritt 112 auf den Empfang einer vorbestimmten Anzahl von Zeichen beginnen.
  • Die oben beschriebene Technik hat sich als ziemlich robust erwiesen, sogar für Sequenzen, welche nur zwei Zeichen enthalten. Im allgemeinen sind lange Sequenzen leichter zu erkennen als kurze Sequenzen, weil mehr Information verfügbar ist, um zu bestimmen, welche Sequenz (aus einem endlichen Satz) gesprochen wurde. Die Größe der Sequenzdatenbank ist aus zwei Gründen wichtig. Zunächst nimmt für eine festgelegte Sequenzlänge die Sequenzgenauigkeit mit zunehmender Größe der Datenbank (d. h. die Anzahl möglicher Sequenzen) zu. Des weiteren ist mehr Berechnung erforderlich, wenn die Datenbankgröße zunimmt.
  • Es sollte festgehalten werden, daß eine Einzelzeichen- Erkennungsgenauigkeit nicht gleichmäßig hoch sein muß, um eine hohe Sequenzgenauigkeit zu erreichen. Beispielsweise sollte, wenn die mittlere Substitutionsrate für das alphanumerische Vokabular 15% beträgt (d. h. 15% der Häufigkeit, in welcher ein gesprochenes Zeichen einzeln mißerkannt wird), dann für alphanumerische Sequenzen mit vier (4) Zeichen eine mittlere Sequenzsubstitutionsrate von weniger als 2% erreichbar sein.
  • Während das Verfahren von Fig. 6 bevorzugt ist, könnte die Erkennungsstategie alternativ durch Berechnen akustischer Ähnlichkeiten zwischen gesprochenen und gespeicherten Zeichen und Erzeugen von Erkennungswerten in Antwort darauf durchgeführt werden. Es würden dann größere Referenzwerte Zeichen zugeordnet werden, welche größere akustische Ähnlichkeiten aufweisen. Unter dieser Annäherung würde die Referenzsequenz mit dem höchsten damit verbundenen Referenzwert als die erkannte Sequenz erklärt werden. Auch ist, während das Verfahren zum Erkennen alphanumerischer Sequenzen im Zusammenhang mit einem Auftrag-Eingabe-System folgend einem Stimmnachweis beschrieben worden ist, die Lehre der Erfindung nicht auf solche Anwendungen beschränkt. Tatsächlich kann sogar ein Paßwortnachweis unter Verwendung des Verfahrens, falls gewünscht, bewirkt werden.
  • Es sollte von den Fachleuten auf dem Gebiet berücksichtigt werden, daß die oben offenbarten sgezifischen Ausführungsformen rasch als Basis zur Modifizierung oder Ausgestaltung anderer Strukturen oder Verfahren zum Durchführen des gleichen Zweckes der vorliegenden Erfindung verwendet werden können. Beispielsweise könnte der Stimmerkennungsalgorithmus 48 alternativ sprecherabhängig anstelle von sprecherunabhängig sein, wie es in der bevorzugten Ausführungsform beschrieben ist. Von den Fachleuten auf dem Gebiet sollte auch erkannt werden, daß solche äquivalenten Ausführungen nicht vom Umfang der Erfindung, wie er in den anhängenden Ansprüchen ausgeführt ist, abweicht.

Claims (9)

1. Ein System, das es einem berechtigten Benutzer erlaubt, Zugriff zu einer oder mehreren Dienstleistungen über ein Telefon-Netzwerk (10) zu erhalten, indem ein mehrstelliges Paßwort gesprochen wird, umfassend:
einen Digital-Prozessor (30);
Speichereinrichtungen (45), welche mit dem Digital- Prozessor (30) verbunden sind, zum Speichern von:
Stimmerkennungsmerkmal-Transformationsdaten (52a) und Stimmerkennungsklasse-Referenzdaten (52b), welche von einer ersten Vielzahl von Schulungssprechern über ein Telefonnetzwerk hergeleitet sind; Stimmnachweismerkmal-Transformationsdaten (52c), welche von einer zweiten Vielzahl von Schulungssprechern über ein Telefon-Netzwerk (10) hergeleitet sind, und Stimmnachweisklasse-Referenzdaten (52d), welche Daten umfassen, die von Benutzern hergeleitet sind, welche für den Zugriff der Dienstleistungen berechtigt sind;
Aufforderungseinrichtungen (38), welche durch den Digital- Prozessor (30) gesteuert sind, um einen Sprecher aufzufordern, ein Paßwort beginnend mit einer ersten Stelle und endend mit einer letzten Stelle davon, zu sprechen;
Sprachverarbeitungseinrichtungen (60-65), welche durch den Digital-Prozessor (30) gesteuert sind, zum Empfangen jeder Stelle und zum Erzeugen von Sprachmerkmal-Daten;
Stimmerkennungseinrichtungen (49a), welche durch den Digital-Prozessor (30) gesteuert sind, umfassend:
Transformationseinrichtungen zum Empfangen der Sprachmerkmal-Daten, welche für jede Stelle erzeugt sind und der Spracherkennungsmerkmal-Transformationsdaten und in Antwort darauf Stimmerkennungsparameter-Daten für jede Stelle erzeugen;
Entscheidungseinrichtungen (66a), welche mit den Transformationseinrichtungen zum Empfangen der Stimmerkennungsparameter-Daten und der Stimmerkennungsklasse-Referenzdaten verbunden sind und in Antwort darauf eine Ausgabe erzeugen, welche entscheidet, wenn das Paßwort gültig ist; und
Stimmnachweiseinrichtungen (49b), welche durch den Digital- Prozessor gesteuert sind und auf eine Entscheidung, daß das Paßwort gültig ist, antworten, um zu bestimmen, ob der Anrufer ein berechtigter Benutzer ist, umfassend:
Transformationseinrichtungen zum Empfangen der Sprachmerkmal-Daten, welche für jede Stelle erzeugt sind und der Sprachnachweismerkmal-Transformationsdaten und in Antwort darauf Stimmnachweisparameter-Daten für jede Stelle erzeugen; und
Nachweiseinrichtungen (66b), welche mit der Transformationseinrichtung der Stimmnachweiseinrichtung verbunden sind, um die Stimmnachweisparameter-Daten und die Stimmnachweisklasse-Referenzdaten zu empfangen und in Antwort darauf eine Ausgabe erzeugen, welche anzeigt, ob der Anrufer ein berechtigter Benutzer ist.
2. Ein Verfahren, das es einem Anrufer ermöglicht, Zugang zu einer oder mehreren Dienstleistungen über ein Telefon- Netzwerk (10) zu erhalten, indem ein mehrstelliges Paßwort gesprochen wird, umfassend die folgenden Schritte:
Vorsehen eines Digital-Prozessors (30) und von Speichereinrichtungen (45), welche mit dem Digital-Prozessor (30) verbunden sind;
Speichern von Stimmerkennungsmerkmal-Transformationsdaten (52a) und von Stimmerkennungsklasse-Referenzdaten (52b), welche von einer Vielzahl von Schulungssprechern über ein Telefon-Netzwerk hergeleitet sind; von Stimmnachweismerkmal-Transformationsdaten (52c), welche von einer zweiten Vielfalt von Schulungssprechern über ein Telefon-Netzwerk hergeleitet sind, und von Stimmnachweisklasse-Referenzdaten (52d), welche Daten umfassen, die von Benutzern hergeleitet sind, die für den Zugriff zu den Dienstleistungen berechtigt sind, in den Speichereinrichtungen;
Auffordern des Sprechers, ein Paßwort beginnend mit einer ersten Stelle und endend mit einer letzten Stelle davon zu sprechen;
Erzeugen von Sprachmerkmal-Daten für jede gesprochene Stelle, unter Verwendung einer Sprachverarbeitungseinrichtung (60-65), welche durch den Digital-Prozessor (30) gesteuert ist;
Erzeugen von Stimmerkennungsparameter-Daten für jede Stelle;
Empfangen der Sprachmerkmaldaten, welche für jede Stelle erzeugt sind, und der Spracherkennungsmerkmal-Transformationsdaten in Transformationseinrichtungen und in Antwort darauf;
Anwenden der Sprachmerkmaldaten und Sprachnachweismerkmal- Transformationsdaten auf eine Sprachnachweismerkmaltrans formation, um einen zweiten Satz von Parametern für jede gesprochene Stelle zu erzeugen, wobei der zweite Satz in einem Sprachnachweissystem verwendet wird;
Erkennen einer jeden gesprochenen Stelle des Paßwortes unter Verwendung des ersten Satzes von Parametern;
Feststellen, ob das Paßwort gültig ist, basierend auf den empfangenen Stimmerkennungsklasse-Referenzdaten, nach dem Eingang der letzten Stelle des Paßwortes;
wenn das Paßwort gültig ist, Feststellen, ob der Sprecher ein berechtigter Benutzer ist, indem Stimmnachweiseinrichtungen verwendet werden, die durch den Digital-Prozessor (30) gesteuert sind und auf das Bestimmen, daß das Paßwort gültig ist, antworten, umfassend:
Empfangen der Sprachmerkmaldaten, welche für jede Stelle erzeugt sind und der Stimmnachweismerkmal-Transformationsdaten in Transformationseinrichtungen und in Antwort darauf Erzeugen von Stimmnachweisparameter-Daten für jede Stelle; und
Empfangen der Stimmnachweisparameter-Daten und der Stimmnachweisklasse-Referenzdaten unter Verwendung von Nachweiseinrichtungen, welche mit den Transformationseinrichtungen der Stimmnachweiseinrichtung verbunden sind und in Antwort darauf eine Ausgabe erzeugen, welche anzeigt, ob der Sprecher ein berechtigter Benutzer ist.
3. Verfahren nach Anspruch 2, worin jede gesprochene Stelle des Paßwortes erkannt wird, durch:
kontinuierliches Erzeugen eines Satzes primärer Merkmale aus einem empfangenen Sprachsignal, das die gesprochene Stelle darstellt;
Aufnehmen einer Sprach-Utteranz aus dem Satz primärer Merkmale;
Erzeugen eines Satzes von sekundären Merkmalen aus der aufgenommenen Sprach-Utteranz;
Segmentieren der aufgenommenen Sprach-Utteranz in phonetische Einheiten;
Erzeugen eines Satzes von tertiären Merkmalen aus den sekundären Merkmalen innerhalb der phonetischen Einheiten;
Transformieren der tertiären Merkmale für jede phonetische Einheit durch Stimmerkennungsmerkmal-Transformationsdaten, um Stimmerkennungsparameterdaten davon zu erzeugen; und
Vergleichen der Stimmerkennungsparameterdaten mit vorbestimmten Stimmerkennungsklasse-Referenzdaten, um die gesprochene Stelle festzustellen und
Feststellen, ob das Paßwort gültig ist, nachdem die letzte Stelle des Paßwortes eingegangen ist.
4. Verfahren nach Anspruch 3, worin die Stimmerkennungsmerkmal-Transformationsdaten (52a) und die Stimmerkennungsklasse-Referenzdaten (52b) in einem Off-line-Verfahren aus einer Schulungs-Datenbank einer Vielzahl von Schulungssprechern, hergeleitet über ein Telefon-Netzwerk (10) erzeugt werden.
5. Verfahren nach Anspruch 3, worin der Schritt des Nachweises der Identität des Benutzers die folgenden Schritte umfaßt:
(a) Transformieren der tertiären Merkmale für jede phonetische Einheit durch Stimmnachweismerkmaldaten (52c), um Stimmnachweisparameterdaten dafür zu erzeugen;
(b) Vergleichen der Stimmnachweisparameterdaten mit vorbestimmten Stimmnachweisklasse-Referenzdaten (52d) für jede gesprochene Stelle;
(c) Berechnen eines gewichteten euklidischen Abstandes zwischen den Sprachnachweisparameter-Daten und den Sprachnachweisklasse-Referenzdaten (52d) für jede gesprochene Stelle;
(d) Wiederholen der Schritte (b)-(c) für jede gesprochene Stelle;
(e) Berechnen eines Gesamtabstandes für das gesamte Paßwort aus den gewichteten euklidischen Abständen, welche für jede gesprochene Stelle erzeugt sind;
(f) Vergleichen des Gesamtabstandes mit vorbestimmten Schwellen, um die Identität des Benutzers nachzuweisen.
6. Verfahren nach Anspruch 5, worin der Schritt des Vergleichens des Gesamtabstandes die folgenden Schritte umfaßt:
(g) Bestimmen, ob der Gesamtabstand geringer als eine erste Schwelle ist;
(h) wenn der Gesamtabstand geringer als die erste Schwelle ist, Akzeptieren der Identität des Anrufers;
(i) wenn der Gesamtabstand größer als die erste Schwelle ist, Bestimmen, ob der Gesamtabstand größer als eine zweite Schwelle ist; und
(j) wenn der Gesamtabstand größer als die zweite Schwelle ist, Zurückweisen der Identität des Anrufers.
7. Verfahren nach Anspruch 6, das des weiteren die folgende Stufe umfaßt:
(k) wenn der Gesamtabstand größer als die erste Schwelle und kleiner als die zweite Schwelle ist, Auffordern des Anrufers, eine oder mehrere persönliche Fragen, welche mit dem Paßwort verbunden sind, zu beantworten; und (l) Bestimmen, ob die Fragen korrekt beantwortet sind; und
(m) wenn die Fragen korrekt beantwortet sind, Akzeptieren der Identität des Anrufers.
8. Verfahren nach Anspruch 2, worin, wenn die Identität des Anrufers nicht bestätigt werden kann, der Anrufer aufgefordert wird, wenigstens eine persönliche Frage, welche mit dem Paßwort verbunden ist, zu beantworten;
Bestimmen, ob die Frage korrekt beantwortet ist; und
wenn die Frage korrekt beantwortet ist, Akzeptieren der Identität des Anrufers.
9. Verfahren nach Anspruch 8, das des weiteren die folgende Stufe umfaßt:
Zurückweisen der Identität des Anrufers, wenn die Frage unrichtig beantwortet ist.
DE69131689T 1990-05-15 1991-05-14 Gleichzeitige sprecherunabhängige sprachererkennung und sprecherverifikation über einen fernsprechnetz Expired - Lifetime DE69131689T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US07/523,486 US5127043A (en) 1990-05-15 1990-05-15 Simultaneous speaker-independent voice recognition and verification over a telephone network
US07/566,519 US5125022A (en) 1990-05-15 1990-08-10 Method for recognizing alphanumeric strings spoken over a telephone network
PCT/US1991/003362 WO1991018386A1 (en) 1990-05-15 1991-05-14 Simultaneous speaker-independent voice recognition and verification over a telephone network

Publications (2)

Publication Number Publication Date
DE69131689D1 DE69131689D1 (de) 1999-11-11
DE69131689T2 true DE69131689T2 (de) 2000-07-06

Family

ID=27061167

Family Applications (2)

Application Number Title Priority Date Filing Date
DE69131689T Expired - Lifetime DE69131689T2 (de) 1990-05-15 1991-05-14 Gleichzeitige sprecherunabhängige sprachererkennung und sprecherverifikation über einen fernsprechnetz
DE69132996T Expired - Lifetime DE69132996T2 (de) 1990-05-15 1991-05-14 Gleichzeitige sprecherunabhängige Spracherkennung und -verifizierung über ein Telefonnetz

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE69132996T Expired - Lifetime DE69132996T2 (de) 1990-05-15 1991-05-14 Gleichzeitige sprecherunabhängige Spracherkennung und -verifizierung über ein Telefonnetz

Country Status (7)

Country Link
US (1) US5125022A (de)
EP (2) EP0953972B1 (de)
AU (1) AU649688B2 (de)
CA (1) CA2082942C (de)
DE (2) DE69131689T2 (de)
ES (2) ES2179589T3 (de)
WO (1) WO1991018386A1 (de)

Families Citing this family (192)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2795719B2 (ja) * 1990-03-07 1998-09-10 富士通株式会社 認識距離の差に基づく最良優先探索処理方法
US5303299A (en) * 1990-05-15 1994-04-12 Vcs Industries, Inc. Method for continuous recognition of alphanumeric strings spoken over a telephone network
US5365574A (en) * 1990-05-15 1994-11-15 Vcs Industries, Inc. Telephone network voice recognition and verification using selectively-adjustable signal thresholds
US5592389A (en) * 1990-12-03 1997-01-07 Ans, Llp Navigation system utilizing audio CD player for data storage
US5748840A (en) * 1990-12-03 1998-05-05 Audio Navigation Systems, Inc. Methods and apparatus for improving the reliability of recognizing words in a large database when the words are spelled or spoken
US5454062A (en) * 1991-03-27 1995-09-26 Audio Navigation Systems, Inc. Method for recognizing spoken words
US5167004A (en) * 1991-02-28 1992-11-24 Texas Instruments Incorporated Temporal decorrelation method for robust speaker verification
US7747243B2 (en) 1992-03-24 2010-06-29 Boatwright John T Call security system
FR2690777A1 (fr) * 1992-04-30 1993-11-05 Lorraine Laminage Procédé de commande d'un automate par reconnaissance vocale.
US5566229A (en) * 1992-08-24 1996-10-15 At&T Voice directed communications system employing shared subscriber identifiers
US5450524A (en) * 1992-09-29 1995-09-12 At&T Corp. Password verification system based on a difference of scores
CA2107317A1 (en) * 1992-10-30 1994-05-01 Rajendra Prasad Mikkilineni Speech recognition system
US5440662A (en) * 1992-12-11 1995-08-08 At&T Corp. Keyword/non-keyword classification in isolated word speech recognition
US5717743A (en) * 1992-12-16 1998-02-10 Texas Instruments Incorporated Transparent telephone access system using voice authorization
US5502759A (en) * 1993-05-13 1996-03-26 Nynex Science & Technology, Inc. Apparatus and accompanying methods for preventing toll fraud through use of centralized caller voice verification
IT1272573B (it) * 1993-09-06 1997-06-23 Alcatel Italia Sistema automatico di acquisizione guidata di segnali vocali da linea telefonica
DE4334313A1 (de) * 1993-10-08 1995-04-13 Sel Alcatel Ag Verfahren zum Verwalten eines Sprachspeichers und Vorrichtung dafür
US5511111A (en) * 1993-11-01 1996-04-23 Engineering And Business Systems, Inc. Caller name and identification communication system with caller screening option
US5528731A (en) * 1993-11-19 1996-06-18 At&T Corp. Method of accommodating for carbon/electret telephone set variability in automatic speaker verification
US5613037A (en) * 1993-12-21 1997-03-18 Lucent Technologies Inc. Rejection of non-digit strings for connected digit speech recognition
AU703597B2 (en) * 1994-03-18 1999-03-25 Nuance Communications, Inc. Speech controlled vehicle alarm system
BR9508898A (pt) * 1994-09-07 1997-11-25 Motorola Inc Sistema para reconhecer sons falados
US5724481A (en) * 1995-03-30 1998-03-03 Lucent Technologies Inc. Method for automatic speech recognition of arbitrary spoken words
US5822727A (en) * 1995-03-30 1998-10-13 At&T Corp Method for automatic speech recognition in telephony
US5651056A (en) * 1995-07-13 1997-07-22 Eting; Leon Apparatus and methods for conveying telephone numbers and other information via communication devices
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
US5737489A (en) * 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
US5719931A (en) * 1995-10-27 1998-02-17 Lucent Technologies Inc. Access code dialing apparatus and method
US5917889A (en) * 1995-12-29 1999-06-29 At&T Corp Capture of alphabetic or alphanumeric character strings in an automated call processing environment
US5917890A (en) * 1995-12-29 1999-06-29 At&T Corp Disambiguation of alphabetic characters in an automated call processing environment
US5940476A (en) 1996-06-28 1999-08-17 Distributed Software Development, Inc. System and method for identifying an unidentified caller
US5832440A (en) * 1996-06-10 1998-11-03 Dace Technology Trolling motor with remote-control system having both voice--command and manual modes
US5901203A (en) * 1996-06-28 1999-05-04 Distributed Software Development, Inc. Computer-based system and method for identifying an unidentified caller
US6205204B1 (en) 1996-06-28 2001-03-20 Distributed Software Development, Inc. System and method for identifying an unidentified person using an ambiguity-resolution criterion
US7006605B1 (en) * 1996-06-28 2006-02-28 Ochopee Big Cypress Llc Authenticating a caller before providing the caller with access to one or more secured resources
US6529881B2 (en) 1996-06-28 2003-03-04 Distributed Software Development, Inc. System and method for identifying an unidentified customer at the point of sale
US5995928A (en) * 1996-10-02 1999-11-30 Speechworks International, Inc. Method and apparatus for continuous spelling speech recognition with early identification
US6137863A (en) * 1996-12-13 2000-10-24 At&T Corp. Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition
US6061654A (en) * 1996-12-16 2000-05-09 At&T Corp. System and method of recognizing letters and numbers by either speech or touch tone recognition utilizing constrained confusion matrices
US7346564B1 (en) 1997-02-07 2008-03-18 Frederic J Kirklin System for merchandise ordering and order fulfillment
US5819029A (en) * 1997-02-20 1998-10-06 Brittan Communications International Corp. Third party verification system and method
US6542583B1 (en) * 1997-03-06 2003-04-01 Avaya Technology Corp. Caller identification verification system
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US9978373B2 (en) 1997-05-27 2018-05-22 Nuance Communications, Inc. Method of accessing a dial-up service
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US6847717B1 (en) 1997-05-27 2005-01-25 Jbc Knowledge Ventures, L.P. Method of accessing a dial-up service
CA2239340A1 (en) * 1997-07-18 1999-01-18 Lucent Technologies Inc. Method and apparatus for providing speaker authentication by verbal information verification
US6154579A (en) * 1997-08-11 2000-11-28 At&T Corp. Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US6219453B1 (en) 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6141661A (en) * 1997-10-17 2000-10-31 At&T Corp Method and apparatus for performing a grammar-pruning operation
US6208965B1 (en) 1997-11-20 2001-03-27 At&T Corp. Method and apparatus for performing a name acquisition based on speech recognition
US6122612A (en) * 1997-11-20 2000-09-19 At&T Corp Check-sum based method and apparatus for performing speech recognition
US6205428B1 (en) 1997-11-20 2001-03-20 At&T Corp. Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers
US6941274B1 (en) * 1997-11-28 2005-09-06 Diebold, Incorporated Automated transaction machine
US6223158B1 (en) 1998-02-04 2001-04-24 At&T Corporation Statistical option generator for alpha-numeric pre-database speech recognition correction
US6205261B1 (en) 1998-02-05 2001-03-20 At&T Corp. Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique
US7937260B1 (en) 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
US6400805B1 (en) 1998-06-15 2002-06-04 At&T Corp. Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition
US6631368B1 (en) 1998-11-13 2003-10-07 Nortel Networks Limited Methods and apparatus for operating on non-text messages
US6467038B1 (en) * 1999-03-12 2002-10-15 Compaq Information Technologies Group, L.P. Method for supporting optical international language modules flashed into ROM
US6526292B1 (en) * 1999-03-26 2003-02-25 Ericsson Inc. System and method for creating a digit string for use by a portable phone
DE19949560A1 (de) * 1999-10-14 2001-04-19 Messer Griesheim Gmbh Verfahren und Vorrichtung für die Abwicklung einer telefonischen Bestellung unter Einsatz eines Sprachdialogsystems
DE19952049A1 (de) * 1999-10-28 2001-05-10 Siemens Ag Verfahren und Anordnung zur Verifikation eines Sprechers anhand eines Rechners
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
SG96555A1 (en) * 2000-05-26 2003-06-16 Synapseworld Pte Ltd A system and method for automated information storage and retrieval
SG97923A1 (en) * 2000-08-28 2003-08-20 Synapseworld Pte Ltd A system and method for automated ordering of commodities
US6697779B1 (en) * 2000-09-29 2004-02-24 Apple Computer, Inc. Combined dual spectral and temporal alignment method for user authentication by voice
US6774908B2 (en) * 2000-10-03 2004-08-10 Creative Frontier Inc. System and method for tracking an object in a video and linking information thereto
US7177402B2 (en) * 2001-03-01 2007-02-13 Applied Voice & Speech Technologies, Inc. Voice-activated interactive multimedia information processing system
JP2003036097A (ja) * 2001-07-25 2003-02-07 Sony Corp 情報検出装置及び方法、並びに情報検索装置及び方法
US6856953B1 (en) * 2001-12-19 2005-02-15 Globespanvirata, Inc. Method and system for testing algorithm compliancy
DE102005030380B4 (de) * 2005-06-29 2014-09-11 Siemens Aktiengesellschaft Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8255216B2 (en) * 2006-10-30 2012-08-28 Nuance Communications, Inc. Speech recognition of character sequences
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
WO2008150936A1 (en) * 2007-05-30 2008-12-11 Creatier Interactive, Llc Method and system for enabling advertising and transaction within user generated video content
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US7853492B1 (en) 2008-03-17 2010-12-14 Kirklin Frederic J System for merchandise ordering and order fulfillment
JP5024154B2 (ja) * 2008-03-27 2012-09-12 富士通株式会社 関連付け装置、関連付け方法及びコンピュータプログラム
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8386238B2 (en) * 2008-11-05 2013-02-26 Citrix Systems, Inc. Systems and methods for evaluating a sequence of characters
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US20110202338A1 (en) * 2010-02-18 2011-08-18 Philip Inghelbrecht System and method for recognition of alphanumeric patterns including license plate numbers
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
DE102012002190B4 (de) 2012-02-07 2020-01-23 Universitätsklinikum Schleswig-Holstein Campus Lübeck Vorrichtung zur Einbringung und Positionierung zusammenfaltbarer Herzklappen-Bioprothesen
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US8473293B1 (en) * 2012-04-17 2013-06-25 Google Inc. Dictionary filtering using market data
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
AU2014278592B2 (en) 2013-06-09 2017-09-07 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (de) 2013-06-13 2019-09-25 Apple Inc. System und verfahren für durch sprachsteuerung ausgelöste notrufe
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
CN104167033B (zh) * 2014-06-17 2017-11-07 吴志毅 基于手机、语音、短信控制的智能电子锁系统及控制方法
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US20170124313A1 (en) * 2015-11-02 2017-05-04 BIOMIDS Inc. Authentication System and Method
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10468026B1 (en) * 2018-08-17 2019-11-05 Century Interactive Company, LLC Dynamic protection of personal information in audio recordings
US11134215B2 (en) * 2018-08-21 2021-09-28 11Sight, Inc. Online encounter enhancement systems and methods

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BE787377A (fr) * 1971-08-09 1973-02-09 Waterbury Nelson J Cartes de securite et systeme d'utilisation de telles cartes
US4363102A (en) * 1981-03-27 1982-12-07 Bell Telephone Laboratories, Incorporated Speaker identification system using word recognition templates
US4757525A (en) * 1982-09-29 1988-07-12 Vmx, Inc. Electronic audio communications system with voice command features
JPS59178587A (ja) * 1983-03-30 1984-10-09 Nec Corp 話者確認システム
US4910782A (en) * 1986-05-23 1990-03-20 Nec Corporation Speaker verification system
JPS6340434A (ja) * 1986-08-06 1988-02-20 Kazuo Hashimoto 人工知能機能付留守番電話装置
US4896358A (en) * 1987-03-17 1990-01-23 Itt Corporation Method and apparatus of rejecting false hypotheses in automatic speech recognizer systems
US4827518A (en) * 1987-08-06 1989-05-02 Bell Communications Research, Inc. Speaker verification system using integrated circuit cards
US4853953A (en) * 1987-10-08 1989-08-01 Nec Corporation Voice controlled dialer with separate memories for any users and authorized users
GB8809898D0 (en) * 1988-04-27 1988-06-02 British Telecomm Voice-operated service

Also Published As

Publication number Publication date
WO1991018386A1 (en) 1991-11-28
ES2179589T3 (es) 2003-01-16
ES2141090T3 (es) 2000-03-16
DE69132996D1 (de) 2002-05-29
DE69132996T2 (de) 2002-12-05
AU649688B2 (en) 1994-06-02
EP0953972A2 (de) 1999-11-03
AU7995891A (en) 1991-12-10
DE69131689D1 (de) 1999-11-11
EP0953972B1 (de) 2002-04-24
EP0953972A3 (de) 1999-11-10
EP0528990A4 (en) 1994-06-08
US5125022A (en) 1992-06-23
EP0528990B1 (de) 1999-10-06
EP0528990A1 (de) 1993-03-03
CA2082942A1 (en) 1991-11-16
CA2082942C (en) 2002-10-15

Similar Documents

Publication Publication Date Title
DE69131689T2 (de) Gleichzeitige sprecherunabhängige sprachererkennung und sprecherverifikation über einen fernsprechnetz
DE69329855T2 (de) Methode zur erkennung alphanumerischer zeichenketten, die über ein telefonnetz gesprochen werden
DE69428606T2 (de) Sprachgesteuerter kontozugang über ein fernsprechnetz
DE69325387T2 (de) Spracherkennung und sprecherverifizierung über ein telefonnetzwerk mittels selektiv einstellbarer signalschwellwerte
DE69425818T2 (de) System und verfahren zur sprachbefehlssteuerung und sprecheridentitätsprüfung
DE69031189T2 (de) Sprachverifizierungseinrichtung zur Prüfung der Identität des Benutzers einer Telefonkreditkarte
EP0821346B1 (de) Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals
DE69624848T2 (de) Verfahren zum überprüfen eines sprechers
DE69822179T2 (de) Verfahren zum lernen von mustern für die sprach- oder die sprechererkennung
DE69636057T2 (de) Sprecherverifizierungssystem
DE69615748T2 (de) Verfahren und Gerät zur Sprecherprüfung mittels Unterscheidung der Prototypen-Zusammenstellung
DE68914449T2 (de) Sprachgesteuerte bedienung.
US5127043A (en) Simultaneous speaker-independent voice recognition and verification over a telephone network
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE4310190A1 (de) Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn
DE69800320T2 (de) Verfahren und Vorrichtung zur Sprechererkennung durch Prüfung von mündlicher Information mittels Zwangsdekodierung
DE60128270T2 (de) Verfahren und System zur Erzeugung von Sprechererkennungsdaten, und Verfahren und System zur Sprechererkennung
DE69733740T2 (de) Statistische Datenbank-Korrektur von alphanumerischen Kontennummern unter Verwendung von Spracherkennung
EP0964390A2 (de) Vorrichtung zur Verifizierung von Signalen
DE69813597T2 (de) Mustererkennung, die mehrere referenzmodelle verwendet
DE69430162T2 (de) System und Verfahren zur passiven Sprachverifizierung in einem Fernsprechnetzwerk
DE69702602T2 (de) Sprechererkennungsverfahren unter anwendung eines prädiktiven models, insbesondere zur zugangskontrolle geeignet
DE69805821T2 (de) Vefahren und anordnung um sprecherreferenzdaten für die sprecherverifizierung zur verfügung zu stellen
DE60026106T2 (de) System und Verfahren zur Sprachererkennung mittels Sprachmodellen
EP1006507A1 (de) Verfahren zur Durchführung einer Sprechererkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: SCANSOFT, INC. (N.D.GES.D. STAATES DELAWARE), PEAB

8328 Change in the person/name/address of the agent

Representative=s name: TIEDTKE, BUEHLING, KINNE & PARTNER GBR, 80336 MUENCHEN