DE69131689T2

DE69131689T2 - Gleichzeitige sprecherunabhängige sprachererkennung und sprecherverifikation über einen fernsprechnetz

Info

Publication number: DE69131689T2
Application number: DE69131689T
Authority: DE
Inventors: Alan Hunt; Thomas Schalk
Original assignee: VCS Industries Inc
Current assignee: Nuance Communications Inc
Priority date: 1990-05-15
Filing date: 1991-05-14
Publication date: 2000-07-06
Anticipated expiration: 2011-05-15
Also published as: WO1991018386A1; ES2179589T3; ES2141090T3; DE69132996D1; DE69132996T2; AU649688B2; EP0953972A2; AU7995891A; DE69131689D1; EP0953972B1; EP0953972A3; EP0528990A4; US5125022A; EP0528990B1; EP0528990A1; CA2082942A1; CA2082942C

Description

Die vorliegende Erfindung betrifft im allgemeinen Stimmerkennungstechniken und insbesondere ein Stimmerkennungs-/Nachweis- Verfahren und -System, das es einem Anrufer ermöglicht, Zugriff zu einer oder mehrere Dienstleistungen über ein Telefonnetz zu erhalten.
Stimmnachweis ist das Verfahren zum Nachweisen bzw. Überprüfen bzw. Bestätigen einer von einer Person beanspruchten Identität, indem eine Probe der Stimme dieser Person analysiert wird. Diese Sicherheitsform basiert auf der Prämisse, daß jede Person einzigartig durch ihre Stimme identifiziert werden kann. Die durch eine Nachweistechnik geleistete Sicherheitshöhe hängt davon ab, wie gut der Nachweisalgorithmus die Stimme eines autorisierten Benutzers von allen nichtautorisierten Benutzern unterscheidet.
Es wäre wünschenswert, Stimmnachweisschemata zu verwenden, um die Identität eines Telefonanrufers nachzuweisen. Solche Schemata wurden jedoch nicht erfolgreich ausgeführt. Insbesondere hat es sich als schwierig erwiesen, einen kosteneffektiven und genauen Stimmnachweis über ein Telefonnetz zu liefern. Grund dafür ist, daß das Telefonnetz eine herausfordernde Umgebung ist, welche die Sprachqualität durch das Einführen verschiedener Arten von Geräusch bzw. Rausch und Bandbeschränkungen verschlechtert. Die Schwierigkeit bei der Lieferung eines Stimmnachweises auf Telefonbasis wird des weiteren durch die Tatsache kompliziert, daß viele Arten von Mikrophonen in herkömmlichen Telefonstationen verwendet werden. Diese Mikrophone beinhalten Kohle-Knopfharidapparate, Elektret-Handapparate und Elektret-Sprechtelefone. Jede dieser Vorrichtungen besitzt einzigartige akustische Eigenschaften, welche die Weise, in wel cher die Stimme einer Person über das Telefonnetz klingen kann, beeinflussen.
Die US-PS 4,363,102 offenbart eine Sprecher-Erkennungs- und Nachweisanordnung, in welcher akustische Merkmalsschablonen für vorbestimmte Bezugswörter gespeichert sind. Jede Schablone ist ein standardisierter Satz von akustischen Merkmalen für ein Wort, welcher beispielsweise durch Mittelung der Werte von akustischen Merkmalen von einer Vielzahl von Sprechern gebildet ist. Sprach-"Korrespondenzsignale", welche zum Erkennen des Inhalts des Sprechmusters eines Sprechers erhalten werden, werden gleichzeitig verwendet werden, um den Sprecher zu erkennen. Distanzmessungen werden durchgeführt, indem Distanzmessungseinrichtugnen verwendet werden, und während der Erkennung wird eine Schablonenübereinstimmungs- bzw. -vergleichstechnik verwendet, um einen Satz von Distanzen bzw. Abständen zu erzeugen (ein Abstand für jede Utteranz bzw. Äußerung bzw. Sprechweise für die Eingangssequenz).
Es ist eine Aufgabe der vorliegenden Erfindung, über ein Telefon gesprochene alphanumerische Sequenzen zu erkennen.
Es ist eine weitere Aufgabe der Erfindung, ein Verfahren zum Erkennen alphanumerischer Sequenzen zu beschreiben, worin die Erkennung auf der Basis einer Gesamtheit alphanumerischer Kennzeichen bzw. Ziffern bzw. Stellen im Gegensatz zur Einzelkennzeichen-Erkennung erfolgt.
Es ist so eine weitere Aufgabe der Erfindung, ein Verfahren zum Erkennen alphanumerischer Sequenzen zu beschreiben, das nicht eine hohe, individuelle Kennzeichenerkennungsgenauigkeit erfordert, um ein Erkennen einer gesprochenen alphanumerischen Sequenz zu erreichen.
Es ist auch eine Aufgabe der vorliegenden Erfindung, ein Verfahren und ein System zur Stimmerkennung und zum Stimmnachweis über ein Telefonnetz zur Verfügung zu stellen.
Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein Verfahren und ein System zur Verfügung zu stellen, das es einem Anrufer ermöglicht, Zugang zu einer oder mehreren Dienstleistungen über ein Telefonnetz, unter Verwendung Stimmengesteuerter Zugriffstechniken zu erhalten.
Es ist eine noch weitere Aufgabe der Erfindung, eine(n) simultane(n) sprecherunabhängige(n) Stimmerkennung und Stimmnachweis zur Verfügung zu stellen, um den Zugriff zu Dienstleistungen über bandbeschränkte Kommunikationskanäle zu erleichtern.
Es ist eine weitere Aufgabe der Erfindung, ein Verfahren zum Nachweis der beanspruchten Identität eines Individuums an einem Telefon zur Verfügung zu stellen, um es dem Individuum zu ermöglichen, Zugriff zu Dienstleistungen oder Privilegien zu erhalten, welche für autorisierte Benutzer beschränkt sind. Gemäß einem ersten Aspekt der vorliegenden Erfindung wird ein System geliefert, um es einem autorisierten Benutzer zu ermöglichen, Zugang zu einer oder mehreren Dienstleistungen über ein Telefonnetz zu erhalten, indem ein Paßwort mit einer Vielzahl von Stellen gesprochen wird, umfassend:
einen Digital-Prozessor;
Speichereinrichtungen, welche mit dem Digital-Prozessor zum Speichern verbunden sind, von:
Stimmerkennungsmerkmal-Transformationsdaten und Stimmerkennungsklasse-Referenzdaten, welche von einer ersten Vielzahl von Schulungssprechern über ein Telefonnetz bzw. -Netzwerk hergeleitet sind; Stimmnachweismerkmal-Transformationsdaten, welche von einer zweiten Vielzahl von Schulungssprechern über ein Telefonnetz bzw. -Netzwerk hergeleitet sind, und Stimmnachweisklasse-Referenzdaten, welche Daten umfassen, die von Benutzern hergeleitet sind, welche für den Zugriff der Dienstleistungen berechtigt sind;
Aufforderungseinrichtungen, welche durch den Digital-Prozessor gesteuert sind, um einen Sprecher aufzufordern, ein Paßwort beginnend mit einer ersten Stelle und endend mit einer letzten Stelle davon, zu sprechen;
Sprachverarbeitungseinrichtungen, welche durch den Digital- Prozessor gesteuert sind, zum Empfangen jeder Stelle und zum Erzeugen von Sprachmerkmal-Daten;
Stimmerkennungseinrichtungen, welche durch den Digital-Prozessor gesteuert sind, umfassend:
Transformationseinrichtungen zum Empfangen der Sprachmerkmal- Daten, welche für jede Stelle erzeugt sind und der Spracherkennungsmerkmal-Transformationsdaten, und in Antwort darauf Stimmerkennungsparameter-Daten für jede Stelle erzeugen;
Entscheidungseinrichtungen, welche mit den Transformationseinrichtungen zum Empfangen der Stimmerkennungsparameter-Daten und der Stimmerkennungsklasse-Referenzdaten verbunden sind, und in Antwort darauf eine Ausgabe erzeugen, welche entscheidet, ob das Paßwort gültig ist; und
Stimmnachweiseinrichtungen, welche durch den Digital-Prozessor gesteuert sind, und auf eine Entscheidung, daß das Paßwort gültig ist, antworten, um zu bestimmen, ob der Anrufer ein berechtigter Benutzer ist, umfassend:
Transformationseinrichtungen zum Empfangen der Sprachmerkmal- Daten, welche für jede Stelle erzeugt sind und der Sprachnachweismerkmal-Transformationsdaten und in Antwort darauf Stimmnachweisparameter-Daten für jede Stelle erzeugen; und Nachweiseinrichtungen, welche mit der Transformationseinrichtung der Stimmnachweiseinrichtung verbunden sind, um die Stimmnachweisparameter-Daten und die Stimmnachweisklasse- Referenzdaten zu empfangen und in Antwort darauf eine Ausgabe erzeugen, welche anzeigt, ob der Anrufer ein berechtigter Benutzer ist.
Gemäß einem zweiten Aspekt der vorliegenden Erfindung wird ein Verfahren zur Verfügung gestellt, das es einem Anrufer ermöglicht, Zugang zu einer oder mehreren Dienstleistungen über ein Telefonnetz zu erhalten, indem er ein Paßwort mit einer Vielzahl von Stellen spricht, umfassend die Schritte:
Vorsehen eines Digital-Prozessors und von Speichereinrichtungen, welche mit dem Digital-Prozessor verbunden sind;
Speichern von Stimmerkennungsmerkmal-Transformationsdaten und von Stimmerkennungsklasse-Referenzdaten, welche von einer Vielzahl von Schulungssprechern über ein Telefonnetz bzw. - Netzwerk hergeleitet sind; von Stimmnachweismerkmal-Transformationsdaten, welche von einer zweiten Vielzahl von Schulungssprechern über ein Telefonnetz bzw. -Netzwerk hergeleitet sind, und von Stimmnachweisklasse-Referenzdaten, welche Daten umfassen, die von Benutzern hergeleitet sind, die für den Zugriff zu den Dienstleistungen berechtigt sind, in den Speichereinrichtungen;
Auffordern des Sprechers, ein Paßwort beginnend mit einer ersten Stelle und endend mit einer letzten Stelle davon zu sprechen;
Erzeugen von Sprachmerkmal-Daten für jede gesprochene Stelle, unter Verwendung einer Sprachverarbeitungseinrichtung, welche durch den Digital-Prozessor gesteuert ist;
Erzeugen von Stimmerkennungsparameter-Daten für jede Stelle;
Empfangen der Sprachmerkmaldaten, welche für jede Stelle erzeugt sind, und der Spracherkennungsmerkmal-Transformationsdaten in Transformationseinrichtungen und in Antwort darauf;
Anwenden der Sprachmerkmaldaten und Sprachnachweismerkmal- Transformationsdaten auf eine Sprachnachweismerkmalstransformation, um einen zweiten Satz von Parametern für jede gesprochene Stelle zu erzeugen, wobei der zweite Satz in einem Sprachnachweissystem verwendet wird;
Erkennen einer jeden gesprochenen Stelle des Paßwortes unter Verwendung des ersten Satzes von Parametern;
Feststellen, ob das Paßwort gültig ist, basierend auf den empfangenen Stimmerkennungsklasse-Referenzdaten, nach dem Eingang der letzten Stelle des Paßwortes;
wenn das Paßwort gültig ist, Feststellen, ob der Sprecher ein berechtigter Benutzer ist, indem Stimmnachweiseinrichtungen verwendet werden, die durch den Digital-Prozessor gesteuert sind und auf das Bestimmen, daß das Paßwort gültig ist, antworten, umfassend:
Empfangen der Sprachmerkmaldaten, welche für jede Stelle erzeugt sind und der Stimmnachweismerkmal-Transformationsdaten in Transformationseinrichtungen und in Antwort darauf Erzeugen von Stimmnachweisparameter-Daten für jede Stelle; und
Empfangen der Stimmnachweisparameter-Daten und der Stimmnachweisklasse-Referenzdaten unter Verwendung von Nachweiseinrichtungen, welche mit den Transformationseinrichtungen der Stimmnachweiseinrichtung verbunden sind und in Antwort darauf eine Ausgabe erzeugen, welche anzeigt, ob der Sprecher ein berechtigter Benutzer ist.
Bei der Durchführung des Verfahrens und des Systemes der Erfindung soll angenommen werden, daß der Anrufer den Anruf aus einer herkömmlichen stationären Telefoneinheit an eine Institution durchführt, um Zugriff zu einer Auftragseingangs- Dienstleistung zu erhalten, in welche sich der Anrufer vorher eingeschrieben hat. Der Anrufer hat sich auch vorher in die Stimmnachweis-Datenbank eingeschrieben, was seine oder ihre Stimmnachweisklasse-Referenzdaten umfaßt. Die Institution umfaßt geeignete Eingangs-/Ausgangseinrichtungen, welche mit dem System verbunden sind (oder integral damit ausgeführt sind), um mit Signalen in und aus der Telefonleitung zu interferieren. Sobald die Anruf-Einrichtung aufgebaut worden ist, steuert der Digital-Prozessor die Abfrageeinrichtung, um den Anrufer aufzufordern, Schritt für Schritt den Eingang des vorherbestimmten Paßwortes des Anrufers zu beginnen. Der Stimmerkennungsalgorithmus verarbeitet jede Stelle und verwendet eine statistische Erkennungsstrategie, um zu bestimmen, welche Zahl bzw. Stelle (null bis neun und "oh") gesprochen wird. Nachdem alle Stellen erkannt worden sind, wird ein Test durchgeführt, um zu bestimmen, ob das eingegebene Paßwort für das System gültig ist. Wenn ja, wird der Anrufer bedingt angenommen. Mit anderen Worten, weiß, wenn das Paßwort gültig ist, das System, wer der Anrufer beansprucht zu sein und wo die Kontoinformation gespeichert ist.
Danach führt das System einen Stimmnachweis an dem Anrufer durch, um zu bestimmen, ob das eingegebene Paßwort durch eine Stimme gesprochen worden ist, welche vorher in der Stimmnachweis-Referenzdatenbank eingetragen wurde und dem eingegebenen Paßwort zugeschrieben worden ist. Wenn der Nachweisalgorithmus eine "Übereinstimmung" aufbaut, wird ein Zugriff auf die Auftragseingangs- bzw. Zugangsdienstleistung zur Verfügung gestellt. Wenn der Algorithmus im wesentlichen mit der dafür gespeicherten Version der Stimme übereinstimmt, jedoch nicht innerhalb eines vorher bestimmten Annahmekriteriums liegt, fordert das System den Anrufer auf, zusätzliche persönliche Informationen (zum Beispiel die Sozialversicherungsnummer oder das Geburtsdatum des Anrufers) einzugeben, um des weiteren die Identität der beanspruchten Inhaberschaft des Paßwortes zu überprüfen. Wenn der Anrufer eine solche Information nicht liefern kann, weist das System den Zugriffsanspruch zurück und der Anruf wird beendet.
Sobald der Anrufer Zugriff zu den Auftragseingangs-Dienstleistungen erhält, soll angenommen werden, daß er oder sie dann einen Auftrag für ein Produkt/eine Ware, welche gänzlich durch eine alphanumerische Sequenz, die dem Anrufer bekannt ist, identifiziert ist, anzugeben wünscht. Gemäß einem weiteren Merkmal der Erfindung wird ein Verfahren zum Erkennen solcher alphanumerischen Sequenzen eingerichtet, das eine spezielle Erkennungsstrategie verwendet, welche keine hohe, individuelle Merkmalserkennungsgenauigkeit erfordert, um eine Erkennung der gesprochenen alphanumerischen Sequenz zu erreichen. Im Betrieb fordert das System den Anrufer auf, jede Einzelheit einer Sequenz, welche erkannt werden soll, zu sprechen, beginnend mit einem ersten Merkmal und endend mit einem letzten Merkmal. Jedes Merkmal wird dann eingefangen und analysiert, unter Verwendung des sprecherabhängigen Stimmerkennungsalgorithmus. Das Verfahren ordnet einen Erkennungsabstand zwischen jedem gesprochenen Eingangsmerkmal und dem entsprechenden Buchstaben oder der Stelle in der gleichen Position innerhalb einer jeden bezugsalphanumerischen Sequenz zu. Nachdem jedes Merkmal bzw. jede Stelle gesprochen ist, aufgefangen und analysiert worden ist, wird jede Bezugssequenzdistanz inkrementiert und das Verfahren wird fortgeführt, indem Abstände bzw. Distanzen für jede Referenzsequenz gesammelt werden, bis das letzte Merkmal gesprochen ist. Die Referenzsequenz mit der niedrigsten kumulativen Distanz wird dann zur erkannten Sequenz erklärt.
Das Vorhergehende hat einige der wesentlicheren Aufgaben der vorliegenden Erfindung dargestellt. Diese Gegenstände bzw. Aufgaben sollten nur als veranschaulichend für einige hauptsächlichere Merkmale und Anwendungen der Erfindung angesehen werden. Viele andere vorteilhafte Ergebnisse können erhalten werden, indem die offenbarte Verbindung in verschiedener Weise oder modifizierender Weise der Erfindung, wie beschrieben werden wird, durchgeführt werden. Dementsprechend werden weitere Gegenstände und ein genaueres Verständnis der Erfindung unter Bezugnahme auf die folgende genaue Beschreibung der bevorzugten Ausführungsform verstanden werden.
Für ein vollständigeres Verständnis der vorliegenden Erfindung und der Vorteile davon sollte Bezug auf die folgende genaue Beschreibung in Verbindung mit den begleitenden Zeichnungen genommen werden, worin:
Fig. 1 ein schematisches Diagramm eines Telefonnetzes mit einer Anrufstation ist, die mit einem Digital-Prozessorsystem eines Dienstleisters, wie einem Finanzinstitut, ist;
Fig. 2 ein schematisches Diagramm des Digital-Prozessorsystemes von Fig. 1 ist, in Verwendung zur Lieferung sprecherabhängiger(m) Stimmerkennung und Stimmnachweis, entsprechend der Lehre der vorliegenden Erfindung;
Fig. 3 ein Blockdiagramm des bevorzugten Stimmerkennungs- Nachweisalgorithmus dieser Erfindung ist;
Fig. 4 ein Fließdiagramm ist, das die Nachweisroutine von Fig. 3 beschreibt;
Fig. 5 eine Darstellung eines Tischteiles ist, welche alphanumerische Sequenzen zur Verwendung in einem Auftragseingangssystem umfaßt; und
Fig. 6 ein Fließdiagramm ist, das ein Verfahren zum Erkennen alphanumerischer Sequenzen ist, die über ein Telefonnetz gesprochen werden, gemäß der Lehre der vorliegenden Erfindung.
Gleiche Bezugsziffern beziehen sich auf gleiche Teile und/oder Schritte über die verschiedenen Ansichten der Zeichnungen.
Fig. 1 zeigt ein Blockdiagramm eines herkömmlichen Telephonnetzes 10 mit einer Anrufstation 12, die mit einem Digital- Prozessorsystem 14 eines Finanzinstitutes verbindbar ist. Gemäß der Lehre der vorliegenden Erfindung umfaßt das digitale Verarbeitungssystem 14 einen sprecherunabhängigen Stimmerkennungsalgorithmus 48 und einen damit verbundenen Stimmnachweisalgorithmus 50, um einen stimmkontrollierten Zugriff zu einer oder mehreren Dienstleistungen 20 zu erleichtern, welche durch das Finanzinstitut angeboten werden. Diese Dienstleistungen umfassen, sind aber nicht beschränkt auf, Konto-Saldo-Anfragen und elektronischen Kapitaltransfer. Darüber hinaus sollte, während die folgende Erörterung die Verwendung von Stimmerkennung/-nachweis im Zusammenhang mit dem Zugriff auf in einem Finanzinstitut gespeicherten Informationen beschreibt, verstanden werden, daß die Lehre der Erfindung nicht so begrenzt ist. Die Erfindung kann für zahlreiche weitere Anwendungen verwendet werden, wie Kreditkartenvalidierung, Auftragseingang von Waren/Dienstleistungen und Personenidentifikationsvalidierung. Des weiteren sollte auch verstanden werden, daß das Telefonnetz weitere Vorrichtungen und im Stand der Technik herkömmliche Schaltsysteme umfassen kann. Dementsprechend kann die Anrufstation 12 durch ein Zentralbüro oder andere Schalteinrichtungen, wie einer Zugriffsreihe- bzw. Kaskade oder eines Austauschträger-Schaltsystems verbunden werden, vor dem Verbinden mit dem Dienstleistungslieferanten.
Unter Bezugnahme auf Fig. 2 ist ein Blockdiagramm eines digitalen Verarbeitungssystems 14 der vorliegenden Erfindung zum Vorsehen gleichzeitiger sprecherunabhängiger(m) Stimmerkennung und Stimmnachweis gezeigt. Das System umfaßt eine zentrale Verarbeitungseinheit bzw. einen Zentralrechner (CPU) 30 zur Steuerung des Gesamtbetriebes des Systemes. Der CPU umfaßt Daten-, Adreß- und Steuerbusse, welche allgemein durch die Bezugsziffer 32 dargestellt sind. Wie in Fig. 2 gezeigt ist, um faßt das System 14 auch herkömmliche Eingabe-/Ausgabevorrichtungen, wie eine Tastatur 34, einen Bildschirmanschluß 36, Sprachgenerator 38 und Drucker 40. Eine Kommunikationsschnittstelle 42 (welche mikroprozessorgesteuert sein kann) bildet die Schnittstelle des Systemes mit der Telefonleitung. Ein direktzugriffsspeicher ("RAM") 44 ist mit der CPU durch einen Bus 32 verbunden, um eine vorübergehende Speicherung von dadurch verarbeiteten Daten zu liefern. Ein Festspeicher bzw. Nurlesespeicher ("ROM") 45 ist ebenfalls mit dem Digital- Prozessor zum Vorsehen dauerhafter Speicherung von speziellen Erkennungs- und Nachweisdaten verbunden, wie unten beschrieben werden wird. Ein Magnetplattenspeicher 46 unterstützt Steuerprogramme, umfassend einen Stimmerkennungsalgorithmus 48 und einen Stimmnachweisalgorithmus 50 sowie geeignete Steuerprogramme (nicht gezeigt).
Gemäß der Erfindung speichert der ROM 45 Stimmerkennungs- Referenzinformation zur Verwendung durch den Stimmerkennungsalgorithmus 48. Diese Information ist zweierlei Art: Stimmerkennungsmerkmal-Transformationsdaten 52a und Stimmerkennungsklasse-Referenzdaten 52b, die von einer ersten Vielzahl von Schulungssprechern über ein Telefonnetz hergeleitet sind. Insbesondere werden Stimmerkennungsmerkmal-Transformationsdaten 52a und Stimmerkennungsklasse-Referenzdaten 52b in einem vorhergehenden Off-line-Verfahren, von einer Stimmerkennungsschulungsdatenbank (nicht gezeigt) hergeleitet, umfassend Stellen- bzw. Zahlendaten aus einer großen Anzahl von Schulungssprechern (zum Beispiel 1000), die über das Telefonnetz gesammelt wurden. Diese Schulungsdatenbank 52 umfaßt Daten von lokalen und Ferngesprächen und eine beträchtliche Menge von Daten wird durch Kohleknopf-Handapparatmikrophone und Elektret-Handapparatmikrophone gesammelt. Die Stimmerkennungsklasse-Referenzdaten 52 umfassen eine Darstellung für jedes Stellenwort (z. B. "eins", "zwei", etc.) als eine "Klasse", welche durch den Stimmerkennungsalgorithmus 48 erkannt werden soll. Beispielsweise wird die Darstellung der Klasse für die Stelle "eins" aus den Daten von allen Schulungssprechern hergeleitet, welche die Stelle "eins" gesprochen haben.
Die Stimmerkennungsschulungsdatenbank ist demzufolge ausgestaltet, um die Verteilung von akustischen Merkmalen eines jeden Stellenwortes über eine große Sprecherpopulation darzustellen. Zweck und Wirkung der auf dieser Datenbank durchgeführten Analyse ist es, die Parameter eines vielstufigen Datenreduktionsverfahren zu optimieren, um jene Eigenschaften eines einstelligen bzw. Stellenwortes zu entdecken und genau darzustellen, welche es von allen anderen einstelligen Wörtern, unabhängig vom Sprecher, unterscheidet.
Gemäß einem weiteren Merkmal der Erfindung unterstützt der ROM 45 auch Stimmnachweismerkmal-Transformationsdaten 52c. Diese Daten werden, in einem vorangehenden Off-line-Verfahren aus einer Stimmnachweisschulungsdatenbank (nicht gezeigt) abgeleitet. Insbesondere umfaßt die Stimmnachweisschulungsdatenbank vorzugsweise Daten, welche von etwa 100 bis 150 Schulungssprechern erzeugt werden, und wird über das Telefonnetz gesammelt. Die Datenbank umfaßt Daten von lokalen und Ferngesprächen und wesentliche Mengen von Daten werden durch Kohleknopf- Handapparatmikrophone und Elektret-Handapparatmikrophone gesammelt. Jeder Schulungssprecher wird mit einem Script versehen, das zufällige Stellensequenzen enthält. Die Sequenzen werden in einer vorbestimmten Anzahl (z. B. 5) von separaten Aufzeichnungssitzungen gesprochen, wobei die erste Aufzeichnungssession eine vorbestimmte Anzahl (z. B. 5) von Durchgängen der in zufälliger Ordnung gesprochenen Stellen enthält. Die nachfolgenden Sessionen enthalten jeweils eine vorbestimmte Anzahl (z. B. 3) von Durchgängen von in zufälliger Ordnung gesprochenen Stellen und jede Aufzeichnungssitzung ist von der vorhergehenden Sitzung durch wenigstens einen Tag getrennt.
Die Stimmnachweis-Schulungsdatenbank ist demnach ausgestaltet, um die Verteilung von akustischen Eigenschaften eines jeden einstelligen bzw. Stellenwortes darzustellen, das durch einen besonderen Schulungssprecher über vielfache Sprechweisen bzw. Äußerungen des Stellenwortes durch den Sprecher gesprochen wird. Der Zweck und die Wirkung der auf dieser Datenbank durchgeführten Analyse ist es, die Parameter eines vielstufigen Datenreduktionsverfahrens zu optimieren, um jene Eigenschaften eines jeden einstelligen Wortes zu entdecken und genau darzustellen, das durch jeden besonderen Schulungssprecher ausgesprochen bzw. geäußert wird, die es von dem gleichen einstelligen Wort unterscheiden, welche durch andere Schulungssprecher ausgesprochen werden.
Die Stimmnachweistechnik erfordert es, daß die autorisierten Benutzer des Systemes sich vorher in das System eingetragen bzw. eingeschrieben haben (d. h. jene Personen, welche über das Telefonsystem anrufen, um auf Informationen zuzugreifen). Dementsprechend umfaßt das System 14 auch eine Stimmnachweis- Referenzdatenbank 55, welche Stimmnachweisklasse-Referenzdaten 52d umfaßt, die von dem Benutzer gesammelt wurden, welcher für den Zugriff auf Dienstleistungen autorisiert ist. Die Einschreibung wird vorzugsweise durchgeführt, indem man den Benutzer ein 10-stelliges Paßwort fünfmal sprechen läßt. Zur weiteren Sicherheit wird der Anrufer gebeten, einige sachliche persönliche Fragen zu beantworten, welche beantwortet werden können, indem Stellen verwendet werden, die durch den Stimmerkennungsalgorithmus 48 erkennbar sind. Diese Fragen können die Sozialversicherungsnummer, Kontonummer oder das Geburtsdatum des Benutzers umfassen, sind aber nicht darauf beschränkt. Jede "Klasse" der Stimmnachweisklasse-Referenzdaten stellt einen autorisierten Benutzer des Systemes dar. Die Klasse-Referenzdaten aller autorisierten Benutzer des Systemes werden dann in die Stimmnachweis-Referenzdatenbank 55 eingespeichert.
Das System 14 umfaßt auch eine Transaktionsdatenbank 50 zum Speichern von Finanz- und Transaktionsdaten, wie Konto-Salden, Kreditinformationen und dergleichen. Diese Information wird vorzugsweise in vorbestimmten Stellen, die durch das Paßwort des Anrufers adressiert werden, gespeichert. Demnach identifi ziert das Paßwort sowohl den Anrufer als auch die Stelle der Daten, auf welche zugegriffen werden soll.
Bei der Durchführung des bevorzugten Verfahrens soll angenommen werden, daß ein Anrufer einen Anruf von der Anrufstation 12 an das Finanzinstitut richtet, um Zugriff zu Kontoinformationen zu haben. Der Anrufer hat sich vorher in die Stimmnachweis-Referenzdatenbank 55 eingeschrieben. Sobald der Anrufanschluß aufgebaut ist, fordert der Sprachgenerator 38 des digitalen Verarbeitungssystemes 14 den Anrufer auf, mit dem Stelle-für-Stelle-Eingang des vorbestimmten Paßwortes des Anrufers zu beginnen, wobei mit der ersten Stelle begonnen wird und mit der letzten Stelle davon aufgehört wird. Das Anfordern der Stellen kann alternativ in jeder gewünschten Weise oder Sequenz bewirkt werden. Die Signale bilden mit der Telefonleitung durch die Kommunikationsschnittstelle 42 eine Schnittstelle. Jede Stelle wird gesprochen, der Stimmerkennungsalgorithmus 48 verarbeitet die empfangene Information und, wie unten beschrieben werden wird, verwendet eine statistische Erkennungs-/Entscheidungsstrategie um die Stelle zu bestimmen (null bis neun und "oh").
Nachdem alle Stellen erkannt wurden, wird ein Test durchgeführt, um zu bestimmen, ob das eingegebene Paßwort für das System gültig ist. Wenn das Ergebnis des Tests positiv ist, wird der Anrufer angenommen, weil das System "weiß", wer der Anrufer beansprucht zu sein und daher wo die Kontoinformation gespeichert ist. Danach benutzt das System den Stimmnachweisalgorithmus 50, um einen Stimmnachweis an dem Anrufer durchzuführen, um zu bestimmen, ob das eingegebene Paßwort durch eine Stimme gesprochen wurde, welche vorher in die Datenbank 55 eingeschrieben und dem eingegebenen Paßwort zugeschrieben wurde. Wenn der Algorithmus 50 eine "Übereinstimmung" innerhalb den vorbestimmten Zulassungskriterien aufbaut, wird der Zugriff zu den Daten oder anderen Systemdienstleistungen erlaubt. Wenn der Algorithmus 50 nicht wesentlich die eingegebene Stimme mit einer in der Datenbank 55 gespeicherten Stimme als übereinstimmend feststellen kann, weist das System die Zugriffsanforderung zurück und der Anruf wird beendet. Wenn der Algorithmus 50 die eingegebene Stimme im wesentlichen mit einer gespeicherten Stimme in der Datenbank 55 zur Deckung bringen kann, jedoch nicht innerhalb eines vorbestimmten Zulassungskriteriums, fordert das System den Anrufer auf, zusätzliche persönliche Informationen einzugeben (z. B. die Sozialversicherungsnummer oder Kontonummer des Anrufers), welche mit dem Paßwort verbunden sind, um weiter die Identität des beanspruchten Benutzers des Paßwortes zu überprüfen. Wenn der Anrufer eine solche Information nicht liefern kann, weist das System die Zugriffsanforderung zurück und der Anruf wird beendet. Eine korrekte Eingabe der geforderten Information ermöglicht es dem Anrufer, Zugriff zu der Dienstleistung zu erhalten.
Bezugnehmend nun auf die Fig. 3 ist ein Blockdiagramm einer bevorzugten Ausführungsform der Stimmerkennungs- und Stimmnachweisalgorithmen 48 und 50 gezeigt. Wie gesehen werden wird, teilen die Algorithmen 48 und 50 die funktionellen Blöcke, die in dem oberen Abschnitt des Blockdiagramms dargestellt sind. Diese Blöcke umfassen eine Sprachverarbeitungseinrichtung zur Durchführung einer ersten Reihe eines mehrstufigen Datenreduktionsverfahrens. Insbesondere extrahiert beim Eingeben von Sprache in das System 14 eine Merkmalsextraktionsvorrichtung 16 einen Satz von ersten Merkmalen, welche in Realzeit alle 10 ms berechnet werden. Die primären Merkmale umfassen heuristisch bzw. experimentell entwickelte Zeitdomänmerkmale (zum Beispiel Null-Kreuzraten) und Frequenzdomäninformationen, wie schnelle Fouriertransformations-Koeffizienten ("FFT"). Die Ausgabe der Merkmalsextraktionseinrichtung 60 ist ein reduzierter Datensatz (etwa 4000 Datenpunkte/Aussprache bzw. Utteranz bzw. Änderung anstelle der ursprünglich etwa 8000 Datenpunkte/Aussprache bzw. Äußerung) und wird auf eine Triggerroutine 62 angewendet, welche gesprochene Worte unter Verwendung der primären Merkmale einfängt. Die Triggerroutine ist mit einer zweiten Merkmalsroutine 63 zum Berechnen "zwei ter Merkmale" aus den ersten Merkmalen verbunden. Die zweiten bzw. Sekundärmerkmale resultieren vorzugsweise aus nichtlinearen Transformationen der primären Merkmale. Der Ausgang der Routine 63 ist mit der phonetischen Segmentierungsroutine 64 verbunden. Sobald eine Äußerung eingefangen ist und die sekundären Merkmale berechnet sind, liefert die Routine 64 eine automatische phonetische Segmentierung. Um eine Segmentierung zu erreichen, lokalisiert die phonetische Segmentierungsroutine 64 vorzugsweise Stimmgrenzen, indem eine optimale Zustandssequenz eines Doppelzustand-Markovverfahrens basierend auf einer Sequenz von Skalardiskriminantenfunktionswerten bestimmt werden wird. Die Diskriminantenfunktionswerte werden durch eine Fisher-Lineartransformation zweiter Klasse von sekundären Merkmalsvektoren erzeugt. Die Stimmgrenzen werden dann als Ankerpunkte für eine nachfolgende phonetische Segmentierung verwendet.
Nachdem die phonetischen Grenzen durch die phonetische Segmentierungsroutine lokalisiert sind, werden die individuellen phonetischen Einheiten der Äußerung analysiert und die sogenannten "tertiären Merkmale" werden durch eine tertiäre Merkmalsberechnungsroutine 65 berechnet. Diese tertiären Merkmale umfassen vorzugsweise Informationen (z. B. Mittel oder Abwandlungen), welche aus den sekundären Merkmalen innerhalb der phonetischen Grenzen abgeleitet sind. Die tertiären Merkmale werden sowohl für den Stimmerkennungsalgorithmus 48 als auch für den Stimmnachweisalgorithmus 50, wie beschrieben werden wird, verwendet. Die Ausgabe der Routine 65 ist ein tertiärer Merkmalsvektor von etwa 300 Datenpunkten/Äußerung. Wie dann gesehen werden kann, stellt der obere Abschnitt von Fig. 3 die erste Reihe bzw. Folge des mehrstufigen Datenreduktionsverfahrens dar, was wesentlich die Menge an zu analysierenden Daten reduziert, aber immer noch die notwendige Klassentrennung erhält, ob stellenbezogen oder sprecherbezogen, welche erforderlich ist, um eine Erkennung bzw. einen Nachweis zu erreichen. Der mittlere Abschnitt von Fig. 3 stellt eine zweite Reihe des Datenreduktionsverfahrens dar und, wie beschrieben werden wird, umfaßt die Transformationsroutinen 49a und 49b.
Um sprecherunabhängige Stimmerkennung zu bewirken, werden die tertiären Merkmale zunächst in die Stimmerkennung- Lineartransformationsroutine 49a eingespeist. Diese Routine multipliziert den tertiären Merkmalvektor mit den Stimmerkennungsmerkmal-Transformationsdaten (welche eine Matrix sind) 52a, um einen Stimmerkennungsparameterdatenvektor für jede Stelle zu erzeugen. Die Ausgabe der Transformationsroutine 49a wird dann in einer Stimmerkennungsstatistik-Entscheidungsroutine 66a zum Vergleich mit den Stimmerkennungsklasse-Referenzdaten 52b angewendet. Der Ausgang der Entscheidungsroutine 66a ist eine Ja/Nein-Entscheidung, welche feststellt, ob die Stelle erkannt ist, und wenn ja, welche Stelle gesprochen wurde.
Insbesondere bewertet die Entscheidungsroutine 66a ein Maß an Wortähnlichkeit für jede der elf Stellen (null bis neun und oh) im Vokabular. Die Stimmerkennungsklasse-Referenzdaten 52b umfassen verschiedene Elemente (zum Beispiel Zulassungsschwellen für jede Stellenklasse, inverse Ko-Varianten und Mittelvektoren für jede Klasse), die durch die Entscheidungsstrategie verwendet werden. Für eine zu erklärende Stelle (im Gegensatz zurückgewiesen zu werden) müssen bestimmte Zulassungskriterien erfüllt werden. Die Zulassungskriterien können die folgenden umfassen, müssen aber nicht darauf beschränkt sein.
Der Stimmerkennungsalgorithmus bestimmt die engste Übereinstimmung zwischen den Klassereferenzdaten und dem Stimmerkennungsparametervektor für die Stelle; diese engste Übereinstimmung ist eine sogenannte "erste Wahl". Die nächstengste Übereinstimmung ist eine "zweite Wahl". Jede Wahl hat ihre eigene Übereinstimmungsmarke. Die Stelle ist deklariert, wenn (1) die Übereinstimmungsmarke der ersten Wahl unter einem vorbestimmten Schwellenwert liegt und (2) der Unterschied zwischen der bzw. den Übereinstimmungsmarke(n) der erste Wahl- und zweite Wahlstellen größer als ein anderer vorbestimmter Schwellenwert ist. Wenn alle Stellen des Paßwortes erkannt wurden, ist der Stimmerkennungsabschnitt des Verfahrens beendet.
Um einen Stimmnachweis zu bewirken, werden die tertiären Merkmale auch in eine Lineartransformationsroutine 49b eingespeist, welche jeden tertiären Merkmalsvektor durch das bzw. die Stimmnachweismerkmal-Transformationsdaten (das bzw. die eine Matrix ist bzw. sind) multipliziert. Die Ausgabe der Routine 49b ist ein Np-Elementvektor p von Stimmnachweisparameterdaten für jede Stelle des Paßwortes, wobei Np vorzugsweise etwa gleich 25 ist. Der Stimmnachweisparameterdatenvektor p wird dann in eine Nachweisroutine 66b eingegeben, welche auch die Stimmnachweisklasse-Referenzdaten 52d für den Anrufer empfängt. Insbesondere wird das Stimmnachweisklasse-Referenzdatum aus der Stimmnachweis-Referenzdatenbank 55 geliefert. Wie oben festgestellt wurde, wird die Adresse in der Datenbank 55 der Stimmnachweisklasse-Referenzdaten des Anrufers durch das Paßwort des Anrufers definiert, das durch den Stimmerkennungsalgorithmus 48 hergeleitet ist.
Die Nachweisroutine 66b erzeugt eine von drei verschiedenen Ausgaben: ZULASSEN, ZURÜCKWEISEN und PRÜFEN. Eine ZULASSEN- Ausgabe autorisiert den Anrufer, auf Daten aus der Transaktionsdatenbank 56 zuzugreifen. Die ZURÜCKWEISEN-Ausgabe wird geliefert, wenn die Nachweiseinrichtung die behauptete Identität des Anrufers bestreitet. Die ÜBERPRÜFEN-Ausgabe initiiert die Aufforderungsstufe, worin zusätzliche ergänzende Fragen gestellt werden, um die Identität des Anrufers nachzuweisen.
Bezugnehmend nun auf Fig. 4 ist, ein Fließdiagramm der Nachweisroutine 66b von Fig. 3 gezeigt. Als Hintergrund, die Routine beginnt nach der Bestimmung, vorzugsweise durch den Stimmerkennungsalgorithmus 48, daß das Paßwort gültig ist. Obwohl bei der bevorzugten Ausführungsform der Stimmnachweisparametervektor erzeugt wird, indem jede Stelle erkannt wird, ist es auch möglich, die Stimmnachweisparametervektoren solange nicht zu erzeugen, bis ein Test durchgeführt worden ist, um zu bestimmen, ob das Paßwort gültig ist.
Die Nachweisroutine beginnt bei Schritt 78. Inbesondere werden die Np-Element-Stimmnachweisparametervektoren für jede Stelle des gesprochenen Paßwortes mit den vorher erzeugten Stimmnachweisklasse-Referenzdatenvektoren, die in der Stimmnachweis- Referenzdatenbank 55 gespeichert sind, verglichen. Zunächst wird eine gewichtete euklidische Distanz d(i) für jede Stelle bei Schritt 80 berechnet:
D(i) - [ w&sub1;(j) (p(i,j) - pr(i,j)²)1/2]
worin: p(i,j) die j-te Komponente des Länge-Np-Vektors ist, der aus der i-ten Stelle in der Länge Nd der derzeitigen Paßworteingangssequenz erzeugt wird,
pr(i,j) ist die j-te Komponente des Referenzvektors von der i-ten Stelle für den behaupteten eingeschriebenen Anrufer ist,
w&sub1; ein konstanter Wichtungsvektor ist, der vorberechnet ist, um eine optimale Systemleistung zu ergeben, und
d(i) die resultierende gewichtete euklidische Distanzmessung für die i-te Stelle in der laufenden Paßwort-Eingangssequenz ist.
Der Distanz- bzw. Abstandsvektor d wird dann aufsteigend sortiert:
d(i),...,d(Nd) = , ... (d(i))
Eine Gesamtdistanz wird dann bei Schritt 82 als eine gewichtete Kombination dieser sortierten Abstände berechnet:
D = w&sub2;(i) d(i)
worin: d der sortierte Distanzvektor ist,
w&sub2; ein weiterer konstanter Wichtungsvektor ist, der vorberechnet ist, um eine optimale Systemleistung zu ergeben, und
D die resultierende Gesamtdistanzmessung für die gesamte laufende Paßworteingangssequenz ist, im Hinblick auf den behauptet eingeschriebenen Anrufer.
Bei Schritt 84 wird die Gesamtdistanz mit zwei (2) Zulassungsschwellenwerten, einem oberen Schwellenwert und einem unteren Schwellenwert, verglichen. Wenn die Gesamtdistanz unter dem unteren Zulassungsschwellenwert liegt, ist der Test positiv und der Anrufer erhält sofortigen Zugriff zu der angeforderten Dienstleistung. Das ist die "ZULASSEN"-Ausgabe 88. Wenn die Distanz größer als der obere Schwellenwert ist, wird der Zugriff des Anrufers zu der Dienstleistung versagt und das Verfahren wird beendet. Das entspricht der "ZURÜCKWEISEN"-Ausgabe 89. Befindet sich das Ergebnis des Tests 84 zwischen den unteren und oberen Schwellenwerten, geht das Verfahren bei Schritt 90 weiter, indem der Anrufer aufgefordert wird, eine oder mehrere Sachfragen zu beantworten, welche einzigartig mit dem Paßwort verbunden sind. Das ist die "ÜBERPRÜFEN"-Ausgabe. Beispielsweise wird der Anrufer aufgefordert, seine/ihre Sozialversicherungsnummer oder seine/ihre Kontonummer zu sprechen. Alternativ dazu kann der Aufrufer aufgefordert werden, solche Identifizierungsinformationen händisch durch die Telefontastatur oder durch Ziehen einer Kreditkarte oder dergleichen durch eine Kartenlesevorrichtung einzugeben. Natürlich hängt die Art und der Umfang der persönlichen Information, welche durch das System angefordert wird, vollständig von dem Systembetreiber und dem Grad an Sicherheit ab, welche durch den Anrufer und den Betreiber gewünscht wird. Bei Schritt 92 wird dann eine Überprüfung durchgeführt, um festzustellen, ob die Frage(n) korrekt beantwortet worden ist bzw. sind. Ist das Ergebnis der Überprüfung positiv, erhält der Anrufer wieder Zugriff zu der angeforderten Dienstleistung. Wenn das Ergebnis der Überprüfung bei Schritt 92 negativ ist, wird ein Zugriff verweigert und das Verfahren beendet.
Dementsprechend kann gesehen werden, daß die vorliegende Erfindung ein Stimmerkennungs-/Nachweissystem und ein Verfahren mit verschiedenen Vorteilen im Vergleich zu auf Telefon basierenden Zugriffsschemata des Standes der Technik liefert. Die Probleme, welche inhärent in der limitierten Frequenz- Antwortumgebung eines Telefonnetzes sind, werden durch die Verwendung eines sprecherunabhängigen Stimmerkennungssystemes und eines Stimmnachweisalgorithmus verbessert. Der Stimmnachweisalgorithmus wird durch eine Stimmnachweis-Schulungsdatenbank "geschult", welche Sprecher-Klassifizierungen im Gegensatz zu Wort-Klassifizierungen umfaßt. Darüber hinaus verwendet der Nachweisalgorithmus tertiäre Merkmale und Stimmnachweismerkmal-Transformationsparameter, um einen vorzugsweise 25-Element-Vektor für jede gesprochene Stelle des eingegebenen Paßwortes zu berechnen. Diese Vektoren werden dann mit Stimmnachweisklasse-Referenzdaten (für den Anrufer) verglichen und eine gewichtete euklidische Distanz wird für jede Stelle berechnet. Eine Gesamtdistanz für das gesamte Paßwort wird dann berechnet und mit zwei Zulassungsschwellenwerten verglichen, um zu bestimmen, ob die Stimme des Anrufers mit seiner oder ihrer vorher gespeicherten Stimmschablone übereinstimmt. Anrufer, welche eine "nahezu Übereinstimmung" liefern, müssen eine zusätzliche Sicherheitsebene durchlaufen, bevor ein Zugriff zu den Daten oder Dienstleistungen erlaubt wird.
Das digitale Verarbeitungssystem der Erfindung kann ein IBM AT Personalcomputer sein, ist aber nicht darauf beschränkt, welcher mit einem Ortsnetz verbunden ist, um Nachweisreferenzdaten zu speichern und darauf zuzugreifen. Für auf Telefon basierende Anwendungen, welche einen vertraulichen Zugriff auf Informationen erfordern, weist das System 14 zahlreiche Verwendungen auf. Nur beispielsweise weist ein Stimmnachweis über das Telefonnetz ein wesentliches Potential für den Ausschluß von Telefonkartenbetrug auf. Zusätzlich können Banken und andere Finanzinstitute mehr Sicherheit für auf Telefon basierende Kontozugriffssysteme liefern. Derzeit benutzen Banksysteme Identifikationsnummern oder "PIN"-Stellen bzw. -Nummern, welche über die Telefontastatur eingegeben werden, um die Eignung für den Systemzugang zu bestimmen. Stimmnachweis sowie PIN- Stellen bzw. -Nummer können verwendet werden, um zu bestimmen, ob der Benutzer für einen Zugriff zur Kontoinformation autorisiert ist. Weitere Verwendungen für das oben beschriebene System umfassen Kreditinformationzugriff, Ferngespräch- Netzzugriff und elektronischen Kapitaltransfer. Da der Stimmnachweis in Verbindung mit Stimmerkennung arbeitet, können Drehtelefon-Benutzer ebenfalls jede automatisierte Verwendung, welche das System anwendet, verwenden.
Die Leistungsfähigkeit des Systemes ist durch die Zurückweisungsrate von autorisierten Benutzern (Fehlertyp 1) und zufälligen Zulassungsraten von "Hochstaplern" (Fehlertyp 2) charakterisiert. Die Zurückweisung von autorisierten Benutzern muß weniger als 2% für die meisten Anwendungen betragen. Gleichzeitig muß auch die zufällige Zulassung von "Hochstaplern" unter 2% gehalten werden. Im allgemeinen besteht ein definierter Kompromiß zwischen diesen Fehlerraten, da ein Erhöhen der Schwellenwerte, um eine Zurückweisung von autorisierten Benutzern zu vermindern, immer in einer erhöhten zufälligen Zulassung von Hochstaplern resultieren wird und umgekehrt. Fehlerraten wurden aus einer vorläufigen Datenbank bestimmt, welche eine Mischung von Elektret- und Kohle-Knopfmikrophonen für individuelle Sprecher enthält. Bei diesem Test lagen die Fehlertyp 1-Raten unter 2%, während Fehlertyp 2-Raten ebenfalls unter 2% lagen. Verbesserte Raten werden erhalten, indem die Größe und Vielfalt der Daten in der Stimmnachweis- Schulungsdatenbank 55 erhöht werden.
Wie oben beschrieben worden ist, kann das digitale Verarbeitungssystem 14 von Fig. 2 für zahlreiche Anwendungen verwendet werden. Eine solche Anwendung ist ein Telefonauftrag-Eingangssystem, worin autorisierte Benutzer des Systems die Fähigkeit bzw. Möglichkeit haben, sich in das System einzuwählen und nach einem wie oben beschriebenen Nachweis, Waren/Dienstleistungen über kodierte, alphanumerische Sequenzen zu ordern. Wie aus Fig. 5 ersichtlich ist, kann das Telefonauftrag- Eingangssystem einen Tisch 100 von alphanumerischen Sequenzen 102 umfassen, welche jede einen Teil oder Bestandteil identifizieren, der durch den Anrufer über das Telefonnetz über die Eingabe einer alphanumerischen Sequenz bestellt werden kann, die dem Teil oder Bestandteil entspricht. Wie in Fig. 5 gezeigt ist, umfaßt jede alphanumerische Sequenz 102 Buchstaben des Alphabets und/oder die Stellen bzw. Ziffern "null" bis "neun". Beispielsweise umfaßt eine Sequenz die Zeichen "FA4921R3". Natürlich kann eine alphanumerische Sequenz nur aus Ziffern, nur Buchstaben oder einer Kombination aus beiden bestehen. Das Auftrag-Eingangssystem umfaßt einen vorbestimmten endlichen Satz der alphanumerischen Sequenzen 102.
Die Klasse-Referenzdaten 52b, welche die verschiedenen Zeichen der alphanumerischen Sequenz darstellen sowie die Steuerworte "stop" und "löschen" werden gemäß der oben beschriebenen Lehre erzeugt. Insbesondere werden die Stimmerkennungsklasse-Referenzdaten 52b erweitert, um Darstellungen für jedes Zeichen des Erkennungsvokabulars (das Alphabet, die Ziffern "null" bis "neun", "stop" und "löschen") zu umfassen. Dieses Vokabular wird dann durch den Stimmerkennungsalgorithmus 48 zum Zweck der automatischen Erkennung alphanumerischer Sequenzen, welche über das Telefonnetz gesprochen werden, verwendet.
Weil solch ein umfangreiches Vokabular so schwierig zu erkennen ist, wird eine spezielle Erkennungsstrategie verwendet, um hohe Genauigkeit zu erhalten. Die Strategie verwendet einen auf Gesamtheit basierenden Erkennungsansatz, anstelle einer Einzelzeichenerkennung. Insbesondere tritt gemäß diesem Aspekt der vorliegenden Erfindung eine Erkennung nicht auf der Zeichenebene auf. Vielmehr werden einzeln gesprochene Merkmale nur aufgefangen und analysiert. Sobald eine Gesamtheit von Zeichen (entsprechend einer alphanumerischen Sequenz) auf diese Weise verarbeitet ist, findet die Erkennung an der Gesamtheit selbst, im Gegensatz zu irgendwelchen einzelnen Zeichen darin, statt. Wie gezeigt werden wird, erfordert die Strategie keine hohe Einzelzeichenerkennungsgenauigkeit, um eine Erkennung der gesprochenen alphanumerischen Sequenz zu erreichen.
Gemäß der Erfindung wird davon ausgegangen, daß eine gesprochene alphanumerische Sequenz ein Mitglied des gegebenen endlichen Satzes alphanumerischer Sequenzen ist, welche vorher in der Datenbank 56 oder einem anderen geeigneten Speicherbereich gespeichert wurde. Im Betrieb wird zunächst die Identität des Anrufers, der Zugriff zu der Auftrag-Eingabe-Dienstleistung wünscht, gemäß den in den Fig. 3 bis 4 oben beschriebenen Verfahren nachgewiesen. Im allgemeinen beinhaltet das Verfahren zum Erkennen einer gesprochenen alphanumerischen Sequenz das Bestimmen einer Erkennungsdistanz zwischen jeder gesprochenen Eingabe und dem entsprechenden Buchstaben oder der Ziffer in der gleichen Position innerhalb jeder in der Datenbank dargestellten Sequenz. Jede Erkennungsdistanz ist vorzugsweise ein Maß der akustischen Unähnlichkeit zwischen einer gesprochenen Eingabe und einem hypothetischen Zeichen. Beispielsweise wird, wenn ein "A" gesprochen wird, die Erkennungsdistanz für "A" als ganz niedrig erwartet. Es ist auch wahrscheinlich, daß die Distanzen für Zeichen, welche ähnlich zu "A" klingen, wie "8", "H", "J" und "K", höher sein werden, jedoch auch ziemlich niedrig und daß Distanzen für hoch unähnliche Zeichen, wie "9", "Q" und "W" ziemlich hoch sein werden.
Bezugnehmend auf Fig. 6 wird nun ein Fließdiagramm der bevorzugten Ausführungsform des Verfahrens zum Erkennen alphanumerischer Sequenzen gemäß der Erfindung gezeigt. Es wird angenommen, daß jede der alphanumerische Sequenz-Referenzen wenig stens zwei Zeichen umfaßt, die entweder Buchstaben, Ziffern oder Kombinationen von Buchstaben und Ziffern sein können.
Das Verfahren beginnt bei Schritt 104 durch Initialisieren auf "Null" einer kumulativen Erkennungsdistanz für jede der alphanumerischen Referenzsequenzen. Bei Schritt 105 wird der Anrufer aufgefordert, ein alphanumerisches Zeichen in einer zu erkennenden alphanumerischen Sequenz zu sprechen, beginnend mit dem ersten Zeichen in der Sequenz. Das Verfahren setzt sich bei Schritt 106 fort, um das gesprochene alphanumerische Zeichen einzufangen und zu analysieren. Diese Funktion wird durch den Erkennungsalgorithmus 48, wie vorher beschrieben, bewirkt. Es wird dann ein Test 107 durchgeführt, um zu bestimmen, ob ein vorbestimmter Befehl, zum Beispiel "stop" gesprochen wurde. Ein solcher Befehl zeigt an, daß alle der Zeichen der Sequenz bereits gesprochen worden sind. Wenn das Ergebnis des Tests 107 negativ ist, setzt das Verfahren bei Schritt 108 fort, um ein Maß akustischer Unähnlichkeit zwischen dem alphanumerischen Zeichen und einem entsprechenden alphanumerischen Zeichen jeder alphanumerischen Referenzsequenz zu berechnen, um eine Anfangserkennungsdistanz für jede der alphanumerischen Referenzsequenzen zu erzeugen. Insbesondere vergleicht, wenn ein Anrufer das erste Zeichen einer Eingabesequenz spricht, der Schritt 108 dieses Zeichen mit dem ersten Zeichen jeder der Referenzsequenzen. Bei Schritt 110 wird die kumulative Erkennungsdistanz für jede der Referenzsequenzen durch die in Schritt 108 berechnete Erkennungsdistanz inkrementiert bzw. vermehrt.
Das Verfahren kehrt dann zurück und wiederholt die Schritte 105, 106, 107, 108 und 110 für jedes nachfolgende alphanumerische Zeichen in der zu erkennenden alphanumerischen Sequenz und das entsprechende alphanumerische Zeichen jeder der alphanumerischen Referenzsequenzen. Wenn zu jeder Zeit während dieses Verfahrens das Ergebnis des Tests 107 positiv ist, was anzeigt, daß alle Zeichen der Sequenz bereits gesprochen worden sind, führt das Verfahren bei Schritt 112 einen Test durch, um zu bestimmen, welche der alphanumerischen Referenzsequenzen die niedrigste kumulative Erkennungsdistanz aufweist. Die alphanumerische Referenzsequenz mit der niedrigsten kumulativen Erkennungsdistanz wird dann in Schritt 114 angenommen, die durch den Anrufer gesprochene alphanumerische Sequenz zu sein.
Wenn gewünscht, kann der Schritt 107 weggelassen werden. Wenn beispielsweise die zu erkennende alphanumerische Sequenz eine festgelegte Länge besitzt, kann das Verfahren automatisch Schritt 112 auf den Empfang einer vorbestimmten Anzahl von Zeichen beginnen.
Die oben beschriebene Technik hat sich als ziemlich robust erwiesen, sogar für Sequenzen, welche nur zwei Zeichen enthalten. Im allgemeinen sind lange Sequenzen leichter zu erkennen als kurze Sequenzen, weil mehr Information verfügbar ist, um zu bestimmen, welche Sequenz (aus einem endlichen Satz) gesprochen wurde. Die Größe der Sequenzdatenbank ist aus zwei Gründen wichtig. Zunächst nimmt für eine festgelegte Sequenzlänge die Sequenzgenauigkeit mit zunehmender Größe der Datenbank (d. h. die Anzahl möglicher Sequenzen) zu. Des weiteren ist mehr Berechnung erforderlich, wenn die Datenbankgröße zunimmt.
Es sollte festgehalten werden, daß eine Einzelzeichen- Erkennungsgenauigkeit nicht gleichmäßig hoch sein muß, um eine hohe Sequenzgenauigkeit zu erreichen. Beispielsweise sollte, wenn die mittlere Substitutionsrate für das alphanumerische Vokabular 15% beträgt (d. h. 15% der Häufigkeit, in welcher ein gesprochenes Zeichen einzeln mißerkannt wird), dann für alphanumerische Sequenzen mit vier (4) Zeichen eine mittlere Sequenzsubstitutionsrate von weniger als 2% erreichbar sein.
Während das Verfahren von Fig. 6 bevorzugt ist, könnte die Erkennungsstategie alternativ durch Berechnen akustischer Ähnlichkeiten zwischen gesprochenen und gespeicherten Zeichen und Erzeugen von Erkennungswerten in Antwort darauf durchgeführt werden. Es würden dann größere Referenzwerte Zeichen zugeordnet werden, welche größere akustische Ähnlichkeiten aufweisen. Unter dieser Annäherung würde die Referenzsequenz mit dem höchsten damit verbundenen Referenzwert als die erkannte Sequenz erklärt werden. Auch ist, während das Verfahren zum Erkennen alphanumerischer Sequenzen im Zusammenhang mit einem Auftrag-Eingabe-System folgend einem Stimmnachweis beschrieben worden ist, die Lehre der Erfindung nicht auf solche Anwendungen beschränkt. Tatsächlich kann sogar ein Paßwortnachweis unter Verwendung des Verfahrens, falls gewünscht, bewirkt werden.
Es sollte von den Fachleuten auf dem Gebiet berücksichtigt werden, daß die oben offenbarten sgezifischen Ausführungsformen rasch als Basis zur Modifizierung oder Ausgestaltung anderer Strukturen oder Verfahren zum Durchführen des gleichen Zweckes der vorliegenden Erfindung verwendet werden können. Beispielsweise könnte der Stimmerkennungsalgorithmus 48 alternativ sprecherabhängig anstelle von sprecherunabhängig sein, wie es in der bevorzugten Ausführungsform beschrieben ist. Von den Fachleuten auf dem Gebiet sollte auch erkannt werden, daß solche äquivalenten Ausführungen nicht vom Umfang der Erfindung, wie er in den anhängenden Ansprüchen ausgeführt ist, abweicht.

Claims

1. Ein System, das es einem berechtigten Benutzer erlaubt, Zugriff zu einer oder mehreren Dienstleistungen über ein Telefon-Netzwerk (10) zu erhalten, indem ein mehrstelliges Paßwort gesprochen wird, umfassend:

einen Digital-Prozessor (30);

Speichereinrichtungen (45), welche mit dem Digital- Prozessor (30) verbunden sind, zum Speichern von:

Stimmerkennungsmerkmal-Transformationsdaten (52a) und Stimmerkennungsklasse-Referenzdaten (52b), welche von einer ersten Vielzahl von Schulungssprechern über ein Telefonnetzwerk hergeleitet sind; Stimmnachweismerkmal-Transformationsdaten (52c), welche von einer zweiten Vielzahl von Schulungssprechern über ein Telefon-Netzwerk (10) hergeleitet sind, und Stimmnachweisklasse-Referenzdaten (52d), welche Daten umfassen, die von Benutzern hergeleitet sind, welche für den Zugriff der Dienstleistungen berechtigt sind;

Aufforderungseinrichtungen (38), welche durch den Digital- Prozessor (30) gesteuert sind, um einen Sprecher aufzufordern, ein Paßwort beginnend mit einer ersten Stelle und endend mit einer letzten Stelle davon, zu sprechen;

Sprachverarbeitungseinrichtungen (60-65), welche durch den Digital-Prozessor (30) gesteuert sind, zum Empfangen jeder Stelle und zum Erzeugen von Sprachmerkmal-Daten;

Stimmerkennungseinrichtungen (49a), welche durch den Digital-Prozessor (30) gesteuert sind, umfassend:

Transformationseinrichtungen zum Empfangen der Sprachmerkmal-Daten, welche für jede Stelle erzeugt sind und der Spracherkennungsmerkmal-Transformationsdaten und in Antwort darauf Stimmerkennungsparameter-Daten für jede Stelle erzeugen;

Entscheidungseinrichtungen (66a), welche mit den Transformationseinrichtungen zum Empfangen der Stimmerkennungsparameter-Daten und der Stimmerkennungsklasse-Referenzdaten verbunden sind und in Antwort darauf eine Ausgabe erzeugen, welche entscheidet, wenn das Paßwort gültig ist; und

Stimmnachweiseinrichtungen (49b), welche durch den Digital- Prozessor gesteuert sind und auf eine Entscheidung, daß das Paßwort gültig ist, antworten, um zu bestimmen, ob der Anrufer ein berechtigter Benutzer ist, umfassend:

Transformationseinrichtungen zum Empfangen der Sprachmerkmal-Daten, welche für jede Stelle erzeugt sind und der Sprachnachweismerkmal-Transformationsdaten und in Antwort darauf Stimmnachweisparameter-Daten für jede Stelle erzeugen; und

Nachweiseinrichtungen (66b), welche mit der Transformationseinrichtung der Stimmnachweiseinrichtung verbunden sind, um die Stimmnachweisparameter-Daten und die Stimmnachweisklasse-Referenzdaten zu empfangen und in Antwort darauf eine Ausgabe erzeugen, welche anzeigt, ob der Anrufer ein berechtigter Benutzer ist.

2. Ein Verfahren, das es einem Anrufer ermöglicht, Zugang zu einer oder mehreren Dienstleistungen über ein Telefon- Netzwerk (10) zu erhalten, indem ein mehrstelliges Paßwort gesprochen wird, umfassend die folgenden Schritte:

Vorsehen eines Digital-Prozessors (30) und von Speichereinrichtungen (45), welche mit dem Digital-Prozessor (30) verbunden sind;

Speichern von Stimmerkennungsmerkmal-Transformationsdaten (52a) und von Stimmerkennungsklasse-Referenzdaten (52b), welche von einer Vielzahl von Schulungssprechern über ein Telefon-Netzwerk hergeleitet sind; von Stimmnachweismerkmal-Transformationsdaten (52c), welche von einer zweiten Vielfalt von Schulungssprechern über ein Telefon-Netzwerk hergeleitet sind, und von Stimmnachweisklasse-Referenzdaten (52d), welche Daten umfassen, die von Benutzern hergeleitet sind, die für den Zugriff zu den Dienstleistungen berechtigt sind, in den Speichereinrichtungen;

Auffordern des Sprechers, ein Paßwort beginnend mit einer ersten Stelle und endend mit einer letzten Stelle davon zu sprechen;

Erzeugen von Sprachmerkmal-Daten für jede gesprochene Stelle, unter Verwendung einer Sprachverarbeitungseinrichtung (60-65), welche durch den Digital-Prozessor (30) gesteuert ist;

Erzeugen von Stimmerkennungsparameter-Daten für jede Stelle;

Empfangen der Sprachmerkmaldaten, welche für jede Stelle erzeugt sind, und der Spracherkennungsmerkmal-Transformationsdaten in Transformationseinrichtungen und in Antwort darauf;

Anwenden der Sprachmerkmaldaten und Sprachnachweismerkmal- Transformationsdaten auf eine Sprachnachweismerkmaltrans formation, um einen zweiten Satz von Parametern für jede gesprochene Stelle zu erzeugen, wobei der zweite Satz in einem Sprachnachweissystem verwendet wird;

Erkennen einer jeden gesprochenen Stelle des Paßwortes unter Verwendung des ersten Satzes von Parametern;

Feststellen, ob das Paßwort gültig ist, basierend auf den empfangenen Stimmerkennungsklasse-Referenzdaten, nach dem Eingang der letzten Stelle des Paßwortes;

wenn das Paßwort gültig ist, Feststellen, ob der Sprecher ein berechtigter Benutzer ist, indem Stimmnachweiseinrichtungen verwendet werden, die durch den Digital-Prozessor (30) gesteuert sind und auf das Bestimmen, daß das Paßwort gültig ist, antworten, umfassend:

Empfangen der Sprachmerkmaldaten, welche für jede Stelle erzeugt sind und der Stimmnachweismerkmal-Transformationsdaten in Transformationseinrichtungen und in Antwort darauf Erzeugen von Stimmnachweisparameter-Daten für jede Stelle; und

Empfangen der Stimmnachweisparameter-Daten und der Stimmnachweisklasse-Referenzdaten unter Verwendung von Nachweiseinrichtungen, welche mit den Transformationseinrichtungen der Stimmnachweiseinrichtung verbunden sind und in Antwort darauf eine Ausgabe erzeugen, welche anzeigt, ob der Sprecher ein berechtigter Benutzer ist.

3. Verfahren nach Anspruch 2, worin jede gesprochene Stelle des Paßwortes erkannt wird, durch:

kontinuierliches Erzeugen eines Satzes primärer Merkmale aus einem empfangenen Sprachsignal, das die gesprochene Stelle darstellt;

Aufnehmen einer Sprach-Utteranz aus dem Satz primärer Merkmale;

Erzeugen eines Satzes von sekundären Merkmalen aus der aufgenommenen Sprach-Utteranz;

Segmentieren der aufgenommenen Sprach-Utteranz in phonetische Einheiten;

Erzeugen eines Satzes von tertiären Merkmalen aus den sekundären Merkmalen innerhalb der phonetischen Einheiten;

Transformieren der tertiären Merkmale für jede phonetische Einheit durch Stimmerkennungsmerkmal-Transformationsdaten, um Stimmerkennungsparameterdaten davon zu erzeugen; und

Vergleichen der Stimmerkennungsparameterdaten mit vorbestimmten Stimmerkennungsklasse-Referenzdaten, um die gesprochene Stelle festzustellen und

Feststellen, ob das Paßwort gültig ist, nachdem die letzte Stelle des Paßwortes eingegangen ist.

4. Verfahren nach Anspruch 3, worin die Stimmerkennungsmerkmal-Transformationsdaten (52a) und die Stimmerkennungsklasse-Referenzdaten (52b) in einem Off-line-Verfahren aus einer Schulungs-Datenbank einer Vielzahl von Schulungssprechern, hergeleitet über ein Telefon-Netzwerk (10) erzeugt werden.

5. Verfahren nach Anspruch 3, worin der Schritt des Nachweises der Identität des Benutzers die folgenden Schritte umfaßt:

(a) Transformieren der tertiären Merkmale für jede phonetische Einheit durch Stimmnachweismerkmaldaten (52c), um Stimmnachweisparameterdaten dafür zu erzeugen;

(b) Vergleichen der Stimmnachweisparameterdaten mit vorbestimmten Stimmnachweisklasse-Referenzdaten (52d) für jede gesprochene Stelle;

(c) Berechnen eines gewichteten euklidischen Abstandes zwischen den Sprachnachweisparameter-Daten und den Sprachnachweisklasse-Referenzdaten (52d) für jede gesprochene Stelle;

(d) Wiederholen der Schritte (b)-(c) für jede gesprochene Stelle;

(e) Berechnen eines Gesamtabstandes für das gesamte Paßwort aus den gewichteten euklidischen Abständen, welche für jede gesprochene Stelle erzeugt sind;

(f) Vergleichen des Gesamtabstandes mit vorbestimmten Schwellen, um die Identität des Benutzers nachzuweisen.

6. Verfahren nach Anspruch 5, worin der Schritt des Vergleichens des Gesamtabstandes die folgenden Schritte umfaßt:

(g) Bestimmen, ob der Gesamtabstand geringer als eine erste Schwelle ist;

(h) wenn der Gesamtabstand geringer als die erste Schwelle ist, Akzeptieren der Identität des Anrufers;

(i) wenn der Gesamtabstand größer als die erste Schwelle ist, Bestimmen, ob der Gesamtabstand größer als eine zweite Schwelle ist; und

(j) wenn der Gesamtabstand größer als die zweite Schwelle ist, Zurückweisen der Identität des Anrufers.

7. Verfahren nach Anspruch 6, das des weiteren die folgende Stufe umfaßt:

(k) wenn der Gesamtabstand größer als die erste Schwelle und kleiner als die zweite Schwelle ist, Auffordern des Anrufers, eine oder mehrere persönliche Fragen, welche mit dem Paßwort verbunden sind, zu beantworten; und (l) Bestimmen, ob die Fragen korrekt beantwortet sind; und

(m) wenn die Fragen korrekt beantwortet sind, Akzeptieren der Identität des Anrufers.

8. Verfahren nach Anspruch 2, worin, wenn die Identität des Anrufers nicht bestätigt werden kann, der Anrufer aufgefordert wird, wenigstens eine persönliche Frage, welche mit dem Paßwort verbunden ist, zu beantworten;

Bestimmen, ob die Frage korrekt beantwortet ist; und

wenn die Frage korrekt beantwortet ist, Akzeptieren der Identität des Anrufers.

9. Verfahren nach Anspruch 8, das des weiteren die folgende Stufe umfaßt:

Zurückweisen der Identität des Anrufers, wenn die Frage unrichtig beantwortet ist.