DE69131689T2 - Gleichzeitige sprecherunabhängige sprachererkennung und sprecherverifikation über einen fernsprechnetz - Google Patents
Gleichzeitige sprecherunabhängige sprachererkennung und sprecherverifikation über einen fernsprechnetzInfo
- Publication number
- DE69131689T2 DE69131689T2 DE69131689T DE69131689T DE69131689T2 DE 69131689 T2 DE69131689 T2 DE 69131689T2 DE 69131689 T DE69131689 T DE 69131689T DE 69131689 T DE69131689 T DE 69131689T DE 69131689 T2 DE69131689 T2 DE 69131689T2
- Authority
- DE
- Germany
- Prior art keywords
- data
- voice
- password
- voice recognition
- caller
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000012795 verification Methods 0.000 title claims description 71
- 238000000034 method Methods 0.000 claims description 54
- 230000009466 transformation Effects 0.000 claims description 44
- 238000012549 training Methods 0.000 claims description 26
- 238000001514 detection method Methods 0.000 claims description 20
- 230000004044 response Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 230000001131 transforming effect Effects 0.000 claims 3
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 31
- 239000013598 vector Substances 0.000 description 21
- 238000012360 testing method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 6
- 230000001186 cumulative effect Effects 0.000 description 5
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 4
- 229910052799 carbon Inorganic materials 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011946 reduction process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000001668 ameliorated effect Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/30—Individual registration on entry or exit not involving the use of a pass
- G07C9/32—Individual registration on entry or exit not involving the use of a pass in combination with an identity check
- G07C9/37—Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/38—Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections
- H04M3/382—Graded-service arrangements, i.e. some subscribers prevented from establishing certain connections using authorisation codes or passwords
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Monitoring And Testing Of Exchanges (AREA)
- Control Of Vending Devices And Auxiliary Devices For Vending Devices (AREA)
- Interconnected Communication Systems, Intercoms, And Interphones (AREA)
- Telephone Function (AREA)
Description
- Die vorliegende Erfindung betrifft im allgemeinen Stimmerkennungstechniken und insbesondere ein Stimmerkennungs-/Nachweis- Verfahren und -System, das es einem Anrufer ermöglicht, Zugriff zu einer oder mehrere Dienstleistungen über ein Telefonnetz zu erhalten.
- Stimmnachweis ist das Verfahren zum Nachweisen bzw. Überprüfen bzw. Bestätigen einer von einer Person beanspruchten Identität, indem eine Probe der Stimme dieser Person analysiert wird. Diese Sicherheitsform basiert auf der Prämisse, daß jede Person einzigartig durch ihre Stimme identifiziert werden kann. Die durch eine Nachweistechnik geleistete Sicherheitshöhe hängt davon ab, wie gut der Nachweisalgorithmus die Stimme eines autorisierten Benutzers von allen nichtautorisierten Benutzern unterscheidet.
- Es wäre wünschenswert, Stimmnachweisschemata zu verwenden, um die Identität eines Telefonanrufers nachzuweisen. Solche Schemata wurden jedoch nicht erfolgreich ausgeführt. Insbesondere hat es sich als schwierig erwiesen, einen kosteneffektiven und genauen Stimmnachweis über ein Telefonnetz zu liefern. Grund dafür ist, daß das Telefonnetz eine herausfordernde Umgebung ist, welche die Sprachqualität durch das Einführen verschiedener Arten von Geräusch bzw. Rausch und Bandbeschränkungen verschlechtert. Die Schwierigkeit bei der Lieferung eines Stimmnachweises auf Telefonbasis wird des weiteren durch die Tatsache kompliziert, daß viele Arten von Mikrophonen in herkömmlichen Telefonstationen verwendet werden. Diese Mikrophone beinhalten Kohle-Knopfharidapparate, Elektret-Handapparate und Elektret-Sprechtelefone. Jede dieser Vorrichtungen besitzt einzigartige akustische Eigenschaften, welche die Weise, in wel cher die Stimme einer Person über das Telefonnetz klingen kann, beeinflussen.
- Die US-PS 4,363,102 offenbart eine Sprecher-Erkennungs- und Nachweisanordnung, in welcher akustische Merkmalsschablonen für vorbestimmte Bezugswörter gespeichert sind. Jede Schablone ist ein standardisierter Satz von akustischen Merkmalen für ein Wort, welcher beispielsweise durch Mittelung der Werte von akustischen Merkmalen von einer Vielzahl von Sprechern gebildet ist. Sprach-"Korrespondenzsignale", welche zum Erkennen des Inhalts des Sprechmusters eines Sprechers erhalten werden, werden gleichzeitig verwendet werden, um den Sprecher zu erkennen. Distanzmessungen werden durchgeführt, indem Distanzmessungseinrichtugnen verwendet werden, und während der Erkennung wird eine Schablonenübereinstimmungs- bzw. -vergleichstechnik verwendet, um einen Satz von Distanzen bzw. Abständen zu erzeugen (ein Abstand für jede Utteranz bzw. Äußerung bzw. Sprechweise für die Eingangssequenz).
- Es ist eine Aufgabe der vorliegenden Erfindung, über ein Telefon gesprochene alphanumerische Sequenzen zu erkennen.
- Es ist eine weitere Aufgabe der Erfindung, ein Verfahren zum Erkennen alphanumerischer Sequenzen zu beschreiben, worin die Erkennung auf der Basis einer Gesamtheit alphanumerischer Kennzeichen bzw. Ziffern bzw. Stellen im Gegensatz zur Einzelkennzeichen-Erkennung erfolgt.
- Es ist so eine weitere Aufgabe der Erfindung, ein Verfahren zum Erkennen alphanumerischer Sequenzen zu beschreiben, das nicht eine hohe, individuelle Kennzeichenerkennungsgenauigkeit erfordert, um ein Erkennen einer gesprochenen alphanumerischen Sequenz zu erreichen.
- Es ist auch eine Aufgabe der vorliegenden Erfindung, ein Verfahren und ein System zur Stimmerkennung und zum Stimmnachweis über ein Telefonnetz zur Verfügung zu stellen.
- Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein Verfahren und ein System zur Verfügung zu stellen, das es einem Anrufer ermöglicht, Zugang zu einer oder mehreren Dienstleistungen über ein Telefonnetz, unter Verwendung Stimmengesteuerter Zugriffstechniken zu erhalten.
- Es ist eine noch weitere Aufgabe der Erfindung, eine(n) simultane(n) sprecherunabhängige(n) Stimmerkennung und Stimmnachweis zur Verfügung zu stellen, um den Zugriff zu Dienstleistungen über bandbeschränkte Kommunikationskanäle zu erleichtern.
- Es ist eine weitere Aufgabe der Erfindung, ein Verfahren zum Nachweis der beanspruchten Identität eines Individuums an einem Telefon zur Verfügung zu stellen, um es dem Individuum zu ermöglichen, Zugriff zu Dienstleistungen oder Privilegien zu erhalten, welche für autorisierte Benutzer beschränkt sind. Gemäß einem ersten Aspekt der vorliegenden Erfindung wird ein System geliefert, um es einem autorisierten Benutzer zu ermöglichen, Zugang zu einer oder mehreren Dienstleistungen über ein Telefonnetz zu erhalten, indem ein Paßwort mit einer Vielzahl von Stellen gesprochen wird, umfassend:
- einen Digital-Prozessor;
- Speichereinrichtungen, welche mit dem Digital-Prozessor zum Speichern verbunden sind, von:
- Stimmerkennungsmerkmal-Transformationsdaten und Stimmerkennungsklasse-Referenzdaten, welche von einer ersten Vielzahl von Schulungssprechern über ein Telefonnetz bzw. -Netzwerk hergeleitet sind; Stimmnachweismerkmal-Transformationsdaten, welche von einer zweiten Vielzahl von Schulungssprechern über ein Telefonnetz bzw. -Netzwerk hergeleitet sind, und Stimmnachweisklasse-Referenzdaten, welche Daten umfassen, die von Benutzern hergeleitet sind, welche für den Zugriff der Dienstleistungen berechtigt sind;
- Aufforderungseinrichtungen, welche durch den Digital-Prozessor gesteuert sind, um einen Sprecher aufzufordern, ein Paßwort beginnend mit einer ersten Stelle und endend mit einer letzten Stelle davon, zu sprechen;
- Sprachverarbeitungseinrichtungen, welche durch den Digital- Prozessor gesteuert sind, zum Empfangen jeder Stelle und zum Erzeugen von Sprachmerkmal-Daten;
- Stimmerkennungseinrichtungen, welche durch den Digital-Prozessor gesteuert sind, umfassend:
- Transformationseinrichtungen zum Empfangen der Sprachmerkmal- Daten, welche für jede Stelle erzeugt sind und der Spracherkennungsmerkmal-Transformationsdaten, und in Antwort darauf Stimmerkennungsparameter-Daten für jede Stelle erzeugen;
- Entscheidungseinrichtungen, welche mit den Transformationseinrichtungen zum Empfangen der Stimmerkennungsparameter-Daten und der Stimmerkennungsklasse-Referenzdaten verbunden sind, und in Antwort darauf eine Ausgabe erzeugen, welche entscheidet, ob das Paßwort gültig ist; und
- Stimmnachweiseinrichtungen, welche durch den Digital-Prozessor gesteuert sind, und auf eine Entscheidung, daß das Paßwort gültig ist, antworten, um zu bestimmen, ob der Anrufer ein berechtigter Benutzer ist, umfassend:
- Transformationseinrichtungen zum Empfangen der Sprachmerkmal- Daten, welche für jede Stelle erzeugt sind und der Sprachnachweismerkmal-Transformationsdaten und in Antwort darauf Stimmnachweisparameter-Daten für jede Stelle erzeugen; und Nachweiseinrichtungen, welche mit der Transformationseinrichtung der Stimmnachweiseinrichtung verbunden sind, um die Stimmnachweisparameter-Daten und die Stimmnachweisklasse- Referenzdaten zu empfangen und in Antwort darauf eine Ausgabe erzeugen, welche anzeigt, ob der Anrufer ein berechtigter Benutzer ist.
- Gemäß einem zweiten Aspekt der vorliegenden Erfindung wird ein Verfahren zur Verfügung gestellt, das es einem Anrufer ermöglicht, Zugang zu einer oder mehreren Dienstleistungen über ein Telefonnetz zu erhalten, indem er ein Paßwort mit einer Vielzahl von Stellen spricht, umfassend die Schritte:
- Vorsehen eines Digital-Prozessors und von Speichereinrichtungen, welche mit dem Digital-Prozessor verbunden sind;
- Speichern von Stimmerkennungsmerkmal-Transformationsdaten und von Stimmerkennungsklasse-Referenzdaten, welche von einer Vielzahl von Schulungssprechern über ein Telefonnetz bzw. - Netzwerk hergeleitet sind; von Stimmnachweismerkmal-Transformationsdaten, welche von einer zweiten Vielzahl von Schulungssprechern über ein Telefonnetz bzw. -Netzwerk hergeleitet sind, und von Stimmnachweisklasse-Referenzdaten, welche Daten umfassen, die von Benutzern hergeleitet sind, die für den Zugriff zu den Dienstleistungen berechtigt sind, in den Speichereinrichtungen;
- Auffordern des Sprechers, ein Paßwort beginnend mit einer ersten Stelle und endend mit einer letzten Stelle davon zu sprechen;
- Erzeugen von Sprachmerkmal-Daten für jede gesprochene Stelle, unter Verwendung einer Sprachverarbeitungseinrichtung, welche durch den Digital-Prozessor gesteuert ist;
- Erzeugen von Stimmerkennungsparameter-Daten für jede Stelle;
- Empfangen der Sprachmerkmaldaten, welche für jede Stelle erzeugt sind, und der Spracherkennungsmerkmal-Transformationsdaten in Transformationseinrichtungen und in Antwort darauf;
- Anwenden der Sprachmerkmaldaten und Sprachnachweismerkmal- Transformationsdaten auf eine Sprachnachweismerkmalstransformation, um einen zweiten Satz von Parametern für jede gesprochene Stelle zu erzeugen, wobei der zweite Satz in einem Sprachnachweissystem verwendet wird;
- Erkennen einer jeden gesprochenen Stelle des Paßwortes unter Verwendung des ersten Satzes von Parametern;
- Feststellen, ob das Paßwort gültig ist, basierend auf den empfangenen Stimmerkennungsklasse-Referenzdaten, nach dem Eingang der letzten Stelle des Paßwortes;
- wenn das Paßwort gültig ist, Feststellen, ob der Sprecher ein berechtigter Benutzer ist, indem Stimmnachweiseinrichtungen verwendet werden, die durch den Digital-Prozessor gesteuert sind und auf das Bestimmen, daß das Paßwort gültig ist, antworten, umfassend:
- Empfangen der Sprachmerkmaldaten, welche für jede Stelle erzeugt sind und der Stimmnachweismerkmal-Transformationsdaten in Transformationseinrichtungen und in Antwort darauf Erzeugen von Stimmnachweisparameter-Daten für jede Stelle; und
- Empfangen der Stimmnachweisparameter-Daten und der Stimmnachweisklasse-Referenzdaten unter Verwendung von Nachweiseinrichtungen, welche mit den Transformationseinrichtungen der Stimmnachweiseinrichtung verbunden sind und in Antwort darauf eine Ausgabe erzeugen, welche anzeigt, ob der Sprecher ein berechtigter Benutzer ist.
- Bei der Durchführung des Verfahrens und des Systemes der Erfindung soll angenommen werden, daß der Anrufer den Anruf aus einer herkömmlichen stationären Telefoneinheit an eine Institution durchführt, um Zugriff zu einer Auftragseingangs- Dienstleistung zu erhalten, in welche sich der Anrufer vorher eingeschrieben hat. Der Anrufer hat sich auch vorher in die Stimmnachweis-Datenbank eingeschrieben, was seine oder ihre Stimmnachweisklasse-Referenzdaten umfaßt. Die Institution umfaßt geeignete Eingangs-/Ausgangseinrichtungen, welche mit dem System verbunden sind (oder integral damit ausgeführt sind), um mit Signalen in und aus der Telefonleitung zu interferieren. Sobald die Anruf-Einrichtung aufgebaut worden ist, steuert der Digital-Prozessor die Abfrageeinrichtung, um den Anrufer aufzufordern, Schritt für Schritt den Eingang des vorherbestimmten Paßwortes des Anrufers zu beginnen. Der Stimmerkennungsalgorithmus verarbeitet jede Stelle und verwendet eine statistische Erkennungsstrategie, um zu bestimmen, welche Zahl bzw. Stelle (null bis neun und "oh") gesprochen wird. Nachdem alle Stellen erkannt worden sind, wird ein Test durchgeführt, um zu bestimmen, ob das eingegebene Paßwort für das System gültig ist. Wenn ja, wird der Anrufer bedingt angenommen. Mit anderen Worten, weiß, wenn das Paßwort gültig ist, das System, wer der Anrufer beansprucht zu sein und wo die Kontoinformation gespeichert ist.
- Danach führt das System einen Stimmnachweis an dem Anrufer durch, um zu bestimmen, ob das eingegebene Paßwort durch eine Stimme gesprochen worden ist, welche vorher in der Stimmnachweis-Referenzdatenbank eingetragen wurde und dem eingegebenen Paßwort zugeschrieben worden ist. Wenn der Nachweisalgorithmus eine "Übereinstimmung" aufbaut, wird ein Zugriff auf die Auftragseingangs- bzw. Zugangsdienstleistung zur Verfügung gestellt. Wenn der Algorithmus im wesentlichen mit der dafür gespeicherten Version der Stimme übereinstimmt, jedoch nicht innerhalb eines vorher bestimmten Annahmekriteriums liegt, fordert das System den Anrufer auf, zusätzliche persönliche Informationen (zum Beispiel die Sozialversicherungsnummer oder das Geburtsdatum des Anrufers) einzugeben, um des weiteren die Identität der beanspruchten Inhaberschaft des Paßwortes zu überprüfen. Wenn der Anrufer eine solche Information nicht liefern kann, weist das System den Zugriffsanspruch zurück und der Anruf wird beendet.
- Sobald der Anrufer Zugriff zu den Auftragseingangs-Dienstleistungen erhält, soll angenommen werden, daß er oder sie dann einen Auftrag für ein Produkt/eine Ware, welche gänzlich durch eine alphanumerische Sequenz, die dem Anrufer bekannt ist, identifiziert ist, anzugeben wünscht. Gemäß einem weiteren Merkmal der Erfindung wird ein Verfahren zum Erkennen solcher alphanumerischen Sequenzen eingerichtet, das eine spezielle Erkennungsstrategie verwendet, welche keine hohe, individuelle Merkmalserkennungsgenauigkeit erfordert, um eine Erkennung der gesprochenen alphanumerischen Sequenz zu erreichen. Im Betrieb fordert das System den Anrufer auf, jede Einzelheit einer Sequenz, welche erkannt werden soll, zu sprechen, beginnend mit einem ersten Merkmal und endend mit einem letzten Merkmal. Jedes Merkmal wird dann eingefangen und analysiert, unter Verwendung des sprecherabhängigen Stimmerkennungsalgorithmus. Das Verfahren ordnet einen Erkennungsabstand zwischen jedem gesprochenen Eingangsmerkmal und dem entsprechenden Buchstaben oder der Stelle in der gleichen Position innerhalb einer jeden bezugsalphanumerischen Sequenz zu. Nachdem jedes Merkmal bzw. jede Stelle gesprochen ist, aufgefangen und analysiert worden ist, wird jede Bezugssequenzdistanz inkrementiert und das Verfahren wird fortgeführt, indem Abstände bzw. Distanzen für jede Referenzsequenz gesammelt werden, bis das letzte Merkmal gesprochen ist. Die Referenzsequenz mit der niedrigsten kumulativen Distanz wird dann zur erkannten Sequenz erklärt.
- Das Vorhergehende hat einige der wesentlicheren Aufgaben der vorliegenden Erfindung dargestellt. Diese Gegenstände bzw. Aufgaben sollten nur als veranschaulichend für einige hauptsächlichere Merkmale und Anwendungen der Erfindung angesehen werden. Viele andere vorteilhafte Ergebnisse können erhalten werden, indem die offenbarte Verbindung in verschiedener Weise oder modifizierender Weise der Erfindung, wie beschrieben werden wird, durchgeführt werden. Dementsprechend werden weitere Gegenstände und ein genaueres Verständnis der Erfindung unter Bezugnahme auf die folgende genaue Beschreibung der bevorzugten Ausführungsform verstanden werden.
- Für ein vollständigeres Verständnis der vorliegenden Erfindung und der Vorteile davon sollte Bezug auf die folgende genaue Beschreibung in Verbindung mit den begleitenden Zeichnungen genommen werden, worin:
- Fig. 1 ein schematisches Diagramm eines Telefonnetzes mit einer Anrufstation ist, die mit einem Digital-Prozessorsystem eines Dienstleisters, wie einem Finanzinstitut, ist;
- Fig. 2 ein schematisches Diagramm des Digital-Prozessorsystemes von Fig. 1 ist, in Verwendung zur Lieferung sprecherabhängiger(m) Stimmerkennung und Stimmnachweis, entsprechend der Lehre der vorliegenden Erfindung;
- Fig. 3 ein Blockdiagramm des bevorzugten Stimmerkennungs- Nachweisalgorithmus dieser Erfindung ist;
- Fig. 4 ein Fließdiagramm ist, das die Nachweisroutine von Fig. 3 beschreibt;
- Fig. 5 eine Darstellung eines Tischteiles ist, welche alphanumerische Sequenzen zur Verwendung in einem Auftragseingangssystem umfaßt; und
- Fig. 6 ein Fließdiagramm ist, das ein Verfahren zum Erkennen alphanumerischer Sequenzen ist, die über ein Telefonnetz gesprochen werden, gemäß der Lehre der vorliegenden Erfindung.
- Gleiche Bezugsziffern beziehen sich auf gleiche Teile und/oder Schritte über die verschiedenen Ansichten der Zeichnungen.
- Fig. 1 zeigt ein Blockdiagramm eines herkömmlichen Telephonnetzes 10 mit einer Anrufstation 12, die mit einem Digital- Prozessorsystem 14 eines Finanzinstitutes verbindbar ist. Gemäß der Lehre der vorliegenden Erfindung umfaßt das digitale Verarbeitungssystem 14 einen sprecherunabhängigen Stimmerkennungsalgorithmus 48 und einen damit verbundenen Stimmnachweisalgorithmus 50, um einen stimmkontrollierten Zugriff zu einer oder mehreren Dienstleistungen 20 zu erleichtern, welche durch das Finanzinstitut angeboten werden. Diese Dienstleistungen umfassen, sind aber nicht beschränkt auf, Konto-Saldo-Anfragen und elektronischen Kapitaltransfer. Darüber hinaus sollte, während die folgende Erörterung die Verwendung von Stimmerkennung/-nachweis im Zusammenhang mit dem Zugriff auf in einem Finanzinstitut gespeicherten Informationen beschreibt, verstanden werden, daß die Lehre der Erfindung nicht so begrenzt ist. Die Erfindung kann für zahlreiche weitere Anwendungen verwendet werden, wie Kreditkartenvalidierung, Auftragseingang von Waren/Dienstleistungen und Personenidentifikationsvalidierung. Des weiteren sollte auch verstanden werden, daß das Telefonnetz weitere Vorrichtungen und im Stand der Technik herkömmliche Schaltsysteme umfassen kann. Dementsprechend kann die Anrufstation 12 durch ein Zentralbüro oder andere Schalteinrichtungen, wie einer Zugriffsreihe- bzw. Kaskade oder eines Austauschträger-Schaltsystems verbunden werden, vor dem Verbinden mit dem Dienstleistungslieferanten.
- Unter Bezugnahme auf Fig. 2 ist ein Blockdiagramm eines digitalen Verarbeitungssystems 14 der vorliegenden Erfindung zum Vorsehen gleichzeitiger sprecherunabhängiger(m) Stimmerkennung und Stimmnachweis gezeigt. Das System umfaßt eine zentrale Verarbeitungseinheit bzw. einen Zentralrechner (CPU) 30 zur Steuerung des Gesamtbetriebes des Systemes. Der CPU umfaßt Daten-, Adreß- und Steuerbusse, welche allgemein durch die Bezugsziffer 32 dargestellt sind. Wie in Fig. 2 gezeigt ist, um faßt das System 14 auch herkömmliche Eingabe-/Ausgabevorrichtungen, wie eine Tastatur 34, einen Bildschirmanschluß 36, Sprachgenerator 38 und Drucker 40. Eine Kommunikationsschnittstelle 42 (welche mikroprozessorgesteuert sein kann) bildet die Schnittstelle des Systemes mit der Telefonleitung. Ein direktzugriffsspeicher ("RAM") 44 ist mit der CPU durch einen Bus 32 verbunden, um eine vorübergehende Speicherung von dadurch verarbeiteten Daten zu liefern. Ein Festspeicher bzw. Nurlesespeicher ("ROM") 45 ist ebenfalls mit dem Digital- Prozessor zum Vorsehen dauerhafter Speicherung von speziellen Erkennungs- und Nachweisdaten verbunden, wie unten beschrieben werden wird. Ein Magnetplattenspeicher 46 unterstützt Steuerprogramme, umfassend einen Stimmerkennungsalgorithmus 48 und einen Stimmnachweisalgorithmus 50 sowie geeignete Steuerprogramme (nicht gezeigt).
- Gemäß der Erfindung speichert der ROM 45 Stimmerkennungs- Referenzinformation zur Verwendung durch den Stimmerkennungsalgorithmus 48. Diese Information ist zweierlei Art: Stimmerkennungsmerkmal-Transformationsdaten 52a und Stimmerkennungsklasse-Referenzdaten 52b, die von einer ersten Vielzahl von Schulungssprechern über ein Telefonnetz hergeleitet sind. Insbesondere werden Stimmerkennungsmerkmal-Transformationsdaten 52a und Stimmerkennungsklasse-Referenzdaten 52b in einem vorhergehenden Off-line-Verfahren, von einer Stimmerkennungsschulungsdatenbank (nicht gezeigt) hergeleitet, umfassend Stellen- bzw. Zahlendaten aus einer großen Anzahl von Schulungssprechern (zum Beispiel 1000), die über das Telefonnetz gesammelt wurden. Diese Schulungsdatenbank 52 umfaßt Daten von lokalen und Ferngesprächen und eine beträchtliche Menge von Daten wird durch Kohleknopf-Handapparatmikrophone und Elektret-Handapparatmikrophone gesammelt. Die Stimmerkennungsklasse-Referenzdaten 52 umfassen eine Darstellung für jedes Stellenwort (z. B. "eins", "zwei", etc.) als eine "Klasse", welche durch den Stimmerkennungsalgorithmus 48 erkannt werden soll. Beispielsweise wird die Darstellung der Klasse für die Stelle "eins" aus den Daten von allen Schulungssprechern hergeleitet, welche die Stelle "eins" gesprochen haben.
- Die Stimmerkennungsschulungsdatenbank ist demzufolge ausgestaltet, um die Verteilung von akustischen Merkmalen eines jeden Stellenwortes über eine große Sprecherpopulation darzustellen. Zweck und Wirkung der auf dieser Datenbank durchgeführten Analyse ist es, die Parameter eines vielstufigen Datenreduktionsverfahren zu optimieren, um jene Eigenschaften eines einstelligen bzw. Stellenwortes zu entdecken und genau darzustellen, welche es von allen anderen einstelligen Wörtern, unabhängig vom Sprecher, unterscheidet.
- Gemäß einem weiteren Merkmal der Erfindung unterstützt der ROM 45 auch Stimmnachweismerkmal-Transformationsdaten 52c. Diese Daten werden, in einem vorangehenden Off-line-Verfahren aus einer Stimmnachweisschulungsdatenbank (nicht gezeigt) abgeleitet. Insbesondere umfaßt die Stimmnachweisschulungsdatenbank vorzugsweise Daten, welche von etwa 100 bis 150 Schulungssprechern erzeugt werden, und wird über das Telefonnetz gesammelt. Die Datenbank umfaßt Daten von lokalen und Ferngesprächen und wesentliche Mengen von Daten werden durch Kohleknopf- Handapparatmikrophone und Elektret-Handapparatmikrophone gesammelt. Jeder Schulungssprecher wird mit einem Script versehen, das zufällige Stellensequenzen enthält. Die Sequenzen werden in einer vorbestimmten Anzahl (z. B. 5) von separaten Aufzeichnungssitzungen gesprochen, wobei die erste Aufzeichnungssession eine vorbestimmte Anzahl (z. B. 5) von Durchgängen der in zufälliger Ordnung gesprochenen Stellen enthält. Die nachfolgenden Sessionen enthalten jeweils eine vorbestimmte Anzahl (z. B. 3) von Durchgängen von in zufälliger Ordnung gesprochenen Stellen und jede Aufzeichnungssitzung ist von der vorhergehenden Sitzung durch wenigstens einen Tag getrennt.
- Die Stimmnachweis-Schulungsdatenbank ist demnach ausgestaltet, um die Verteilung von akustischen Eigenschaften eines jeden einstelligen bzw. Stellenwortes darzustellen, das durch einen besonderen Schulungssprecher über vielfache Sprechweisen bzw. Äußerungen des Stellenwortes durch den Sprecher gesprochen wird. Der Zweck und die Wirkung der auf dieser Datenbank durchgeführten Analyse ist es, die Parameter eines vielstufigen Datenreduktionsverfahrens zu optimieren, um jene Eigenschaften eines jeden einstelligen Wortes zu entdecken und genau darzustellen, das durch jeden besonderen Schulungssprecher ausgesprochen bzw. geäußert wird, die es von dem gleichen einstelligen Wort unterscheiden, welche durch andere Schulungssprecher ausgesprochen werden.
- Die Stimmnachweistechnik erfordert es, daß die autorisierten Benutzer des Systemes sich vorher in das System eingetragen bzw. eingeschrieben haben (d. h. jene Personen, welche über das Telefonsystem anrufen, um auf Informationen zuzugreifen). Dementsprechend umfaßt das System 14 auch eine Stimmnachweis- Referenzdatenbank 55, welche Stimmnachweisklasse-Referenzdaten 52d umfaßt, die von dem Benutzer gesammelt wurden, welcher für den Zugriff auf Dienstleistungen autorisiert ist. Die Einschreibung wird vorzugsweise durchgeführt, indem man den Benutzer ein 10-stelliges Paßwort fünfmal sprechen läßt. Zur weiteren Sicherheit wird der Anrufer gebeten, einige sachliche persönliche Fragen zu beantworten, welche beantwortet werden können, indem Stellen verwendet werden, die durch den Stimmerkennungsalgorithmus 48 erkennbar sind. Diese Fragen können die Sozialversicherungsnummer, Kontonummer oder das Geburtsdatum des Benutzers umfassen, sind aber nicht darauf beschränkt. Jede "Klasse" der Stimmnachweisklasse-Referenzdaten stellt einen autorisierten Benutzer des Systemes dar. Die Klasse-Referenzdaten aller autorisierten Benutzer des Systemes werden dann in die Stimmnachweis-Referenzdatenbank 55 eingespeichert.
- Das System 14 umfaßt auch eine Transaktionsdatenbank 50 zum Speichern von Finanz- und Transaktionsdaten, wie Konto-Salden, Kreditinformationen und dergleichen. Diese Information wird vorzugsweise in vorbestimmten Stellen, die durch das Paßwort des Anrufers adressiert werden, gespeichert. Demnach identifi ziert das Paßwort sowohl den Anrufer als auch die Stelle der Daten, auf welche zugegriffen werden soll.
- Bei der Durchführung des bevorzugten Verfahrens soll angenommen werden, daß ein Anrufer einen Anruf von der Anrufstation 12 an das Finanzinstitut richtet, um Zugriff zu Kontoinformationen zu haben. Der Anrufer hat sich vorher in die Stimmnachweis-Referenzdatenbank 55 eingeschrieben. Sobald der Anrufanschluß aufgebaut ist, fordert der Sprachgenerator 38 des digitalen Verarbeitungssystemes 14 den Anrufer auf, mit dem Stelle-für-Stelle-Eingang des vorbestimmten Paßwortes des Anrufers zu beginnen, wobei mit der ersten Stelle begonnen wird und mit der letzten Stelle davon aufgehört wird. Das Anfordern der Stellen kann alternativ in jeder gewünschten Weise oder Sequenz bewirkt werden. Die Signale bilden mit der Telefonleitung durch die Kommunikationsschnittstelle 42 eine Schnittstelle. Jede Stelle wird gesprochen, der Stimmerkennungsalgorithmus 48 verarbeitet die empfangene Information und, wie unten beschrieben werden wird, verwendet eine statistische Erkennungs-/Entscheidungsstrategie um die Stelle zu bestimmen (null bis neun und "oh").
- Nachdem alle Stellen erkannt wurden, wird ein Test durchgeführt, um zu bestimmen, ob das eingegebene Paßwort für das System gültig ist. Wenn das Ergebnis des Tests positiv ist, wird der Anrufer angenommen, weil das System "weiß", wer der Anrufer beansprucht zu sein und daher wo die Kontoinformation gespeichert ist. Danach benutzt das System den Stimmnachweisalgorithmus 50, um einen Stimmnachweis an dem Anrufer durchzuführen, um zu bestimmen, ob das eingegebene Paßwort durch eine Stimme gesprochen wurde, welche vorher in die Datenbank 55 eingeschrieben und dem eingegebenen Paßwort zugeschrieben wurde. Wenn der Algorithmus 50 eine "Übereinstimmung" innerhalb den vorbestimmten Zulassungskriterien aufbaut, wird der Zugriff zu den Daten oder anderen Systemdienstleistungen erlaubt. Wenn der Algorithmus 50 nicht wesentlich die eingegebene Stimme mit einer in der Datenbank 55 gespeicherten Stimme als übereinstimmend feststellen kann, weist das System die Zugriffsanforderung zurück und der Anruf wird beendet. Wenn der Algorithmus 50 die eingegebene Stimme im wesentlichen mit einer gespeicherten Stimme in der Datenbank 55 zur Deckung bringen kann, jedoch nicht innerhalb eines vorbestimmten Zulassungskriteriums, fordert das System den Anrufer auf, zusätzliche persönliche Informationen einzugeben (z. B. die Sozialversicherungsnummer oder Kontonummer des Anrufers), welche mit dem Paßwort verbunden sind, um weiter die Identität des beanspruchten Benutzers des Paßwortes zu überprüfen. Wenn der Anrufer eine solche Information nicht liefern kann, weist das System die Zugriffsanforderung zurück und der Anruf wird beendet. Eine korrekte Eingabe der geforderten Information ermöglicht es dem Anrufer, Zugriff zu der Dienstleistung zu erhalten.
- Bezugnehmend nun auf die Fig. 3 ist ein Blockdiagramm einer bevorzugten Ausführungsform der Stimmerkennungs- und Stimmnachweisalgorithmen 48 und 50 gezeigt. Wie gesehen werden wird, teilen die Algorithmen 48 und 50 die funktionellen Blöcke, die in dem oberen Abschnitt des Blockdiagramms dargestellt sind. Diese Blöcke umfassen eine Sprachverarbeitungseinrichtung zur Durchführung einer ersten Reihe eines mehrstufigen Datenreduktionsverfahrens. Insbesondere extrahiert beim Eingeben von Sprache in das System 14 eine Merkmalsextraktionsvorrichtung 16 einen Satz von ersten Merkmalen, welche in Realzeit alle 10 ms berechnet werden. Die primären Merkmale umfassen heuristisch bzw. experimentell entwickelte Zeitdomänmerkmale (zum Beispiel Null-Kreuzraten) und Frequenzdomäninformationen, wie schnelle Fouriertransformations-Koeffizienten ("FFT"). Die Ausgabe der Merkmalsextraktionseinrichtung 60 ist ein reduzierter Datensatz (etwa 4000 Datenpunkte/Aussprache bzw. Utteranz bzw. Änderung anstelle der ursprünglich etwa 8000 Datenpunkte/Aussprache bzw. Äußerung) und wird auf eine Triggerroutine 62 angewendet, welche gesprochene Worte unter Verwendung der primären Merkmale einfängt. Die Triggerroutine ist mit einer zweiten Merkmalsroutine 63 zum Berechnen "zwei ter Merkmale" aus den ersten Merkmalen verbunden. Die zweiten bzw. Sekundärmerkmale resultieren vorzugsweise aus nichtlinearen Transformationen der primären Merkmale. Der Ausgang der Routine 63 ist mit der phonetischen Segmentierungsroutine 64 verbunden. Sobald eine Äußerung eingefangen ist und die sekundären Merkmale berechnet sind, liefert die Routine 64 eine automatische phonetische Segmentierung. Um eine Segmentierung zu erreichen, lokalisiert die phonetische Segmentierungsroutine 64 vorzugsweise Stimmgrenzen, indem eine optimale Zustandssequenz eines Doppelzustand-Markovverfahrens basierend auf einer Sequenz von Skalardiskriminantenfunktionswerten bestimmt werden wird. Die Diskriminantenfunktionswerte werden durch eine Fisher-Lineartransformation zweiter Klasse von sekundären Merkmalsvektoren erzeugt. Die Stimmgrenzen werden dann als Ankerpunkte für eine nachfolgende phonetische Segmentierung verwendet.
- Nachdem die phonetischen Grenzen durch die phonetische Segmentierungsroutine lokalisiert sind, werden die individuellen phonetischen Einheiten der Äußerung analysiert und die sogenannten "tertiären Merkmale" werden durch eine tertiäre Merkmalsberechnungsroutine 65 berechnet. Diese tertiären Merkmale umfassen vorzugsweise Informationen (z. B. Mittel oder Abwandlungen), welche aus den sekundären Merkmalen innerhalb der phonetischen Grenzen abgeleitet sind. Die tertiären Merkmale werden sowohl für den Stimmerkennungsalgorithmus 48 als auch für den Stimmnachweisalgorithmus 50, wie beschrieben werden wird, verwendet. Die Ausgabe der Routine 65 ist ein tertiärer Merkmalsvektor von etwa 300 Datenpunkten/Äußerung. Wie dann gesehen werden kann, stellt der obere Abschnitt von Fig. 3 die erste Reihe bzw. Folge des mehrstufigen Datenreduktionsverfahrens dar, was wesentlich die Menge an zu analysierenden Daten reduziert, aber immer noch die notwendige Klassentrennung erhält, ob stellenbezogen oder sprecherbezogen, welche erforderlich ist, um eine Erkennung bzw. einen Nachweis zu erreichen. Der mittlere Abschnitt von Fig. 3 stellt eine zweite Reihe des Datenreduktionsverfahrens dar und, wie beschrieben werden wird, umfaßt die Transformationsroutinen 49a und 49b.
- Um sprecherunabhängige Stimmerkennung zu bewirken, werden die tertiären Merkmale zunächst in die Stimmerkennung- Lineartransformationsroutine 49a eingespeist. Diese Routine multipliziert den tertiären Merkmalvektor mit den Stimmerkennungsmerkmal-Transformationsdaten (welche eine Matrix sind) 52a, um einen Stimmerkennungsparameterdatenvektor für jede Stelle zu erzeugen. Die Ausgabe der Transformationsroutine 49a wird dann in einer Stimmerkennungsstatistik-Entscheidungsroutine 66a zum Vergleich mit den Stimmerkennungsklasse-Referenzdaten 52b angewendet. Der Ausgang der Entscheidungsroutine 66a ist eine Ja/Nein-Entscheidung, welche feststellt, ob die Stelle erkannt ist, und wenn ja, welche Stelle gesprochen wurde.
- Insbesondere bewertet die Entscheidungsroutine 66a ein Maß an Wortähnlichkeit für jede der elf Stellen (null bis neun und oh) im Vokabular. Die Stimmerkennungsklasse-Referenzdaten 52b umfassen verschiedene Elemente (zum Beispiel Zulassungsschwellen für jede Stellenklasse, inverse Ko-Varianten und Mittelvektoren für jede Klasse), die durch die Entscheidungsstrategie verwendet werden. Für eine zu erklärende Stelle (im Gegensatz zurückgewiesen zu werden) müssen bestimmte Zulassungskriterien erfüllt werden. Die Zulassungskriterien können die folgenden umfassen, müssen aber nicht darauf beschränkt sein.
- Der Stimmerkennungsalgorithmus bestimmt die engste Übereinstimmung zwischen den Klassereferenzdaten und dem Stimmerkennungsparametervektor für die Stelle; diese engste Übereinstimmung ist eine sogenannte "erste Wahl". Die nächstengste Übereinstimmung ist eine "zweite Wahl". Jede Wahl hat ihre eigene Übereinstimmungsmarke. Die Stelle ist deklariert, wenn (1) die Übereinstimmungsmarke der ersten Wahl unter einem vorbestimmten Schwellenwert liegt und (2) der Unterschied zwischen der bzw. den Übereinstimmungsmarke(n) der erste Wahl- und zweite Wahlstellen größer als ein anderer vorbestimmter Schwellenwert ist. Wenn alle Stellen des Paßwortes erkannt wurden, ist der Stimmerkennungsabschnitt des Verfahrens beendet.
- Um einen Stimmnachweis zu bewirken, werden die tertiären Merkmale auch in eine Lineartransformationsroutine 49b eingespeist, welche jeden tertiären Merkmalsvektor durch das bzw. die Stimmnachweismerkmal-Transformationsdaten (das bzw. die eine Matrix ist bzw. sind) multipliziert. Die Ausgabe der Routine 49b ist ein Np-Elementvektor p von Stimmnachweisparameterdaten für jede Stelle des Paßwortes, wobei Np vorzugsweise etwa gleich 25 ist. Der Stimmnachweisparameterdatenvektor p wird dann in eine Nachweisroutine 66b eingegeben, welche auch die Stimmnachweisklasse-Referenzdaten 52d für den Anrufer empfängt. Insbesondere wird das Stimmnachweisklasse-Referenzdatum aus der Stimmnachweis-Referenzdatenbank 55 geliefert. Wie oben festgestellt wurde, wird die Adresse in der Datenbank 55 der Stimmnachweisklasse-Referenzdaten des Anrufers durch das Paßwort des Anrufers definiert, das durch den Stimmerkennungsalgorithmus 48 hergeleitet ist.
- Die Nachweisroutine 66b erzeugt eine von drei verschiedenen Ausgaben: ZULASSEN, ZURÜCKWEISEN und PRÜFEN. Eine ZULASSEN- Ausgabe autorisiert den Anrufer, auf Daten aus der Transaktionsdatenbank 56 zuzugreifen. Die ZURÜCKWEISEN-Ausgabe wird geliefert, wenn die Nachweiseinrichtung die behauptete Identität des Anrufers bestreitet. Die ÜBERPRÜFEN-Ausgabe initiiert die Aufforderungsstufe, worin zusätzliche ergänzende Fragen gestellt werden, um die Identität des Anrufers nachzuweisen.
- Bezugnehmend nun auf Fig. 4 ist, ein Fließdiagramm der Nachweisroutine 66b von Fig. 3 gezeigt. Als Hintergrund, die Routine beginnt nach der Bestimmung, vorzugsweise durch den Stimmerkennungsalgorithmus 48, daß das Paßwort gültig ist. Obwohl bei der bevorzugten Ausführungsform der Stimmnachweisparametervektor erzeugt wird, indem jede Stelle erkannt wird, ist es auch möglich, die Stimmnachweisparametervektoren solange nicht zu erzeugen, bis ein Test durchgeführt worden ist, um zu bestimmen, ob das Paßwort gültig ist.
- Die Nachweisroutine beginnt bei Schritt 78. Inbesondere werden die Np-Element-Stimmnachweisparametervektoren für jede Stelle des gesprochenen Paßwortes mit den vorher erzeugten Stimmnachweisklasse-Referenzdatenvektoren, die in der Stimmnachweis- Referenzdatenbank 55 gespeichert sind, verglichen. Zunächst wird eine gewichtete euklidische Distanz d(i) für jede Stelle bei Schritt 80 berechnet:
- D(i) - [ w&sub1;(j) (p(i,j) - pr(i,j)²)1/2]
- worin: p(i,j) die j-te Komponente des Länge-Np-Vektors ist, der aus der i-ten Stelle in der Länge Nd der derzeitigen Paßworteingangssequenz erzeugt wird,
- pr(i,j) ist die j-te Komponente des Referenzvektors von der i-ten Stelle für den behaupteten eingeschriebenen Anrufer ist,
- w&sub1; ein konstanter Wichtungsvektor ist, der vorberechnet ist, um eine optimale Systemleistung zu ergeben, und
- d(i) die resultierende gewichtete euklidische Distanzmessung für die i-te Stelle in der laufenden Paßwort-Eingangssequenz ist.
- Der Distanz- bzw. Abstandsvektor d wird dann aufsteigend sortiert:
- d(i),...,d(Nd) = , ... (d(i))
- Eine Gesamtdistanz wird dann bei Schritt 82 als eine gewichtete Kombination dieser sortierten Abstände berechnet:
- D = w&sub2;(i) d(i)
- worin: d der sortierte Distanzvektor ist,
- w&sub2; ein weiterer konstanter Wichtungsvektor ist, der vorberechnet ist, um eine optimale Systemleistung zu ergeben, und
- D die resultierende Gesamtdistanzmessung für die gesamte laufende Paßworteingangssequenz ist, im Hinblick auf den behauptet eingeschriebenen Anrufer.
- Bei Schritt 84 wird die Gesamtdistanz mit zwei (2) Zulassungsschwellenwerten, einem oberen Schwellenwert und einem unteren Schwellenwert, verglichen. Wenn die Gesamtdistanz unter dem unteren Zulassungsschwellenwert liegt, ist der Test positiv und der Anrufer erhält sofortigen Zugriff zu der angeforderten Dienstleistung. Das ist die "ZULASSEN"-Ausgabe 88. Wenn die Distanz größer als der obere Schwellenwert ist, wird der Zugriff des Anrufers zu der Dienstleistung versagt und das Verfahren wird beendet. Das entspricht der "ZURÜCKWEISEN"-Ausgabe 89. Befindet sich das Ergebnis des Tests 84 zwischen den unteren und oberen Schwellenwerten, geht das Verfahren bei Schritt 90 weiter, indem der Anrufer aufgefordert wird, eine oder mehrere Sachfragen zu beantworten, welche einzigartig mit dem Paßwort verbunden sind. Das ist die "ÜBERPRÜFEN"-Ausgabe. Beispielsweise wird der Anrufer aufgefordert, seine/ihre Sozialversicherungsnummer oder seine/ihre Kontonummer zu sprechen. Alternativ dazu kann der Aufrufer aufgefordert werden, solche Identifizierungsinformationen händisch durch die Telefontastatur oder durch Ziehen einer Kreditkarte oder dergleichen durch eine Kartenlesevorrichtung einzugeben. Natürlich hängt die Art und der Umfang der persönlichen Information, welche durch das System angefordert wird, vollständig von dem Systembetreiber und dem Grad an Sicherheit ab, welche durch den Anrufer und den Betreiber gewünscht wird. Bei Schritt 92 wird dann eine Überprüfung durchgeführt, um festzustellen, ob die Frage(n) korrekt beantwortet worden ist bzw. sind. Ist das Ergebnis der Überprüfung positiv, erhält der Anrufer wieder Zugriff zu der angeforderten Dienstleistung. Wenn das Ergebnis der Überprüfung bei Schritt 92 negativ ist, wird ein Zugriff verweigert und das Verfahren beendet.
- Dementsprechend kann gesehen werden, daß die vorliegende Erfindung ein Stimmerkennungs-/Nachweissystem und ein Verfahren mit verschiedenen Vorteilen im Vergleich zu auf Telefon basierenden Zugriffsschemata des Standes der Technik liefert. Die Probleme, welche inhärent in der limitierten Frequenz- Antwortumgebung eines Telefonnetzes sind, werden durch die Verwendung eines sprecherunabhängigen Stimmerkennungssystemes und eines Stimmnachweisalgorithmus verbessert. Der Stimmnachweisalgorithmus wird durch eine Stimmnachweis-Schulungsdatenbank "geschult", welche Sprecher-Klassifizierungen im Gegensatz zu Wort-Klassifizierungen umfaßt. Darüber hinaus verwendet der Nachweisalgorithmus tertiäre Merkmale und Stimmnachweismerkmal-Transformationsparameter, um einen vorzugsweise 25-Element-Vektor für jede gesprochene Stelle des eingegebenen Paßwortes zu berechnen. Diese Vektoren werden dann mit Stimmnachweisklasse-Referenzdaten (für den Anrufer) verglichen und eine gewichtete euklidische Distanz wird für jede Stelle berechnet. Eine Gesamtdistanz für das gesamte Paßwort wird dann berechnet und mit zwei Zulassungsschwellenwerten verglichen, um zu bestimmen, ob die Stimme des Anrufers mit seiner oder ihrer vorher gespeicherten Stimmschablone übereinstimmt. Anrufer, welche eine "nahezu Übereinstimmung" liefern, müssen eine zusätzliche Sicherheitsebene durchlaufen, bevor ein Zugriff zu den Daten oder Dienstleistungen erlaubt wird.
- Das digitale Verarbeitungssystem der Erfindung kann ein IBM AT Personalcomputer sein, ist aber nicht darauf beschränkt, welcher mit einem Ortsnetz verbunden ist, um Nachweisreferenzdaten zu speichern und darauf zuzugreifen. Für auf Telefon basierende Anwendungen, welche einen vertraulichen Zugriff auf Informationen erfordern, weist das System 14 zahlreiche Verwendungen auf. Nur beispielsweise weist ein Stimmnachweis über das Telefonnetz ein wesentliches Potential für den Ausschluß von Telefonkartenbetrug auf. Zusätzlich können Banken und andere Finanzinstitute mehr Sicherheit für auf Telefon basierende Kontozugriffssysteme liefern. Derzeit benutzen Banksysteme Identifikationsnummern oder "PIN"-Stellen bzw. -Nummern, welche über die Telefontastatur eingegeben werden, um die Eignung für den Systemzugang zu bestimmen. Stimmnachweis sowie PIN- Stellen bzw. -Nummer können verwendet werden, um zu bestimmen, ob der Benutzer für einen Zugriff zur Kontoinformation autorisiert ist. Weitere Verwendungen für das oben beschriebene System umfassen Kreditinformationzugriff, Ferngespräch- Netzzugriff und elektronischen Kapitaltransfer. Da der Stimmnachweis in Verbindung mit Stimmerkennung arbeitet, können Drehtelefon-Benutzer ebenfalls jede automatisierte Verwendung, welche das System anwendet, verwenden.
- Die Leistungsfähigkeit des Systemes ist durch die Zurückweisungsrate von autorisierten Benutzern (Fehlertyp 1) und zufälligen Zulassungsraten von "Hochstaplern" (Fehlertyp 2) charakterisiert. Die Zurückweisung von autorisierten Benutzern muß weniger als 2% für die meisten Anwendungen betragen. Gleichzeitig muß auch die zufällige Zulassung von "Hochstaplern" unter 2% gehalten werden. Im allgemeinen besteht ein definierter Kompromiß zwischen diesen Fehlerraten, da ein Erhöhen der Schwellenwerte, um eine Zurückweisung von autorisierten Benutzern zu vermindern, immer in einer erhöhten zufälligen Zulassung von Hochstaplern resultieren wird und umgekehrt. Fehlerraten wurden aus einer vorläufigen Datenbank bestimmt, welche eine Mischung von Elektret- und Kohle-Knopfmikrophonen für individuelle Sprecher enthält. Bei diesem Test lagen die Fehlertyp 1-Raten unter 2%, während Fehlertyp 2-Raten ebenfalls unter 2% lagen. Verbesserte Raten werden erhalten, indem die Größe und Vielfalt der Daten in der Stimmnachweis- Schulungsdatenbank 55 erhöht werden.
- Wie oben beschrieben worden ist, kann das digitale Verarbeitungssystem 14 von Fig. 2 für zahlreiche Anwendungen verwendet werden. Eine solche Anwendung ist ein Telefonauftrag-Eingangssystem, worin autorisierte Benutzer des Systems die Fähigkeit bzw. Möglichkeit haben, sich in das System einzuwählen und nach einem wie oben beschriebenen Nachweis, Waren/Dienstleistungen über kodierte, alphanumerische Sequenzen zu ordern. Wie aus Fig. 5 ersichtlich ist, kann das Telefonauftrag- Eingangssystem einen Tisch 100 von alphanumerischen Sequenzen 102 umfassen, welche jede einen Teil oder Bestandteil identifizieren, der durch den Anrufer über das Telefonnetz über die Eingabe einer alphanumerischen Sequenz bestellt werden kann, die dem Teil oder Bestandteil entspricht. Wie in Fig. 5 gezeigt ist, umfaßt jede alphanumerische Sequenz 102 Buchstaben des Alphabets und/oder die Stellen bzw. Ziffern "null" bis "neun". Beispielsweise umfaßt eine Sequenz die Zeichen "FA4921R3". Natürlich kann eine alphanumerische Sequenz nur aus Ziffern, nur Buchstaben oder einer Kombination aus beiden bestehen. Das Auftrag-Eingangssystem umfaßt einen vorbestimmten endlichen Satz der alphanumerischen Sequenzen 102.
- Die Klasse-Referenzdaten 52b, welche die verschiedenen Zeichen der alphanumerischen Sequenz darstellen sowie die Steuerworte "stop" und "löschen" werden gemäß der oben beschriebenen Lehre erzeugt. Insbesondere werden die Stimmerkennungsklasse-Referenzdaten 52b erweitert, um Darstellungen für jedes Zeichen des Erkennungsvokabulars (das Alphabet, die Ziffern "null" bis "neun", "stop" und "löschen") zu umfassen. Dieses Vokabular wird dann durch den Stimmerkennungsalgorithmus 48 zum Zweck der automatischen Erkennung alphanumerischer Sequenzen, welche über das Telefonnetz gesprochen werden, verwendet.
- Weil solch ein umfangreiches Vokabular so schwierig zu erkennen ist, wird eine spezielle Erkennungsstrategie verwendet, um hohe Genauigkeit zu erhalten. Die Strategie verwendet einen auf Gesamtheit basierenden Erkennungsansatz, anstelle einer Einzelzeichenerkennung. Insbesondere tritt gemäß diesem Aspekt der vorliegenden Erfindung eine Erkennung nicht auf der Zeichenebene auf. Vielmehr werden einzeln gesprochene Merkmale nur aufgefangen und analysiert. Sobald eine Gesamtheit von Zeichen (entsprechend einer alphanumerischen Sequenz) auf diese Weise verarbeitet ist, findet die Erkennung an der Gesamtheit selbst, im Gegensatz zu irgendwelchen einzelnen Zeichen darin, statt. Wie gezeigt werden wird, erfordert die Strategie keine hohe Einzelzeichenerkennungsgenauigkeit, um eine Erkennung der gesprochenen alphanumerischen Sequenz zu erreichen.
- Gemäß der Erfindung wird davon ausgegangen, daß eine gesprochene alphanumerische Sequenz ein Mitglied des gegebenen endlichen Satzes alphanumerischer Sequenzen ist, welche vorher in der Datenbank 56 oder einem anderen geeigneten Speicherbereich gespeichert wurde. Im Betrieb wird zunächst die Identität des Anrufers, der Zugriff zu der Auftrag-Eingabe-Dienstleistung wünscht, gemäß den in den Fig. 3 bis 4 oben beschriebenen Verfahren nachgewiesen. Im allgemeinen beinhaltet das Verfahren zum Erkennen einer gesprochenen alphanumerischen Sequenz das Bestimmen einer Erkennungsdistanz zwischen jeder gesprochenen Eingabe und dem entsprechenden Buchstaben oder der Ziffer in der gleichen Position innerhalb jeder in der Datenbank dargestellten Sequenz. Jede Erkennungsdistanz ist vorzugsweise ein Maß der akustischen Unähnlichkeit zwischen einer gesprochenen Eingabe und einem hypothetischen Zeichen. Beispielsweise wird, wenn ein "A" gesprochen wird, die Erkennungsdistanz für "A" als ganz niedrig erwartet. Es ist auch wahrscheinlich, daß die Distanzen für Zeichen, welche ähnlich zu "A" klingen, wie "8", "H", "J" und "K", höher sein werden, jedoch auch ziemlich niedrig und daß Distanzen für hoch unähnliche Zeichen, wie "9", "Q" und "W" ziemlich hoch sein werden.
- Bezugnehmend auf Fig. 6 wird nun ein Fließdiagramm der bevorzugten Ausführungsform des Verfahrens zum Erkennen alphanumerischer Sequenzen gemäß der Erfindung gezeigt. Es wird angenommen, daß jede der alphanumerische Sequenz-Referenzen wenig stens zwei Zeichen umfaßt, die entweder Buchstaben, Ziffern oder Kombinationen von Buchstaben und Ziffern sein können.
- Das Verfahren beginnt bei Schritt 104 durch Initialisieren auf "Null" einer kumulativen Erkennungsdistanz für jede der alphanumerischen Referenzsequenzen. Bei Schritt 105 wird der Anrufer aufgefordert, ein alphanumerisches Zeichen in einer zu erkennenden alphanumerischen Sequenz zu sprechen, beginnend mit dem ersten Zeichen in der Sequenz. Das Verfahren setzt sich bei Schritt 106 fort, um das gesprochene alphanumerische Zeichen einzufangen und zu analysieren. Diese Funktion wird durch den Erkennungsalgorithmus 48, wie vorher beschrieben, bewirkt. Es wird dann ein Test 107 durchgeführt, um zu bestimmen, ob ein vorbestimmter Befehl, zum Beispiel "stop" gesprochen wurde. Ein solcher Befehl zeigt an, daß alle der Zeichen der Sequenz bereits gesprochen worden sind. Wenn das Ergebnis des Tests 107 negativ ist, setzt das Verfahren bei Schritt 108 fort, um ein Maß akustischer Unähnlichkeit zwischen dem alphanumerischen Zeichen und einem entsprechenden alphanumerischen Zeichen jeder alphanumerischen Referenzsequenz zu berechnen, um eine Anfangserkennungsdistanz für jede der alphanumerischen Referenzsequenzen zu erzeugen. Insbesondere vergleicht, wenn ein Anrufer das erste Zeichen einer Eingabesequenz spricht, der Schritt 108 dieses Zeichen mit dem ersten Zeichen jeder der Referenzsequenzen. Bei Schritt 110 wird die kumulative Erkennungsdistanz für jede der Referenzsequenzen durch die in Schritt 108 berechnete Erkennungsdistanz inkrementiert bzw. vermehrt.
- Das Verfahren kehrt dann zurück und wiederholt die Schritte 105, 106, 107, 108 und 110 für jedes nachfolgende alphanumerische Zeichen in der zu erkennenden alphanumerischen Sequenz und das entsprechende alphanumerische Zeichen jeder der alphanumerischen Referenzsequenzen. Wenn zu jeder Zeit während dieses Verfahrens das Ergebnis des Tests 107 positiv ist, was anzeigt, daß alle Zeichen der Sequenz bereits gesprochen worden sind, führt das Verfahren bei Schritt 112 einen Test durch, um zu bestimmen, welche der alphanumerischen Referenzsequenzen die niedrigste kumulative Erkennungsdistanz aufweist. Die alphanumerische Referenzsequenz mit der niedrigsten kumulativen Erkennungsdistanz wird dann in Schritt 114 angenommen, die durch den Anrufer gesprochene alphanumerische Sequenz zu sein.
- Wenn gewünscht, kann der Schritt 107 weggelassen werden. Wenn beispielsweise die zu erkennende alphanumerische Sequenz eine festgelegte Länge besitzt, kann das Verfahren automatisch Schritt 112 auf den Empfang einer vorbestimmten Anzahl von Zeichen beginnen.
- Die oben beschriebene Technik hat sich als ziemlich robust erwiesen, sogar für Sequenzen, welche nur zwei Zeichen enthalten. Im allgemeinen sind lange Sequenzen leichter zu erkennen als kurze Sequenzen, weil mehr Information verfügbar ist, um zu bestimmen, welche Sequenz (aus einem endlichen Satz) gesprochen wurde. Die Größe der Sequenzdatenbank ist aus zwei Gründen wichtig. Zunächst nimmt für eine festgelegte Sequenzlänge die Sequenzgenauigkeit mit zunehmender Größe der Datenbank (d. h. die Anzahl möglicher Sequenzen) zu. Des weiteren ist mehr Berechnung erforderlich, wenn die Datenbankgröße zunimmt.
- Es sollte festgehalten werden, daß eine Einzelzeichen- Erkennungsgenauigkeit nicht gleichmäßig hoch sein muß, um eine hohe Sequenzgenauigkeit zu erreichen. Beispielsweise sollte, wenn die mittlere Substitutionsrate für das alphanumerische Vokabular 15% beträgt (d. h. 15% der Häufigkeit, in welcher ein gesprochenes Zeichen einzeln mißerkannt wird), dann für alphanumerische Sequenzen mit vier (4) Zeichen eine mittlere Sequenzsubstitutionsrate von weniger als 2% erreichbar sein.
- Während das Verfahren von Fig. 6 bevorzugt ist, könnte die Erkennungsstategie alternativ durch Berechnen akustischer Ähnlichkeiten zwischen gesprochenen und gespeicherten Zeichen und Erzeugen von Erkennungswerten in Antwort darauf durchgeführt werden. Es würden dann größere Referenzwerte Zeichen zugeordnet werden, welche größere akustische Ähnlichkeiten aufweisen. Unter dieser Annäherung würde die Referenzsequenz mit dem höchsten damit verbundenen Referenzwert als die erkannte Sequenz erklärt werden. Auch ist, während das Verfahren zum Erkennen alphanumerischer Sequenzen im Zusammenhang mit einem Auftrag-Eingabe-System folgend einem Stimmnachweis beschrieben worden ist, die Lehre der Erfindung nicht auf solche Anwendungen beschränkt. Tatsächlich kann sogar ein Paßwortnachweis unter Verwendung des Verfahrens, falls gewünscht, bewirkt werden.
- Es sollte von den Fachleuten auf dem Gebiet berücksichtigt werden, daß die oben offenbarten sgezifischen Ausführungsformen rasch als Basis zur Modifizierung oder Ausgestaltung anderer Strukturen oder Verfahren zum Durchführen des gleichen Zweckes der vorliegenden Erfindung verwendet werden können. Beispielsweise könnte der Stimmerkennungsalgorithmus 48 alternativ sprecherabhängig anstelle von sprecherunabhängig sein, wie es in der bevorzugten Ausführungsform beschrieben ist. Von den Fachleuten auf dem Gebiet sollte auch erkannt werden, daß solche äquivalenten Ausführungen nicht vom Umfang der Erfindung, wie er in den anhängenden Ansprüchen ausgeführt ist, abweicht.
Claims (9)
1. Ein System, das es einem berechtigten Benutzer erlaubt,
Zugriff zu einer oder mehreren Dienstleistungen über ein
Telefon-Netzwerk (10) zu erhalten, indem ein mehrstelliges
Paßwort gesprochen wird, umfassend:
einen Digital-Prozessor (30);
Speichereinrichtungen (45), welche mit dem Digital-
Prozessor (30) verbunden sind, zum Speichern von:
Stimmerkennungsmerkmal-Transformationsdaten (52a) und
Stimmerkennungsklasse-Referenzdaten (52b), welche von einer
ersten Vielzahl von Schulungssprechern über ein
Telefonnetzwerk hergeleitet sind;
Stimmnachweismerkmal-Transformationsdaten (52c), welche von einer zweiten Vielzahl von
Schulungssprechern über ein Telefon-Netzwerk (10)
hergeleitet sind, und Stimmnachweisklasse-Referenzdaten (52d),
welche Daten umfassen, die von Benutzern hergeleitet sind,
welche für den Zugriff der Dienstleistungen berechtigt
sind;
Aufforderungseinrichtungen (38), welche durch den Digital-
Prozessor (30) gesteuert sind, um einen Sprecher
aufzufordern, ein Paßwort beginnend mit einer ersten Stelle und
endend mit einer letzten Stelle davon, zu sprechen;
Sprachverarbeitungseinrichtungen (60-65), welche durch
den Digital-Prozessor (30) gesteuert sind, zum Empfangen
jeder Stelle und zum Erzeugen von Sprachmerkmal-Daten;
Stimmerkennungseinrichtungen (49a), welche durch den
Digital-Prozessor (30) gesteuert sind, umfassend:
Transformationseinrichtungen zum Empfangen der
Sprachmerkmal-Daten, welche für jede Stelle erzeugt sind und der
Spracherkennungsmerkmal-Transformationsdaten und in Antwort
darauf Stimmerkennungsparameter-Daten für jede Stelle
erzeugen;
Entscheidungseinrichtungen (66a), welche mit den
Transformationseinrichtungen zum Empfangen der
Stimmerkennungsparameter-Daten und der Stimmerkennungsklasse-Referenzdaten
verbunden sind und in Antwort darauf eine Ausgabe erzeugen,
welche entscheidet, wenn das Paßwort gültig ist; und
Stimmnachweiseinrichtungen (49b), welche durch den Digital-
Prozessor gesteuert sind und auf eine Entscheidung, daß das
Paßwort gültig ist, antworten, um zu bestimmen, ob der
Anrufer ein berechtigter Benutzer ist, umfassend:
Transformationseinrichtungen zum Empfangen der
Sprachmerkmal-Daten, welche für jede Stelle erzeugt sind und der
Sprachnachweismerkmal-Transformationsdaten und in Antwort
darauf Stimmnachweisparameter-Daten für jede Stelle
erzeugen; und
Nachweiseinrichtungen (66b), welche mit der
Transformationseinrichtung der Stimmnachweiseinrichtung verbunden sind,
um die Stimmnachweisparameter-Daten und die
Stimmnachweisklasse-Referenzdaten zu empfangen und in Antwort darauf
eine Ausgabe erzeugen, welche anzeigt, ob der Anrufer ein
berechtigter Benutzer ist.
2. Ein Verfahren, das es einem Anrufer ermöglicht, Zugang zu
einer oder mehreren Dienstleistungen über ein Telefon-
Netzwerk (10) zu erhalten, indem ein mehrstelliges Paßwort
gesprochen wird, umfassend die folgenden Schritte:
Vorsehen eines Digital-Prozessors (30) und von
Speichereinrichtungen (45), welche mit dem Digital-Prozessor (30)
verbunden sind;
Speichern von Stimmerkennungsmerkmal-Transformationsdaten
(52a) und von Stimmerkennungsklasse-Referenzdaten (52b),
welche von einer Vielzahl von Schulungssprechern über ein
Telefon-Netzwerk hergeleitet sind; von
Stimmnachweismerkmal-Transformationsdaten (52c), welche von einer zweiten
Vielfalt von Schulungssprechern über ein Telefon-Netzwerk
hergeleitet sind, und von Stimmnachweisklasse-Referenzdaten
(52d), welche Daten umfassen, die von Benutzern hergeleitet
sind, die für den Zugriff zu den Dienstleistungen
berechtigt sind, in den Speichereinrichtungen;
Auffordern des Sprechers, ein Paßwort beginnend mit einer
ersten Stelle und endend mit einer letzten Stelle davon zu
sprechen;
Erzeugen von Sprachmerkmal-Daten für jede gesprochene
Stelle, unter Verwendung einer Sprachverarbeitungseinrichtung
(60-65), welche durch den Digital-Prozessor (30)
gesteuert ist;
Erzeugen von Stimmerkennungsparameter-Daten für jede
Stelle;
Empfangen der Sprachmerkmaldaten, welche für jede Stelle
erzeugt sind, und der
Spracherkennungsmerkmal-Transformationsdaten in Transformationseinrichtungen und in Antwort
darauf;
Anwenden der Sprachmerkmaldaten und Sprachnachweismerkmal-
Transformationsdaten auf eine
Sprachnachweismerkmaltrans
formation, um einen zweiten Satz von Parametern für jede
gesprochene Stelle zu erzeugen, wobei der zweite Satz in
einem Sprachnachweissystem verwendet wird;
Erkennen einer jeden gesprochenen Stelle des Paßwortes
unter Verwendung des ersten Satzes von Parametern;
Feststellen, ob das Paßwort gültig ist, basierend auf den
empfangenen Stimmerkennungsklasse-Referenzdaten, nach dem
Eingang der letzten Stelle des Paßwortes;
wenn das Paßwort gültig ist, Feststellen, ob der Sprecher
ein berechtigter Benutzer ist, indem
Stimmnachweiseinrichtungen verwendet werden, die durch den Digital-Prozessor
(30) gesteuert sind und auf das Bestimmen, daß das Paßwort
gültig ist, antworten, umfassend:
Empfangen der Sprachmerkmaldaten, welche für jede Stelle
erzeugt sind und der
Stimmnachweismerkmal-Transformationsdaten in Transformationseinrichtungen und in Antwort darauf
Erzeugen von Stimmnachweisparameter-Daten für jede Stelle;
und
Empfangen der Stimmnachweisparameter-Daten und der
Stimmnachweisklasse-Referenzdaten unter Verwendung von
Nachweiseinrichtungen, welche mit den Transformationseinrichtungen
der Stimmnachweiseinrichtung verbunden sind und in Antwort
darauf eine Ausgabe erzeugen, welche anzeigt, ob der
Sprecher ein berechtigter Benutzer ist.
3. Verfahren nach Anspruch 2, worin jede gesprochene Stelle
des Paßwortes erkannt wird, durch:
kontinuierliches Erzeugen eines Satzes primärer Merkmale
aus einem empfangenen Sprachsignal, das die gesprochene
Stelle darstellt;
Aufnehmen einer Sprach-Utteranz aus dem Satz primärer
Merkmale;
Erzeugen eines Satzes von sekundären Merkmalen aus der
aufgenommenen Sprach-Utteranz;
Segmentieren der aufgenommenen Sprach-Utteranz in
phonetische Einheiten;
Erzeugen eines Satzes von tertiären Merkmalen aus den
sekundären Merkmalen innerhalb der phonetischen Einheiten;
Transformieren der tertiären Merkmale für jede phonetische
Einheit durch Stimmerkennungsmerkmal-Transformationsdaten,
um Stimmerkennungsparameterdaten davon zu erzeugen; und
Vergleichen der Stimmerkennungsparameterdaten mit
vorbestimmten Stimmerkennungsklasse-Referenzdaten, um die
gesprochene Stelle festzustellen und
Feststellen, ob das Paßwort gültig ist, nachdem die letzte
Stelle des Paßwortes eingegangen ist.
4. Verfahren nach Anspruch 3, worin die
Stimmerkennungsmerkmal-Transformationsdaten (52a) und die
Stimmerkennungsklasse-Referenzdaten (52b) in einem Off-line-Verfahren aus
einer Schulungs-Datenbank einer Vielzahl von
Schulungssprechern, hergeleitet über ein Telefon-Netzwerk (10) erzeugt
werden.
5. Verfahren nach Anspruch 3, worin der Schritt des Nachweises
der Identität des Benutzers die folgenden Schritte umfaßt:
(a) Transformieren der tertiären Merkmale für jede
phonetische Einheit durch Stimmnachweismerkmaldaten (52c),
um Stimmnachweisparameterdaten dafür zu erzeugen;
(b) Vergleichen der Stimmnachweisparameterdaten mit
vorbestimmten Stimmnachweisklasse-Referenzdaten (52d) für
jede gesprochene Stelle;
(c) Berechnen eines gewichteten euklidischen Abstandes
zwischen den Sprachnachweisparameter-Daten und den
Sprachnachweisklasse-Referenzdaten (52d) für jede
gesprochene Stelle;
(d) Wiederholen der Schritte (b)-(c) für jede gesprochene
Stelle;
(e) Berechnen eines Gesamtabstandes für das gesamte
Paßwort aus den gewichteten euklidischen Abständen,
welche für jede gesprochene Stelle erzeugt sind;
(f) Vergleichen des Gesamtabstandes mit vorbestimmten
Schwellen, um die Identität des Benutzers
nachzuweisen.
6. Verfahren nach Anspruch 5, worin der Schritt des
Vergleichens des Gesamtabstandes die folgenden Schritte umfaßt:
(g) Bestimmen, ob der Gesamtabstand geringer als eine
erste Schwelle ist;
(h) wenn der Gesamtabstand geringer als die erste Schwelle
ist, Akzeptieren der Identität des Anrufers;
(i) wenn der Gesamtabstand größer als die erste Schwelle
ist, Bestimmen, ob der Gesamtabstand größer als eine
zweite Schwelle ist; und
(j) wenn der Gesamtabstand größer als die zweite Schwelle
ist, Zurückweisen der Identität des Anrufers.
7. Verfahren nach Anspruch 6, das des weiteren die folgende
Stufe umfaßt:
(k) wenn der Gesamtabstand größer als die erste Schwelle
und kleiner als die zweite Schwelle ist, Auffordern
des Anrufers, eine oder mehrere persönliche Fragen,
welche mit dem Paßwort verbunden sind, zu beantworten;
und
(l)
Bestimmen, ob die Fragen korrekt beantwortet sind; und
(m) wenn die Fragen korrekt beantwortet sind, Akzeptieren
der Identität des Anrufers.
8. Verfahren nach Anspruch 2, worin, wenn die Identität des
Anrufers nicht bestätigt werden kann, der Anrufer
aufgefordert wird, wenigstens eine persönliche Frage, welche mit
dem Paßwort verbunden ist, zu beantworten;
Bestimmen, ob die Frage korrekt beantwortet ist; und
wenn die Frage korrekt beantwortet ist, Akzeptieren der
Identität des Anrufers.
9. Verfahren nach Anspruch 8, das des weiteren die folgende
Stufe umfaßt:
Zurückweisen der Identität des Anrufers, wenn die Frage
unrichtig beantwortet ist.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/523,486 US5127043A (en) | 1990-05-15 | 1990-05-15 | Simultaneous speaker-independent voice recognition and verification over a telephone network |
US07/566,519 US5125022A (en) | 1990-05-15 | 1990-08-10 | Method for recognizing alphanumeric strings spoken over a telephone network |
PCT/US1991/003362 WO1991018386A1 (en) | 1990-05-15 | 1991-05-14 | Simultaneous speaker-independent voice recognition and verification over a telephone network |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69131689D1 DE69131689D1 (de) | 1999-11-11 |
DE69131689T2 true DE69131689T2 (de) | 2000-07-06 |
Family
ID=27061167
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69131689T Expired - Lifetime DE69131689T2 (de) | 1990-05-15 | 1991-05-14 | Gleichzeitige sprecherunabhängige sprachererkennung und sprecherverifikation über einen fernsprechnetz |
DE69132996T Expired - Lifetime DE69132996T2 (de) | 1990-05-15 | 1991-05-14 | Gleichzeitige sprecherunabhängige Spracherkennung und -verifizierung über ein Telefonnetz |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69132996T Expired - Lifetime DE69132996T2 (de) | 1990-05-15 | 1991-05-14 | Gleichzeitige sprecherunabhängige Spracherkennung und -verifizierung über ein Telefonnetz |
Country Status (7)
Country | Link |
---|---|
US (1) | US5125022A (de) |
EP (2) | EP0953972B1 (de) |
AU (1) | AU649688B2 (de) |
CA (1) | CA2082942C (de) |
DE (2) | DE69131689T2 (de) |
ES (2) | ES2179589T3 (de) |
WO (1) | WO1991018386A1 (de) |
Families Citing this family (192)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2795719B2 (ja) * | 1990-03-07 | 1998-09-10 | 富士通株式会社 | 認識距離の差に基づく最良優先探索処理方法 |
US5303299A (en) * | 1990-05-15 | 1994-04-12 | Vcs Industries, Inc. | Method for continuous recognition of alphanumeric strings spoken over a telephone network |
US5365574A (en) * | 1990-05-15 | 1994-11-15 | Vcs Industries, Inc. | Telephone network voice recognition and verification using selectively-adjustable signal thresholds |
US5592389A (en) * | 1990-12-03 | 1997-01-07 | Ans, Llp | Navigation system utilizing audio CD player for data storage |
US5748840A (en) * | 1990-12-03 | 1998-05-05 | Audio Navigation Systems, Inc. | Methods and apparatus for improving the reliability of recognizing words in a large database when the words are spelled or spoken |
US5454062A (en) * | 1991-03-27 | 1995-09-26 | Audio Navigation Systems, Inc. | Method for recognizing spoken words |
US5167004A (en) * | 1991-02-28 | 1992-11-24 | Texas Instruments Incorporated | Temporal decorrelation method for robust speaker verification |
US7747243B2 (en) | 1992-03-24 | 2010-06-29 | Boatwright John T | Call security system |
FR2690777A1 (fr) * | 1992-04-30 | 1993-11-05 | Lorraine Laminage | Procédé de commande d'un automate par reconnaissance vocale. |
US5566229A (en) * | 1992-08-24 | 1996-10-15 | At&T | Voice directed communications system employing shared subscriber identifiers |
US5450524A (en) * | 1992-09-29 | 1995-09-12 | At&T Corp. | Password verification system based on a difference of scores |
CA2107317A1 (en) * | 1992-10-30 | 1994-05-01 | Rajendra Prasad Mikkilineni | Speech recognition system |
US5440662A (en) * | 1992-12-11 | 1995-08-08 | At&T Corp. | Keyword/non-keyword classification in isolated word speech recognition |
US5717743A (en) * | 1992-12-16 | 1998-02-10 | Texas Instruments Incorporated | Transparent telephone access system using voice authorization |
US5502759A (en) * | 1993-05-13 | 1996-03-26 | Nynex Science & Technology, Inc. | Apparatus and accompanying methods for preventing toll fraud through use of centralized caller voice verification |
IT1272573B (it) * | 1993-09-06 | 1997-06-23 | Alcatel Italia | Sistema automatico di acquisizione guidata di segnali vocali da linea telefonica |
DE4334313A1 (de) * | 1993-10-08 | 1995-04-13 | Sel Alcatel Ag | Verfahren zum Verwalten eines Sprachspeichers und Vorrichtung dafür |
US5511111A (en) * | 1993-11-01 | 1996-04-23 | Engineering And Business Systems, Inc. | Caller name and identification communication system with caller screening option |
US5528731A (en) * | 1993-11-19 | 1996-06-18 | At&T Corp. | Method of accommodating for carbon/electret telephone set variability in automatic speaker verification |
US5613037A (en) * | 1993-12-21 | 1997-03-18 | Lucent Technologies Inc. | Rejection of non-digit strings for connected digit speech recognition |
AU703597B2 (en) * | 1994-03-18 | 1999-03-25 | Nuance Communications, Inc. | Speech controlled vehicle alarm system |
BR9508898A (pt) * | 1994-09-07 | 1997-11-25 | Motorola Inc | Sistema para reconhecer sons falados |
US5724481A (en) * | 1995-03-30 | 1998-03-03 | Lucent Technologies Inc. | Method for automatic speech recognition of arbitrary spoken words |
US5822727A (en) * | 1995-03-30 | 1998-10-13 | At&T Corp | Method for automatic speech recognition in telephony |
US5651056A (en) * | 1995-07-13 | 1997-07-22 | Eting; Leon | Apparatus and methods for conveying telephone numbers and other information via communication devices |
DE19533541C1 (de) * | 1995-09-11 | 1997-03-27 | Daimler Benz Aerospace Ag | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
US5806029A (en) * | 1995-09-15 | 1998-09-08 | At&T Corp | Signal conditioned minimum error rate training for continuous speech recognition |
US5737489A (en) * | 1995-09-15 | 1998-04-07 | Lucent Technologies Inc. | Discriminative utterance verification for connected digits recognition |
US5719931A (en) * | 1995-10-27 | 1998-02-17 | Lucent Technologies Inc. | Access code dialing apparatus and method |
US5917889A (en) * | 1995-12-29 | 1999-06-29 | At&T Corp | Capture of alphabetic or alphanumeric character strings in an automated call processing environment |
US5917890A (en) * | 1995-12-29 | 1999-06-29 | At&T Corp | Disambiguation of alphabetic characters in an automated call processing environment |
US5940476A (en) | 1996-06-28 | 1999-08-17 | Distributed Software Development, Inc. | System and method for identifying an unidentified caller |
US5832440A (en) * | 1996-06-10 | 1998-11-03 | Dace Technology | Trolling motor with remote-control system having both voice--command and manual modes |
US5901203A (en) * | 1996-06-28 | 1999-05-04 | Distributed Software Development, Inc. | Computer-based system and method for identifying an unidentified caller |
US6205204B1 (en) | 1996-06-28 | 2001-03-20 | Distributed Software Development, Inc. | System and method for identifying an unidentified person using an ambiguity-resolution criterion |
US7006605B1 (en) * | 1996-06-28 | 2006-02-28 | Ochopee Big Cypress Llc | Authenticating a caller before providing the caller with access to one or more secured resources |
US6529881B2 (en) | 1996-06-28 | 2003-03-04 | Distributed Software Development, Inc. | System and method for identifying an unidentified customer at the point of sale |
US5995928A (en) * | 1996-10-02 | 1999-11-30 | Speechworks International, Inc. | Method and apparatus for continuous spelling speech recognition with early identification |
US6137863A (en) * | 1996-12-13 | 2000-10-24 | At&T Corp. | Statistical database correction of alphanumeric account numbers for speech recognition and touch-tone recognition |
US6061654A (en) * | 1996-12-16 | 2000-05-09 | At&T Corp. | System and method of recognizing letters and numbers by either speech or touch tone recognition utilizing constrained confusion matrices |
US7346564B1 (en) | 1997-02-07 | 2008-03-18 | Frederic J Kirklin | System for merchandise ordering and order fulfillment |
US5819029A (en) * | 1997-02-20 | 1998-10-06 | Brittan Communications International Corp. | Third party verification system and method |
US6542583B1 (en) * | 1997-03-06 | 2003-04-01 | Avaya Technology Corp. | Caller identification verification system |
US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
US9978373B2 (en) | 1997-05-27 | 2018-05-22 | Nuance Communications, Inc. | Method of accessing a dial-up service |
US6076055A (en) * | 1997-05-27 | 2000-06-13 | Ameritech | Speaker verification method |
US6847717B1 (en) | 1997-05-27 | 2005-01-25 | Jbc Knowledge Ventures, L.P. | Method of accessing a dial-up service |
CA2239340A1 (en) * | 1997-07-18 | 1999-01-18 | Lucent Technologies Inc. | Method and apparatus for providing speaker authentication by verbal information verification |
US6154579A (en) * | 1997-08-11 | 2000-11-28 | At&T Corp. | Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
US6219453B1 (en) | 1997-08-11 | 2001-04-17 | At&T Corp. | Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm |
US6141661A (en) * | 1997-10-17 | 2000-10-31 | At&T Corp | Method and apparatus for performing a grammar-pruning operation |
US6208965B1 (en) | 1997-11-20 | 2001-03-27 | At&T Corp. | Method and apparatus for performing a name acquisition based on speech recognition |
US6122612A (en) * | 1997-11-20 | 2000-09-19 | At&T Corp | Check-sum based method and apparatus for performing speech recognition |
US6205428B1 (en) | 1997-11-20 | 2001-03-20 | At&T Corp. | Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers |
US6941274B1 (en) * | 1997-11-28 | 2005-09-06 | Diebold, Incorporated | Automated transaction machine |
US6223158B1 (en) | 1998-02-04 | 2001-04-24 | At&T Corporation | Statistical option generator for alpha-numeric pre-database speech recognition correction |
US6205261B1 (en) | 1998-02-05 | 2001-03-20 | At&T Corp. | Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
US7937260B1 (en) | 1998-06-15 | 2011-05-03 | At&T Intellectual Property Ii, L.P. | Concise dynamic grammars using N-best selection |
US6400805B1 (en) | 1998-06-15 | 2002-06-04 | At&T Corp. | Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition |
US6631368B1 (en) | 1998-11-13 | 2003-10-07 | Nortel Networks Limited | Methods and apparatus for operating on non-text messages |
US6467038B1 (en) * | 1999-03-12 | 2002-10-15 | Compaq Information Technologies Group, L.P. | Method for supporting optical international language modules flashed into ROM |
US6526292B1 (en) * | 1999-03-26 | 2003-02-25 | Ericsson Inc. | System and method for creating a digit string for use by a portable phone |
DE19949560A1 (de) * | 1999-10-14 | 2001-04-19 | Messer Griesheim Gmbh | Verfahren und Vorrichtung für die Abwicklung einer telefonischen Bestellung unter Einsatz eines Sprachdialogsystems |
DE19952049A1 (de) * | 1999-10-28 | 2001-05-10 | Siemens Ag | Verfahren und Anordnung zur Verifikation eines Sprechers anhand eines Rechners |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
SG96555A1 (en) * | 2000-05-26 | 2003-06-16 | Synapseworld Pte Ltd | A system and method for automated information storage and retrieval |
SG97923A1 (en) * | 2000-08-28 | 2003-08-20 | Synapseworld Pte Ltd | A system and method for automated ordering of commodities |
US6697779B1 (en) * | 2000-09-29 | 2004-02-24 | Apple Computer, Inc. | Combined dual spectral and temporal alignment method for user authentication by voice |
US6774908B2 (en) * | 2000-10-03 | 2004-08-10 | Creative Frontier Inc. | System and method for tracking an object in a video and linking information thereto |
US7177402B2 (en) * | 2001-03-01 | 2007-02-13 | Applied Voice & Speech Technologies, Inc. | Voice-activated interactive multimedia information processing system |
JP2003036097A (ja) * | 2001-07-25 | 2003-02-07 | Sony Corp | 情報検出装置及び方法、並びに情報検索装置及び方法 |
US6856953B1 (en) * | 2001-12-19 | 2005-02-15 | Globespanvirata, Inc. | Method and system for testing algorithm compliancy |
DE102005030380B4 (de) * | 2005-06-29 | 2014-09-11 | Siemens Aktiengesellschaft | Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8255216B2 (en) * | 2006-10-30 | 2012-08-28 | Nuance Communications, Inc. | Speech recognition of character sequences |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
WO2008150936A1 (en) * | 2007-05-30 | 2008-12-11 | Creatier Interactive, Llc | Method and system for enabling advertising and transaction within user generated video content |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US7853492B1 (en) | 2008-03-17 | 2010-12-14 | Kirklin Frederic J | System for merchandise ordering and order fulfillment |
JP5024154B2 (ja) * | 2008-03-27 | 2012-09-12 | 富士通株式会社 | 関連付け装置、関連付け方法及びコンピュータプログラム |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8386238B2 (en) * | 2008-11-05 | 2013-02-26 | Citrix Systems, Inc. | Systems and methods for evaluating a sequence of characters |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US20110202338A1 (en) * | 2010-02-18 | 2011-08-18 | Philip Inghelbrecht | System and method for recognition of alphanumeric patterns including license plate numbers |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
DE102012002190B4 (de) | 2012-02-07 | 2020-01-23 | Universitätsklinikum Schleswig-Holstein Campus Lübeck | Vorrichtung zur Einbringung und Positionierung zusammenfaltbarer Herzklappen-Bioprothesen |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US8473293B1 (en) * | 2012-04-17 | 2013-06-25 | Google Inc. | Dictionary filtering using market data |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
AU2014278592B2 (en) | 2013-06-09 | 2017-09-07 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008964B1 (de) | 2013-06-13 | 2019-09-25 | Apple Inc. | System und verfahren für durch sprachsteuerung ausgelöste notrufe |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
CN104167033B (zh) * | 2014-06-17 | 2017-11-07 | 吴志毅 | 基于手机、语音、短信控制的智能电子锁系统及控制方法 |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US20170124313A1 (en) * | 2015-11-02 | 2017-05-04 | BIOMIDS Inc. | Authentication System and Method |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10468026B1 (en) * | 2018-08-17 | 2019-11-05 | Century Interactive Company, LLC | Dynamic protection of personal information in audio recordings |
US11134215B2 (en) * | 2018-08-21 | 2021-09-28 | 11Sight, Inc. | Online encounter enhancement systems and methods |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BE787377A (fr) * | 1971-08-09 | 1973-02-09 | Waterbury Nelson J | Cartes de securite et systeme d'utilisation de telles cartes |
US4363102A (en) * | 1981-03-27 | 1982-12-07 | Bell Telephone Laboratories, Incorporated | Speaker identification system using word recognition templates |
US4757525A (en) * | 1982-09-29 | 1988-07-12 | Vmx, Inc. | Electronic audio communications system with voice command features |
JPS59178587A (ja) * | 1983-03-30 | 1984-10-09 | Nec Corp | 話者確認システム |
US4910782A (en) * | 1986-05-23 | 1990-03-20 | Nec Corporation | Speaker verification system |
JPS6340434A (ja) * | 1986-08-06 | 1988-02-20 | Kazuo Hashimoto | 人工知能機能付留守番電話装置 |
US4896358A (en) * | 1987-03-17 | 1990-01-23 | Itt Corporation | Method and apparatus of rejecting false hypotheses in automatic speech recognizer systems |
US4827518A (en) * | 1987-08-06 | 1989-05-02 | Bell Communications Research, Inc. | Speaker verification system using integrated circuit cards |
US4853953A (en) * | 1987-10-08 | 1989-08-01 | Nec Corporation | Voice controlled dialer with separate memories for any users and authorized users |
GB8809898D0 (en) * | 1988-04-27 | 1988-06-02 | British Telecomm | Voice-operated service |
-
1990
- 1990-08-10 US US07/566,519 patent/US5125022A/en not_active Expired - Lifetime
-
1991
- 1991-05-14 AU AU79958/91A patent/AU649688B2/en not_active Ceased
- 1991-05-14 ES ES99200793T patent/ES2179589T3/es not_active Expired - Lifetime
- 1991-05-14 DE DE69131689T patent/DE69131689T2/de not_active Expired - Lifetime
- 1991-05-14 EP EP99200793A patent/EP0953972B1/de not_active Expired - Lifetime
- 1991-05-14 CA CA002082942A patent/CA2082942C/en not_active Expired - Fee Related
- 1991-05-14 DE DE69132996T patent/DE69132996T2/de not_active Expired - Lifetime
- 1991-05-14 ES ES91911300T patent/ES2141090T3/es not_active Expired - Lifetime
- 1991-05-14 EP EP91911300A patent/EP0528990B1/de not_active Expired - Lifetime
- 1991-05-14 WO PCT/US1991/003362 patent/WO1991018386A1/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
WO1991018386A1 (en) | 1991-11-28 |
ES2179589T3 (es) | 2003-01-16 |
ES2141090T3 (es) | 2000-03-16 |
DE69132996D1 (de) | 2002-05-29 |
DE69132996T2 (de) | 2002-12-05 |
AU649688B2 (en) | 1994-06-02 |
EP0953972A2 (de) | 1999-11-03 |
AU7995891A (en) | 1991-12-10 |
DE69131689D1 (de) | 1999-11-11 |
EP0953972B1 (de) | 2002-04-24 |
EP0953972A3 (de) | 1999-11-10 |
EP0528990A4 (en) | 1994-06-08 |
US5125022A (en) | 1992-06-23 |
EP0528990B1 (de) | 1999-10-06 |
EP0528990A1 (de) | 1993-03-03 |
CA2082942A1 (en) | 1991-11-16 |
CA2082942C (en) | 2002-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69131689T2 (de) | Gleichzeitige sprecherunabhängige sprachererkennung und sprecherverifikation über einen fernsprechnetz | |
DE69329855T2 (de) | Methode zur erkennung alphanumerischer zeichenketten, die über ein telefonnetz gesprochen werden | |
DE69428606T2 (de) | Sprachgesteuerter kontozugang über ein fernsprechnetz | |
DE69325387T2 (de) | Spracherkennung und sprecherverifizierung über ein telefonnetzwerk mittels selektiv einstellbarer signalschwellwerte | |
DE69425818T2 (de) | System und verfahren zur sprachbefehlssteuerung und sprecheridentitätsprüfung | |
DE69031189T2 (de) | Sprachverifizierungseinrichtung zur Prüfung der Identität des Benutzers einer Telefonkreditkarte | |
EP0821346B1 (de) | Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals | |
DE69624848T2 (de) | Verfahren zum überprüfen eines sprechers | |
DE69822179T2 (de) | Verfahren zum lernen von mustern für die sprach- oder die sprechererkennung | |
DE69636057T2 (de) | Sprecherverifizierungssystem | |
DE69615748T2 (de) | Verfahren und Gerät zur Sprecherprüfung mittels Unterscheidung der Prototypen-Zusammenstellung | |
DE68914449T2 (de) | Sprachgesteuerte bedienung. | |
US5127043A (en) | Simultaneous speaker-independent voice recognition and verification over a telephone network | |
DE69226796T2 (de) | Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung | |
DE4310190A1 (de) | Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn | |
DE69800320T2 (de) | Verfahren und Vorrichtung zur Sprechererkennung durch Prüfung von mündlicher Information mittels Zwangsdekodierung | |
DE60128270T2 (de) | Verfahren und System zur Erzeugung von Sprechererkennungsdaten, und Verfahren und System zur Sprechererkennung | |
DE69733740T2 (de) | Statistische Datenbank-Korrektur von alphanumerischen Kontennummern unter Verwendung von Spracherkennung | |
EP0964390A2 (de) | Vorrichtung zur Verifizierung von Signalen | |
DE69813597T2 (de) | Mustererkennung, die mehrere referenzmodelle verwendet | |
DE69430162T2 (de) | System und Verfahren zur passiven Sprachverifizierung in einem Fernsprechnetzwerk | |
DE69702602T2 (de) | Sprechererkennungsverfahren unter anwendung eines prädiktiven models, insbesondere zur zugangskontrolle geeignet | |
DE69805821T2 (de) | Vefahren und anordnung um sprecherreferenzdaten für die sprecherverifizierung zur verfügung zu stellen | |
DE60026106T2 (de) | System und Verfahren zur Sprachererkennung mittels Sprachmodellen | |
EP1006507A1 (de) | Verfahren zur Durchführung einer Sprechererkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: SCANSOFT, INC. (N.D.GES.D. STAATES DELAWARE), PEAB |
|
8328 | Change in the person/name/address of the agent |
Representative=s name: TIEDTKE, BUEHLING, KINNE & PARTNER GBR, 80336 MUENCHEN |