DE102016125494B4 - Das sichere Ausführen von Sprachfunktionen unter der Verwendung kontextabhängiger Signale - Google Patents

Das sichere Ausführen von Sprachfunktionen unter der Verwendung kontextabhängiger Signale Download PDF

Info

Publication number
DE102016125494B4
DE102016125494B4 DE102016125494.0A DE102016125494A DE102016125494B4 DE 102016125494 B4 DE102016125494 B4 DE 102016125494B4 DE 102016125494 A DE102016125494 A DE 102016125494A DE 102016125494 B4 DE102016125494 B4 DE 102016125494B4
Authority
DE
Germany
Prior art keywords
speaker
service provider
voice
voice function
perform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102016125494.0A
Other languages
English (en)
Other versions
DE102016125494A1 (de
Inventor
Barnaby John James
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of DE102016125494A1 publication Critical patent/DE102016125494A1/de
Application granted granted Critical
Publication of DE102016125494B4 publication Critical patent/DE102016125494B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/06Authentication
    • H04W12/065Continuous authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/34User authentication involving the use of external additional devices, e.g. dongles or smart cards
    • G06F21/35User authentication involving the use of external additional devices, e.g. dongles or smart cards communicating wirelessly
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/06Authentication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/30Security of mobile devices; Security of mobile applications
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/30Individual registration on entry or exit not involving the use of a pass
    • G07C9/32Individual registration on entry or exit not involving the use of a pass in combination with an identity check
    • G07C9/37Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/30Security of mobile devices; Security of mobile applications
    • H04W12/33Security of mobile devices; Security of mobile applications using wearable devices, e.g. using a smartwatch or smart-glasses
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/60Context-dependent security
    • H04W12/63Location-dependent; Proximity-dependent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/60Context-dependent security
    • H04W12/65Environment-dependent, e.g. using captured environmental data

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Verfahren, das von einem Sprachfunktionsserver durchgeführt wird, wobei das Verfahren die im Folgenden aufgeführten Sachverhalte umfasst:das Einholen (i) von akustischen Daten von einem örtlichen Gerät, die einen Sprachbefehl darstellen, der von einem Sprecher ausgesprochen wird und (ii) eines Sprecheridentifizierungsergebnisses, das angibt, dass der Sprachbefehl von einem Sprecher ausgesprochen wurde;das Auswählen einer Sprachfunktion, die mindestens auf einer Transkription der Audiodaten basiert;das Auswählen eines Dienstleistungsanbieters, welcher der ausgewählten Sprachfunktion aus einer Vielzahl verschiedener Dienstleistungsanbieter entspricht;das Bereitstellen einer Anfrage an den ausgewählten Dienstleistungsanbieter, (i) die ausgewählte Sprachfunktion durchzuführen und (ii) des Sprecheridentifizierungsergebnisses,nach dem Bereitstellen der Anfrage, das Bereitstellen einer Anfrage nach zusätzlicher Authentifizierung an das örtliche Gerät, die den Sprecher dazu auffordert einen ausdrücklichen Autorisierungscode bereitzustellen, den der ausgewählte Dienstleistungsanbieter benötigt, um die ausgewählte Sprachfunktion durchzuführen; undnach dem Bereitstellen des ausdrücklichen Autorisierungscodes an den Dienstleistungsanbieter, das Bereitstellen einer Angabe an das örtliche Gerät, dass der ausgewählte Dienstleistungsanbieter die ausgewählte Sprachfunktion durchgeführt hat.

Description

  • TECHNISCHES GEBIET
  • Diese Spezifikation beschreibt Technologien, die Sprachfunktionen betreffen.
  • HINTERGRUND
  • Sprachaktivierte Geräte können Sprachfunktionen als Antwort auf sprachliche Äußerungen ausführen. Zum Beispiel kann eine Person sagen „Computer, ruf 1-888-888-8888 an“ und deren mobiles Computergerät ist in der Lage, ohne eine weitere Eingabe von Seiten der jeweiligen Person, die Nummer 1-888-888-8888 anzurufen.
  • US 2016/0021105 A1 beschreibt Techniken zur sicheren Verarbeitung von Sprachabfragen, wobei eine Rechenvorrichtung Sprachdaten empfangen kann, die einer von einem Benutzer geäußerten Sprachabfrage entsprechen, und als Reaktion auf die Sprachdaten die Identität des Benutzers und einen Abfragetyp der Sprachabfrage bestimmen kann. Die Rechenvorrichtung kann ferner eine erste Sicherheitsstufe, die mit der Identität des Benutzers assoziiert ist, und eine zweite Sicherheitsstufe, die mit dem Abfragetyp assoziiert ist, abrufen, wobei die Rechenvorrichtung dann auf der Grundlage der ersten Sicherheitsstufe und der zweiten Sicherheitsstufe bestimmen kann, ob die Sprachabfrage verarbeitet werden sollte..
  • US 8543834 B1 beschreibt Verfahren, Systeme und Vorrichtungen für Sprachauthentifizierung und -steuerung, wobei das Verfahren umfasst:
    • Empfangen von Audiodaten, die eine Äußerung eines Benutzers kodieren, durch eine Datenverarbeitungsvorrichtung, die in einem gesperrten Modus arbeitet, wobei der gesperrte Modus die Datenverarbeitungsvorrichtung daran hindert, mindestens eine Aktion auszuführen; Bereitstellen der Audiodaten für eine sprachbiometrische Maschine und eine Sprachaktionsmaschine, während die Datenverarbeitungsvorrichtung in dem gesperrten Modus arbeitet; Empfangen, während die Datenverarbeitungsvorrichtung in dem gesperrten Modus arbeitet, einer Anzeige von der sprachbiometrischen Maschine, dass der Benutzer biometrisch authentifiziert worden ist; und in Reaktion auf den Empfang der Anzeige, Auslösen der Sprachaktionsmaschine, um eine Sprachaktion zu verarbeiten, die mit der Äußerung verbunden ist.
  • US 2015/0081295 A1 beschreibt ein Verfahren zur Steuerung des Zugriffs auf eine Vielzahl von Anwendungen in einem elektronischen Gerät, wobei das Verfahren umfasst: den Empfang eines Sprachbefehls von einem Sprecher für den Zugriff auf eine Zielanwendung aus der Vielzahl von Anwendungen und die Überprüfung, ob der Sprachbefehl auf einen zum Zugriff auf die Anwendungen autorisierten Benutzer hinweist, basierend auf einem Sprechermodell des autorisierten Benutzers. In diesem Verfahren ist jede Anwendung mit einer Sicherheitsstufe mit einem Schwellenwert verbunden. Das Verfahren umfasst ferner das Aktualisieren des Lautsprechermodells mit dem Sprachbefehl, wenn der Sprachbefehl als Hinweis auf den Benutzer verifiziert wird, und das Anpassen mindestens eines der Schwellenwerte auf der Grundlage des aktualisierten Lautsprechermodells.
  • US 6496107 B1 beschreibt ein Fahrzeugsteuersystem zum Ermöglichen der Sprachsteuerung mindestens einer Vorrichtung in einem Fahrzeug durch mindestens einen Benutzer, das enthält: eine Funktranspondereinheit, die ein HF-Signal ausgibt, das einen Identifikationscode; einen elektronischen Empfänger zum Empfangen des HF-Signals und zum Abwärtswandeln des empfangenen Signals, um den Identifikationscode auszugeben; einen Mikrofon zum Empfangen eines von einem Benutzer gesprochenen akustischen Signals und zum Umwandeln des akustischen Signals in ein digitales Signal; einen Speicher zum Speichern einer Vielzahl von Dateien, wobei jede Datei einen Stimmabdruck eines Benutzers und einen Befehlsbefehl zum Steuern mindestens einer Funktion der Vorrichtung umfasst; und einen Mikroprozessor zum Bestimmen, ob der Identifikationscode gültig ist, und zum Analysieren des digitalen Signals, um zu bestimmen, ob es mit einem der im Speicher gespeicherten Stimmabdrücke übereinstimmt, wenn der Identifikationscode als gültig bestimmt wird, wobei der Mikroprozessor eine Befehlsanweisung ausführt, um die Funktion des Geräts zu steuern, wenn eine Übereinstimmung gefunden wurde.
  • US 2015/0241962 A1 beschreibt Systeme, Verfahren und Instrumente, um die Anwesenheit eines Benutzers in einem mobilen Gerät zu bestimmen, z. B. unter Verwendung eines oder mehrerer Sensoren, wobei ein mobiles Gerät ein Gesicht erkennen kann und eine Gesichtsentfernung bestimmen kann, die mit dem erkannten Gesicht verbunden ist. Das mobile Gerät kann einen Bewegungsstatus bestimmen, der anzeigt, ob das mobile Gerät in Bewegung ist oder sich im Ruhezustand befindet. Das mobile Gerät kann Informationen von einem oder mehreren Sensoren verwenden, um den Bewegungsstatus zu bestimmen. Das mobile Gerät kann die Anwesenheit eines Benutzers auf der Grundlage des Gesichtsabstands und des Bewegungsstatus bestätigen.
  • ZUSAMMENFASSUNG
  • Die Erfindung wird durch die unabhängigen Ansprüche definiert. Abhängige Ansprüche geben Ausführungsformen an. Im Allgemeinen sollen Sprachfunktionen Benutzer in die Lage versetzen, Handlungen auf bequeme Weise auszuführen. Zum Beispiel kann ein Benutzer, während er gerade kocht, einfach sagen, „Computer, stelle einen Zeitmesser auf eine Minute ein“, anstatt mit einem Gerät auf physikalische Art und Weise zu interagieren, um einen Zeitmesser auf eine Minute einzustellen. Bei einigen Sprachbefehlen kann es jedoch vorkommen, dass die Sprachfunktionen, die sie erbitten, ernsthafte Konsequenzen nach sich ziehen können. Zum Beispiel kann das Ausführen einer Sprachfunktion ein Heimsicherheitssystem deaktivieren, Artikel von hohem monetären Wert bestellen, oder die Heimtemperatureinstellungen auf erhebliche Weise verändern. Darüber hinaus können Geräte, die Sprachfunktionen ausführen, mehreren Menschen zugänglich sein. Zum Beispiel kann ein Gerät, das Sprachfunktionen ausführt, sich auf einem Küchentresen befinden und die Spracheingabe von einer anderen Person erhalten, die in der Nähe des Geräts spricht. Dementsprechend kann das Anwenden von Sicherheitseinschränkungen bei der Ausführung von Sprachfunktionen von erheblicher Bedeutung sein. Zum Beispiel kann es für ein System wünschenswert sein, ein Sicherheitssystem als Antwort auf die sprachliche Anweisung eines Hausbesitzers, der sagt „Computer, Sicherheitssystem deaktivieren“, zu deaktivieren und das Sicherheitssystem als Antwort auf die sprachliche Anweisung eines Gasts oder eines Eindringlings, der sagt „Computer, Sicherheitssystem deaktivieren“ nicht zu deaktivieren,
  • Um Sprachfunktionen auf sichere Art und Weise auszuführen, ist ein System dementsprechend in der Lage, einen Sprecher anhand seiner Stimme zu identifizieren und zusätzliche kontextabhängige Signale zu verwenden, um den Sprecher zu authentifizieren. Kontextabhängige Signale können zum Beispiel einen Hinweis darüber, dass das mobile Computergerät des Benutzers sich zu Hause befindet, einen Hinweis darüber, dass das mobile Computergerät des Benutzers sich seit seiner Entsperrung in Kontakt mit dem Körper einer Person befunden hat, bzw. ein sonstiges Signal beinhalten. Zum Beispiel kann das System die Anweisung „Computer, Sicherheitssystem deaktivieren“ erhalten, die Stimme des Sprechers als diejenige des Hausbesitzers identifizieren und als Antwort darauf, ferner ermitteln, dass das mobile Computergerät des Hausbesitzers sich zu Hause befindet. Der Befehl das Computersystem zu deaktivieren, kann auf Basis der erfolgreichen Identifizierung der Stimme und der physikalischen Präsenz des Computergeräts ausgeführt werden. Im Vergleich dazu, kann das System so konfiguriert werden, dass sofern erforderliche kontextabhängige Faktoren nicht präsent sind, z. B. falls die Identifizierung der Stimme fehlschlägt, oder falls sich das Computergerät des Hausbesitzers nicht zu Hause befindet, der Befehl aufgrund mangelnder Erfüllung der Sicherheitsanforderungen, nicht zugelassen werden würde, Infolgedessen kann das System die Sicherheit der Ausführung der Sprachfunktionen verbessern, indem es eine nicht autorisierte Person daran hindert, eine Sprachfunktion auszuführen, wie etwa das Deaktivieren des Sicherheitssystems eines Gebäudes.
  • In einem allgemeinen Aspekt beinhaltet ein Verfahren, bei dem es sich um ein computerimplementiertes Verfahren handelt, das Einholen (i) von akustischen Daten, die einen Sprachbefehl darstellen, der von einem Sprecher ausgesprochen wird und (II) eines Sprecheridentifizierungsergebnisses, das angibt, dass der Sprachbefehl von einem Sprecher ausgesprochen wurde, der eine Sprachfunktion ausgewählt hat, die zumindest auf einer Transkription der akustischen Daten beruht, wobei ein Dienstleistungsanbieter, der der ausgewählten Sprachfunktion entspricht, aus einer Vielzahl von verschiedenen Dienstleistungsanbietern ausgewählt wird, die der ausgewählten Sprachfunktion entsprechen, wobei eine oder mehrere Eingabedatenarten identifiziert werden, die vom ausgewählten Dienstleistungsanbieter verwendet werden, um die Authentifizierung für die ausgewählte sprachliche Funktion durchzuführen und indem diese dem Dienstleistungsanbieter und das Bereitstellen der Im Folgenden Aufgeführten an der Dienstleistungsanbieter (i) eine Anforderung, um die ausgewählten Sprachfunktionen auszuführen und (i) einen oder mehrere Werte, die der identifizierten einen oder den identifizierten mehreren Eingabedatenarten entsprechen. Wie schon erwähnt, ist eine Sprachfunktion (oder eine sprachlich veranlasste Funktion) eine Funktion, die von einem Sprachbefehl (z. B. eine sprachliche Äußerung) eines Benutzers veranlasst wurde.
  • Weitere Implementierungen dieses und sonstiger Aspekte beinhalten entsprechende Systeme, Vorrichtungen und Computerprogramme, die konfiguriert sind, um Funktionen der Verfahren, die auf Computerspeichergeräten codiert sind, durchzuführen. Ein System des einen oder der mehreren Computer kann so, aufgrund der Software, Firmware, Hardware oder einer Kombination dieser, auf einem System so installiert sein, dass es, sofern dieses sich in Betrieb befindet, das System dazu veranlassen kann, diese Funktionen durchzuführen. Ein oder mehrere Computerprogramme können aufgrund der Verfügung über Anweisungen so konfiguriert sein, dass, diese, wenn sie von der Datenverarbertungsvorrichtung ausgeführt werden, das System dazu veranlassen, die entsprechenden Funktionen auszuführen. In einem weiteren Aspekt speichert ein Computerspeichermedium, bei dem es sich um ein nicht-flüchtiges Computerspeichermedium handelt, ein Computerprogramm, wobei das Programm Anweisungen umfasst, die wenn sie von einem oder mehreren Computern ausgeführt werden, das eine oder die mehreren Computer dazu veranlassen, Operationen auszuführen, welche das Einholen der im Folgenden Aufgeführten umfassen: (i) akustische Daten, die einen von einem Sprecher ausgesprochenen Sprachbefehl darstellen und (ii) ein Sprecheridentifizierungsergebnis, das angibt, dass der Sprachbefehl von einem Sprecher ausgesprochen wurde, das Auswählen einer Sprachfunktion, die mindestens auf einer Transkription der akustischen Daten beruht: das Auswählen eines Dienstleistungsanbieters aus einer Vielzahl unterschiedlicher Dienstleistungsanbieter, welcher der ausgewählten Sprachfunktion entspricht; das Identifizieren einer oder mehrerer Eingabedatenarten, die vom ausgewählten Dienstleistungsanbieter verwendet werden, um die Authentifizierung für die ausgewählte Sprachfunktion auszuführen; und das Bereitstellen der im Folgenden Aufgeführten an den Dienstleistungsanbieter: (i) eine Anforderung, die ausgewählte Sprachfunktion durchzuführen und (i) ein oder mehrere Werte, die der identifizierten einen oder den identifizierten mehreren Eingabedatenarten entsprechen,
  • Implementierungen können auch ein oder mehrere der folgenden Merkmale beinhalten. Zum Beispiel kann in gewissen Aspekten das Einholen (i) von akustischen Daten, die einen Sprachbefehl darstellen, der von einem Sprecher ausgesprochen wird und (ii) eines Sprecheridentifizierungsergebnisses, das angibt, dass der Sprachbefehl von einem Sprecher ausgesprochen wurde, das Einholen von akustischen Daten, die einen Sprachbefehl darstellen, der von einem Sprecher ausgesprochen wird, das Einholen eines Stimmabdrucks für den Sprecher, und dabei ermitteln, dass der Sprachabdruck für den Sprecher mit den akustischen Daten übereinstimmt, die den vom Sprecher ausgesprochenen Sprachbefehl darstellen, und als Antwort auf das Ermitteln, dass der Stimmabdruck für den Sprecher mit den akustischen Daten übereinstimmt, die den vom Sprecher ausgesprochenen Sprachbefehl darstellen, das Generieren eines Sprechidentifikationsergebnisses, welches angibt, dass der Sprachbefehl vom Sprecher ausgesprochen wurde.
  • In einigen Aspekten beinhaltet das Auswählen einer Sprachfunktion, die mindestens auf einer Transkription der Audiodaten basiert, einen Satz von Sprachfunktionen, im Rahmen derer jede Sprachfunktion einen oder mehrere Begriffe identifiziert, die dieser jeweiligen Sprachfunktionen entsprechen, wobei ermittelt wird, dass ein oder mehrere Begriffe in der Transkription mit einem oder mit mehreren Begriffen, die der Sprachfunktion sprechen, übereinstimmen, und als Antwort auf Ermitteln, dass ein oder mehrere Begriffe in der Transkription mit einem oder mit mehreren Begriffen, die der Sprachfunktionen entsprechen, übereinstimmen, das Auswählen der Sprachfunktionen aus einem Satz von Sprachfunktionen.
  • In einigen Implementierungen beinhaltet das Auswählen eines Dienstleistungsanbieters, welcher der ausgewählten Sprachfunktion aus einer Vielzahl verschiedener Dienstleistungsanbieter entspricht, das Einholen einer Leitung der Sprachfunktionen zur Mehrheit der Dienstleistungsanbieter, wobei diese Führung für jede Sprachfunktion einen Dienstleistungsanbieter beschreibt, der die Sprachfunktion durchführen kann, und dabei ermittelt, dass die Leitung der Sprachfunktionen angibt, dass der Dienstleistungsanbieter die ausgewählte Sprachfunktionen durchführen kann und als Antwort auf das Ermitteln, dass die Leitung der Sprachfunktionen angibt, dass der Dienstleistungsanbieter die ausgewählte Sprachfunktion durchführen kann, das Auswählen des Dlenstleistungsanbieters.
  • In einigen Aspekten beinhaltet das Identifizieren des einen oder der mehreren Eingabedatenarten, die der ausgewählte Dienstleistungsanbieter verwendet, um die Authentifizierung für die ausgewählte Sprachfunktionen durchzuführen, die an einen ausgewählten Dienstleistungsanbieter bereitgestellte Anfrage nach einer Identifizierung des einen oder der mehreren Eingabedatenarten, die der ausgewählte Dienstleistungsanbieter verwendet, um die Authentifizierung für die ausgewählte Sprachfunktionen durchzuführen, und erhält dabei vom ausgewählten Dienstleistungsanbieter eine Antwort auf die Anfrage nach der Identifikation und das aus der Antwort auf die Anfrage nach der Identifikation durchgeführte Identifizieren des einen oder der mehreren Eingabedatenarten, die der ausgewählte Dienstleistungsanbieter verwendet, um die Authentifizierung für die ausgewählte Sprachfunktionen durchzuführen.
  • In einigen Aspekten beinhalten die Funktionen das Generieren der Transkription der akustischen Daten unter Verwendung einer automatischen Spracherkennungsvorrichtung. In einigen Implementierungen beinhalten die Funktionen das Erhalten einer Angabe vom Dienstleistungsanbieter, gemäß der die ausgewählte Sprachfunktion ausgeführt wurde. In gewissen Aspekten beinhalten die Funktionen das Erhalten einer Angabe vom Dienstleistungsanbieter, dass eine zusätzliche Authentifizierung erforderlich ist, um die ausgewählte Sprachfunktion durchzuführen und als Antwort auf den Erhalt der Angabe vom Dienstleistungsanbieter, dass eine zusätzliche Authentifizierung erforderlich ist, um die ausgewählte Sprachfunktion durchzuführen, das Bereitstellen einer Anfrage nach einer zusätzlichen Authentifizierung. In einigen Aspekten beinhaltet das Identifizieren des einen oder der mehreren Eingabedatenarten, die der ausgewählte Dienstleistungsanbieter verwendet, um die Authentifizierung für die ausgewählte Sprachfunktion durchzuführen, das identifizieren, dass der ausgewählte Dienstleistungsanbieter eine oder mehrere einer Eingabedatenart verwendet, die angibt, ob das mobile Rechengerät des Sprechers sich seit der letzten Entsperrung des mobilen Rechengeräts in Kontakt mit einem Körper befunden hat, eine Eingabedatenart, die angibt, ob das mobile Computergerät eines Sprechers sich in einer Nahbereichskommunikation mit einem bestimmten Gerät befindet, eine Eingabedatenart, die angibt, ob das mobile Computergerät eines Sprechers sich innerhalb eines bestimmten geographischen Bereichs befindet, oder eine Eingabedatenart, die angibt, ob das Gesicht eines Sprechers sich im Sichtfeld eines Gerätes befindet.
  • In einigen Aspekten kann es vor dem Bereitstellen der Anfrage an den Dienstleistungsanbieter, (i) die ausgewählte Sprachfunktion durchzuführen und vor dem Bereitstellen des (ii) einen oder der mehreren Werte an den Dienstleistungsanbieter, die dem einen oder den mehreren identifizierten Datentypen entsprechen, eine einleitende Ermittlung geben, ob der eine oder die mehreren Werte der einen oder den mehreren bekannten Mindestanforderungen des Dienstleistungsanbieters entsprechen. Falls die Ermittlung positiv ist, wird die Anfrage an den Dienstleistungsanbieter gesendet, falls die Ermittlung aber negativ ist, wird die Anfrage nicht an den Dienstleistungsanbieter gesendet.
  • Die Details einer oder mehrerer Ausführungsformen des in dieser Spezifikation beschriebenen Gegenstands werden in den beigefügten Zeichnungen und in der nachstehenden Beschreibung dargelegt. Andere potentielle Merkmale, Aspekte und Vorteile des Gegenstands werden aus der Beschreibung, den Zeichnungen und den Ansprüchen deutlich. Es versteht sich von selbst, dass Aspekte und Implementierungen kombiniert werden können, und dass die im Kontext des einen Aspekts oder der einen Implementierung beschriebenen Merkmale im Kontext anderer Aspekte und Implementierungen implementiert werden können.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
    • 1 ist ein Blockdiagramm, das eine exemplarische Interaktion mit einem System für das sichere Ausführen von Sprachfunktionen veranschaulicht.
    • 2 ist ein Blockdiagramm eines exemplarischen Systems für das sichere Ausführen von Sprachfunktionen.
    • 3 ist ein Blockdiagramm eines exemplarischen Sprachfunktionen-Servers für das sichere Ausführen von Sprachfunktionen
    • 4 ist ein Flussdiagramm, das ein Beispiel eines Verfahrens für das sichere Ausführen von Sprachfunktionen veranschaulicht.
    • 5 ist ein Diagramm von Beispielen von Computergeräten.
  • In den unterschiedlichen Zeichnungen werden gleiche Bezugszeichen und Bezeichnungen für gleiche Elemente verwendet,
  • AUSFÜHRLICHE BESCHREIBUNG
  • 1 ist ein Blockdiagramm, das eine exemplarische Interaktion 100 mit einem System für das sichere Ausführen von Sprachfunktionen veranschaulicht. Die Interaktion 100 findet zwischen einem Benutzer 110 und dem System 120 statt. Im Beispiel beinhaltet das System 120 einen Fernseher, der ein Mikrofon beinhaltet, das in der Lage ist, den sprachlichen Äußerungen eines Benutzers 110 zuzuhören und einen Lautsprecher, der in der Lage ist, synthetisierte sprachliche Äußerungen an den Benutzer 110 auszugeben, In anderen Beispielen kann das System 120 ein zusätzliches oder alternierendes Gerät beinhalten, das in der Lage ist, Sprachfunktionen auszuführen. Wie im Beispiel ersichtlich, erzwingt das System 120, je nach Art des Sprachbefehls und je nach Kontext des Sprachbefehls, unterschiedliche Sicherheitsanforderungsebenen für Sprachbefehle, und verwendet die Sprachidentifikation auch als einen Teil des Ermittelns, ob eine Sprachfunktion ausgeführt werden soll.
  • Wie veranschaulicht, sagt der Benutzer 110 anfänglich „Die Temperatur auf 70 Grad ändern.“ Das System 120 erhält die Äußerung vom Benutzer 110, ermittelt, dass die gegenwärtige Temperatur 68 Grad beträgt und ermittelt als Antwort darauf, dass das Ändern der Temperatur auf 70 Grad eine kleine Änderung darstellt, die keine Authentifizierung erfordert. Das System 120 ändert dann die Temperatureinsteilungen des Heims auf 70 Grad und gibt die folgende synthetisierte sprachliche Äußerung aus: „Temperatur von 68 Grad auf 70 Grad geändert.“
  • Unter Fortsetzung des aufgeführten Beispiels sagt der Benutzer 110 später „Temperatur auf 80 Grad ändern.“ Das System 120 erhält eine Äußerung vom Benutzer 110, ermittelt, dass die gegenwärtige Temperatur 70 Grad beträgt und ermittelt als Antwort darauf, dass die Änderung der Temperatur auf 80 Grad eine große Änderung darstellt, die ein geringfügiges Maß an Authentifizierung erfordert. Das System 120 identifiziert den Sprecher als „John Doe“, indem es einen gespeicherten Stimmabdruck für „John Doe“ mit der Äußerung abgleicht und ermittelt, dass sich im Helm ein mobiles Computergerät befindet, das unter dem Namen „John Doe“ registriert ist. Da das System 120 ermittelt, dass die Stimmenidentifikation und/oder Gegenwart des mobilen Computergeräts das geringfügige Maß an Authentifizierung erfüllt, ändert das System 120 die Temperatureinstellung des Heims auf 80 Grad und gibt die folgende synthetisierte sprachliche Äußerung aus: „Temperatur von 70 Grad auf 80 Grad geändert.“ Ein gespeicherter Stimmabdruck kann einen Laut der Stimme eines Benutzers einschließlich eines oder mehrerer aus Tonhöhe, Geschwindigkeit, Tonfall, Aussprache, Akzent, Modulation oder sonstige Aspekte beinhalten.
  • Der Benutzer 110 sagt später „Sicherheitssystem deaktivieren,“ Das System 120 erhält die Äußerung vom Benutzer 110, ermittelt, dass das Deaktivieren des Sicherheitssystems ein hohes Maß an Authentifizierung erfordert, was bedeutet, dass höhere Sicherheitsanforderungen als bei den anderen in 2 dargestellten Befehlen erforderlich sind. Um zu ermitteln, ob der Befehl befolgt werden soll, identifiziert das System 120 den Sprecher als „John Doe“, indem es einen gespeicherten Stimmabdruck für „John Doe“ mit der tatsächlichen Äußerung abgleicht und dabei ermittelt, dass ein mobiles Computergerät, das unter dem Namen „John Doe“ registriert ist, sich im Heim befindet und dabei auch ermittelt, dass ein mobiles Computergerät, das unter dem Namen „John Doe“ registriert ist, sich seit seiner letzten Entsperrung in Kontakt mit dem Körper einer Person befunden hat. Das System 120 ermittelt, dass diese Faktoren zusammengenommen ein „hohes“ Maß an Authentifizierung erfüllen und deaktiviert als Antwort darauf das Sicherheitssystem und gibt die folgende synthetisierte sprachliche Äußerung aus: „Sicherheitssystem deaktiviert.“
  • im Allgemeinen kann ein Gerät unter Verwendung eines oder mehrerer Sensoren ermitteln, ob es seit der letzten Entsperrung ununterbrochen von einem Benutzer getragen wurde. Zum Beispiel kann ein Gerät einen kapazitativen Sensor, einen resistiven Sensor, einen optischen Sensor einen Temperatursensor, einen Drucksensor, einen EKG-Sensor, und sonstige Sensoren für das Erfassen der Gegenwart und/oder der Charakteristiken des Körpers eines Bedieners beinhalten. Der Sensor kann in einem Intervall (z. B. alle 100 ms, jede Sekunde, oder alle 10 Sekunden, usw.) Daten generieren und die Daten können darauf schließen lassen, ob das Gerät sich mit dem Körper eines Benutzers in Kontakt befindet, oder ob es sich innerhalb einer vorgegebenen Entfernung davon befindet. Als ein Beispiel kann eine Armbanduhr einen Sensor beinhalten, der in Richtung des Handgelenks eines Trägers zugewandt ist oder sich damit in Kontakt befindet. Der Sensor kann auf Basis seiner Erfassungskapazität den Kontakt mit der Haut des Benutzers oder einen Mangel dessen erfassen. Darüber hinaus oder als eine Alternative dazu, kann der Sensor Licht, das im hinteren Teil der Armbanduhr erfasst wird, messen, indem er dem Handgelenk des Benutzers zugewandt ist, zum Beispiel, um zu zeigen, dass der hintere Teil der Uhr zugedeckt bleibt, oder um die Lichtspiegelung oder die Lichtabsorption der LEDs des Geräts, die das Licht in Richtung des Handgelenks des Benutzers lenken, zu messen. Daten von den Sensoren können im Laufe der Zeit nachverfolgt werden und mit vorgegebenen Grenzwerten und Reichweiten verglichen werden, um zu ermitteln, ob die Armbanduhr seit ihrer Entsperrung ununterbrochen getragen wurde. Ähnliche Techniken können verwendet werden, um zu ermitteln, ob Halsketten, Hüte, Ringe und sonstige tragbare Geräte über einen bestimmten Zeitraum ununterbrochen getragen wurden.
  • 2 ist ein Blockdiagramm eines exemplarischen Systems 200 für das sichere Ausführen von Sprachfunktionen. In einigen Implementierungen kann es sich bei dem System 200 um das in 1 dargestellte System 120 handeln. Das System 200 für das sichere Ausführen von Sprachfunktionen kann ein örtliches Gerät 210, einen Sprachfunktionsserver 220, ein mobiles Computergerät 230, und die Dienstleistungsanbieter 240A, 240B, 240C, (gemeinsam als 240 bezeichnet) beinhalten.
  • Bei dem örtlichen Gerät 210 kann es sich um ein Gerät handeln, das ein Mikrofon beinhaltet, das sich innerhalb eines akustischen Hörbereichs eines einen Sprachbefehl erteilenden Benutzers befindet. Zum Beispiel kann es sich bei dem örtlichen Gerät 210 um ein sprachfunktionsfähiges Fernsehen, Heim-Sprachautomatisierungsgerät für die Arbeitsplatte oder ein Heimsicherheitssystem mit einer Sprachautomatisierungsfunktionalität handeln. Ein Sprachbefehl kann sich auf eine Äußerung beziehen, die das System 200 dazu veranlasst, zu versuchen eine Sprachfunktion auszuführen. Zum Beispiel können Sprachbefehle, welche die Sprachfunktion zur Deaktivierung eines Sicherheitssystems anfordern die Befehle „Sicherheitssystem deaktivieren“, „Sicherheitssystem ausschalten“ oder „Sicherheitssystem in den deaktivierten Zustand schalten“ beinhalten. Eine Sprachfunktion kann auf eine Funktion verweisen, die von einer sprachlichen Äußerung veranlasst wird. Zum Beispiel kann eine Sprachfunktion zur Deaktivierung eines Sicherheitssystems auf eine Funktion verweisen, die von einer sprachlichen Äußerung zur Deaktivierung eines Sicherheitssystems veranlasst wird.
  • Das örtliche Gerät 210 kann eine von einem Benutzer gemachte Äußerung empfangen und Audiodaten bereitstellen, welche die Äußerung an den Sprachfunktionsserver 220 darstellen. Audiodaten können Mel-Frequenz-Cepstrum-Koeffizienten (MFCC), die die Äußerung darstellen, beinhalten. Zum Beispiel kann das örtliche Gerät 210 ein Mikrofon benutzen, um Laute, einschließlich der sprachlichen Äußerung des Benutzers „Sicherheitssystem deaktivieren“, zu erfassen und Audiodaten, welche diese Äußerung zum Sprachfunktionsserver 220 darstellen, als Antwort bereitzustellen. Das örtliche Gerät 210 kann zusätzlich oder alternativ dazu, Informationen vom Sprachfunktionsserver 220 erhalten, um diese einem Benutzer bereitzustellen. Zum Beispiel kann das örtliche Gerät 210 Audiodaten hinsichtlich einer synthetisierten sprachlichen Äußerung des Befehls „Sicherheitssystem deaktiviert“ erhalten und diese synthetisierte sprachliche Äußerung über einen Lautsprecher an den Benutzer ausgeben.
  • Der Sprachfunktionsserver 220 ist in der Lage eine Äußerung darstellende Audiodaten vom örtlichen Gerät 210 zu erhalten, diese Äußerung von den erhaltenen Daten zu extrahieren und zu ermitteln, eine Sprachfunktion, die der Äußerung entspricht, ausgeführt werden soll. Zum Beispiel kann der Sprachfunktionsserver 220 Audiodaten erhalten, welche die Äußerung „Sicherheitssystem deaktivieren“ repräsentieren und die Entscheidung treffen, eine Sprachfunktion zur Deaktivierung eines Heimsicherheitssystems durchzuführen. Der Sprachfunktionsserver 220 ermöglicht auch die Kommunikation mit den Dienstleistungsanbietern 240 und das Erfassen von kontextabhängigen Informationen, welche die Dienstleistungsanbieter 240 in die Lage versetzen, zu ermitteln, ob die Sicherheitsanforderungen für die Sprachfunktionen erfüllt wurden. Zum Beispiel kann der Sprachfunktionsserver 220 kontextabhängige Informationen vom örtlichen Gerät 210 erhalten und die Informationen an die Dienstleistungsanbieter 240 weiterleiten, Wenn zusätzliche Informationen vom Benutzer erforderlich sind, oder wenn Fehler auftreten, können Informationen zwischen dem Benutzer und den Serviceanbietern 240 über den Sprachfunktionsserver 220 übermittelt werden.
  • Bei der Entscheidung eine Sprachfunktion auszuführen, kann der Sprachfunktionsserver 220 einen Dienstleistungsanbieter auswählen, der die Sprachfunktion ausführen soll. Jeder der Dienstleistungsanbieter 240 kann mit bestimmten Funktionen oder Arten von Funktionen, die sie handhaben, in Verbindung gebracht werden und der Sprachfunktionsserver 220 kann jede Anfrage an den entsprechenden Serviceanbieter 240 weiterleiten. Sofern zum Beispiel die Entscheidung getroffen wird, eine Sprachfunktion zur Deaktivierung eines Heimsicherheitssystems durchzuführen, kann der Sprachfunktionsserver 220 Dienstleistungsanbieter A 240A auswählen, der mit einem Heimsicherheitssystem in Verbindung gebracht werden kann. In einem anderen Beispiel kann der Sprachfunktionsserver 220 als Antwort auf die Entscheidung, eine Sprachfunktion zur Durchführung einer Buchung in einem Restaurant auszuführen, Dienstleistungsanbieter B 240B auswählen, der mit einer Restaurantreservierungsmanagementanwendung oder Webseite in Verbindung gebracht wird.
  • Der Sprachfunktionsserver 220 kann Eingabedatenarten identifizieren, die der ausgewählte Dienstleistungsanbieter verwendet, um die Authentifizierung und die Werte für diese Datenarten durchzuführen. Verschiedene Dienstleistungsanbieter 240 können verschiedene Arten von Eingabedaten verwenden, um zu ermitteln, ob entsprechende Authentifizierungs- und Sicherheitsanforderungen erfüllt wurden. Auf ähnliche Weise können unterschiedliche Sprachfunktionen, die von einem einzelnen Dienstleistungsanbieter unterstützt werden, unterschiedliche Arten von Eingabedaten erfordern. Der Sprachfunktionsserver 220 kann jede Sprachfunktionsvorgabe formatieren, um diejenigen Daten miteinzubeziehen, die erforderlich sind, um die Sicherheitsanforderungen für die jeweils angeforderte Sprachfunktion und für den jeweiligen Dienstleistungsanbieter, an den die Sprachfunktionsanforderung gesendet wird, zu bewerten. Zum Beispiel kann der Sprachfunktionsserver 220 ermitteln, dass der Dienstleistungsanbieter A 240A einen Datentyp einer Sprachabgleichskonfidenz, einen Datentyp, der einem geographischen Standort des mobilen Computergeräts eines Benutzers entspricht und einen Datentyp, der einem Zustand des mobilen Computergeräts eines Benutzers entspricht, welches sich seit der letzten Entsperrung in Kontakt mit dem Körper der Person befunden hat, verwendet. Dann ermittelt der Sprachfunktionsserver 220 Werte für diese Datenarten, z. B Daten, die angeben, dass es eine 90%ige Stimmenabgleichskonfidenz gibt, dass das mobile Computergerät des Benutzers sich innerhalb eines bestimmten geographischen Bereichs befindet und dass das mobile Computergerät des Benutzers sich seit der letzten Entsperrung in Kontakt mit dem Körper der Person befunden hat. In einem anderen Beispiel kann der Sprachfunktionsserver 220 ermitteln, dass der Dienstleistungsanbieter B 240B eine Stimmenabgleichskonfidenz und einen Status verwendet, gemäß dem ein mobiles Computergerät sich seit seiner letzten Entsperrung in Kontakt mit dem Körper einer Person befunden hat und ermittelt dann Werte, die angeben, ob es eine 80%ige Stimmenabgleichskonfidenz gibt und ob das mobile Computergerät des Benutzers sich seit seiner letzten Entsperrung in Kontakt mit dem Körper dieser Person befunden hat,
  • Diese Eingabedatenarten können kontextabhängige Signale repräsentieren, die verwendet werden können, um den Benutzer zu authentifizieren, ohne den Benutzer dazu auffordern zu müssen, explizite Informationen zur Benutzerauthentifizierung bereitzustellen. Eingabedatenarten können eine oder mehrere einer Eingabedatenart beinhalten, die angibt, ob das mobile Computergerät des Sprechers sich seit seiner letzten Entsperrung in Kontakt mit einem Körper befunden hat, einer Eingabedatenart, die angibt, ob das mobile Computergerät eines Sprechers sich In einer Kurzstreckenkommunikation mit einem bestimmten Gerät befunden hat, einer Eingabedatenart, die angibt, ob das mobile Computergerät eines Sprechers sich innerhalb eines bestimmten geographischen Bereichs befindet, oder einer Eingabedatenart, die angibt, ob das Gesicht eines Sprechers sich im Sichtfeld eines Geräts befindet.
  • Zum Beispiel basiert ein Wert für eine Stimmenabgleichsübereinstimmung auf der Verwendung der Audiodaten, die einen Sprachbefehl darstellen, ohne anzufordern, dass der Benutzer zusätzliche Spracheingaben für den Authentifizierungsprozess bereitstellt. In einem anderen Beispiel kann ein Wert für das mobile Computergerät des Benutzers, das sich in physikalischer Nähe befindet, auf Basis der Entscheidung ermittelt werden, ob ein mobiles Computergerät eines Benutzers, das von den Audiodaten, die einen Sprachbefehl darstellen, identifiziert wird, sich innerhalb eines geographischen Bereichs befindet, und ohne dass der Benutzer zusätzliche Informationen bereitstellt. In einem weiteren Beispiel kann der Sprachfunktionsserver 220 ein Bild von einem Sprecher von einer vernetzten Kamera mit einer Ansicht des örtlichen Geräts 210 erhalten und für eine Eingabedatenart, die angibt, ob das Gesicht des Sprechers von der vernetzten Kamera überprüft wurde, einen Wert ermitteln, der angibt, ob das Gesicht des Sprechers überprüft wurde,
  • Der Sprachfunktionsserver 220 kann die Werte für die identifizierten Eingabedatenarten, auf dem mobilen Computergerät 230 des Benutzers basieren, ermitteln. Zum Beispiel kann der Sprachfunktionsserver 220 ermitteln, dass ein mobiles Computergerät 230 des Benutzers sich zu Hause befindet, z. B. dass ein Standort des Geräts 230 mit einem Standort des Benutzers übereinstimmt, das als das Heim des Benutzers festgelegt wurde, oder dass das Computergerät 230 sich in einer Kurzstreckenkommunikation mit dem Gerät 210 befindet, von dem man weiß, dass es sich im Heim des Benutzers befindet. Der Sprachfunktionsserver 220 kann dann einen Wert ermitteln, der angibt, dass das mobile Computergerät 230 des Benutzers sich zu Hause befindet und den Wert einem Dienstleistungsanbieter bereitstellen, sobald dieser Dienstleistungsanbieter konfiguriert wurde, um Daten dieser Art zu erhalten
  • In einigen Implementierungen kann der Sprachfunktionsserver 220 eine Identität des Benutzers aus den Audiodaten ermitteln, das mobile Computergerät 230 des Benutzers identifizieren, einen Status des mobilen Computergerät ermitteln und dann die Werte für die identifizierten Eingabedatenarten auf Basis des Status des mobilen Computergeräts ermitteln. Zum Beispiel kann der Sprachfunktionsserver 220 aufgrund der Tatsache, dass die Stimme im Sprachbefehl mit einem gespeicherten Stimmprofil für „John Doe“ übereinstimmt, ermitteln, dass eine Sprachfunktion von „John Doe“ stammt, einen Geräteidentifikator ermitteln, der für das von „John Doe“ verwendete mobile Computergerät 230 gespeichert wurde, Informationen vom Gerät 230, welches dem Geräteidentifikator entspricht, anfordern, die angeforderten Informationen vom Gerät 230 erhalten, und Werte unter Verwendung der Informationen vom Gerät 230 generieren. In einem anderen Beispiel kann der Sprachfunktionsserver 220 aufgrund der Tatsache, dass die Stimme im Sprachbefehl mit einem gespeicherten Stimmprofil für „John Doe“ übereinstimmt, ermitteln, dass eine Sprachfunktion von „John Doe“ stammt, einen Geräteidentifikator ermitteln, der für das von „John Doe“ verwendete mobile Computergerät 230 gespeichert wurde, Informationen identifizieren, die bereits vom Sprachfunktionsserver 220 gespeichert wurden und dem Geräteidentifikator entsprechen, und Werte unter Verwendung der identifizierten und bereits gespeicherten Informationen generieren.
  • Die vom Gerät 230 stammenden Informationen können eine oder mehrere der folgenden Vorrichtungen oder Sachverhalte beinhalten: einen Standort des Geräts 230 auf Basis eines GPS-Sensors im Gerät 230, sonstige Geräte, mit denen das Gerät 230 sich in drahtloser Nahbereichskommunikation befindet, ob das Gerät 230 seit der letzten Entsperrung des Geräts 230 schon mit dem Körper einer Person in Kontakt getreten ist, ein Bild der gegenwärtigen Ansicht des Geräts 230, oder einige sonstige Informationen.
  • in einem anderen Beispiel kann der Sprachfunktionsserver 220 aufgrund der Tatsache, dass die Stimme im Sprachbefehl mit einem gespeicherten Stimmprofil für „John Doe“ übereinstimmt, ermitteln, dass eine Sprachfunktion von „John Doe“ stammt, einen Geräteidentifikator ermitteln, der für das von „John Doe“ verwendete mobile Computergerät 230 gespeichert wurde, Informationen den anderen Geräten über das Gerät 230, das dem Geräteidentifikator entspricht, anfordern, die angeforderten Informationen von den anderen Geräten erhalten, und Werte unter Verwendung der Informationen von den anderen Geräten generieren. Die Informationen von Gerät 230 können einen oder mehrere der im Folgenden aufgeführten Sachverhalte beinhalten; eine Angabe, dass das andere Gerät sich in drahtloser Nahbereichskommunikation mit dem Gerät 230 befindet, oder, dass das Gerät 230 vom anderen Gerät innerhalb eines geographischen Bereichs erfasst wurde.
  • In einigen Implementierungen erhält der Sprachfunktionsserver 220 zusätzlich oder alternativ dazu, Informationen vom örtlichen Gerät 210, die verwendet werden können, um Werte für Eingabedatenarten zu generieren. Das örtliche Gerät 210 kann Informationen bereitstellen, deren Audiodaten die Äußerung eines Sprachbefehls darstellen oder es kann Informationen als Antwort auf die Tatsache bereitstellen, dass der Sprachfunktionsserver 220 Informationen vom örtlichen Gerät 210 anfordert,
  • Der Sprachfunktionsserver 220 kann dem ausgewählten Dienstleistungsanbieter eine Anfrage bereitstellen, in der dieser dazu aufgefordert wird, eine Sprachfunktion durchzuführen und er kann ihm zusätzlich Werte für die identifizierten Eingabedatenarten bereitstellen, die der ausgewählte Dienstleistungsanbieter verwendet, um die Authentifizierung durchzuführen. Zum Beispiel kann der Sprachfunktionsserver 220 dem Dienstleistungsanbieter A 240A eine Anfrage bereitstellen, in der dieser dazu aufgefordert wird, ein Sicherheitssystem zu deaktivieren und er kann ihm zusätzlich Werte bereitstellen, welche angeben (i) dass es sich beim Benutzer aufgrund einer 80%igen Sprachabgleichskonfidenz um den Benutzer „John Doe“ handelt und (ii) dass das mobile Computergerät von „John Doe“ sich innerhalb eines bestimmten geographischen Bereichs befindet und sich seit seiner letzten Entsperrung in Kontakt mit dem Körper einer Person befunden hat.
  • Der Sprachfunktionsserver 220 kann dem ausgewählten Dienstleistungsanbieter Werte für die identifizierten Eingabedatenarten bereitstellen, da die Dienstleistungsanbieter möglicherweise über zusätzliche Informationen oder Vorgaben für die Benutzung dieser bei der Ermittlung des entsprechenden Authentifizierungsgrads verfügen, über die der Sprachfunktionsserver 220 möglicherweise nicht verfügt, Zum Beispiel kann der Authentifizierungsgrad für das Ändern einer Heimtemperatur von der Höhe der Änderung abhängen, z. B. benötigen kleine Änderungen keine oder nur ein geringes Maß an Authentifizierung, aber große Änderungen, die möglicherweise beträchtliche Kosten zur Folge haben, können ein zunehmend höheres Maß an Authentifizierung erfordern, und der Sprachfunktionsserver 220 verfügt möglicherweise nicht über die Kenntnisse einer gegenwärtigen Temperatureinstellung eines Heims, die dem Dienstleistungsanbieter, im Gegensatz dazu, sehr wohl bekannt sind. Dementsprechend kann die Anordnung den Dienstleistungsanbieter in die Lage versetzen, flexibel genug zu sein, um Vorgaben für die Authentifizierung festzulegen und kann die Sicherheit durch die Einschränkung der Informationen, die dem Sprachfunktionsserver 220 bereitgestellt werden, aktivieren. Des Weiteren wird in dieser Implementierung vom Sprecher nicht erfordert, ausdrückliche Authentifizierungsinformationen bereitzustellen (wie etwa das Bereitstellen eines Autorisierungs-PIN-Codes), womit das Verfahren sich für den Sprecher durch einen hohen Bedienkomfort auszeichnet.
  • Als Antwort auf das Bereitstellen der Anfrage und der Werte an den ausgewählten Dienstleistungsanbieter, kann der Sprachfunktionsserver 220 eine Angabe erhalten, die besagt, dass die ausgewählte Sprachfunktion ausgeführt wurde. Zum Beispiel kann der Sprachfunktionsserver 220 vom Dienstteistungsanbieter A 430A eine Angabe der Fertigstellung erhalten. Als Antwort auf die Angabe, dass die ausgewählte Sprachfunktion ausgeführt wurde, kann der Sprachfunktionsserver 220 eine Angabe an das örtliche Gerät 210 bereitstellen, die besagt, dass die Sprachfunktion ausgeführt wurde.
  • Darüber hinaus oder alternativ dazu, kann der Sprachfunktionsserver 220 als Antwort auf das Bereitstellen der Anfrage und der Werte an den ausgewählten Dienstleistungsanbieter, eine Angabe erhalten, die besagt, dass eine zusätzliche Authentifizierung erforderlich ist, um die ausgewählte Sprachfunktion durchzuführen. Zum Beispiel kann der Sprachfunktionsserver 220 eine Angabe vom Dienstleistungsanbieter A 430A darüber erhalten, dass eine zusätzliche Authentifizierung vom Dienstleistungsanbieter A 430A erfordert wird.
  • Als Antwort auf die Angabe, dass eine zusätzliche Authentifizierung erfordert wird, kann der Sprachfunktionsserver 220 eine Angabe an das örtliche Gerät 210 darüber bereitstellen, dass die Sprachfunktion nicht durchgeführt wurde, weil eine zusätzliche Authentifizierung erforderlich gewesen wäre. In einigen Implementierungen kann die Angabe vom ausgewählten Dienstleistungsanbieter eine Eingabedatenart für die zusätzliche Authentifizierung, die erforderlich ist, angeben, und der Sprachfunktionsserver 220 kann eine Anfrage an das örtliche Gerät 210 bereitstellen, die den Benutzer dazu auffordert, Informationen für die Eingabedaten bereitzustellen, die für die zusätzliche Authentifizierung erforderlich sind. In einigen Implementierungen kann die zusätzliche Authentifizierung eine Anforderung beinhalten, kann ein ausdrücklicher Autorisierungscode, ein Passwort, zusätzliche Sprachüberprüfungsausdrücke sein oder es kann dabei darum gehen, dass der Benutzer sich in Zukunft damit einverstanden erklärt, zusätzliche Arten kontextabhängiger Informationen zu verwenden.
  • In einigen Implementierungen kann der Sprachfunktionsserver 220 zusätzlich oder alternativ dazu, eine Authentifizierung durchführen. Zum Beispiel kann der Sprachfunktionsserver 220 Mindestauthentifizierungsanforderungen für bestimmte Dienstleistungsanbieter oder für bestimmte Sprachfunktionen, die von bestimmten Dienstleistungsanbietern ausgeführt werden, einholen und kann eine anfängliche Entscheidung darüber treffen, ob diese Authentifizierungsanforderungen erfüllt wurden. Falls die Mindestanforderungen nicht erfüllt wurden, kann der Sprachfunktionsserver 220 in diesem Beispiel keine Anforderung an den ausgewählten Dienstleistungsanbieter einsenden, sondern muss stattdessen dem Benutzer gegenüber angeben, dass zusätzliche Authentifizierungsinformationen erforderlich sind. Dies verringert die Zeit, die benötigt wird, um den Benutzer zu authentifizieren, indem die Verzögerung eliminiert wird, die andernfalls durch den Sachverhalt verursacht werden würde, dass der Sprachfunktionsserver die Anforderung an den ausgewählten Dienstleistungsanbieter sendet und vom Dienstleistungsanbieter eine Meldung darüber erhält, dass dieser die Anforderung nicht akzeptiert hat, bevor der Benutzer darüber informiert werden würde, dass zusätzliche Informationen zur Benutzerauthentifizierung notwendig wären.
  • Diese Leistungserbringer 240 können eine oder mehrere der folgenden Vorrichtungen miteinbeziehen: ein Gerät, z. B. einen Thermostat oder ein Heimsicherheltssystem, eine Anwendung, z.B. eine Kalenderanwendung oder eine Sprachwahlanwendung, oder eine Webseite, z. B., eine Online-Banking- oder Online-Shopping-Webseite, oder eine sonstige Entität, die registriert ist, um bestimmte Aktionen oder Funktionsarten durchzuführen. Wie oben besprochen, können die Dienstleistungsanbieter 240 über Informationen verfügen, die dem Sprachfunktionsserver 220 nicht zur Verfügung stehen, und die ermitteln können, ob eine Sprachfunktion auf Basis der Informationen vom Server, die zur Authentifizierung verwendet werden, sowie der Informationen, die dem Sprachfunktionsserver 220 nicht zur Verfügung stehen, aber den Dienstleistungsanbietern 240 zur Verfügung stehen, durchgeführt werden kann.
  • In einigen Implementierungen kann ein Stimmabdruck für den Sprecher nicht zur Verfügung stehen und das System 200 kann Eingabearten, mit Ausnahme der Eingabearten, die auf einer Stimmenüberprüfung zur Authentifizierung basieren, verwenden. Zum Beispiel kann das System 200 Gesichtserkennungsverfahren. nur anstatt Gesichtserkennungs- und Stimmenerkennungsverfahren verwenden.
  • In einigen Implementierungen kann das mobile Computergerät 230 eine Stimmenüberprüfung durchführen. Zum Beispiel erfasst sowohl das mobile Computergerät 230 als auch das örtliche Gerät 210 dieselbe Äußerung. Im Beispiel identifiziert das mobile Computergerät 230 den Sprecher und ermittelt eine Sprachabgleichskonfidenz und stellt dem Sprachfunktionsserver 220 die Identifizierung und die Sprachabgleichskonfidenz bereit. Der Sprachfunktionsserver 220 verwendet dann die Identifizierung und die Sprachabgleichskonfidenz vorn mobilen Computergerät 230 statt der Identifizierung des Sprechers und der Ermittlung einer Sprachabgleichskonfidenz. In einem anderen Beispiel Identifiziert das mobile Computergerät 230 den Sprecher und ermittelt eine Sprachabgleichskonfidenz und stellt die Identifizierung und die Sprachabgleichskonfidenz für das örtliche Gerät 210 bereit, damit diese zusammen mit den Audiodaten, die den Sprachbefehl darstellen, dem Sprachfunktionsserver 220 bereitgestellt werden können, In einem noch weiteren Beispiel stellt das örtliche Gerät 210 die Audiodaten, die den Sprachbefehl darstellen, dem mobilen Computergerät 230 bereit, um den Sprecher zu identifizieren und um eine Sprachabgleichskonfidenz zu ermitteln, und das mobile Computergerät 230 stellt dann die Identifikation des Sprechers und die Sprachabgleichskonfidenz entweder dem örtlichen Gerät 210 bereit, damit dieser sie dem Sprachfunktionsserver 220 bereitstellen kann, oder sie werden dem Sprachfunktionsserver 220 direkt bereitgestellt.
  • Unterschiedliche Konfigurationen des Systems 200 können verwendet werden, wo die Funktionalität des örtlichen Geräts 210, des Sprachfunktionsservers 220, des mobilen Computergeräts 230, und der Dienstlelstungsanbieter 240A, 240B, 240C (gemeinsam als 240 bezeichnet) kombiniert, weiter getrennt, verteilt, oder untereinander ausgetauscht werden kann. Das System 200 kann auf einem einzigen System und auf mehrere Systeme verteilt, implementiert werden.
  • Die Überprüfung des Sprechers kann von Jeglichen der unterschiedlichen Geräte des Systems 200 durchgeführt werden. Zum Beispiel kann das lokale Gerät 210 einen Sprecher eines Befehls identifizieren, der Sprachfunktionsserver 220 kann den Sprecher des Befehls identifizieren oder beide können die Identifizierung des Sprechers entweder unabhängig voneinander oder auf kooperative Art und Weise durchführen. Die Identität eines Sprechers kann unter Verwendung der sprachlichen Äußerung des Befehls an sich, unter Verwendung eines sog. Hotwords oder eines Warnworts, das unmittelbar vor dem Befehl ausgesprochen wird, oder unter Verwendung sonstiger sprachlicher Äußerungen, die vor oder nach dem Befehl gemacht werden, ermittelt werden.
  • 3 ist ein Blockdiagramm eines exemplarischen Sprachfunktionsservers 300 für das sichere Ausführen von Sprachfunktionen, In einigen Implementierungen kann der Server 300 der Sprachfunktionsserver 220 sein, der in 2 ersichtlich ist. In anderen Implementierungen kann es sich bei dem Server 300 um einen anderen Sprachfunktionsserver handeln.
  • Der Sprachfunktionsserver 300 kann einen Konversationsmanager 310, eine automatische Spracherkennungsvorrichtung 320, eine Bereitstellungsauswahlmaschine 330, eine Sprachfunktionsdatenbank 332, einen Sprecher-Identifikator 340, eine Sprecher-Stimmabdruck-Datenbank 342, einen Eingabedaten-Wertermittler 350 und eine Schnittstellenbereitstellungsvorrichtung 360 beinhalten,
  • Der Konversationsmanager 310 kann eine Konversation mit einem Benutzer verwalten. Zum Beispiel kann der Konversationsmanager 310 Audiodaten erhalten, welche die sprachlichen Äußerungen von Benutzern darstellen und synthetisierte sprachliche Äußerungen als Antwort auf die sprachlichen Äußerungen des Benutzers bereitstellen. Der Konversationsmanager 310 kann Audiodaten von einem örtlichen Gerät erhalten und die Audiodaten der automatischen Spracherkennungsvorrichtung 320 und dem Sprecher-Identifikator 340 bereitstellen. Zum Beispiel kann der Konversationsmanager 310 Audiodaten erhalten, die den Befehl „Temperatur auf 80 Grad ändern“ darstellen und die Audiodaten der automatischen Spracherkennungsvorrichtung 320 und dem Sprecher-Identifikator 340 bereitstellen. Der Konversationsmanager 310 kann Angaben von der Schnittstellenbereitstellungsvorrichtung 360 erhalten, und zwar unabhängig davon, ob ein Sprachbefehl durchgeführt wurde und kann einem örtlichen Gerät dann eine Angabe bereitstellen. Zum Beispiel kann der Konversationsmanager 310 eine Angabe erhalten, gemäß der ein Sprachbefehl hinsichtlich des Änderns einer Temperatur befolgt wurde, um die Temperatur von 70 Grad auf 80 Grad zu ändern, und um als Antwort darauf, die folgende synthetisierte sprachliche Äußerung zu generieren: „Temperatur von 70 Grad auf 80 Grad geändert“,
  • Die automatische Spracherkennungsvorrichtung 320 kann Audiodaten erhalten, die einen Sprachbefehl darstellen und eine Transkription der Audiodaten generieren. Zum Beispiel kann die automatische Spracherkennungsvorrichtung 320 Audiodaten erhalten, die den Sprachbefehl „Temperatur auf 80 Grad ändern“ darstellen und als Antwort darauf, eine Transkription des Befehls „Temperatur auf 80 Grad ändern“ generieren. Die automatische Spracherkennungsvorrichtung 320 kann die generierte Transkription der Bereitstellungsauswahlmaschine 330 bereitstellen. Zum Beispiel kann die automatische Spracherkennungsvorrichtung 320 die Transkription „Temperatur auf 80 Grad ändern“ der Bereitstellungsauswahlmaschine 330 bereitstellen,
  • Die Bereitstellungsauswahlnisschine 330 kann eine Transkription erhalten und eine Sprachfunktion auf Basis der Transkription auswählen. Zum Beispiel kann die Bereitstellungsauswahlmaschine 330 die Transkription „Temperatur auf 80 Grad ändern“ erhalten, und als Antwort darauf, eine Sprachfunktion, die „Temperatur ändern“ besagt, auf Basis der Transkription auswählen.
  • Durch das Auswählen der Sprachfunktion kann die Bereitstellungsauswahlmaschine 330 auf Daten zugreifen, die einen Satz von Sprachfunktionen aus einer Sprachfunktionsdatenbank 332 angeben, wobei jede Sprachfunktion einen oder mehrere Begriffe identifiziert, welche dieser Sprachfunktion entsprechen. Zum Beispiel kann die Sprachfunktionsdatenbank 332 einen Satz von Sprachfunktionen angeben, einschließlich einer Sprachfunktion, die „Temperatur ändern“ besagt, die mit den Begriffen „Temperatur ändern“, „Temperaturänderung“, „Temperatur einstellen“, und sonstigen Begriffen in Verbindung gebracht wird. Eine weitere Sprachfunktion, die angegeben wird, könnte die Funktion „Sicherheitssystem deaktivieren“ beinhalten, die mit den Begriffen „Sicherheitssystem deaktivieren“, „Sicherheitssystem ausschalten“, „Sicherheitssystem auf Ausschalten einstellen“ und sonstigen Begriffen in Verbindung gebracht wird. Die Bereitstellungsauswahlmaschine 330 kann ermitteln, dass der eine oder die mehreren Begriffe in der Transkription mit dem einen oder den mehreren Begriffen, die einer Sprachfunktion entsprechen, übereinstimmen. Zum Beispiel kann die Bereitstellungsauswahlmaschine 330 ermitteln, dass die Transkription „Temperatur auf 80 Grad ändern“ den Begriff „Temperatur ändern“ beinhaltet. Als Antwort auf das Ermitteln, dass der eine oder die mehreren Begriffe in der Transkription mit dem einen oder den mehreren Begriffen übereinstimmen, die der Sprachfunktion entsprechen, kann die Bereitstellungsauswahlmaschine 330 eine Sprachfunktion aus dem Satz von Sprachfunktionen auswählen. Zum Beispiel kann die Bereitstellungsauswahlmaschine 330 als Antwort auf das Ermitteln, dass die Transkription „Temperatur auf 80 Grad ändern“ den Begriff „Temperatur ändern“ beinhaltet, die Sprachfunktion „Temperatur ändern“ auswählen.
  • Die Bereitstellungsauswahlmaschine 330 kann eine Angabe der ausgewählten Sprachfunktion an die Schnittstellenbereitstellungsvorrichtung 360 bereitstellen. Zum Beispiel kann die Bereitstellungsauswahlmaschine 330 der Schnittstellenbereitstellungsvorrichtung 360 eine Angabe darüber bereitstellen, dass die Sprachaktion des Befehls „Temperatur ändern“ ausgewählt wurde,
  • Der Sprecher-Identifikator 340 kann Audiodaten einholen, die einen Sprachbefehl darstellen, der von einem Sprecher ausgesprochen wird, und ein Sprecheridentifikationsergebnis generieren, das angibt, dass der Sprachbefehl vom Sprecher ausgesprochen wurde. Zum Beispiel kann der Sprecher-Identifikator 340 Audiodaten einholen, welche den Sprachbefehl „Temperatur auf 80 Grad ändern“, der von „John Doe“ ausgesprochen wurde, repräsentieren, und ein Sprecheridentifikationsergebnis generieren, gemäß dem, der Sprachbefehl von „John Doe“ ausgesprochen wurde.
  • Der Sprecher-Identifikator 340 kann das Sprecheridentifikationsergebnis durch das Abgleichen der Audiodaten, die einen Sprachbefehl darstellen, oder eines sog. Hotwords, das dem Sprachbefehl vorangeht, mit einem Stimmabdruck für einen Benutzer generieren. Zum Beispiel kann der Sprecher-Identifikator 340 das Sprecheridentifikationsergebnis generieren, das angibt, dass „John Doe“ auf Basis des Ermittelns, dass die Audiodaten für den Sprachbefehl mit einem gespeicherten Stimmabdruck für „John Doe“ übereinstimmt, derjenige war, der den Sprachbefehl aussprach. Der Sprecher-Identifikator 340 kann den Stimmabdruck für den Benutzer aus einem Stimmabdrucksatz, der in einer Stimmabdruckdatenbank des Sprechers 342 gespeichert ist, einholen.
  • In einigen Implementierungen kann der Sprecher-Identifikator 340 eine Abgleichskonfidenz ermitteln, die einen Abglelchsumfang zwischen dem Stimmabdruck für einen Benutzer und den Audiodaten, die den Sprachbefehl darstellen, repräsentiert, und die Abgleichskonfidenz in das Sprecheridentifikationsergebnis miteinbeziehen. Zum Beispiel kann der Sprecher-Identifikator 340 eine Abgleichskonfidenz von 80% ermitteln und eine Angabe einer Abgleichskonfidenz von 80% in das Sprecheridentifikationsergebnis miteinbeziehen.
  • In einigen Implementierungen kann der Sprecher-Identifikator 340 nur einen einzelnen Benutzer im Sprecheridentifikationsergebnis identifizieren. Zum Beispiel kann der Sprecher-Identifikator 340 den Benutzer mittels der Abgleichskonfidenz, die den höchsten Abgleichsumfang angibt, ermitteln, und den jeweiligen Benutzer im Sprecheridentifikationsergebnis und der Abgleichskonfidenz für diesen entsprechenden Sprecher identifizieren. In anderen Implementierungen kann der Sprecher-Identifikator 340 mehrere Benutzer im Sprecheridentifikationsergebnis identifizieren. Zum Beispiel kann der Sprecher-Identifikator 340 Benutzer mit Abgleichskonfidenzen identifizieren, die den Grenzwert der Abgleichskonfidenz z. B. 50%, 60%, 75%, oder eine sonstige Abgleichskonfidenz, beinhalten und diese Benutzer im Sprecheridentifikationsengebnis und im Rahmen ihrer entsprechenden Abgleichskonfldenzen identifizieren. In einem anderen Beispiel kann der Sprecher-Identifikator 340 diejenigen Benutzer identifizieren, deren Abgleichskonfidenzen zwei, drei oder eine andere Zahl angeben, die über den höchsten Abglelchsumfang verfügen, und diese jeweiligen Benutzer im Sprecheridentifikationsergebnis und deren entsprechenden Abgleichskonfidenzen identifizieren. Der Sprecher-Identifikator 340 kann dem Eingaben-Wertermittler 350 das Sprecheridentifikationsergebnis bereitstellen.
  • In einigen Implementierungen kann ein örtliches Gerät, statt oder zusätzlich zum Sprecher-Identifikator, wie etwa ein Gerät Im Heim oder am Arbeitsplatz eines Benutzers 340, eine Sprecherüberprüfung durchführen. Zum Beispiel kann das örtliche Gerät Informationen speichern, die aus Sprechproben stammen, die der Benutzer bei deiner Anmeldung bereitgestellt hat, und die es dem örtlichen Gerät somit ermöglichen, festzustellen, ob die Stimme eines Sprechers mit den während der Anmeldung beobachteten Charakteristiken der Stimme übereinstimmt. Das örtliche Gerät kann dem Server 300 ein Sprecherüberprüfungskonfidenzergebnis und/oder ein Einstufungsergebnis bereitstellen, gemäß denen ermittelt werden kann, ob es sich bei dem Sprecher mit hoher Wahrscheinlichkeit um einen autorisierten Benutzer handelt. Neben den Sprecherüberprüfungsinformationen ist das lokale Gerät in der Lage, eine Vielzahl von sonstigen kontextabhängigen Informationen bereitzustellen. Im Allgemeinen kann das örtliche Gerät so viele kontextabhängige Informationen bereitstellen, wie ihm zur Verfügung stehen und diese automatisch mit dem Sprachbefehl bereitstellen. Der Server 300 ermittelt dann, welche Informationen erforderlich sind und welches Format am sinnvollsten ist, um an Dienstleistungsanbieter in Form von Sprachfunktionsanforderungen weitergeleitet zu werden.
  • Der Eingabedaten-Wertermittler 350 kann Werte für Eingabedatenarten ermitteln, die von Dienstleistungsanbietern auf Basis des identifizierten Benutzers verwendet werden. Zum Beispiel kann der Eingabedaten-Wertermittler 350 einen binären Wert ermitteln, der angibt, ob ein mobiles Computergerät eines Benutzers, der identifiziert wird, während er einen Sprachbefehl ausspricht, sich innerhalb des Heims des Benutzers befindet. Die Eingabedatenarten können einen oder mehrere der im Folgenden aufgeführten Sachverhalte beinhalten: ob ein mobiles Computergerät eines Benutzers sich auf Basis eines GPS-Sensors im Gerät 230 in einem vertrauenswürdigen Bereich befindet, ob ein mobiles Computergerät eines Benutzers sich in drahtloser Kommunikation mit einem vertrauenswürdigen Gerät befindet, ob das Gerät 230 seit der Entsperrung des Geräts 230 am Körper einer Person getragen wurde, ob der Benutzer in einer gegenwärtigen Ansicht des Geräts 230 mit einem gespeicherten Gesicht des Benutzers oder mit sonstigen anderen Eingabewert-Datenarten übereinstimmt. Bei dem vertrauenswürdigen Bereich kann es sich um einen Bereich handeln, im Rahmen dessen der Benutzer festgelegt hat, dass der Benutzer Sprachbefehle bereitstellen möchte. Bei dem vertrauenswürdigen Gerät kann es sich um ein Gerät handeln, im Rahmen dessen der Benutzer festgelegt hat, dass der Benutzer Befehle bereitstellen möchte, wenn das mobile Computergerät des Benutzers sich in Kommunikation mit dem vertrauenswürdigen Gerät befindet.
  • Ähnlich zu der weiter oben für den Sprachfunktionsserver 220 beschriebenen Art und Weise kann der Eingabedaten-Wertermittler 350 einen Geräteidentifikator, der für das mobile Computergerät gespeichert ist, das vom identifizierten Benutzer verwendet wird, identifizieren, Informationen
    vom identifizierten mobilen Computergerät anfordern, die angeforderten Informationen vom identifizierten mobilen Computergerät erhalten und dann Werte für die Eingabedatenarten auf Basis der Informationen generieren. Wie vorstehend beschrieben, kann der Eingabedaten-Wertermittler 350 alternativ dazu, einen Geräteidentifikator, der für das vom identifizierten Benutzer verwendete mobile Computergerät gespeichert ist, identifizieren, Informationen vom identifizierten mobilen Computergerät anfordern, die angeforderten Informationen von den anderen Geräten erhalten, und dann Werte für die Eingabedatenarten auf Basis der Informationen generieren.
  • Der Eingabedaten-Wertermittler 350 kann die ermittelten Datenarten für die Schnittstellenbereitstellungsvorrichtung 360 bereitstellen. Zum Beispiel kann der Eingabedaten-Wertermittler 350 der Schnittstellenbereitstellungsvorrichtung 360 eine Angabe darüber bereitstellen, dass ein mobiles Computergerät des Benutzers sich nicht in einem vertrauenswürdigen Bereich befindet und dass das mobile Computergerät des Benutzers sich seit seiner Entsperrung im Kontakt mit dem Körper einer Person befunden hat.
  • Die Schnittstellenbereiteteilungsvorrichtung 360 kann eine Angabe eines ausgewählten Dienstleistungsanbieters und eine ausgewählte Sprachfunktion von der Bereitstellungsauswahlmaschine 330 erhalten und kann Werte der Eingabedatenarten vom Eingabedaten-Wertermittler 350 erhalten und als Antwort einen oder mehrere Werte der Eingabedatenarten und eine Anfrage an den ausgewählten Dienstleistungsanbieter bereitstellen, um die ausgewählte Sprachfunktion durchzuführen. Zum Beispiel kann die Schnittstellenbereitstellungsvorrichtung 360 eine Angabe eines ausgewählten Dienstleistungsanbieters für das Erhitzen, Lüften, Kühlen (HVAC-Steuerung) der Umgebung und eine Angabe der ausgewählten Sprachfunktion zur Änderung der Temperatur erhalten, sowie auch Daten für Eingabedatenarten, die angeben, dass (i) eine 80%ige Stimmenabgleichskonfidenz darüber besteht, dass es sich bei dem Benutzer um „John Doe“ handelt, und (ii) dass das mobile Computergerät von „John Doe“ sich in einem bestimmten geographischen Bereich befindet, und (iii) dass sich das mobile Computergerät vor seiner letzten Entsperrung in Kontakt dem Körper einer Person befunden hat. Mit diesen Informationen stellt die Schnittstellenbereitstellungsvorrichtung 360 dem ausgewählten Dienstleitungsanbieter eine Angabe einer ausgewählten Sprachfunktion zur Änderung der Temperatur bereit und stellt Werte bereit, die angeben, dass (i) eine 80%ige Stimmenabgleichskonfidenz darüber besteht, dass es sich bei dem Benutzer um „John Doe“ handelt, und (ii) dass das mobile Computergerät von „John Doe“ sich in einem bestimmten geographischen Bereich befindet. Die Schnittstellenbereitstellungsvorrichtung 360 kann das Bereitstellen eines Werts, der angibt, dass das mobile Computergerät sich vor seiner letzten Entsperrung in Kontakt mit dem Körper einer Person befunden hat, auslassen, da der ausgewählte Dienstleistungsanbieter diese Art von Eingabedatenart möglicherweise nicht verwendet.
  • Die Schnittstellenbereitstellungsvorrichtung 360 kann einen oder mehrere Werte bereitstellen, die der identifizierten einen oder der mehreren Eingabedatenarten auf Basis des Ermittelns einer Teilmenge an Eingabedatenarten entspricht, die der ausgewählte Dienstleistungsanbieter verwendet, um eine Authentifizierung für eine ausgewählte Sprachfunktion durchzuführen. Auf Basis der Feststellung, dass der ausgewählte Dienstleistungsanbieter für die HVAC-Steuerung diese Eingabedatenarten zur Authentifizierung für die ausgewählte Sprachfunktion zur Änderung der Temperatur verwendet, kann die Schnittstellenbereitstellungsvorrichtung 360 zum Beispiel Werte bereitstellen, die eine Sprachabglelchskonfidenz bereitstellen und besagen, ob ein mobiles Computergerät dieses übereinstimmenden Benutzers sich in einem bestimmten geographischen Bereich befindet. Unterschiedliche kontextabhängige Informationen können, je nachdem welcher Dienstleistungsanbieter ausgewählt wird, bereitgestellt werden, um die Sprachfunktionsanforderung bewältigen zu können. Falls das HVAC-Steuersystem in einem anderen Beispiel die Zustandsinformationen über ein mobiles Computergerät verwendet, kann die Schnittstellenbereitstellungsvorrichtung 360 zusätzlich einen Wert bereitstellen, der angibt, ob das mobile Computergerät sich seit seiner letzten Entsperrung in Kontakt mit dem Körper einer Person befunden hat. In einem nach weiteren Beispiel kann die Schnittstellenbereitstellungsvorrichtung 360 Werte der Eingabedatenarten der Sprachabgleichskonfldenz bereitstellen, und besagen, ob ein Gesicht in einer gegenwärtigen Ansicht einer Kamera des mobilen Computergeräts mit der Stimme des abgeglichenen Benutzers übereinstimmt, sofern man von der Feststellung ausgeht, dass für die ausgewählte Sprachfunktion zur Änderung der Temperatur ein anderer, unterschiedlicher ausgewählter Dienstleistungsanbieter zur HVAC-Steuerung diese Eingabedatenarten zum Zwecke der Authentifizierung verwendet.
  • Die Schnittstellenbereitstellungsvorrichtung 360 kann eine Antwort von einem Dienstleistungsanbieter erhalten, in der angegeben wird, ob die Sprachfunktion durchgeführt wurde, oder ob zusätzliche Informationen zum Zwecke der Authentifizierung erforderlich sind. Zum Beispiel kann die Schnittstellenbereitstellungsvorrichtung 360 eine Angabe von einem ausgewählten Dienstleistungsanbieter zur HVAC-Steuerung darüber erhalten, dass die Sprachfunktion zur Änderung der Temperatur fertiggestellt wurde. In einem anderen Beispiel kann die Schnittstellenbereitstellungsvorrichtung 360 eine Angabe von einem ausgewählten Dienstleistungsanbieter zur HVAC-Steuerung darüber erhalten, dass die Sprachfunktion zur Änderung der Temperatur nicht fertig gestellt wurde, und dass besondere zusätzliche Informationsarten zum Zwecke der Authentifizierung erforderlich sind. Die Schnittstellenbereitstellungsvorrichtung 360 kann die Angabe dem Konversationsmanager 310 bereitstellen und der Konversationsmanager 310 kann die Angabe, wie vorstehend erörtert, dem Benutzer bereitstellen.
  • Verschiedene Konfigurationen des Servers 300 können in denjenigen Fällen verwendet werden, in denen die Funktionalität des Konversationsmanagers 310, der automatischen Spracherkennungsvorrichtung 320, der Bereitstellungsauswahlmaschine 330, der Sprachfunktionsdatenbank 332, des Sprecher-Identifikators 340, der Stimmabdruck-Datenbank des Sprechers 342, des Eingabedaten-Wertermittters 350 und der Schnittstellenbereitstellungsvorrichtung 360 kombiniert, weiter getrennt, verteilt oder untereinander ausgetauscht werden können. Zum Beispiel kann die Schnittstellenbereitstellungsvorrichtung 360 die Funktionen des Eingabedaten-Wortermittlers 350 durchführen, um nur diejenigen Werte für Eingabedatenarten zu ermitteln, die von einem ausgewählten Dienstleistungsanbieter zur Authentifizierung für eine ausgewählte Sprachfunktion verwendet werden. Das System 200 kann auf einem einzigen System und auf mehrere Systeme verteilt, Implementiert werden.
  • 4 ist ein Flussdiagramm, das ein Beispiel eines Verfahrens für das sichere Ausführen von Sprachfunktionen veranschaulicht. Die Operationen des Verfahrens 400 können von einem oder mehreren Rechensystemen, wie etwa dem Server 300 aus 3 durchgeführt werden.
  • Es werden Audiodaten, die einen Sprachbefehl darstellen, und eine Identifizierung des Sprechers erhalten (410). Zum Beispiel kann der Konversationsmanager 310 Audiodaten erhalten, die „Jane Doe“ repräsentieren, während sie „Sicherheitssystem deaktivieren.“ sagt. Das Erhalten der akustischen Daten und einer Identifizierung des Sprechers können das Einholen von akustischen Daten, die einen Sprachbefehl darstellen, der von einem Sprecher ausgesprochen wird, das Einholen eines Stimmabdrucks für den Sprecher, und dabei ermitteln, dass der Sprachabd ruck für den Sprecher mit den akustischen Daten übereinstimmt, die den vom Sprecher ausgesprochenen Sprachbefehl darstellen, und als Antwort auf das Ermitteln, dass der Stimmabdruck für den Sprecher mit den akustischen Daten übereinstimmt, die den vom Sprecher ausgesprochenen Sprachbefehl darstellen, das Generieren eines Sprechidentifikationsergebnisses, welches angibt, dass der Sprachbefehl vom Sprecher ausgesprochen wurde, beinhalten.
  • Es kann eine Sprachfunktion ausgewählt werden (420). Zum Beispiel kann die automatische Spracherkennungsvorrichtung 320 die Transkription „Sicherheitssystem deaktivieren“ generieren und diese Transkription der Bereitstellungsauswahlmaschine 330 bereitstellen, die ermitteln kann, dass diese Begriffe mit einer Sprachfunktion zur Deaktivierung eines Sicherheitssystems übereinstimmen, die mit den Begriffen „Sicherheitssystem deaktivieren“ in Verbindung gebracht wird. Das Auswählen der Sprachfunktion, kann das Einholen eines Satzes von Sprachfunktionen beinhalten, im Rahmen derer, jede Sprachfunktion einen oder mehrere Begriffe identifiziert, die dieser jeweiligen Sprachfunktionen entsprechen, wobei ermittelt wird, dass ein oder mehrere Begriffe in der Transkription mit einem oder mit mehreren Begriffen, die der Sprachfunktion entsprechen, übereinstimmen, und als Antwort auf das Ermitteln, dass ein oder mehrere Begriffe in der Transkription mit einem oder mit mehreren Begriffen, die der Sprachfunktionen entsprechen, übereinstimmen, findet das Auswählen der Sprachfunktionen aus einem Satz von Sprachfunktionen statt.
  • Ein Dienstleistungsanbieter, der der Sprachfunktion entspricht, kann ausgewählt werden (430). Zum Beispiel kann die Bereitstellungssauswahlmaschine 330 ermitteln, dass ein Dienstleistungsanbieter die Sprachfunktion zur Deaktivierung eines Sicherheitssystems für ein Heimsicherheitssystem durchführen und als Antwort den Dienstleistungsanbieter für ein Heimsicherheitssystem auswählen kann. Das Auswählen eines Dienstleistungsanbieters, welcher der Sprachfunktion entspricht, kann das Einholen einer Leitung der Sprachfunktionen zur Mehrheit der Dienstleistungsanbieter beinhalten, wobei diese Führung für jede Sprachfunktion einen Dienstleistungsanbieter beschreibt, der die Sprachfunktion durchführen kann, und dabei ermittelt, dass die Leitung der Sprachfunktionen angibt, dass der Dienstleistungsanbieter die ausgewählte Sprachfunktionen durchführen kann und als Antwort auf das Ermitteln, dass die Leitung der Sprachfunktionen angibt, dass der Dienstleistungsanbieter die ausgewählte Sprachfunktion durchführen kann, den Dienstleistungsanbieter auswählt.
  • Eingabedatenarten, die der ausgewählte Dienstleistungsanbieter verwendet, um die Authentifizierung durchzuführen, können identifiziert werden (440). Zum Beispiel kann die Schnittstellenbereitstellungsvorrichtung 360 identifizieren, dass der ausgewählte Dienstleistungsanbieter für ein Heimsicherheitssystem die Eingabedatenarten der Sprachabgleichskonfidenz verwendet und ob das mobile Computergerät eines Benutzers mit dem WiFi-Netzwerk eines Heims zur Authentifizierung der Sprachfunktion zur Deaktivierung eines Sicherheitssystems verbunden ist. Das Identifizieren von Eingabedatenarten kann das Bereitstellen einer Anfrage an einen ausgewählten Dienstleistungsanbieter nach einer Identifizierung des einen oder der mehreren Eingabedatenarten, die der ausgewählte Dienstleistungsanbieter verwendet, um die Authentifizierung für die ausgewählte Sprachfunktionen durchzuführen, wobei vom ausgewählten Dienstleistungsanbieter eine Antwort auf die Anfrage nach der Identifikation erhalten wird und aus der Antwort auf die Anfrage nach der Identifikation wird das Identifizieren des einen oder der mehreren Eingabedatenarten, die der ausgewählte Dienstleistungsanbieter verwendet, um die Authentifizierung für die ausgewählte Sprachfunktionen durchzuführen, durchgeführt.
  • Eine Anforderung zur Durchführung einer ausgewählten Sprachfunktion und ein oder mehrere Werte, die den identifizierten Eingabedatenarten entsprechen, können bereitgestellt werden (450). Zum Beispiel kann die Schnittstellenbereitstellungsvorrichtung 360 dem ausgewählten Dienstleistungsanbieter für ein Heimsicherheitssystem eine Angabe darüber bereitstellen, dass die ausgewählte Sprachfunktion das Heimsicherheitssystems deaktiviert und die Werte zu 90% mit der Stimme von „Jane Doe“ übereinstimmen und, dass das mobile Computergerät von „Jane Doe“ mit dem WiFi-Netzwerk des Heims in Verbindung steht.
  • FIG, 5 zeigt ein Beispiel eines Computergeräts 500 und eines mobilen Computergeräts 550, das zur Implementierung der hier beschriebenen Techniken verwendet werden kann. Das Computergerät kann zum Beispiel den Sprachfunktionsserver 300 aus 3 verkörpern oder implementieren. Das Computergerät 500 ist vorgesehen, um die verschiedenen Formen digitaler Computer, wie etwa Laptops, Desktops, Workstations, persönliche digitale Assistenten, Server, Blade-Server, Großrechner und andere geeignete Computer zu repräsentieren. Das mobile Computergerät 550 dient zur Darstellung verschiedener Computergeräte, wie etwa persönliche digitale Assistenten, Mobiltelefone, Smartphones und sonstige ähnliche Computergeräte. Hier gezeigten Komponenten, ihre Verbindungen und Beziehungen, sowie ihre Funktionen sind rein exemplarisch gemeint und sollen keine Einschränkungen darstellen.
  • Das Computergerät 500 beinhaltet einen Prozessor 502, einen Speicher 504, eine Speichereinrichtung 506, eine High-Speed Schnittstelle 508, mit Anschluss an der Speicher 504 und mehrere High-Speed-Ports 510, sowie eine Low-Speed-Schnittstelle 512 mit Anschluss an den Low-Speed-Erweiterungsport 514 und die Speichervorrichtung 506. Jeder der im Folgenden Aufgeführten: der Prozessor 502, der Speicher 504, das Speichergerät 506, die High-Speed-Schnittstelle 508, die High-Speed-Erweiterungsports 510 und die Low-Speed-Schnittstelle 512 werden unter Verwendung verschiedener Busse miteinander verbunden und können auf eine gemeinsame Hauptplatine oder auf sonstige dafür geeignete Weisen angebracht werden. Der Prozessor 502 kann Anweisungen zur Ausführung Innerhalb des Computergeräts 500 verarbeiten, die Anweisungen beinhalten, die in dem Speicher 504 oder auf der Speichervorrichtung 506 gespeichert sind, um grafische Informationen für eine grafische Benutzeroberfläche (GUI) auf einer externen Elngabe-/Ausgabevorrichtung, wie Anzeige 516, die mit Hochgeschwindigkeitsschnittstelle 508 verbunden ist, anzuzeigen. In anderen Implementierungen können mehrere Prozessoren und/oder mehrere Busse verwendet werden, wie angemessen, zusammen mit mehreren Speichern und Speichertypen. Außerdem können mehrere Computergeräte verbunden sein, wobei jedes Gerät Abschnitte der nötigen Operationen bereitstellt (z. B. als eine Serverbank, eine Gruppe von Blade-Servem oder ein Multiprozessorsystem).
  • Der Speicher 504 speichert Informationen innerhalb des Computergeräts 500. In einigen Implementierungen handelt es sich bei dem Speicher 504 um eine flüchtige Speichereinheit oder mehrere derartige Einheiten. In einigen Implementierungen handelt es sich bei dem Speicher 504 um eine nicht-flüchtige Speichereinheit oder mehrere derartige Speichereinheiten. Der Speicher 504 kann auch eine andere Form von computerlesbarem Medium sein, zum Beispiel ein magnetischer oder optischer Datenträger.
  • Das Speichergerät 506 kann Massenspeicher für das Computergerät 500 bereitstellen. In einigen Implementierungen kann die Speichervorrichtung 506 ein computerlesbares Medium, z. B. ein Diskettenlaufwerk, eine Festplatte, ein optisches Laufwerk oder ein Bandlaufwerk, einen Flash-Speicher oder andere ähnliche Speicherelemente oder mehrere Geräte, einschließlich Geräte in einem Speichernetzwerk oder anderen Konfigurationen beinhalten. Anweisungen können in einem Informationsträger gespeichert werden. Die Anweisungen führen, wenn sie von einem oder mehreren Verarbeitungsgeräten (zum Beispiel Prozessor 502) ausgeführt werden, ein oder mehrere Verfahren, wie etwa die oben beschriebenen, aus. Die Anweisungen können auch auf einem oder mehreren Speichergeräten, wie etwa computer- oder maschinenlesbare, Medien (zum Beispiel der Speicher 504, und das Speichergerät 506, oder Speicher auf dem Prozessor 502) gespeichert werden.
  • Die High-Speed-Schnittstelle 508 verwaltet bandbreitenintensive Vorgänge für das Computergerät 500, während die Low-Speed-Schnittstelle 512 die weniger bandbreitenintensiven Vorgänge verwaltet. Eine solche Zuordnung von Funktionen ist nur exemplarisch. In einigen Implementierungen ist die High-Speed-Schnittstelle 508 an den Speicher 504, den Bildschirm 516 (z.B. durch einen Grafikprozessor oder -Beschleuniger) und die High-Speed-Erweiterungsports 510 gekoppelt, die gegebenenfalls verschiedene Erweiterungskarten (nicht dargestellt) akzeptieren. In der Implementierung ist die Low-Speed-Schnittstelle 512 an die Speichervorrichtung 506 und die Low-Speed-Erweiterungsports 514 gekoppelt. Der Low-Speed-Expansionsport 514, der verschiedene Kommunikationsanschlüsse (z.B. USB, Bluetooth, Ethernet, Funkethernet) beinhalten kann, kann an ein oder mehrere Eingabe-/Ausgabe-Geräte, wie eine Tastatur, ein Zeigegerät, einen Scanner oder ein Netzwerkgerät, wie einen Switch oder Router, z.B. durch einen Netzwerkadapter gekoppelt sein.
  • Das Computergerät 500 kann, wie in der Figur ersichtlich, in einer Reihe verschiedener Formen implementiert sein. Es kann zum Beispiel als Standardserver 520 oder mehrmals in einer Gruppe derartiger Server implementiert sein. Darüber hinaus kann er ebenfalls in einem PC wie einem Laptopcomputer 522 implementiert werden. Er kann ebenfalls als Bestandteil eines Rack-Serversystems 524 implementiert werden. Alternativ können Komponenten des Computergeräts 500 mit anderen Komponenten in einem mobilen Gerät (nicht dargestellt), wie etwa Computergerät 550 kombiniert werden. Jedes solcher Geräte kann ein oder mehrere Computergeräte 500 und das mobile Computergerät 550 beinhalten und ein gesamtes System kann aus mehreren Computergeräten bestehen, die miteinander kommunizieren.
  • Das mobile Computergerät 550 beinhaltet unter anderen Komponenten auch einen Prozessor 552, einen Speicher 564, ein Ein-/Ausgabegerät, wie etwa eine Anzeige 554, eine Kommunikationsschnittstelle 566 und einen Transceiver 568. Das mobile Computergerät 550 kann ebenfalls mit einer Speichervorrichtung ausgestattet sein, wie etwa einem Microdrive oder einem anderen Gerät, um zusätzlichen Speicher bereitzustellen. Alle der Folgenden: der Prozessor 552, der Speicher 564, die Anzeige 554, die Kommunikationsschnittstelle 566, und der Transceiver 568 sind mithilfe verschiedener Busse miteinander verbunden und mehrere der Komponenten können an einer gemeinsamen Hauptplatine oder auf andere Weise, je nach Bedarf, angebracht sein.
  • Der Prozessor 552 kann die Anweisungen innerhalb der mobilen Computereinrichtung 550 ausführen, einschließlich Anweisungen, die im Speicher 564 gespeichert sind. Der Prozessor 552 kann als ein Chipsatz von Chips implementiert werden, die separate und mehrere analoge und digitale Prozessoren beinhalten. Der Prozessor 552 kann zum Beispiel die Koordination der anderen Komponenten des mobilen Computergeräts 550, wie etwa die Kontrolle von Benutzeroberflächen, Anwendungen, die vom mobilen Computergerät 550 ausgeführt werden, und die drahtlose Kommunikation mittels des mobilen Computergerät 550 bereitstellen.
  • Der Prozessor 552 kann mit einem Benutzer über eine Kontrollschnittstelle 558 und eine Displayschnittstelle 556, die an das Display 554 gekoppelt sind, kommunizieren. Das Display 554 kann zum Beispiel ein TFT (Thin-Film-Transistor Liquid Crystal Display)-Display oder ein OLED (Organic Light Emitting Diode)-Display oder eine andere geeignete Displaytechnologie sein. Die Displayschnittstelle 556 kann eine geeignete Schaltung enthalten, die das Display 554 dazu bringt, einem Benutzer grafische und andere Informationen zu präsentieren. Die Steuerschnittstelle 558 kann Befehle von einem Benutzer empfangen und sie für die Sendung an Prozessor 552 umwandeln. Zusätzlich kann eine externe Schnittstelle 562 eine Kommunikation mit dem Prozessor 552 bereitstellen, um die Nahbereichskommunikation des mobilen Computergeräts 550 mit anderen Geräten zu ermöglichen. Die externe Schnittstelle 562 kann zum Beispiel die drahtgebundene Kommunikation in einigen Implementierungen oder die drahtlose Kommunikation in anderen Implementierungen bereitstellen, wobei ebenfalls mehrere Schnittstellen verwendet werden können
  • Der Speicher 564 Speicherinformationen innerhalb des mobilen Computergeräts 550. Der Speicher 564 kann als eines oder mehrere computerlesbare Medien, flüchtige Speichergeräte oder nicht flüchtige Speichergeräte implementiert werden. Die Speichererweiterung 574 kann ebenfalls bereitgestellt und durch die Expansionsschnittstelle 572, zu der beispielsweise eine SIMM (Single In Line Memory Module) Schnittstelle gehören kann, mit dem mobilen Computergerät 550 verbunden werden. Die Speichererweiterung 574 kann zusätzlichen Speicherplatz für das mobile Computergerät 550 bereitstellen oder ebenfalls Anwendungen oder andere Informationen für das mobile Computergerät 550 speichern. Insbesondere kann die Speichererweiterung 574 Anweisungen enthalten, die zur Ausführung oder Ergänzung der vorstehend beschriebenen Prozesse erforderlich sind; zudem kann sie vertrauliche Informationen beinhalten. So kann die Speichererweiterung 574 zum Beispiel ein Sicherheitsmodul für das mobile Computergerät 550 eingesetzt und mit Anweisungen programmiert werden, die eine sichere Nutzung des mobilen Computergeräts 550 ermöglichen. Zusätzlich dazu können über die SIMM-Cards, zusammen mit zusätzlichen Informationen, wie das Ablegen von Identifizierungsinformationen auf der SIMM-Card, sichere Anwendungen, auf eine Weise, die nicht gehackt werden kann, bereitgestellt werden.
  • Der Speicher kann zum Beispiel Flash-Speicher und/oder NVRAM-Speicher (nicht-flüchtiger Direktzugriffspeicher), wie vorstehend besprochen beinhalten. In einigen Implementierungen werden Anweisungen in einem informationsträger gespeichert, so dass die Anweisungen, wenn sie von einem oder mehreren Verarbeitungsgeräten (zum Beispiel Prozessor 552) ausgeführt werden, ein oder mehrere Verfahren, wie etwa die oben beschriebenen, ausführen. Die Anweisungen können auch mittels eines oder mehrerer Speichergeräte, wie etwa einem oder mehreren computer- oder maschinenlesbaren Medien (zum Beispiel Speicher 564, der Erweiterungsspeicher 574, oder Speicher auf den Prozessor 552), gespeichert werden. In einigen Implementierungen können Anweisungen in einem propagierten Signal empfangen werden, zum Beispiel über der Transceiver 566 oder der externen Schnittstelle 562.
  • Das mobile Computergerät 550 kann drahtlos über die Kommunikationsschnittstelle 566 kommunizieren, die gegebenenfalls eine digitale Signalverarbeitungsschaltung beinhaltet. Die Kommunikationsschnittstelle 566 kann Kommunikationen unter verschiedenen Modi oder Protokollen, unter anderem wie etwa GSM - Sprachverbindungen (Global System for Mobile Communication), SMS, dem Kurzmeldungsdienst (Short Message Service), EMS (dem erweiterten Nachrichtenservice) oder MMS (dem Multimedia Messaging Service), CDMA - (dem Code Division Multiple Access), TDMA - (dem Time Division Multiple Access), PDC - (dem Personal Digital Cellular System), WCDMA - (dem Wideband Code Division Multiple Access), CDMA2000 oder GPRS (dem General Packet Radio System) vorsehen. Eine derartige Kommunikation kann beispielsweise über den Transceiver 568 unter Verwendung einer Radiofrequenz erfolgen. Zusätzlich kann eine Kurzstreckenkommunikation stattfinden, wie unter Verwendung eines Bluetooth-, WLAN- oder anderen solchen Sende-Empfängers (nicht gezeigt). Zusätzlich kann das GPS-Empfängermodul (GPS = Global Positioning System) 570 zusätzliche navigations- und ortsbezogene drahtlose Daten an das mobile Computergerät 550 bereitstellen, die von Anwendungen auf dem mobilen Computergerät 550 entsprechend verwendet werden.
  • Das mobile Computergerät 550 kann ebenfalls unter Verwendung des Audio-Codec 560, der gesprochene Informationen von einem Benutzer empfangen und diese in nutzbare digitale Informationen konvertieren kann, hörbar kommunizieren. Der Audio-Codec 560 kann gleichermaßen einen hörbaren Ton für einen Benutzer, wie etwa über einen Lautsprecher, zum Beispiel in ein Handset eines mobilen Computergeräts 550, generieren. Ein derartiger Ton kann einen Ton von Sprachfernsprechverbindungen beinhalten, kann aufgenommene Töne (z. B. Sprachnachrichten, Musikdateien, usw.) beinhalten und kann auch Töne, beinhalten, die von Anwendungen generiert werden, die auf einem mobilen Computergerät 550 betrieben werden.
  • Das mobile Computergerät 550 kann, wie aus der Figur hervorgeht, auf verschiedene Weise, implementiert werden. Es kann zum Beispiel als ein Mobiltelefon 580 implementiert werden. Es kann außerdem als Teil eines Smartphones 582, eines persönlichen digitalen Assistenten oder eines anderen ähnlichen mobilen Geräts implementiert werden.

Claims (19)

  1. Verfahren, das von einem Sprachfunktionsserver durchgeführt wird, wobei das Verfahren die im Folgenden aufgeführten Sachverhalte umfasst: das Einholen (i) von akustischen Daten von einem örtlichen Gerät, die einen Sprachbefehl darstellen, der von einem Sprecher ausgesprochen wird und (ii) eines Sprecheridentifizierungsergebnisses, das angibt, dass der Sprachbefehl von einem Sprecher ausgesprochen wurde; das Auswählen einer Sprachfunktion, die mindestens auf einer Transkription der Audiodaten basiert; das Auswählen eines Dienstleistungsanbieters, welcher der ausgewählten Sprachfunktion aus einer Vielzahl verschiedener Dienstleistungsanbieter entspricht; das Bereitstellen einer Anfrage an den ausgewählten Dienstleistungsanbieter, (i) die ausgewählte Sprachfunktion durchzuführen und (ii) des Sprecheridentifizierungsergebnisses, nach dem Bereitstellen der Anfrage, das Bereitstellen einer Anfrage nach zusätzlicher Authentifizierung an das örtliche Gerät, die den Sprecher dazu auffordert einen ausdrücklichen Autorisierungscode bereitzustellen, den der ausgewählte Dienstleistungsanbieter benötigt, um die ausgewählte Sprachfunktion durchzuführen; und nach dem Bereitstellen des ausdrücklichen Autorisierungscodes an den Dienstleistungsanbieter, das Bereitstellen einer Angabe an das örtliche Gerät, dass der ausgewählte Dienstleistungsanbieter die ausgewählte Sprachfunktion durchgeführt hat.
  2. Verfahren nach Anspruch 1, wobei das Einholen (i) der akustischen Daten, die einen von einem Sprecher ausgesprochenen Sprachbefehl darstellen und (ii) ein Sprecheridentifizierungsergebnis, das angibt, dass der Sprachbefehl von einem Sprecher ausgesprochen wurde Folgendes umfassen: das Einholen von akustischen Daten, die einen Sprachbefehl darstellen, der vom Sprecher ausgesprochen wird; das Einholen eines Stimmabdrucks für den Sprecher; das Ermitteln, dass der Sprachabdruck für den Sprecher mit den akustischen Daten übereinstimmt, die den vom Sprecher ausgesprochenen Sprachbefehl darstellen; und das Generieren, in Reaktion auf das Ermitteln, dass der Stimmabdruck für den Sprecher mit den akustischen Daten übereinstimmt, die den vom Sprecher ausgesprochenen Sprachbefehl darstellen, eines Sprechidentifikationsergebnisses, welches angibt, dass der Sprachbefehl vom Sprecher ausgesprochen wurde.
  3. Verfahren nach Anspruch 1 oder 2, wobei das Auswählen einer Sprachfunktion, die mindestens auf einer Transkription der Audiodaten basiert, Folgendes umfasst: das Einholen eines Satzes von Sprachfunktionen, im Rahmen derer, jede Sprachfunktion einen oder mehrere Begriffe identifiziert, die dieser jeweiligen Sprachfunktion entsprechen; das Ermitteln, dass der eine oder die mehreren Begriffe in der Transkription mit dem einen oder den mehreren Begriffen, die einer Sprachfunktion entsprechen, übereinstimmen; und das Auswählen, in Reaktion auf das Ermitteln, dass der eine oder die mehreren Begriffe in der Transkription mit dem einen oder den mehreren Begriffen übereinstimmen, die der Sprachfunktion entsprechen, einer Sprachfunktion aus dem Satz von Sprachfunktionen.
  4. Verfahren nach Anspruch 1, 2 oder 3, wobei das Auswählen eines Dienstleistungsanbieters, welcher der ausgewählten Sprachfunktion aus einer Vielzahl verschiedener Dienstleistungsanbieter entspricht, Folgendes umfasst: das Einholen einer Leitung der Sprachfunktionen zur Mehrheit der Dienstleistungsanbieter, wobei diese Führung für jede Sprachfunktion einen Dienstleistungsanbieter beschreibt, der die Sprachfunktion durchführen kann; das Ermitteln, dass die Leitung der Sprachfunktionen angibt, dass der Dienstleistungsanbieter die ausgewählte Sprachfunktion durchführen kann; und das Auswählen des Dienstleistungsanbieters, in Reaktion auf das Ermitteln, dass die Leitung der Sprachfunktionen angibt, dass der Dienstleistungsanbieter die ausgewählte Sprachfunktion durchführen kann.
  5. Verfahren nach einem der vorhergehenden Ansprüche, welches Folgendes umfasst: das Generieren der Transkription der akustischen Daten unter Verwendung einer automatischen Spracherkennungsvorrichtung.
  6. Verfahren nach einem der vorhergehenden Ansprüche, welches Folgendes umfasst: das Erhalten einer Angabe vom Dienstleistungsanbieter, dass eine zusätzliche Authentifizierung erforderlich ist, um die ausgewählte Sprachfunktion durchzuführen; und das Bereitstellen, in Reaktion auf das Erhalten der Angabe vom Dienstleistungsanbieter, dass eine zusätzliche Authentifizierung erforderlich ist, um die ausgewählte Sprachfunktion durchzuführen, einer Anfrage nach einer zusätzlichen Authentifizierung.
  7. Verfahren nach einem der vorhergehenden Ansprüche, welches Folgendes umfasst: das Erhalten einer Angabe vom Dienstleistungsanbieter, gemäß der die ausgewählte Sprachfunktion ausgeführt wurde.
  8. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Identifizieren einer oder mehrerer Eingabedatenarten, die vom ausgewählten Dienstleistungsanbieter verwendet werden, um die Authentifizierung für die ausgewählte Sprachfunktion auszuführen, Folgendes umfasst: das Bereitstellen einer Anfrage an den ausgewählten Dienstleistungsanbieter nach einer Identifizierung des einen oder der mehreren Eingabedatenarten, die vom ausgewählten Dienstleistungsanbieter verwendet werden, um die Authentifizierung für die ausgewählte sprachliche Funktion durchzuführen; das Erhalten einer Antwort auf die Anforderung nach einer Identifizierung; und das Identifizieren der einen oder der mehreren Eingabedatenarten, die vom ausgewählten Dienstleistungsanbieter verwendet werden, um die Authentifizierung für die ausgewählte Sprachfunktion von der Antwort auf die Anforderung nach einer Identifizierung auszuführen.
  9. Verfahren nach einem der Ansprüche 1 bis 7, wobei das Identifizieren einer oder mehrerer Eingabedatenarten, die vom ausgewählten Dienstleistungsanbieter verwendet werden, um die Authentifizierung für die ausgewählte Sprachfunktion auszuführen, Folgendes umfasst: das Identifizieren des ausgewählten Dienstleistungsanbieters bedient sich einer oder mehrerer einer Eingabedatenart, die angibt, ob das mobile Computergerät des Sprechers sich seit seiner letzten Entsperrung in Kontakt mit einem Körper befunden hat, einer Eingabedatenart, die angibt, ob das mobile Computergerät eines Sprechers sich in einer Kurzstreckenkommunikation mit einem bestimmten Gerät befunden hat, einer Eingabedatenart, die angibt, ob das mobile Computergerät eines Sprechers sich innerhalb eines bestimmten geographischen Bereichs befindet, oder einer Eingabedatenart, die angibt, ob das Gesicht eines Sprechers sich im Sichtfeld eines Geräts befindet.
  10. System, Folgendes umfassend: einen oder mehrere Computer, und eine oder mehrere Speichereinrichtungen, welche Anweisungen speichert, die betreibbar sind, wenn sie von einem oder mehreren Computern ausgeführt werden, um den ein oder die mehreren Computer dazu zu veranlassen, Operationen auszuführen, welche Folgendes umfassen: das Einholen (i) von akustischen Daten von einem örtlichen Gerät, die einen Sprachbefehl darstellen, der von einem Sprecher ausgesprochen wird und (ii) eines Sprecheridentifizierungsergebnisses, das angibt, dass der Sprachbefehl von einem Sprecher ausgesprochen wurde; das Auswählen einer Sprachfunktion, die mindestens auf einer Transkription der Audiodaten basiert; das Auswählen eines Dienstleistungsanbieters, welcher der ausgewählten Sprachfunktion aus einer Vielzahl verschiedener Dienstleistungsanbieter entspricht; das Bereitstellen einer Anfrage an den ausgewählten Dienstleistungsanbieter, (i) die ausgewählte Sprachfunktion durchzuführen und (ii) des Sprecheridentifizierungsergebnisses nach dem Bereitstellen der Anfrage, das Bereitstellen einer Anfrage nach zusätzlicher Authentifizierung an das örtliche Gerät, die den Sprecher dazu auffordert einen ausdrücklichen Autorisierungscode bereitzustellen, den der ausgewählte Dienstleistungsanbieter benötigt, um die ausgewählte Sprachfunktion durchzuführen; und nach dem Bereitstellen des ausdrücklichen Autorisierungscodes an den Dienstleistungsanbieter, das Bereitstellen einer Angabe an das örtliche Gerät, dass der ausgewählte Dienstleistungsanbieter die ausgewählte Sprachfunktion durchgeführt hat.
  11. System nach Anspruch 10, wobei das Einholen (i) der akustischen Daten, die einen von einem Sprecher ausgesprochenen Sprachbefehl darstellen und (ii) ein Sprecheridentifizierungsergebnis, das angibt, dass der Sprachbefehl von einem Sprecher ausgesprochen wurde Folgendes umfassen: das Einholen von akustischen Daten, die einen Sprachbefehl darstellen, der vom Sprecher ausgesprochen wird; das Einholen eines Stimmabdrucks für den Sprecher; das Ermitteln, dass der Sprachabdruck für den Sprecher mit den akustischen Daten übereinstimmt, die den vom Sprecher ausgesprochenen Sprachbefehl darstellen; und das Generieren, in Reaktion auf das Ermitteln, dass der Stimmabdruck für den Sprecher mit den akustischen Daten übereinstimmt, die den vom Sprecher ausgesprochenen Sprachbefehl darstellen, eines Sprechidentifikationsergebnisses, welches angibt, dass der Sprachbefehl vom Sprecher ausgesprochen wurde.
  12. System nach Anspruch 10 oder 11, wobei das Auswählen einer Sprachfunktion, die mindestens auf einer Transkription der Audiodaten basiert, Folgendes umfasst: das Einholen eines Satzes von Sprachfunktionen, im Rahmen derer, jede Sprachfunktion einen oder mehrere Begriffe identifiziert, die dieser jeweiligen Sprachfunktion entsprechen; das Ermitteln, dass der eine oder die mehreren Begriffe in der Transkription mit dem einen oder den mehreren Begriffen, die einer Sprachfunktion entsprechen, übereinstimmen; und das Auswählen, in Reaktion auf das Ermitteln, dass der eine oder die mehreren Begriffe in der Transkription mit dem einen oder den mehreren Begriffen übereinstimmen, die der Sprachfunktion entsprechen, einer Sprachfunktion aus dem Satz von Sprachfunktionen.
  13. System nach Anspruch 10, 11 oder 12, wobei das Auswählen eines Dienstleistungsanbieters, welcher der ausgewählten Sprachfunktion aus einer Vielzahl verschiedener Dienstleistungsanbieter entspricht, Folgendes umfasst: das Einholen einer Leitung der Sprachfunktionen zur Mehrheit der Dienstleistungsanbieter, wobei diese Führung für jede Sprachfunktion einen Dienstleistungsanbieter beschreibt, der die Sprachfunktion durchführen kann; das Ermitteln, dass die Leitung der Sprachfunktionen angibt, dass der Dienstleistungsanbieter die ausgewählte Sprachfunktion durchführen kann; und das Auswählen des Dienstleistungsanbieters, in Reaktion auf das Ermitteln, dass die Leitung der Sprachfunktionen angibt, dass der Dienstleistungsanbieter die ausgewählte Sprachfunktion durchführen kann.
  14. System nach einem der Ansprüche 10 oder 13, wobei die Operationen weiterhin umfassen: das Generieren der Transkription der akustischen Daten unter Verwendung einer automatischen Spracherkennungsvorrichtung.
  15. System nach einem der Ansprüche 10 oder 14, wobei die Operationen weiterhin umfassen: das Erhalten einer Angabe vom Dienstleistungsanbieter, dass eine zusätzliche Authentifizierung erforderlich ist, um die ausgewählte Sprachfunktion durchzuführen; und das Bereitstellen, in Reaktion auf das Erhalten der Angabe vom Dienstleistungsanbieter, dass eine zusätzliche Authentifizierung erforderlich ist, um die ausgewählte Sprachfunktion durchzuführen, einer Anfrage nach einer zusätzlichen Authentifizierung.
  16. System nach einem der Ansprüche 10 oder 15, wobei die Operationen weiterhin umfassen: das Erhalten einer Angabe vom Dienstleistungsanbieter, gemäß der die ausgewählte Sprachfunktion ausgeführt wurde.
  17. System nach einem der Ansprüche 10 bis 16, wobei das Identifizieren einer oder mehrerer Eingabedatenarten, die vom ausgewählten Dienstleistungsanbieter verwendet werden, um die Authentifizierung für die ausgewählte Sprachfunktion auszuführen, Folgendes umfasst: das Bereitstellen einer Anfrage an den ausgewählten Dienstleistungsanbieter nach einer Identifizierung des einen oder der mehreren Eingabedatenarten, die vom ausgewählten Dienstleistungsanbieter verwendet werden, um die Authentifizierung für die ausgewählte sprachliche Funktion durchzuführen; das Erhalten einer Antwort auf die Anforderung nach einer Identifizierung; und das Identifizieren der einen oder der mehreren Eingabedatenarten, die vom ausgewählten Dienstleistungsanbieter verwendet werden, um die Authentifizierung für die ausgewählte Sprachfunktion von der Antwort auf die Anforderung nach einer Identifizierung auszuführen.
  18. System nach einem der Ansprüche 10 bis 16, wobei das Identifizieren einer oder mehrerer Eingabedatenarten, die vom ausgewählten Dienstleistungsanbieter verwendet werden, um die Authentifizierung für die ausgewählte Sprachfunktion auszuführen, Folgendes umfasst: das Identifizieren des ausgewählten Dienstleistungsanbieters bedient sich einer oder mehrerer einer Eingabedatenart, die angibt, ob das mobile Computergerät des Sprechers sich seit seiner letzten Entsperrung in Kontakt mit einem Körper befunden hat, einer Eingabedatenart, die angibt, ob das mobile Computergerät eines Sprechers sich in einer Kurzstreckenkommunikation mit einem bestimmten Gerät befunden hat, einer Eingabedatenart, die angibt, ob das mobile Computergerät eines Sprechers sich innerhalb eines bestimmten geographischen Bereichs befindet, oder einer Eingabedatenart, die angibt, ob das Gesicht eines Sprechers sich im Sichtfeld eines Geräts befindet.
  19. Computergestütztes Speichermedium, welches ein Computerprogramm speichert, wobei das Programm Anweisungen umfasst, die wenn sie von einem oder mehreren Computern ausgeführt werden, den einen oder die mehreren Computer dazu veranlassen Operationen durchzuführen, die ein Verfahren gemäß den Definitionen in einem der Ansprüche 1 bis 9 umfassen.
DE102016125494.0A 2016-06-10 2016-12-22 Das sichere Ausführen von Sprachfunktionen unter der Verwendung kontextabhängiger Signale Active DE102016125494B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/178,895 2016-06-10
US15/178,895 US10127926B2 (en) 2016-06-10 2016-06-10 Securely executing voice actions with speaker identification and authentication input types

Publications (2)

Publication Number Publication Date
DE102016125494A1 DE102016125494A1 (de) 2017-12-14
DE102016125494B4 true DE102016125494B4 (de) 2024-04-18

Family

ID=57543236

Family Applications (2)

Application Number Title Priority Date Filing Date
DE202016008226.5U Active DE202016008226U1 (de) 2016-06-10 2016-12-22 Das sichere Ausführen von Sprachfunktionen unter der Verwendung kontextabhängiger Signale
DE102016125494.0A Active DE102016125494B4 (de) 2016-06-10 2016-12-22 Das sichere Ausführen von Sprachfunktionen unter der Verwendung kontextabhängiger Signale

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE202016008226.5U Active DE202016008226U1 (de) 2016-06-10 2016-12-22 Das sichere Ausführen von Sprachfunktionen unter der Verwendung kontextabhängiger Signale

Country Status (5)

Country Link
US (4) US10127926B2 (de)
EP (2) EP3671734B1 (de)
CN (2) CN107491282B (de)
DE (2) DE202016008226U1 (de)
WO (1) WO2017213689A1 (de)

Families Citing this family (127)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10127926B2 (en) 2016-06-10 2018-11-13 Google Llc Securely executing voice actions with speaker identification and authentication input types
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10771969B2 (en) 2016-07-11 2020-09-08 T-Mobile Usa, Inc. Voice control and telecommunications service integration
US10885915B2 (en) * 2016-07-12 2021-01-05 Apple Inc. Intelligent software agent
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10555172B2 (en) 2016-09-07 2020-02-04 T-Mobile Usa, Inc. Untrusted device access to services over a cellular network
US10347245B2 (en) * 2016-12-23 2019-07-09 Soundhound, Inc. Natural language grammar enablement by speech characterization
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
CN109463004B (zh) * 2017-05-16 2023-07-21 苹果公司 数字助理服务的远场延伸
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
WO2019010309A1 (en) * 2017-07-05 2019-01-10 Johnson Controls Technology Company SYSTEMS AND METHODS FOR CONVERSATIONAL INTERACTION WITH A BUILDING AUTOMATION SYSTEM
US11120803B2 (en) * 2017-07-05 2021-09-14 Johnson Controls Tyco IP Holdings LLP Building automation system with NLP service abstraction
US11567726B2 (en) * 2017-07-21 2023-01-31 Google Llc Methods, systems, and media for providing information relating to detected events
KR101995443B1 (ko) * 2017-07-26 2019-07-02 네이버 주식회사 화자 검증 방법 및 음성인식 시스템
KR102002903B1 (ko) * 2017-07-26 2019-07-23 네이버 주식회사 화자 인증 방법 및 음성인식 시스템
JP7123540B2 (ja) 2017-09-25 2022-08-23 キヤノン株式会社 音声情報による入力を受け付ける情報処理端末、方法、その情報処理端末を含むシステム
JP7013193B2 (ja) * 2017-10-10 2022-01-31 キヤノン株式会社 システム、システムの制御方法、音声操作装置、音声操作装置の制御方法、およびプログラム
US11133000B2 (en) * 2017-10-13 2021-09-28 Johnson Controls Tyco IP Holdings LLP Systems and methods for voice control of BMS devices
DE102017128651A1 (de) * 2017-12-02 2019-06-06 Tobias Rückert Dialogsystem und Verfahren zur Umsetzung von Anweisungen eines Nutzers
KR102513297B1 (ko) * 2018-02-09 2023-03-24 삼성전자주식회사 전자 장치 및 전자 장치의 기능 실행 방법
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10885910B1 (en) 2018-03-14 2021-01-05 Amazon Technologies, Inc. Voice-forward graphical user interface mode management
US10877637B1 (en) 2018-03-14 2020-12-29 Amazon Technologies, Inc. Voice-based device operation mode management
US11127405B1 (en) * 2018-03-14 2021-09-21 Amazon Technologies, Inc. Selective requests for authentication for voice-based launching of applications
WO2019177298A1 (en) * 2018-03-15 2019-09-19 Samsung Electronics Co., Ltd. Method and apparatus for managing user authentication in a blockchain network
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
CN109087639B (zh) * 2018-08-02 2021-01-15 泰康保险集团股份有限公司 用于语音识别的方法、装置、电子设备及计算机可读介质
KR102574903B1 (ko) * 2018-08-08 2023-09-05 삼성전자주식회사 개인화된 장치 연결을 지원하는 전자 장치 및 그 방법
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11264029B2 (en) 2019-01-05 2022-03-01 Starkey Laboratories, Inc. Local artificial intelligence assistant system with ear-wearable device
US11264035B2 (en) 2019-01-05 2022-03-01 Starkey Laboratories, Inc. Audio signal processing for automatic transcription using ear-wearable device
KR20200092742A (ko) * 2019-01-25 2020-08-04 삼성전자주식회사 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11948582B2 (en) * 2019-03-25 2024-04-02 Omilia Natural Language Solutions Ltd. Systems and methods for speaker verification
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110349310B (zh) * 2019-07-03 2021-08-27 源创客控股集团有限公司 一种用于园区企业的定制提醒云平台服务系统
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11862168B1 (en) * 2020-03-30 2024-01-02 Amazon Technologies, Inc. Speaker disambiguation and transcription from multiple audio feeds
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
EP4264460A1 (de) 2021-01-25 2023-10-25 Apple Inc. Implementierung von biometrischer authentifizierung
US11978449B2 (en) 2021-03-02 2024-05-07 Samsung Electronics Co., Ltd. Electronic device for processing user utterance and operation method therefor
US20220317968A1 (en) * 2021-04-02 2022-10-06 Comcast Cable Communications, Llc Voice command processing using user interface context
KR20220141137A (ko) * 2021-04-12 2022-10-19 삼성전자주식회사 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
US11942090B2 (en) * 2021-06-04 2024-03-26 Apple Inc. Accessory device based authentication for digital assistant requests
US11881218B2 (en) * 2021-07-12 2024-01-23 Bank Of America Corporation Protection against voice misappropriation in a voice interaction system
US12021806B1 (en) 2021-09-21 2024-06-25 Apple Inc. Intelligent message delivery
US20230223031A1 (en) * 2022-01-11 2023-07-13 Google Llc User authentication, for assistant action, using data from other device(s) in a shared environment
EP4231177A1 (de) * 2022-02-16 2023-08-23 Deutsche Telekom AG Schützendes betriebsverfahren für ein sprachgesteuertes endgerät

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6496107B1 (en) 1999-07-23 2002-12-17 Richard B. Himmelstein Voice-controlled vehicle control system
US8543834B1 (en) 2012-09-10 2013-09-24 Google Inc. Voice authentication and command
US20150081295A1 (en) 2013-09-16 2015-03-19 Qualcomm Incorporated Method and apparatus for controlling access to applications
US20150241962A1 (en) 2012-10-22 2015-08-27 Vid Scale, Inc. User presence detection in mobile devices
US20160021105A1 (en) 2014-07-15 2016-01-21 Sensory, Incorporated Secure Voice Query Processing

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5940799A (en) * 1997-09-15 1999-08-17 Motorola, Inc. System and method for securing speech transactions
US6757718B1 (en) * 1999-01-05 2004-06-29 Sri International Mobile navigation of network-based electronic information using spoken input
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
EP1063636A3 (de) * 1999-05-21 2001-11-14 Winbond Electronics Corporation Verfahren und Vorrichtung für eine Standard-Benutzerschnittstelle sowie sprachgesteuerte Vorrichtungen
US8648692B2 (en) * 1999-07-23 2014-02-11 Seong Sang Investments Llc Accessing an automobile with a transponder
US6640098B1 (en) * 2000-02-14 2003-10-28 Action Engine Corporation System for obtaining service-related information for local interactive wireless devices
DE60103258T2 (de) * 2000-03-14 2005-05-19 British Telecommunications P.L.C. Gesicherte dienste
JP2001319045A (ja) * 2000-05-11 2001-11-16 Matsushita Electric Works Ltd 音声マンマシンインタフェースを用いたホームエージェントシステム、及びプログラム記録媒体
US6498970B2 (en) * 2001-04-17 2002-12-24 Koninklijke Phillips Electronics N.V. Automatic access to an automobile via biometrics
US20040010698A1 (en) * 2002-05-30 2004-01-15 Rolfe Andrew R. Digital certificate system incorporating voice biometric processing
US7299177B2 (en) * 2003-05-30 2007-11-20 American Express Travel Related Services Company, Inc. Speaker recognition in a multi-speaker environment and comparison of several voice prints to many
WO2005018139A1 (en) * 2003-08-07 2005-02-24 Georgia Tech Research Corporation Secure authentication of a user to a system and secure operation thereafter
US7378939B2 (en) * 2004-03-30 2008-05-27 Sengupta Uttam K Method and apparatus for providing proximity based authentication, security, and notification in a wireless system
US7698566B1 (en) * 2004-07-12 2010-04-13 Sprint Spectrum L.P. Location-based voice-print authentication method and system
US20080010678A1 (en) * 2004-09-17 2008-01-10 Jeff Burdette Authentication Proxy
US7536304B2 (en) * 2005-05-27 2009-05-19 Porticus, Inc. Method and system for bio-metric voice print authentication
US8451823B2 (en) * 2005-12-13 2013-05-28 Nuance Communications, Inc. Distributed off-line voice services
US20070143825A1 (en) * 2005-12-21 2007-06-21 Goffin Glen P Apparatus and method of tiered authentication
US7620386B2 (en) * 2006-06-08 2009-11-17 At&T Intellectual Property I, Lp Establishing a collaborative domain among communication terminals responsive to authentication
US9247056B2 (en) * 2007-02-28 2016-01-26 International Business Machines Corporation Identifying contact center agents based upon biometric characteristics of an agent's speech
US7881938B2 (en) * 2007-03-27 2011-02-01 Nuance Communications, Inc. Speech bookmarks in a voice user interface using a speech recognition engine and acoustically generated baseforms
US8032383B1 (en) * 2007-05-04 2011-10-04 Foneweb, Inc. Speech controlled services and devices using internet
US8010369B2 (en) * 2007-10-30 2011-08-30 At&T Intellectual Property I, L.P. System and method for controlling devices that are connected to a network
US20090190735A1 (en) * 2008-01-24 2009-07-30 General Motors Corporation Method and system for enhancing telematics services
GB2529973B (en) * 2011-02-22 2016-04-20 Theatro Labs Inc Observation platform for using structured communications
US9787655B2 (en) * 2011-12-09 2017-10-10 Airwatch Llc Controlling access to resources on a network
US8363086B1 (en) * 2012-02-06 2013-01-29 Google Inc. Initiating communications using short-range wireless communications
KR101971697B1 (ko) * 2012-02-24 2019-04-23 삼성전자주식회사 사용자 디바이스에서 복합 생체인식 정보를 이용한 사용자 인증 방법 및 장치
US9037472B2 (en) * 2012-04-20 2015-05-19 Nuance Communications, Inc. Method and system for facilitating communications for a user transaction
CN102833753A (zh) * 2012-08-07 2012-12-19 杭州米普科技有限公司 一种语音输入验证的装置及方法
US8571865B1 (en) * 2012-08-10 2013-10-29 Google Inc. Inference-aided speaker recognition
US9646610B2 (en) * 2012-10-30 2017-05-09 Motorola Solutions, Inc. Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition
US9837078B2 (en) * 2012-11-09 2017-12-05 Mattersight Corporation Methods and apparatus for identifying fraudulent callers
KR102091003B1 (ko) * 2012-12-10 2020-03-19 삼성전자 주식회사 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치
US9460715B2 (en) * 2013-03-04 2016-10-04 Amazon Technologies, Inc. Identification using audio signatures and additional characteristics
US9940616B1 (en) * 2013-03-14 2018-04-10 Square, Inc. Verifying proximity during payment transactions
US9384751B2 (en) 2013-05-06 2016-07-05 Honeywell International Inc. User authentication of voice controlled devices
US9058805B2 (en) * 2013-05-13 2015-06-16 Google Inc. Multiple recognizer speech recognition
US9485607B2 (en) * 2013-05-14 2016-11-01 Nokia Technologies Oy Enhancing the security of short-range communication in connection with an access control device
US20140359736A1 (en) * 2013-05-31 2014-12-04 Deviceauthority, Inc. Dynamic voiceprint authentication
US9754258B2 (en) * 2013-06-17 2017-09-05 Visa International Service Association Speech transaction processing
US9558749B1 (en) * 2013-08-01 2017-01-31 Amazon Technologies, Inc. Automatic speaker identification using speech recognition features
JP6522503B2 (ja) * 2013-08-29 2019-05-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器制御方法、表示制御方法及び購入決済方法
US9350717B1 (en) * 2013-09-23 2016-05-24 Amazon Technologies, Inc. Location service for user authentication
US20150113364A1 (en) * 2013-10-21 2015-04-23 Tata Consultancy Services Limited System and method for generating an audio-animated document
US9253198B2 (en) * 2013-10-29 2016-02-02 Mapquest, Inc. Systems and methods for geolocation-based authentication and authorization
US9860928B2 (en) * 2013-12-05 2018-01-02 Sony Corporation Pairing consumer electronic devices using a cross-body communications protocol
US20150181430A1 (en) * 2013-12-19 2015-06-25 Kwan Ho Lee Systems and methods for communication using a body area network
JP6063859B2 (ja) * 2013-12-24 2017-01-18 株式会社日立製作所 携帯鍵装置及び装置制御方法
US9449165B2 (en) * 2014-02-06 2016-09-20 Untethered Labs, Inc. System and method for wireless proximity-based access to a computing device
US9286892B2 (en) * 2014-04-01 2016-03-15 Google Inc. Language modeling in speech recognition
US20150302856A1 (en) 2014-04-17 2015-10-22 Qualcomm Incorporated Method and apparatus for performing function by speech input
US20160070580A1 (en) * 2014-09-09 2016-03-10 Microsoft Technology Licensing, Llc Digital personal assistant remote invocation
US9473878B2 (en) * 2014-12-25 2016-10-18 Intel Corporation Apparatus, method and system of managing a wearable device ensemble
US11132694B2 (en) * 2014-12-31 2021-09-28 Paypal, Inc. Authentication of mobile device for secure transaction
US10384291B2 (en) * 2015-01-30 2019-08-20 Lincoln Global, Inc. Weld ending process and system
US20160282934A1 (en) * 2015-03-25 2016-09-29 Motorola Mobility Llc Presence detection for gesture recognition and iris authentication
US9912657B2 (en) * 2015-06-02 2018-03-06 Dipankar Dasgupta Adaptive multi-factor authentication system
US10333904B2 (en) * 2015-08-08 2019-06-25 Peter J. Tormey Voice access and control
US10362480B2 (en) * 2015-08-12 2019-07-23 Luis M. Ortiz Systems, methods and apparatuses for enabling wearable device user access to secured electronics systems
US10360560B2 (en) * 2015-09-01 2019-07-23 Bank Of America Corporation System for authenticating a wearable device for transaction queuing
US9866555B2 (en) * 2015-09-17 2018-01-09 Intel Corporation Maintaining user authentications with common trusted devices
US9942763B2 (en) * 2015-11-19 2018-04-10 Beijing Nanbao Technology Co., Ltd. Method and apparatus of triggering applications in a wireless environment
US20170169506A1 (en) * 2015-12-11 2017-06-15 Capital One Services, Llc Systems and methods for voice-controlled account servicing
US9922648B2 (en) * 2016-03-01 2018-03-20 Google Llc Developer voice actions system
US20170289172A1 (en) * 2016-03-29 2017-10-05 Zeta (Better World Technology Pvt. Ltd.) Request authentication from message content
US10200364B1 (en) * 2016-04-01 2019-02-05 Wells Fargo Bank, N.A. Enhanced secure authentication
US20170316258A1 (en) * 2016-04-29 2017-11-02 International Business Machines Corporation Augmenting gesture based security technology for improved differentiation
US10127926B2 (en) * 2016-06-10 2018-11-13 Google Llc Securely executing voice actions with speaker identification and authentication input types
US9691384B1 (en) * 2016-08-19 2017-06-27 Google Inc. Voice action biasing system
US10616036B2 (en) * 2017-06-07 2020-04-07 Accenture Global Solutions Limited Integration platform for multi-network integration of service platforms

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6496107B1 (en) 1999-07-23 2002-12-17 Richard B. Himmelstein Voice-controlled vehicle control system
US8543834B1 (en) 2012-09-10 2013-09-24 Google Inc. Voice authentication and command
US20150241962A1 (en) 2012-10-22 2015-08-27 Vid Scale, Inc. User presence detection in mobile devices
US20150081295A1 (en) 2013-09-16 2015-03-19 Qualcomm Incorporated Method and apparatus for controlling access to applications
US20160021105A1 (en) 2014-07-15 2016-01-21 Sensory, Incorporated Secure Voice Query Processing

Also Published As

Publication number Publication date
DE102016125494A1 (de) 2017-12-14
US10770093B2 (en) 2020-09-08
EP3671734A1 (de) 2020-06-24
EP3671734B1 (de) 2024-05-15
US20170358317A1 (en) 2017-12-14
US11665543B2 (en) 2023-05-30
US10127926B2 (en) 2018-11-13
EP3469587B1 (de) 2019-08-21
CN112562689B (zh) 2024-07-12
WO2017213689A1 (en) 2017-12-14
US20230269586A1 (en) 2023-08-24
DE202016008226U1 (de) 2017-05-04
CN107491282A (zh) 2017-12-19
CN107491282B (zh) 2020-11-06
US20190156856A1 (en) 2019-05-23
CN112562689A (zh) 2021-03-26
EP3469587A1 (de) 2019-04-17
US20200413259A1 (en) 2020-12-31

Similar Documents

Publication Publication Date Title
DE102016125494B4 (de) Das sichere Ausführen von Sprachfunktionen unter der Verwendung kontextabhängiger Signale
DE112020004504T5 (de) Kontoverbindung mit Gerät
DE112016004008T5 (de) Neuronales netz für sprecherverifikation
DE112018002857T5 (de) Sprecheridentifikation mit ultrakurzen Sprachsegmenten für Fern- und Nahfeld-Sprachunterstützungsanwendungen
RU2692300C2 (ru) Адаптивное объединение идентификаций водителя
EP3182316B1 (de) Fingerabdruckauthentifizierungsverfahren und -system und endgerät zur unterstützung der fingerabdrucksauthentifizierung
DE202017106586U1 (de) Abfrage-Endpunktbestimmung auf Basis der Lippenerkennung
CN106157959B (zh) 声纹模型更新方法及系统
DE102013102399A1 (de) Gesichtsmerkmalserfassung
DE112018006101T5 (de) Dynamische Anmeldung einer benutzerdefinierten Aufweck-Schlüsselphrase für ein sprachfähiges Computersystem
CN110634472B (zh) 一种语音识别方法、服务器及计算机可读存储介质
DE202016008230U1 (de) Sprachwiedererkennung mit externen Datenquellen
DE202017105741U1 (de) Automatisierte Sprachaussprachezuteilung
US20150154962A1 (en) Methods and systems for splitting a digital signal
US20170318014A1 (en) Method and system for authenticating a session on a communication device
US11756572B2 (en) Self-supervised speech representations for fake audio detection
US10984795B2 (en) Electronic apparatus and operation method thereof
DE102016125141B4 (de) Suchergebnis unter vorherigem Abrufen von Sprachanfragen
DE112016007250B4 (de) Verfahren und System zum Optimieren von Spracherkennung und Informationssuche basierend auf Gesprächsgruppenaktivitäten
KR101977895B1 (ko) 감정정보를 이용한 사용자 인증시스템
DE102017116780A1 (de) Biometrische Identifikationsverifikation mit Standortmachbarkeitsbestimmung
CN108416592A (zh) 一种高速语音识别方法
US11227610B1 (en) Computer-based systems for administering patterned passphrases
EP3477516A1 (de) Stimmbasiertes verfahren und system zur authentifizierung
DE102006036573B3 (de) Mobiltelefon, PDA oder Computer-Laptop mit Zugriffsschutz und Verfahren

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R138 Derivation of utility model

Ref document number: 202016008226

Country of ref document: DE

R081 Change of applicant/patentee

Owner name: GOOGLE LLC (N.D.GES.D. STAATES DELAWARE), MOUN, US

Free format text: FORMER OWNER: GOOGLE INC., MOUNTAIN VIEW, CALIF., US

R082 Change of representative

Representative=s name: BETTEN & RESCH PATENT- UND RECHTSANWAELTE PART, DE

R016 Response to examination communication
R018 Grant decision by examination section/examining division