DE202015010012U1

DE202015010012U1 - Aktivierungswort-Ermittlung auf mehreren Vorrichtungen

Info

Publication number: DE202015010012U1
Application number: DE202015010012.0U
Authority: DE
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2014-10-09
Filing date: 2015-09-29
Publication date: 2023-03-01
Anticipated expiration: 2025-09-30
Also published as: JP2020034952A; JP2017227912A; US11557299B2; JP6208376B2; US20160104480A1; CN111028826B; US11915706B2; US20210118448A1; CN106030699B; US20170084277A1; US10134398B2; US10593330B2; EP3171359B1; CN111028826A; KR101752119B1; EP3084759B1; JP6427549B2; EP3171359A1; CN106030699A; EP3627503B1

Abstract

Nichtflüchtiges computerlesbares Medium, das Software speichert, die durch einen oder mehrere Computer ausführbare Anweisungen umfasst, die bei solcher Ausführung den einen oder die mehreren Computer veranlassen, Folgendes durchzuführen:
Empfangen von Audiodaten durch eine Computervorrichtung;
Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen;
als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung;
als Antwort auf das Übertragen der Daten zu der zusätzlichen Computervorrichtung erfolgendes Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung; und
Bestimmen durch die Computervorrichtung auf der Grundlage der zusätzlichen Daten, ob ein Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll.

Description

FACHGEBIET
Die vorliegende Patentschrift betrifft allgemein Systeme und Methoden zur Erkennung von Wörtern, die eine Person spricht, was auch als Spracherkennung bezeichnet wird.
HINTERGRUND
Die Realität eines sprachgesteuerten Hauses oder einer anderen Umgebung - d.h. einer Umgebung, in der ein Benutzer nur eine Anfrage oder einen Befehl laut auszusprechen braucht und ein computergestütztes System die Anfrage aufnimmt und beantwortet und/oder die Durchführung des Befehls veranlasst - ist in greifbare Nähe gerückt. Eine sprachgesteuerte Umgebung (z.B. Wohnung, Arbeitsplatz, Schule usw.) kann unter Verwendung eines Netzwerks von angeschlossenen Mikrofonvorrichtungen realisiert werden, die über die verschiedenen Räume oder Bereiche der Umgebung verteilt sind. Über ein solches Netzwerk von Mikrofonen hat ein Benutzer die Fähigkeit, das System von praktisch überallher in der Umgebung mündlich anzufragen, ohne einen Computer oder eine andere Vorrichtung vor ihm/ihr oder auch nur in der Nähe haben zu müssen. Zum Beispiel könnte ein Benutzer beim Kochen in der Küche das System fragen: „Wie viele Milliliter sind in drei Tassen?“, und als Reaktion eine Antwort vom System empfangen, z.B. in Form einer synthetischen Sprachausgabe.
Alternativ könnte ein Benutzer dem System Fragen stellen wie etwa: „Wann schließt meine nächste Tankstelle?“, oder, wenn er sich darauf vorbereitet, das Haus zu verlassen: „Sollte ich heute einen Mantel tragen?“
Ferner kann ein Benutzer dem System eine Frage stellen und/oder einen Befehl erteilen, der sich auf die persönlichen Informationen des Benutzers bezieht. Zum Beispiel könnte ein Benutzer das System fragen: „Wann ist mein Treffen mit John?“, oder dem System befehlen: „Erinnere mich daran, John anzurufen, wenn ich nach Hause komme.“
ZUSAMMENFASSUNG
Bei einem sprachgesteuerten System ist die Art und Weise, wie die Benutzer mit dem System interagieren, vorrangig, wenn nicht ausschließlich, mittels Spracheingabe vorgesehen. Folglich muss das System, das potenziell alle Äußerungen in der Umgebung aufnimmt, einschließlich derjenigen, die nicht an das System gerichtet sind, über eine Möglichkeit verfügen, zu erkennen, wann eine bestimmte Äußerung an das System gerichtet ist, statt z.B. an eine in der Umgebung anwesende Person gerichtet zu sein. Eine Möglichkeit, dies zu erreichen, ist die Verwendung eines Aktivierungsworts, das nach Absprache zwischen den Benutzern in der Umgebung als ein vorbestimmtes Wort reserviert wird, das gesprochen wird, um die Aufmerksamkeit des Systems zu wecken. In einer beispielhaften Umgebung werden als Aktivierungswort die Wörter „OK Computer“ verwendet, um die Aufmerksamkeit des Systems zu wecken. Folglich werden jedes Mal, wenn die Wörter „OK Computer“ gesprochen werden, diese durch ein Mikrofon aufgenommen und an das System weitergeleitet, das Spracherkennungsmethoden durchführt, um zu bestimmen, ob das Aktivierungswort gesprochen wurde, und, falls ja, einen darauf folgenden Befehl oder eine Anfrage erwartet. Dementsprechend nehmen an das System gerichtete Äußerungen die allgemeine Form [HOTWORD] [QUERY] an, wobei „HOTWORD“ in diesem Beispiel „OK Computer“ ist und „QUERY“ eine beliebige Frage, ein Befehl, eine Erklärung oder eine andere Anfrage sein kann, die durch das System sprachlich erkannt, analysiert und befolgt werden kann, entweder allein oder in Verbindung mit dem Server über das Netzwerk.
Gemäß einem innovativen Aspekt des in der vorliegenden Patentschrift beschriebenen Gegenstands empfängt eine Benutzervorrichtung eine Äußerung, die durch einen Benutzer gesprochen wird. Die Benutzervorrichtung bestimmt, ob die Äußerung ein Aktivierungswort einschließt, und berechnet eine Aktivierungswort-Konfidenzpunktzahl, die eine Wahrscheinlichkeit angibt, dass die Äußerung das Aktivierungswort einschließt. Die Benutzervorrichtung überträgt diese Punktzahl zu anderen Benutzervorrichtungen in der näheren Umgebung. Die anderen Benutzervorrichtungen haben wahrscheinlich die gleiche Äußerung empfangen. Die anderen Benutzervorrichtungen berechnen eine Aktivierungswort-Konfidenzpunktzahl und übertragen ihre Punktzahlen zu der Benutzervorrichtung. Die Benutzervorrichtung vergleicht die Aktivierungswort-Konfidenzpunktzahlen. Wenn die Benutzervorrichtung die höchste Aktivierungswort-Konfidenzpunktzahl hat, bleibt sie aktiv und bereitet sich darauf vor, weitere Audiodaten zu verarbeiten. Wenn die Benutzervorrichtung nicht die höchste Aktivierungswort-Konfidenzpunktzahl hat, dann verarbeitet die Benutzervorrichtung die zusätzlichen Audiodaten nicht.
Grundsätzlich kann ein weiterer innovativer Aspekt des in der vorliegenden Patentschrift beschriebenen Gegenstands in Verfahren verkörpert werden, welche die folgenden Aktionen einschließen: Empfangen von Audiodaten, die einer Äußerung entsprechen, durch eine erste Computervorrichtung; Bestimmen eines ersten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung ein Aktivierungswort enthält; Empfangen eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der zweite Wert durch eine zweite Computervorrichtung bestimmt wird; Vergleichen des ersten Werts und des zweiten Werts; und auf dem Vergleichen des ersten Werts mit dem zweiten Wert beruhendes Initiieren einer Spracherkennungsverarbeitung an den Audiodaten.
Diese und andere Ausführungsformen können jeweils optional eines oder mehrere der folgenden Merkmale einschließen. Die Aktionen schließen ferner ein: Bestimmen, dass der erste Wert einen Aktivierungswort-Punktzahlschwellenwert erfüllt. Die Aktionen schließen ferner ein: Übertragen des ersten Werts zur zweiten Computervorrichtung. Die Aktionen schließen ferner ein: auf dem Vergleichen des ersten Werts und des zweiten Werts beruhendes Bestimmen eines Aktivierungszustands der ersten Computervorrichtung. Die Aktion des auf dem Vergleichen des ersten Werts und des zweiten Werts beruhenden Bestimmens eines Aktivierungszustands der ersten Computervorrichtung schließt ferner ein: Bestimmen, dass der Aktivierungszustand ein aktiver Zustand ist. Die Aktionen schließen ferner ein: Empfangen zusätzlicher Audiodaten, die einer zusätzlichen Äußerung entsprechen, durch die erste Computervorrichtung; Bestimmen eines dritten Werts, der einer Wahrscheinlichkeit entspricht, dass die zusätzliche Äußerung das Aktivierungswort einschließt; Empfangen eines vierten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der vierte Wert durch eine dritte Computervorrichtung bestimmt wird; Vergleichen des ersten Werts und des zweiten Werts; und auf dem Vergleichen des ersten Werts und des zweiten Werts beruhendes Bestimmen, dass der Aktivierungszustand der ersten Computervorrichtung ein inaktiver Zustand ist.
Die Aktion des Übertragens des ersten Werts zur zweiten Computervorrichtung schließt ferner ein: Übertragen des ersten Werts über ein lokales Netzwerk oder über Kurzstreckenfunk zu einem Server. Die Aktion des Empfangens eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort enthält, wobei der zweite Wert durch eine zweite Computervorrichtung bestimmt wird, schließt ferner ein: Empfangen eines zweiten Werts, der durch eine zweite Computervorrichtung bestimmt wurde, vom Server, über das lokale Netzwerk oder über den Kurzstreckenfunk. Die Aktionen schließen ferner ein: Identifizieren der zweiten Computervorrichtung; und Bestimmen, dass die zweite Computervorrichtung dafür konfiguriert ist, auf Äußerungen zu reagieren, die das Aktivierungswort einschließen. Die Aktion des Übertragens des ersten Werts zur zweiten Computervorrichtung schließt ferner ein: Übertragen einer ersten Kennung für die erste Computervorrichtung. Die Aktion des Empfangens eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der zweite Wert durch eine zweite Computervorrichtung bestimmt wird, schließt ferner ein: Empfangen einer zweiten Kennung für die zweite Computervorrichtung. Die Aktion des Bestimmens, dass der Aktivierungszustand ein aktiver Zustand ist, schließt ferner ein: Bestimmen, dass seit dem Empfangen der Audiodaten, die der Äußerung entsprechen, eine bestimmte Zeitspanne verstrichen ist. Die Aktionen schließen ferner ein: auf dem Bestimmen, dass der Aktivierungszustand ein aktiver Zustand ist, beruhendes Fortfahren für eine bestimmte Zeitspanne, den ersten Wert zu übertragen.
Andere Ausführungsformen dieses Aspekts schließen entsprechende Systeme, Vorrichtungen und auf Computerspeichervorrichtungen aufgezeichnete Computerprogramme ein, die jeweils dafür konfiguriert sind, die Operationen der Verfahren durchzuführen.
Bestimmte Ausführungsformen des in der vorliegenden Patentschrift beschriebenen Gegenstands können so implementiert werden, dass dadurch einer oder mehrere der folgenden Vorteile verwirklicht werden. Mehrere Vorrichtungen können ein Aktivierungswort ermitteln und nur eine Vorrichtung wird auf das Aktivierungswort reagieren.
Die Einzelheiten von einer oder mehreren Ausführungsformen des in der vorliegenden Patentschrift beschriebenen Gegenstands sind in den beigefügten Zeichnungen und in der nachstehenden Beschreibung dargelegt. Andere Merkmale, Aspekte und Vorteile des Gegenstandes werden aus der Beschreibung, den Zeichnungen und den Ansprüchen ersichtlich.
Figurenliste

1 ist eine grafische Darstellung eines beispielhaften Systems zur Aktivierungswort-Ermittlung.
2 ist eine grafische Darstellung eines beispielhaften Prozesses für die Aktivierungswort-Ermittlung.
3 zeigt ein Beispiel für eine Computervorrichtung und eine mobile Computervorrichtung.

Gleiche Bezugszeichen und Bezeichnungen in den verschiedenen Zeichnungen geben gleiche Elemente an.
AUSFÜHRLICHE BESCHREIBUNG
In nicht allzu ferner Zukunft ist es möglich, dass viele Vorrichtungen kontinuierlich nach Aktivierungswörtern lauschen. Wenn ein einzelner Benutzer mehrere Vorrichtungen hat, die darauf trainiert sind, auf seine Stimme zu reagieren (z.B. ein Telefon, ein Tablet, ein Fernseher usw.), kann es erwünscht sein, das Reagieren auf Aktivierungswörter auf Vorrichtungen zu unterdrücken, die wahrscheinlich nicht diejenigen sind, die ein Benutzer ansprechen will. Wenn ein Benutzer zum Beispiel das Aktivierungswort in Richtung einer Vorrichtung spricht, ist es wahrscheinlich, wenn andere Vorrichtungen in der Nähe sind, dass auch sie eine Sprachsuche auslösen. In vielen Fällen ist dies nicht die Absicht des Nutzers. Daher kann es von Vorteil sein, dass nur eine einzige Vorrichtung ausgelöst wird, nämlich die Vorrichtung, mit welcher der Benutzer spricht. Die vorliegende Patentschrift befasst sich mit dem Problem, die richtige Vorrichtung zum Reagieren auf ein Aktivierungswort auszuwählen und auf anderen Vorrichtungen die Reaktion auf das Aktivierungswort zu unterdrücken.
1 ist eine grafische Darstellung eines beispielhaften Systems 100 zur Aktivierungswort-Ermittlung. Grundsätzlich zeigt das System 100 einen Benutzer 102, der eine Äußerung 104 spricht, die durch Mikrofone der Computervorrichtungen 106, 108 und 110 ermittelt wird. Die Computervorrichtungen 106, 108 und 110 verarbeiten die Äußerung 104, um die Wahrscheinlichkeit zu bestimmen, dass die Äußerung 104 ein Aktivierungswort einschließt. Die Computervorrichtungen 106, 108 und 110 übertragen jeweils Daten zueinander, welche die Wahrscheinlichkeit angeben, dass die Äußerung 104 ein Aktivierungswort einschließt. Die Computervorrichtungen 106, 108 und 110 vergleichen jeweils die Daten, und die Computervorrichtung, welche die höchste Wahrscheinlichkeit berechnet hat, dass die Äußerung 104 ein Aktivierungswort einschloss, initiiert die Spracherkennung an der Äußerung 104. Die Computervorrichtungen, die nicht die höchste Wahrscheinlichkeit berechnet haben, dass die Äußerung 104 ein Aktivierungswort einschließt, initiieren keine Spracherkennung an der auf die Äußerung 104 folgenden Sprache.
Bevor Daten, die eine Wahrscheinlichkeit angeben, dass die Äußerung 104 einem Aktivierungswort entspricht, zu einer anderen Computervorrichtung übertragen werden, identifizieren die Computervorrichtungen einander, die sich nahe beieinander befinden. In einigen Implementierungen identifizieren die Computervorrichtungen einander, indem sie das lokale Netzwerk nach anderen Vorrichtungen durchsuchen, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren. Zum Beispiel kann die Computervorrichtung 106 das lokale Netzwerk nach anderen Vorrichtungen durchsuchen, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren, und die Computervorrichtung 108 und die Computervorrichtung 110 identifizieren.
In einigen Implementierungen identifizieren die Computervorrichtungen andere Computervorrichtungen in der Nähe, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren, indem sie den Benutzer identifizieren, der bei jeder Vorrichtung angemeldet ist. Zum Beispiel ist der Benutzer 102 bei den Computervorrichtungen 106, 108 und 110 angemeldet. Der Benutzer 102 hat die Computervorrichtung 106 in der Hand. Die Computervorrichtung 108 liegt auf dem Tisch, und die Vorrichtung 110 befindet sich an einer Wand in der Nähe. Die Computervorrichtung 106 ermittelt die Computervorrichtungen 108 und 110, und jede Computervorrichtung teilt Informationen, die sich auf den an der Computervorrichtung angemeldeten Benutzer beziehen, wie etwa eine Benutzerkennung. In einigen Implementierungen können die Computervorrichtungen andere Computervorrichtungen in der Nähe identifizieren, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren, indem sie Computervorrichtungen identifizieren, die dafür konfiguriert sind, durch Sprecheridentifizierung zu reagieren, wenn das Aktivierungswort durch den gleichen Benutzer gesprochen wird. Zum Beispiel hat der Benutzer 102 die Computervorrichtungen 106, 108 und 110 jeweils dafür konfiguriert, auf die Stimme des Benutzers 102 zu reagieren, wenn Benutzer 102 das Aktivierungswort spricht. Die Computervorrichtungen teilen die Informationen zur Sprecheridentifizierung, indem sie jeder anderen Computervorrichtung eine Benutzerkennung für Benutzer 102 bereitstellen. In einigen Implementierungen können die Computervorrichtungen andere Computervorrichtungen identifizieren, die dafür konfiguriert sind, auf das Aktivierungswort über Kurzstreckenfunk zu reagieren. Zum Beispiel kann die Computervorrichtung 106 ein Signal über Kurzstreckenfunk übertragen, um nach anderen Computervorrichtungen zu suchen, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren. Die Computervorrichtungen können eine dieser Methoden oder eine Kombination daraus verwenden, um andere Computervorrichtungen zu identifizieren, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren.
Sobald die Computervorrichtungen 106, 108 und 110 andere Computervorrichtungen identifiziert haben, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren, teilen und speichern die Computervorrichtungen 106, 108 und 110 Vorrichtungskennungen für die identifizierten Computervorrichtungen. Die Kennungen können auf einem Vorrichtungstyp, einer IP-Adresse der Vorrichtung, einer MAC-Adresse, einem Namen, welcher der Vorrichtung durch einen Benutzer gegeben wurde, oder einer ähnlichen eindeutigen Kennung beruhen. Zum Beispiel kann die Kennung 112 für die Computervorrichtung 106 „Telefon“ lauten. Die Kennung 114 für die Computervorrichtung 108 kann „Tablet“ lauten. Die Kennung 116 für die Computervorrichtung 110 kann „Thermostat“ lauten. Die Computervorrichtungen 106, 108 und 110 speichern die Vorrichtungskennung für die anderen Computervorrichtungen, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren. Jede Computervorrichtung hat eine Vorrichtungsgruppe, in der die Computervorrichtung die Vorrichtungskennungen speichert. Zum Beispiel hat die Computervorrichtung 106 die Vorrichtungsgruppe 118, die „Tablet“ und „Thermostat“ als die beiden Vorrichtungen auflistet, welche die Wahrscheinlichkeit empfangen, dass die Audiodaten das Aktivierungswort einschließen, wie sie durch die Computervorrichtung 106 berechnet wurde. Die Computervorrichtung 108 hat die Vorrichtungsgruppe 120, die „Telefon“ und „Thermostat“ als die beiden Vorrichtungen auflistet, welche die Wahrscheinlichkeit empfangen, dass die Audiodaten das Aktivierungswort einschließen, wie sie durch die Computervorrichtung 108 berechnet wurde. Die Computervorrichtung 110 hat die Vorrichtungsgruppe 122, die „Telefon“ und „Tablet“ als die beiden Vorrichtungen auflistet, welche die Wahrscheinlichkeit empfangen, dass die Audiodaten das Aktivierungswort einschließen, wie sie durch die Computervorrichtung 110 berechnet wurde.
Wenn der Benutzer 102 die Äußerung 104, „OK Computer“, spricht, ermittelt und verarbeitet jede Computervorrichtung in der Nähe des Benutzers 102, die ein Mikrofon hat, die Äußerung 104. Jede Computervorrichtung ermittelt die Äußerung 104 über eine Audioeingabevorrichtung wie etwa ein Mikrofon. Jedes Mikrofon stellt Audiodaten für ein jeweiliges Audio-Subsystem bereit. Das jeweilige Audio-Subsystem puffert, filtert und digitalisiert die Audiodaten. In einigen Implementierungen kann auch jede Computervorrichtung an den Audiodaten eine Endpunktbestimmung und Sprecheridentifizierung durchführen. Das Audio-Subsystem übergibt die verarbeiteten Audiodaten an einen Hotworder, auch Aktivierungswort-Erkennungsvorrichtung genannt. Der Hotworder vergleicht die verarbeiteten Audiodaten mit bekannten Aktivierungswortdaten und berechnet eine Konfidenzpunktzahl, welche die Wahrscheinlichkeit angibt, dass die Äußerung 104 einem Aktivierungswort entspricht. Der Hotworder kann Audiomerkmale aus den verarbeiteten Audiodaten extrahieren, wie etwa Filterbank-Energien oder Mel-Frequenz-Cepstrum-Koeffizienten. Der Hotworder kann Klassifizierungsfenster verwenden, um diese Audiomerkmale zu verarbeiten, wie etwa durch Verwendung einer Support-Vektor-Maschine, auch Stützvektormethode genannt, oder eines neuronalen Netzes. Auf der Grundlage der Verarbeitung der Audiomerkmale berechnet der Hotworder 124 eine Konfidenzpunktzahl von 0,85, der Hotworder 126 berechnet eine Konfidenzpunktzahl von 0,6 und der Hotworder 128 berechnet eine Konfidenzpunktzahl von 0,45. In einigen Implementierungen kann die Konfidenzpunktzahl auf eine Skala von null bis eins normiert werden, wobei eine höhere Zahl eine größere Konfidenz angibt, dass die Äußerung 104 ein Aktivierungswort einschließt.
Jede Computervorrichtung überträgt ein entsprechendes Konfidenzpunktzahl-Datenpaket zu den anderen Computervorrichtungen in der Vorrichtungsgruppe. Jedes Konfidenzpunktzahl-Datenpaket schließt eine jeweilige Konfidenzpunktzahl und die jeweilige Vorrichtungskennung für die Computervorrichtung ein. Zum Beispiel überträgt die Computervorrichtung 106 das Konfidenzpunktzahl-Datenpaket 130, das die Konfidenzpunktzahl von 0,85 und die Kennung „Telefon“ einschließt, zu den Computervorrichtungen der Vorrichtungsgruppe 118, nämlich den Computervorrichtungen 108 und 110. Die Computervorrichtung 108 überträgt das Konfidenzpunktzahl-Datenpaket 132, das die Konfidenzpunktzahl von 0,6 und die Kennung „Tablet“ einschließt, zu Computervorrichtungen der Vorrichtungsgruppe 120, also zu den Computervorrichtungen 106 und 110. Die Computervorrichtung 110 überträgt das Konfidenzpunktzahl-Datenpaket 134, das die Konfidenzpunktzahl von 0,45 und die Kennung „Thermostat“ einschließt, zu Computervorrichtungen in der Vorrichtungsgruppe 118, also zu den Computervorrichtungen 106 und 108.
In einigen Implementierungen kann eine Computervorrichtung das Konfidenzpunktzahl-Datenpaket übertragen, wenn die Konfidenzpunktzahl einen Aktivierungswort-Punktzahlschwellenwert erfüllt. Wenn der Aktivierungswort-Punktzahlschwellenwert zum Beispiel 0,5 ist, würde die Computervorrichtung 110 das Konfidenzpunktzahl-Datenpaket 134 nicht zu den anderen Computervorrichtungen in der Vorrichtungsgruppe 122 übertragen. Die Computervorrichtungen 106 und 108 würden dennoch die Konfidenzpunktzahl-Datenpakete 130 und 132 zu den Computervorrichtungen in den Vorrichtungsgruppen 118 bzw. 120 übertragen.
In einigen Implementierungen kann die Computervorrichtung, die ein Konfidenzpunktzahl-Datenpaket überträgt, das Konfidenzpunktzahl-Datenpaket direkt zu anderen Computervorrichtungen übertragen. Zum Beispiel kann die Computervorrichtung 106 das Konfidenzpunktzahl-Datenpaket 130 über Kurzstreckenfunk zu den Computervorrichtungen 108 und 110 übertragen. Das zwischen zwei Computervorrichtungen verwendete Kommunikationsprotokoll kann universelles Plug-and-Play sein. In einigen Implementierungen kann eine Computervorrichtung, die ein Konfidenzpunktzahl-Datenpaket überträgt, das Konfidenzpunktzahl-Datenpaket rundsenden. In diesem Fall kann das Konfidenzpunktzahl-Datenpaket durch die Computervorrichtungen in der Vorrichtungsgruppe und durch andere Computervorrichtungen empfangen werden. In einigen Implementierungen kann eine Computervorrichtung, die ein Konfidenzpunktzahl-Datenpaket überträgt, das Konfidenzpunktzahl-Datenpaket zu einem Server übertragen, und der Server überträgt dann das Konfidenzpunktzahl-Datenpaket zu den Computervorrichtungen in der Datengruppe. Der Server kann sich innerhalb des lokalen Netzwerks der Computervorrichtungen befinden oder über das Internet zugänglich sein. Zum Beispiel sendet die Computervorrichtung 108 das Konfidenzpunktzahl-Datenpaket 132 und die Liste der Computervorrichtungen in der Vorrichtungsgruppe 120 an einen Server. Der Server überträgt das Konfidenzpunktzahl-Datenpaket 132 zu den Computervorrichtungen 106 und 110. In Fällen, in denen eine Computervorrichtung, die das Konfidenzpunktzahl-Datenpaket zu einer anderen Computervorrichtung überträgt, kann die empfangende Computervorrichtung eine Bestätigung zurücksenden, dass die empfangende Computervorrichtung das Konfidenzpunktzahl-Datenpaket empfangen hat.
Jede Computervorrichtung verwendet einen Punktzahlvergleicher, um die Aktivierungswort-Konfidenzpunktzahlen zu vergleichen, welche die Computervorrichtung empfangen hat. Zum Beispiel hat die Computervorrichtung 106 eine Aktivierungswort-Konfidenzpunktzahl von 0,85 berechnet und Aktivierungswort-Konfidenzpunktzahlen von 0,6 und 0,45 empfangen. In diesem Fall vergleicht der Punktzahlvergleicher 136 die drei Werte und identifiziert den Wert von 0,85 als den höchsten. Für die Computervorrichtungen 108 und 110 kommen die Punktzahlvergleicher 138 und 140 zu ähnlichen Ergebnissen, indem sie den Wert von 0,85, welcher der Computervorrichtung 106 entspricht, als den höchsten identifizieren.
Diejenige Computervorrichtung, die bestimmt, dass ihre eigene Aktivierungswort-Konfidenzpunktzahl die höchste ist, initiiert die Spracherkennung an den Sprachdaten, die auf die Äußerung des Aktivierungsworts folgen. Zum Beispiel kann der Benutzer „OK Computer“ sprechen und die Computervorrichtung 106 kann bestimmen, dass sie die höchste Aktivierungswort-Konfidenzpunktzahl hat. Die Computervorrichtung 106 initiiert die Spracherkennung an den nach dem Aktivierungswort empfangenen Audiodaten. Wenn der Benutzer „Ruf Alice an“ sagt, wird die Computervorrichtung 106 die Äußerung verarbeiten und den entsprechenden Befehl ausführen. In einigen Implementierungen kann der Empfang eines Aktivierungsworts bewirken, dass die Computervorrichtungen, die das Aktivierungswort empfangen, aus einem Ruhezustand aktiviert werden. In diesem Fall bleibt die Computervorrichtung mit der höchsten Aktivierungswort-Konfidenzpunktzahl in einem Wachzustand, während die anderen Computervorrichtungen, die nicht die höchste Aktivierungswort-Konfidenzpunktzahl haben, keine Sprachdaten verarbeiten, die auf die Äußerung des Aktivierungsworts folgen, und in einen Ruhezustand übergehen.
Wie in 1 dargestellt, hat der Punktzahlvergleicher 136 die der Vorrichtung 106 entsprechende Aktivierungswort-Konfidenzpunktzahl als die höchste identifiziert. Daher ist der Status der Vorrichtung 142 „wach“. Die Punktzahlvergleicher 138 und 140 haben ebenfalls das Aktivierungswort mit der höchsten Konfidenzpunktzahl für die Vorrichtung 106 identifiziert. Daher sind die Vorrichtungsstatus 138 und 140 „in Ruhe“. In einigen Implementierungen kann der Aktivierungszustand der Computervorrichtung unbeeinflusst bleiben. Zum Beispiel kann der Benutzer 102 gerade einen Film auf der Computervorrichtung 108 ansehen und die Computervorrichtung 106 in der Hand haben. Wenn der Benutzer 102 „OK Computer“ sagt, initiiert die Computervorrichtung 106, da sie die höchste Aktivierungswort-Konfidenzpunktzahl hat, die Spracherkennung an den auf das Aktivierungswort folgenden Audiodaten. Die Computervorrichtung 108 initiiert keine Spracherkennung an den auf das Aktivierungswort folgenden Audiodaten und fährt fort, den Film abzuspielen.
In einigen Implementierungen wartet die Computervorrichtung, die bestimmt, dass sie die höchste Aktivierungswort-Konfidenzpunktzahl hat, für eine bestimmte Zeitspanne, bevor sie beginnt, die Spracherkennung an der auf das Aktivierungswort folgende Sprache durchzuführen. Das ermöglicht einer Computervorrichtung, welche die höchste Aktivierungswort-Konfidenzpunktzahl berechnet hat, mit der Durchführung der Spracherkennung an der Sprache zu beginnen, die auf das Aktivierungswort folgt, ohne auf eine höhere Aktivierungswort-Konfidenzpunktzahl zu warten. Zur Veranschaulichung: Der Punktzahlvergleicher 136 der Computervorrichtung 106 hat Aktivierungswort-Konfidenzpunktzahlen von 0,6 und 0,45 von den Computervorrichtungen 108 bzw. 110 sowie die Aktivierungswort-Konfidenzpunktzahl von 0,85 vom Hotworder 124 empfangen. Ab dem Zeitpunkt, an dem der Hotworder 124 eine Aktivierungswort-Konfidenzpunktzahl an den Audiodaten „OK Computer“ berechnet, wartet die Computervorrichtung 106 fünfhundert Millisekunden, bevor sie Spracherkennung an der Sprache durchführt, die auf das Aktivierungswort folgt. In Fällen, in denen der Punktzahlvergleicher eine höhere Punktzahl empfängt, wartet die Computervorrichtung möglicherweise nicht für eine bestimmte Zeitspanne, bevor sie den Vorrichtungsstatus auf „in Ruhe“ setzt. Zum Beispiel berechnet der Hotworder 126 der Computervorrichtung 108 eine Aktivierungswort-Konfidenzpunktzahl von 0,6 und empfängt Aktivierungswort-Konfidenzpunktzahlen von 0,85 und 0,45. Sobald die Computervorrichtung 108 die Aktivierungswort-Konfidenzpunktzahl von 0,85 empfängt, kann die Computervorrichtung 108 den Vorrichtungsstatus 144 auf „in Ruhe“ setzen. Dies setzt voraus, dass die Computervorrichtung 108 die Aktivierungswort-Konfidenzpunktzahl von 0,85 innerhalb der bestimmten Zeitspanne empfängt, nachdem der Hotworder 126 die Aktivierungswort-Konfidenzpunktzahl von 0,6 berechnet hat.
In einigen Implementierungen kann eine Computervorrichtung, wenn sie die höchste Aktivierungswort-Konfidenzpunktzahl hat, für eine bestimmte Zeitspanne fortfahren, das Konfidenzpunktzahl-Datenpaket rundzusenden, um sicherzustellen, dass andere Computervorrichtungen das Konfidenzpunktzahl-Datenpaket empfangen. Diese Strategie wäre am ehesten in Fällen anwendbar, in denen eine Computervorrichtung eine Bestätigung zurücksendet, sobald sie ein Konfidenzpunktzahl-Datenpaket von einer anderen Computervorrichtung empfängt. Wenn also die Computervorrichtung 106 das Konfidenzpunktzahl-Datenpaket 130 zu Computervorrichtungen in der Datengruppe 118 überträgt und eine Bestätigung vor einer bestimmten Zeitspanne, wie etwa fünfhundert Millisekunden, empfängt, kann die Computervorrichtung 106 damit beginnen, eine Spracherkennung an auf das Aktivierungswort folgender Sprache durchzuführen. In Fällen, in denen Computervorrichtungen ihre Konfidenzpunktzahl-Datenpakete rundsenden und keine Bestätigung erwarten, kann die Computervorrichtung damit fortfahren, ihre Aktivierungswort-Konfidenzpunktzahlen rundzusenden, und zwar für eine bestimmte Zeitspanne, wie etwa fünfhundert Millisekunden, oder bis die Computervorrichtung eine höhere Aktivierungswort-Konfidenzpunktzahl empfängt - je nachdem, was zuerst eintritt. Zum Beispiel berechnet die Computervorrichtung 110 eine Aktivierungswort-Konfidenzpunktzahl von 0,45 und beginnt, das Konfidenzpunktzahl-Datenpaket 134 rundzusenden. Nach dreihundert Millisekunden empfängt die Computervorrichtung 110 das Aktivierungswort-Datenpaket 130 und hört auf, das Aktivierungswort-Datenpaket 134 rundzusenden, weil die Aktivierungswort-Konfidenzpunktzahl von 0,85 aus dem Aktivierungswort-Datenpaket 130 höher ist als die Aktivierungswort-Konfidenzpunktzahl von 0,45. Als weiteres Beispiel zum Rundsenden berechnet die Computervorrichtung 106 eine Aktivierungswort-Konfidenzpunktzahl von 0,45 und beginnt, das Konfidenzpunktzahl-Datenpaket 130 rundzusenden. Nach fünfhundert Millisekunden hört die Computervorrichtung 106 auf, das Konfidenzpunktzahl-Datenpaket 130 rundzusenden, und beginnt, Spracherkennung an auf das Aktivierungswort folgender Sprache durchzuführen. Die Computervorrichtung 106 kann die Konfidenzpunktzahl-Datenpakete 132 und 134 empfangen, bevor fünfhundert Millisekunden verstrichen sind, aber weil die Aktivierungswort-Konfidenzpunktzahlen in den Konfidenzpunktzahl-Datenpaketen 132 und 134 niedriger als 0,85 sind, wartet die Computervorrichtung weiter, bis die fünfhundert Millisekunden verstrichen sind.
In einigen Implementierungen kann die Computervorrichtung damit beginnen, Spracherkennung an auf das Aktivierungswort folgender Sprache durchzuführen, bis die Computervorrichtung eine höhere Aktivierungswort-Konfidenzpunktzahl empfängt. Der Hotworder berechnet eine Aktivierungswort-Konfidenzpunktzahl, und wenn die Aktivierungswort-Konfidenzpunktzahl einen Schwellenwert erfüllt, führt die Computervorrichtung die Spracherkennung an auf das Aktivierungswort folgender Sprache durch. Die Computervorrichtung kann die Spracherkennung durchführen, ohne dem Benutzer einen Hinweis auf die Spracherkennung zu geben. Dies kann erwünscht sein, da es dem Benutzer den Eindruck vermittelt, dass die Computervorrichtung nicht aktiv ist, während es der Computervorrichtung auch ermöglicht, dem Benutzer die auf der Spracherkennung beruhenden Ergebnisse schneller anzuzeigen, als wenn die Computervorrichtung gewartet hätte, bis die Computervorrichtung bestätigt hat, dass sie den höchsten Aktivierungswortwert berechnet hat. Zum Beispiel berechnet die Computervorrichtung 106 eine Aktivierungswort-Konfidenzpunktzahl von 0,85 und beginnt, die Spracherkennung an auf das Aktivierungswort folgender Sprache durchzuführen. Die Computervorrichtung 106 empfängt die Konfidenzpunktzahl-Datenpakete 132 und 134 und bestimmt, dass die Aktivierungswort-Konfidenzpunktzahl von 0,85 die höchste ist. Die Computervorrichtung 106 fährt fort, Spracherkennung an auf das Aktivierungswort folgender Sprache durchzuführen, und präsentiert die Ergebnisse dem Benutzer. Für die Computervorrichtung 108 berechnet der Hotworder 126 eine Aktivierungswort-Konfidenzpunktzahl von 0,6, und die Computervorrichtung 108 beginnt, Spracherkennung an auf das Aktivierungswort folgender Sprache durchzuführen, ohne dem Benutzer Daten anzuzeigen. Sobald die Computervorrichtung 108 das Konfidenzpunktzahl-Datenpaket 130 empfängt, das die Aktivierungswort-Konfidenzpunktzahl von 0,85 einschließt, hört die Computervorrichtung auf, Spracherkennung durchzuführen. Dem Benutzer werden keine Daten angezeigt, und der Benutzer hat wahrscheinlich den Eindruck, dass die Computervorrichtung 108 in einem Zustand „in Ruhe“ verblieben ist.
Um jegliche Latenz zu vermeiden, nachdem ein Aktivierungswort gesprochen wurde, könnten in einigen Implementierungen Punktzahlen vor dem Ende des Aktivierungsworts vom Hotworder gemeldet werden, z.B. für ein Teilaktivierungswort. Zum Beispiel könnte eine Computervorrichtung, während ein Benutzer „OK Computer“ spricht, eine Teilaktivierungswort-Konfidenzpunktzahl berechnen, sobald der Benutzer „OK Comp“ zu Ende gesprochen hat. Die Computervorrichtung kann dann die Teilaktivierungswort-Konfidenzpunktzahl mit anderen Computervorrichtungen teilen. Die Computervorrichtung mit der höchsten Teilaktivierungswort-Konfidenzpunktzahl kann fortfahren, die Sprache des Benutzers zu verarbeiten.
In einigen Implementierungen kann eine Computervorrichtung einen hörbaren oder unhörbaren Ton aussenden, z.B. mit einer bestimmten Frequenz oder einem bestimmten Frequenzmuster, wenn die Computervorrichtung bestimmt, dass eine Aktivierungswort-Konfidenzpunktzahl einen Schwellenwert erfüllt. Der Ton würde anderen Computervorrichtungen signalisieren, dass die Computervorrichtung fortfahren wird, die dem Aktivierungswort folgenden Audiodaten zu verarbeiten. Andere Computervorrichtungen würden diesen Ton empfangen und die Verarbeitung der Audiodaten einstellen. Zum Beispiel sagt ein Benutzer „OK Computer“. Eine der Computervorrichtungen berechnet eine Aktivierungswort-Konfidenzpunktzahl, die größer oder gleich einem Schwellenwert ist. Sobald die Computervorrichtung bestimmt, dass die Aktivierungswort-Konfidenzpunktzahl größer oder gleich einem Schwellenwert ist, sendet die Computervorrichtung einen Ton mit einer Frequenz von achtzehn Kilohertz aus. Die anderen Computervorrichtungen in der Nähe des Benutzers berechnen möglicherweise ebenfalls eine Aktivierungswort-Konfidenzpunktzahl und sind möglicherweise gerade dabei, eine Aktivierungswort-Konfidenzpunktzahl zu berechnen, wenn die anderen Computervorrichtungen den Ton empfangen. Wenn die anderen Computervorrichtungen den Ton empfangen, stellen die anderen Computervorrichtungen die Verarbeitung der Sprache des Benutzers ein. In einigen Implementierungen kann die Computervorrichtung die Aktivierungswort-Konfidenzpunktzahl in den hörbaren oder unhörbaren Ton codieren. Wenn die Aktivierungswort-Konfidenzpunktzahl zum Beispiel 0,5 ist, dann kann die Computervorrichtung einen hörbaren oder unhörbaren Ton erzeugen, der ein Frequenzmuster einschließt, das die Punktzahl 0,5 codiert.
In einigen Implementierungen können die Computervorrichtungen unterschiedliche Audiometriken verwenden, um eine Computervorrichtung auszuwählen, die fortfahren soll, die Sprache des Benutzers zu verarbeiten. Zum Beispiel können die Computervorrichtungen die Lautstärke verwenden, um zu bestimmen, welche Computervorrichtung die Sprache des Benutzers weiterverarbeiten soll. Die Computervorrichtung, welche die lauteste Sprache ermittelt, kann fortfahren, die Sprache des Benutzers zu verarbeiten. Als weiteres Beispiel kann die Computervorrichtung, die gerade in Gebrauch ist oder deren Anzeige aktiv ist, die anderen Computervorrichtungen benachrichtigen, dass sie fortfahren wird, die Sprache des Benutzers zu verarbeiten, sobald sie ein Aktivierungswort ermittelt hat.
In einigen Implementierungen empfängt jede Computervorrichtung, die sich in der Nähe des Benutzers befindet, während der Benutzer spricht, die Audiodaten und sendet die Audiodaten an einen Server, um die Spracherkennung zu verbessern. Jede Computervorrichtung kann die Audiodaten empfangen, die der Sprache des Benutzers entsprechen. Während dem Benutzer scheint, dass nur eine Computervorrichtung die Sprache des Benutzers verarbeitet, kann jede Computervorrichtung die Audiodaten zu einem Server übertragen. Der Server kann dann die von jeder Computervorrichtung empfangenen Audiodaten verwenden, um die Spracherkennung zu verbessern, da der Server unterschiedliche Audiosamples vergleichen kann, die der gleichen Äußerung entsprechen. Zum Beispiel sagt ein Benutzer: „OK Computer, erinnere mich daran, Milch zu kaufen.“ Sobald der Benutzer „OK Computer“ gesagt hat, haben die Computervorrichtungen in der Nähe wahrscheinlich bestimmt, welche Computervorrichtung die höchste Aktivierungswort-Konfidenzpunktzahl hat, und diese Computervorrichtung verarbeitet „Erinnere mich daran, Milch zu kaufen“ und reagiert darauf, während der Benutzer diese Wörter spricht. Die anderen Computervorrichtungen werden ebenfalls „Erinnere mich daran, Milch zu kaufen“ empfangen. Während die anderen Computervorrichtungen nicht auf die Äußerung „Erinnere mich daran, Milch zu kaufen“ reagieren, können die anderen Computervorrichtungen Audiodaten, die „Erinnere mich daran, Milch zu kaufen“ entsprechen, an einen Server senden. Die Computervorrichtung, die auf die Äußerung „Erinnere mich daran, Milch zu kaufen“ reagiert, kann ebenfalls ihre Audiodaten an den Server senden. Der Server kann die Audiodaten verarbeiten, um die Spracherkennung zu verbessern, weil der Server unterschiedliche Audiosamples von unterschiedlichen Computervorrichtungen hat, die der gleichen Äußerung „Erinnere mich daran, Milch zu kaufen“ entsprechen.
2 ist eine grafische Darstellung eines beispielhaften Prozesses 200 zur Aktivierungswort-Ermittlung. Der Prozess 200 kann durch eine Computervorrichtung wie etwa die Computervorrichtung 108 aus 1 durchgeführt werden. Der Prozess 200 berechnet einen Wert, der einer Wahrscheinlichkeit entspricht, dass eine Äußerung ein Aktivierungswort einschließt, und vergleicht den Wert mit anderen Werten, die durch andere Computervorrichtungen berechnet wurden, um zu bestimmen, ob auf dem Abschnitt der Äußerung nach dem Aktivierungswort Spracherkennung durchgeführt werden soll oder nicht.
Die Computervorrichtung empfängt Audiodaten, die einer Äußerung entsprechen (210). Ein Benutzer spricht die Äußerung und ein Mikrofon der Computervorrichtung empfängt die Audiodaten der Äußerung. Die Computervorrichtung verarbeitet die Audiodaten durch Puffern, Filtern, Endpunktbestimmen und Digitalisieren der Audiodaten. Zum Beispiel kann der Benutzer „OK Computer“ sagen, und das Mikrofon der Computervorrichtung empfängt die Audiodaten, die „OK Computer“ entsprechen. Ein Audio-Subsystem der Computervorrichtung tastet die Audiodaten ab, puffert und filtert sie, führt die Endpunktbestimmung durch und stellt die Audiodaten zur weiteren Verarbeitung durch die Computervorrichtung bereit.
Die Computervorrichtung bestimmt einen ersten Wert, der einer Wahrscheinlichkeit entspricht, dass die Äußerung ein Aktivierungswort einschließt (220). Die Computervorrichtung bestimmt den ersten Wert, der als Aktivierungswort-Konfidenzpunktzahl bezeichnet werden kann, indem sie die Audiodaten der Äußerung mit einer Gruppe von Audiosamples vergleicht, die das Aktivierungswort einschließen, oder indem sie die Audiomerkmale der Audiodaten der Äußerung analysiert. Der erste Wert kann auf eine Skala von null bis eins normiert werden, wobei eins die höchste Wahrscheinlichkeit angibt, dass die Äußerung ein Aktivierungswort einschließt. In einigen Implementierungen identifiziert die Computervorrichtung eine zweite Computervorrichtung und bestimmt, dass die zweite Computervorrichtung dafür konfiguriert ist, auf Äußerungen zu reagieren, die das Aktivierungswort einschließen, und durch den Benutzer dafür konfiguriert ist, auf das Aktivierungswort zu reagieren. Der Benutzer kann sowohl bei der Computervorrichtung als auch bei der zweiten Computervorrichtung angemeldet sein. Sowohl die Computervorrichtung als auch die zweite Computervorrichtung können dafür konfiguriert sein, auf die Stimme des Benutzers zu reagieren. Die Computervorrichtung und die zweite Computervorrichtung können mit dem gleichen lokalen Netzwerk verbunden sein. Die Computervorrichtung und die zweite Computervorrichtung können sich innerhalb einer bestimmten Entfernung voneinander befinden, wie etwa zehn Meter, bestimmt durch GPS oder Signalstärke. Zum Beispiel können die Computervorrichtungen über Kurzstreckenfunk kommunizieren. Die Computervorrichtung kann eine Stärke eines durch die zweite Vorrichtung gesendeten Signals als fünf dBm ermitteln und diese in eine entsprechende Entfernung wie etwa fünf Meter übersetzen.
Die Computervorrichtung empfängt einen zweiten Wert, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der zweite Wert durch eine zweite Computervorrichtung (230) bestimmt wird. Die zweite Computervorrichtung empfängt die Äußerung über ein Mikrofon der zweiten Computervorrichtung. Die zweite Computervorrichtung verarbeitet die empfangenen Audiodaten, die der Äußerung entsprechen, und bestimmt einen zweiten Wert oder eine zweite Aktivierungswort-Konfidenzpunktzahl. Die zweite Aktivierungswort-Konfidenzpunktzahl widerspiegelt die durch die zweite Computervorrichtung berechnete Wahrscheinlichkeit, dass die Äußerung ein Aktivierungswort einschließt. In einigen Implementierungen überträgt die Computervorrichtung den ersten Wert zur zweiten Computervorrichtung unter Verwendung einer oder mehrerer der folgenden Methoden. Die Computervorrichtung kann den ersten Wert zur zweiten Computervorrichtung über einen Server, der über das Internet zugänglich ist, über einen Server, der sich im lokalen Netzwerk befindet, oder direkt über das lokale Netzwerk oder Kurzstreckenfunk übertragen. Die Computervorrichtung kann den ersten Wert nur zur zweiten Computervorrichtung übertragen oder die Computervorrichtung kann den ersten Wert rundsenden, sodass auch andere Computervorrichtungen den ersten Wert empfangen können. Die Computervorrichtung kann den zweiten Wert von der zweiten Computervorrichtung mit der gleichen oder einer anderen Methode empfangen, mit der die Computervorrichtung den ersten Wert übertragen hat.
In einigen Implementierungen kann die Computervorrichtung eine Lautstärkepunktzahl für die Äußerung oder ein Signal-Rausch-Verhältnis für die Äußerung berechnen. Die Computervorrichtung kann die Lautstärkepunktzahl, das Signal-Rausch-Verhältnis und die Aktivierungswort-Konfidenzpunktzahl kombinieren, um einen neuen Wert zum Vergleichen mit ähnlichen Werten von anderen Computervorrichtungen zu bestimmen. Zum Beispiel kann die Computervorrichtung eine Aktivierungswort-Konfidenzpunktzahl und ein Signal-Rausch-Verhältnis berechnen. Die Computervorrichtung kann dann diese beiden Punktzahlen kombinieren und mit ähnlich berechneten Punktzahlen von anderen Computervorrichtungen vergleichen. In einigen Implementierungen kann die Computervorrichtung unterschiedliche Punktzahlen berechnen und zum Vergleich jede Punktzahl zu anderen Computervorrichtungen übertragen. Zum Beispiel kann die Computervorrichtung eine Lautstärkepunktzahl für die Äußerung und eine Aktivierungswort-Konfidenzpunktzahl berechnen. Die Computervorrichtung kann zum Vergleich dann diese Punktzahlen zu anderen Computervorrichtungen übertragen.
In einigen Implementierungen kann die Computervorrichtung eine erste Kennung mit dem ersten Wert übertragen. Die Kennung kann auf einem oder mehr von Folgendem beruhen: eine Adresse der Computervorrichtung, ein vom Benutzer angegebener Name der Computervorrichtung oder ein Standort der Computervorrichtung. Zum Beispiel kann eine Kennung „69.123.132.43“ oder „Telefon“ lauten. In ähnlicher Weise kann die zweite Computervorrichtung eine zweite Kennung mit dem zweiten Wert übertragen. In einigen Implementierungen kann die Computervorrichtung die erste Kennung zu bestimmten Computervorrichtungen übertragen, von denen die Computervorrichtung zuvor festgestellt hatte, dass sie dafür konfiguriert sind, auf das Aktivierungswort zu reagieren. Zum Beispiel kann die Computervorrichtung zuvor festgestellt haben, dass die zweite Computervorrichtung dafür konfiguriert ist, auf das Aktivierungswort zu reagieren, weil zusätzlich zu der Fähigkeit, auf ein Aktivierungswort zu reagieren, der gleiche Benutzer wie bei der Computervorrichtung auch bei der zweiten Computervorrichtung angemeldet war.
Die Computervorrichtung vergleicht den ersten Wert und den zweiten Wert (240). Die Computervorrichtung initiiert dann auf der Grundlage des Vergleichsergebnisses eine Spracherkennungsverarbeitung an den Audiodaten (250). In einigen Implementierungen initiiert die Computervorrichtung beispielsweise die Spracherkennung, wenn der erste Wert größer oder gleich dem zweiten Wert ist. Wenn der Benutzer gesagt hat „OK Computer, ruf Carol an“, dann würde die Computervorrichtung beginnen, „Ruf Carol an“ zu verarbeiten, indem sie die Spracherkennung an „Ruf Carol an“ durchführt, weil der erste Wert größer oder gleich dem zweiten Wert ist. In einigen Implementierungen setzt die Computervorrichtung einen Aktivierungszustand. In Fällen, in denen der erste Wert größer oder gleich dem zweiten Wert ist, setzt die Computervorrichtung den Aktivierungszustand als aktiv oder „wach“. Im „wachen“ Zustand zeigt die Computervorrichtung Ergebnisse aus der Spracherkennung an.
In einigen Implementierungen vergleicht die Computervorrichtung den ersten Wert und den zweiten Wert und bestimmt, dass der erste Wert kleiner als der zweite Wert ist. Beruhend auf dem Bestimmen, dass der erste Wert kleiner als der zweite Wert ist, setzt die Computervorrichtung den Aktivierungszustand als inaktiv oder „in Ruhe“. Im Zustand „in Ruhe“ scheint die Computervorrichtung für den Benutzer nicht aktiv zu sein oder die Audiodaten zu verarbeiten.
In einigen Implementierungen kann die Computervorrichtung, wenn sie bestimmt, dass der erste Wert größer oder gleich dem zweiten Wert ist, eine bestimmte Zeitspanne warten, bevor sie den Aktivierungszustand auf aktiv setzt. Die Computervorrichtung kann die bestimmte Zeitspanne abwarten, um die Wahrscheinlichkeit zu erhöhen, dass die Computervorrichtung keinen höheren Wert von einer anderen Computervorrichtung empfängt. Die bestimmte Zeitspanne kann festgelegt sein oder variieren, abhängig von der Methode, mit der die Computervorrichtungen Werte senden und empfangen. In einigen Implementierungen kann die Computervorrichtung, wenn sie bestimmt, dass der erste Wert größer oder gleich dem zweiten Wert ist, für eine bestimmte Zeitspanne fortfahren, den ersten Wert zu übertragen. Indem sie für eine bestimmte Zeitspanne fortfährt, den ersten Wert zu übertragen, erhöht die Computervorrichtung die Wahrscheinlichkeit, dass der erste Wert durch die anderen Computervorrichtungen empfangen wird. In Fällen, in denen die Computervorrichtung bestimmt, dass der erste Wert kleiner als der zweite Wert ist, kann die Computervorrichtung aufhören, den ersten Wert zu übertragen.
In einigen Implementierungen kann die Computervorrichtung zusätzliche Informationen berücksichtigen, um zu bestimmen, ob der auf das Aktivierungswort folgende Befehl ausgeführt werden soll. Ein Beispiel für die zusätzlichen Informationen kann der Abschnitt der Äußerung sein, der auf das Aktivierungswort folgt. Normalerweise entsprechen die Audiodaten, die auf das Aktivierungswort folgen, einem Befehl für die Computervorrichtung wie etwa „Ruf Sally an“, „Spiel den Halloween-Film ab“ oder „Stell die Heizung auf 70 Grad“. Die Computervorrichtung kann eine typische Vorrichtung identifizieren, welche die Art der Anfrage bearbeitet oder imstande ist, die Anfrage zu bearbeiten. Eine Anforderung, eine Person anzurufen, würde normalerweise durch ein Telefon bearbeitet, und zwar auf der Grundlage vorprogrammierter typischer Nutzungen oder auf der Grundlage von Nutzungsmustern eines Benutzers der Vorrichtung. Wenn der Benutzer Filme normalerweise auf einem Tablet anschaut, kann das Tablet eine Anfrage zum Abspielen eines Films bearbeiten. Wenn der Thermostat zum Regulieren der Temperatur imstande ist, dann kann der Thermostat die Temperaturregulierung vornehmen.
Damit die Computervorrichtung den Abschnitt der Äußerung berücksichtigen kann, der auf das Aktivierungswort folgt, müsste die Computervorrichtung Spracherkennung an den Audiodaten initiieren, sobald sie wahrscheinlich ein Aktivierungswort identifiziert hat. Die Computervorrichtung kann den Befehlsabschnitt der Äußerung kategorisieren und eine Häufigkeit der Befehle in dieser Kategorie berechnen. Die Computervorrichtung kann die Häufigkeit zusammen mit der Aktivierungswort-Konfidenzpunktzahl zu anderen Computervorrichtungen übertragen. Jede Computervorrichtung kann die Häufigkeiten und die Aktivierungswort-Konfidenzpunktzahlen verwenden, um zu bestimmen, ob der auf das Aktivierungswort folgende Befehl ausgeführt werden soll.
Wenn der Benutzer zum Beispiel sagt: „OK Computer, spiele Michael Jackson“, und die Computervorrichtung ein Telefon ist, das der Benutzer zwanzig Prozent der Zeit benutzt, um Musik zu hören, dann kann die Computervorrichtung diese Information zusammen mit der Aktivierungswort-Konfidenzpunktzahl übertragen. Eine Computervorrichtung wie etwa ein Tablet, das der Benutzer zu fünf Prozent der Zeit zum Musikhören verwendet, kann diese Information zusammen mit der Aktivierungswort-Konfidenzpunktzahl an andere Computervorrichtungen weitergeben. Die Computervorrichtungen können eine Kombination aus der Aktivierungswort-Konfidenzpunktzahl und dem Prozentsatz der Zeit, in der Musik gespielt wird, verwenden, um zu bestimmen, ob der Befehl ausgeführt werden soll.
3 zeigt ein Beispiel für eine Computervorrichtung 300 und eine Mobilvorrichtung 350, die verwendet werden können, um die hier beschriebenen Methoden zu implementieren. Die Computervorrichtung 300 soll verschiedene Formen von digitalen Computern darstellen, wie etwa Laptops, Desktops, Workstations, persönliche digitale Assistenten, Server, Blade-Server, Mainframes und andere geeignete Computer. Die mobile Computervorrichtung 350 soll verschiedene Arten von Mobilvorrichtungen darstellen, wie etwa persönliche digitale Assistenten, Mobiltelefone, Smartphones und andere ähnliche Computervorrichtungen. Die hier gezeigten Komponenten, ihre Verbindungen und Beziehungen sowie ihre Funktionen sind lediglich als Beispiele zu verstehen und nicht als Einschränkung.
Die Computervorrichtung 300 schließt einen Prozessor 302, einen Arbeitsspeicher 304, eine Speichervorrichtung 306, eine schnelle Schnittstelle 308, die mit dem Arbeitsspeicher 304 und mehreren schnellen Erweiterungsanschlüssen 310 verbunden ist, und eine langsame Schnittstelle 312, die mit einem langsamen Erweiterungsanschluss 314 und der Speichervorrichtung 306 verbunden ist, ein. Der Prozessor 302, der Arbeitsspeicher 304, die Speichervorrichtung 306, die schnelle Schnittstelle 308, die schnellen Erweiterungsanschlüsse 310 und die langsame Schnittstelle 312 sind alle über verschiedene Busse miteinander verbunden und können auf einer gemeinsamen Hauptplatine oder auf andere geeignete Weise montiert sein. Der Prozessor 302 kann Anweisungen zur Ausführung innerhalb der Computervorrichtung 300 verarbeiten, einschließlich Anweisungen, die im Arbeitsspeicher 304 oder auf der Speichervorrichtung 306 gespeichert sind, um Grafikinformationen für eine grafische Benutzeroberfläche auf einer externen Eingabe-/Ausgabevorrichtung, wie etwa einer mit der schnellen Schnittstelle 308 gekoppelten Anzeige 316, anzuzeigen. In anderen Implementierungen können je nach Bedarf mehrere Prozessoren und/oder mehrere Busse zusammen mit mehreren Arbeitsspeichern und Arbeitsspeichertypen verwendet werden. Auch können mehrere Computervorrichtungen angeschlossen werden, wobei jede Vorrichtung Abschnitte der erforderlichen Operationen bereitstellt (z.B. als eine Serverbank, eine Gruppe von Blade-Servern oder ein Multiprozessorsystem).
Der Arbeitsspeicher 304 speichert Informationen innerhalb der Computervorrichtung 300. In einigen Implementierungen ist der Arbeitsspeicher 304 eine flüchtige Speichereinheit oder -einheiten. In einigen Implementierungen ist der Arbeitsspeicher 304 eine nichtflüchtige Speichereinheit oder -einheiten. Der Arbeitsspeicher 304 kann auch eine andere Form eines computerlesbaren Mediums sein, wie etwa ein magnetisches oder optisches Laufwerk.
Die Speichervorrichtung 306 ist imstande, einen Massenspeicher für die Computervorrichtung 300 bereitzustellen. In einigen Ausführungsformen kann die Speichervorrichtung 306 ein computerlesbares Medium sein oder enthalten, wie etwa eine Diskettenlaufwerksvorrichtung, eine Festplattenlaufwerksvorrichtung, eine optische Laufwerksvorrichtung oder eine Bandvorrichtung, ein Flash-Speicher oder eine ähnliche Festkörperspeichervorrichtung oder eine Anordnung von Vorrichtungen, einschließlich Vorrichtungen in einem Speichernetzwerk oder anderen Konfigurationen. Anweisungen können in einem Informationsträger gespeichert werden. Wenn sie durch eine oder mehrere Vorrichtungen (zum Beispiel Prozessor 302) ausgeführt werden, führen die Anweisungen ein oder mehrere Verfahren durch, wie etwa die oben beschriebenen. Die Anweisungen können auch durch eine oder mehrere Speichervorrichtungen wie etwa computer- oder maschinenlesbare Medien (zum Beispiel den Arbeitsspeicher 304, die Speichervorrichtung 306 oder Speicher auf dem Prozessor 302) gespeichert werden.
Die schnelle Schnittstelle 308 wickelt bandbreitenintensive Operationen für die Computervorrichtung 300 ab, während die langsame Schnittstelle 312 weniger bandbreitenintensive Operationen abwickelt. Eine solche Zuteilung von Funktionen ist nur ein Beispiel. In einigen Implementierungen ist die schnelle Schnittstelle 308 mit dem Arbeitsspeicher 304, der Anzeige 316 (z.B. über einen Grafikprozessor oder -beschleuniger) und mit den schnellen Erweiterungsanschlüssen 310 gekoppelt, die verschiedene Erweiterungskarten (nicht gezeigt) aufnehmen können. In der Implementierung ist die langsame Schnittstelle 312 mit der Speichervorrichtung 306 und dem langsamen Erweiterungsanschluss 314 gekoppelt. Der langsame Erweiterungsanschluss 314, der verschiedene Kommunikationsanschlüsse (z.B. USB, Bluetooth, Ethernet, drahtloses Ethernet) einschließen kann, kann mit einer oder mehreren Eingabe-/Ausgabevorrichtungen gekoppelt werden, wie etwa einer Tastatur, einem Zeigegerät, einem Scanner oder einer Netzwerkvorrichtung, wie etwa einem Switch oder Router, z.B. über einen Netzwerkadapter.
Die Computervorrichtung 300 kann in einer Reihe unterschiedlicher Formen implementiert werden, wie in der Abbildung gezeigt. Zum Beispiel kann sie als ein Standard-Server 320 oder mehrfach in einer Gruppe solcher Server implementiert sein. Darüber hinaus kann sie in einem Personal Computer wie etwa einem Laptop 322 implementiert sein. Sie kann auch als Teil eines Rackserver-Systems 324 implementiert werden. Alternativ können Komponenten aus der Computervorrichtung 300 mit anderen Komponenten in einer Mobilvorrichtung (nicht dargestellt) kombiniert werden, wie etwa einer mobilen Computervorrichtung 350. Jede solcher Vorrichtungen kann eine oder mehrere der Computervorrichtung 300 und der mobilen Computervorrichtung 350 enthalten, und ein ganzes System kann aus mehreren Computervorrichtungen bestehen, die miteinander kommunizieren.
Die Mobilkommunikationsvorrichtung 350 schließt neben anderen Komponenten einen Prozessor 352, einen Arbeitsspeicher 364, eine Eingabe-/Ausgabevorrichtung wie etwa eine Anzeige 354, eine Kommunikationsschnittstelle 366 und einen Sendeempfänger 368 ein. Die mobile Computervorrichtung 350 kann auch mit einer Speichervorrichtung, wie etwa einem Mikro-Laufwerk oder einer anderen Vorrichtung, versehen sein, um zusätzlichen Speicherplatz bereitzustellen. Der Prozessor 352, der Arbeitsspeicher 364, die Anzeige 354, die Kommunikationsschnittstelle 366 und der Sendeempfänger 368 sind alle durch verschiedene Busse miteinander verbunden, und mehrere der Komponenten können auf einer gemeinsamen Hauptplatine oder auf andere geeignete Weise montiert sein.
Der Prozessor 352 kann Anweisungen innerhalb der mobilen Computervorrichtung 350 ausführen, einschließlich Anweisungen, die im Arbeitsspeicher 364 gespeichert sind. Der Prozessor 352 kann als ein Chipsatz von Chips implementiert sein, die separate und mannigfaltige analoge und digitale Prozessoren einschließen. Der Prozessor 352 kann beispielsweise für die Koordination der anderen Komponenten der mobilen Computervorrichtung 350 sorgen, wie etwa die Steuerung von Benutzerschnittstellen, von Anwendungen, die durch die mobile Computervorrichtung 350 ausgeführt werden, und von drahtloser Kommunikation durch die mobile Computervorrichtung 350.
Der Prozessor 352 kann mit einem Benutzer über eine Steuerungsschnittstelle 358 und eine mit der Anzeige 354 gekoppelte Anzeigeschnittstelle 356 kommunizieren. Die Anzeige 354 kann zum Beispiel eine TFT-Anzeige (Dünnschichttransistor-Flüssigkristallanzeige) oder eine OLED-(organische Leuchtdioden-)Anzeige oder andere geeignete Anzeigetechnologie sein. Die Anzeigeschnittstelle 356 kann eine geeignete Schaltung zur Ansteuerung der Anzeige 354 umfassen, um dem Benutzer grafische und andere Informationen zu präsentieren. Die Steuerungsschnittstelle 358 kann Befehle von einem Benutzer empfangen und sie zur Übergabe an den Prozessor 352 konvertieren. Darüber hinaus kann eine externe Schnittstelle 362 Kommunikation mit dem Prozessor 352 bereitstellen, um dadurch Nahbereichskommunikation der mobilen Computervorrichtung 350 mit anderen Vorrichtungen zu ermöglichen. Die externe Schnittstelle 362 kann zum Beispiel in einigen Implementierungen für drahtgebundene Kommunikation oder in anderen Implementierungen für drahtlose Kommunikation sorgen, und es können auch mehrere Schnittstellen verwendet werden.
Der Arbeitsspeicher 364 speichert Informationen innerhalb der mobilen Computervorrichtung 350. Der Arbeitsspeicher 364 kann als ein oder mehr von Folgendem implementiert sein: ein computerlesbares Medium oder Medien, eine flüchtige Speichereinheit oder -einheiten oder eine nicht flüchtige Speichereinheit oder -einheiten. Ein Erweiterungsspeicher 374 kann auch bereitgestellt und über eine Erweiterungsschnittstelle 372 mit der mobilen Computervorrichtung 350 verbunden werden, die beispielsweise eine SIMM-Kartenschnittstelle (Single In-Line Memory Module) einschließen kann. Der Erweiterungsspeicher 374 kann zusätzlichen Speicherplatz für die mobile Computervorrichtung 350 bereitstellen oder kann auch Anwendungen oder andere Informationen für die mobile Computervorrichtung 350 speichern. Insbesondere kann der Erweiterungsspeicher 374 Anweisungen einschließen, um die oben beschriebenen Prozesse auszuführen oder zu ergänzen, und er kann auch sichere Informationen einschließen. So kann der Erweiterungsspeicher 374 zum Beispiel als Sicherheitsmodul für die mobile Computervorrichtung 350 bereitgestellt werden und kann mit Anweisungen programmiert werden, die eine sichere Nutzung der mobilen Computervorrichtung 350 ermöglichen. Darüber hinaus können über die SIMM-Karten sichere Anwendungen bereitgestellt werden, zusammen mit zusätzlichen Informationen, wie etwa die Platzierung von Identifizierungsinformationen auf der SIMM-Karte auf nicht hackbare Weise.
Der Arbeitsspeicher kann zum Beispiel Flash-Speicher und/oder NVRAM-Speicher (nichtflüchtiger Direktzugriffsspeicher) einschließen, wie nachstehend erörtert. In einigen Implementierungen werden Anweisungen in einem Informationsträger gespeichert, sodass die Anweisungen, wenn sie durch eine oder mehrere Verarbeitungsvorrichtungen (z. B. Prozessor 352) ausgeführt werden, ein oder mehrere Verfahren, wie etwa die oben beschriebenen, durchführen. Die Anweisungen können auch durch eine oder mehrere Speichervorrichtungen gespeichert werden, wie etwa ein oder mehrere computer- oder maschinenlesbare Medien (zum Beispiel der Arbeitsspeicher 364, der Erweiterungsspeicher 374 oder Speicher auf dem Prozessor 352). In einigen Implementierungen können die Anweisungen in einem übertragenen Signal empfangen werden, zum Beispiel über den Sendeempfänger 368 oder die externe Schnittstelle 362.
Die mobile Computervorrichtung 350 kann drahtlos über die Kommunikationsschnittstelle 366 kommunizieren, die bei Bedarf eine digitale Signalverarbeitungsschaltung einschließen kann. Die Kommunikationsschnittstelle 366 kann für Kommunikation unter verschiedenen Betriebsarten oder Protokollen sorgen, wie etwa Sprachanrufe im GSM (Globales System für Mobilkommunikation), Nachrichtenübermittlung per SMS (Kurznachrichtendienst), EMS (Verbesserter Nachrichtendienst) oder MMS (Multimedia-Nachrichtendienst), CDMA (Codemultiplex-Mehrfachzugriff), TDMA (Zeitmultiplex-Mehrfachzugriff), PDC (Personen-Digitalmobilfunk), WCDMA (Breitband-Codemultiplex-Mehrfachzugriff), CDMA2000 oder GPRS (Allgemeiner Paketfunkdienst), unter anderem. Solche Kommunikation kann zum Beispiel über den Sendeempfänger 368 unter Verwendung einer Funkfrequenz erfolgen. Darüber hinaus kann Kurzstreckenkommunikation stattfinden, wie etwa unter Verwendung eines Bluetooth-, WiFi- oder anderen derartigen Sendeempfängers (nicht gezeigt). Darüber hinaus kann ein Empfängermodul für GPS (Globales Positionsbestimmungssystem) 370 zusätzliche navigations- und standortbezogene drahtlose Daten für die mobile Computervorrichtung 350 bereitstellen, die gegebenenfalls durch Anwendungen verwendet werden können, die auf der mobilen Computervorrichtung 350 laufen.
Die mobile Computervorrichtung 350 kann auch akustisch kommunizieren, und zwar unter Verwendung eines Audiocodecs 360, der gesprochene Informationen von einem Benutzer empfangen und in nutzbare digitale Informationen konvertieren kann. Der Audiocodec 360 kann ebenfalls hörbaren Ton für einen Benutzer erzeugen, wie etwa über einen Lautsprecher, z.B. in einem Handgerät der mobilen Computervorrichtung 350. Solcher Ton kann Ton aus Sprachtelefonaten einschließen, kann aufgezeichneten Ton einschließen (z.B. Sprachnachrichten, Musikdateien usw.) und kann auch Ton einschließen, der durch Anwendungen erzeugt wird, die auf der mobilen Computervorrichtung 350 betrieben werden.
Die mobile Computervorrichtung 350 kann in einer Reihe unterschiedlicher Formen implementiert werden, wie in der Abbildung gezeigt. Zum Beispiel kann sie als ein Mobiltelefon 380 implementiert sein. Es kann auch als Teil eines Smartphones 382, eines persönlichen digitalen Assistenten oder einer anderen ähnlichen Mobilvorrichtung implementiert sein.
Verschiedene Implementierungen der hier beschriebenen Systeme und Methoden können in digitalen elektronischen Schaltungen, integrierten Schaltkreisen, eigens entwickelten ASICs (anwendungsspezifischen integrierten Schaltkreisen), Computerhardware, Firmware, Software und/oder Kombinationen daraus realisiert werden. Diese verschiedenen Implementierungen können die Implementierung in einem oder mehreren Computerprogrammen einschließen, die auf einem programmierbaren System ausführbar und/oder interpretierbar sind, das mindestens einen programmierbaren Prozessor einschließt, bei dem es sich um einen Spezial- oder Allzweckprozessor handeln kann, der gekoppelt ist, um Daten und Anweisungen von einem Speichersystem, mindestens einer Eingabevorrichtung und mindestens einer Ausgabevorrichtung zu empfangen und Daten und Anweisungen zu diesen zu übertragen.
Diese Computerprogramme (auch als Programme, Software, Softwareanwendungen oder Code bekannt) schließen Maschinenanweisungen für einen programmierbaren Prozessor ein und können in einer prozeduralen und/oder objektorientierten Hochsprache und/oder in Assembler-/Maschinensprache implementiert werden. Wie hierin verwendet, beziehen sich die Begriffe maschinenlesbares Medium und computerlesbares Medium auf jedes Computerprogrammprodukt, jede Vorrichtung und/oder jedes Gerät (z.B. Magnetspeicherplatten, optische Speicherplatten, Speicher, programmierbare Logikbausteine (PLDs)), die verwendet werden, um einem programmierbaren Prozessor Maschinenanweisungen und/oder Daten bereitzustellen, einschließlich eines maschinenlesbaren Mediums, das Maschinenanweisungen als maschinenlesbares Signal empfängt. Der Begriff „maschinenlesbares Signal“ bezieht sich auf jedes Signal, das verwendet wird, um Maschinenanweisungen und/oder Daten für einen programmierbaren Prozessor bereitzustellen.
Um für Interaktion mit einem Benutzer zu sorgen, können die hier beschriebenen Systeme und Methoden auf einem Computer implementiert werden, der eine Anzeigevorrichtung (z.B. einen CRT-(Kathodenstrahlröhren-) oder LCD-(Flüssigkristallanzeige-)Monitor) zum Anzeigen von Informationen für den Benutzer sowie eine Tastatur und eine Zeigevorrichtung (z.B. eine Maus oder ein Trackball) hat, womit der Benutzer Eingaben für den Computer bereitstellen kann. Ebenso können andere Arten von Vorrichtungen verwendet werden, um für Interaktion mit einem Benutzer zu sorgen; zum Beispiel kann die Rückmeldung an den Benutzer jede Form von sensorischer Rückmeldung sein (z.B. visuelle Rückmeldung, akustische Rückmeldung oder taktile Rückmeldung); und Eingaben vom Benutzer können in jeder Form empfangen werden, einschließlich akustischer, sprachlicher oder taktiler Eingaben.
Die hier beschriebenen Systeme und Methoden können in einem Computersystem implementiert werden, das eine Backend-Komponente (z.B. als Datenserver) einschließt, oder das eine Middleware-Komponente (z.B. einen Anwendungsserver) einschließt, oder das eine Frontend-Komponente (z.B. einen Client-Computer mit einer grafischen Benutzeroberfläche oder einem Web-Browser, über den ein Benutzer mit einer Implementierung der hier beschriebenen Systeme und Methoden interagieren kann) einschließt, oder eine beliebige Kombination solcher Backend-, Middleware- oder Frontend-Komponenten. Die Komponenten des Systems können durch jede Form oder jedes Medium von digitaler Datenkommunikation (z.B. ein Kommunikationsnetzwerk) miteinander verbunden sein. Beispiele für Kommunikationsnetzwerke schließen ein lokales Netzwerk (LAN), ein Weitverkehrsnetzwerk (WAN) und das Internet ein.
Das Computersystem kann Clients und Server einschließen. Ein Client und ein Server sind grundsätzlich voneinander entfernt und interagieren normalerweise über ein Kommunikationsnetzwerk. Die Beziehung zwischen Client und Server entsteht dadurch, dass Computerprogramme auf den jeweiligen Computern laufen und eine Client-Server-Beziehung zueinander haben.
Obwohl oben einige Implementierungen ausführlich beschrieben worden sind, sind andere Modifikationen möglich. Während zum Beispiel eine Client-Anwendung so beschrieben wurde, dass sie auf den/die Delegaten zugreift, kann der/die Delegat(e) in anderen Implementierungen durch andere Anwendungen verwendet werden, die durch einen oder mehrere Prozessoren implementiert werden, wie etwa eine Anwendung, die auf einem oder mehreren Servern läuft. Darüber hinaus erfordern die in den Figuren dargestellten logischen Abläufe nicht die besondere dargestellte Reihenfolge oder eine sequenzielle Reihenfolge, um erwünschte Ergebnisse zu erzielen. Darüber hinaus können in den beschriebenen Abläufen auch andere Aktionen bereitgestellt oder daraus eliminiert werden, und es können andere Komponenten zu den beschriebenen Systemen hinzugefügt oder aus ihnen entfernt werden. Dementsprechend fallen andere Implementierungen in den Schutzbereich der folgenden Ansprüche.
Die vorliegende Patentschrift schließt die folgenden Klauseln ein:

1. Computerimplementiertes Verfahren, umfassend:
- Empfangen von Audiodaten, die einer Äußerung entsprechen, durch eine erste Computervorrichtung;
- Bestimmen eines ersten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung ein Aktivierungswort einschließt;
- Empfangen eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der zweite Wert durch eine zweite Computervorrichtung bestimmt wird;
- Vergleichen des ersten Werts und des zweiten Werts; und
- auf dem Vergleichen des ersten Werts mit dem zweiten Wert beruhendes Initiieren von Spracherkennungsverarbeitung an den Audiodaten.
2. Verfahren nach Klausel 1, umfassend:
- Bestimmen, dass der erste Wert einen Aktivierungswort-Punktzahlschwellenwert erfüllt.
3. Verfahren nach Klausel 1, umfassend:
- Übertragen des ersten Werts zur zweiten Computervorrichtung.
4. Verfahren nach Klausel 1, umfassend:
- auf dem Vergleichen des ersten Werts und des zweiten Werts beruhendes Bestimmen eines Aktivierungszustands der ersten Computervorrichtung.
5. Verfahren nach Klausel 4, worin das auf dem Vergleichen des ersten Werts und des zweiten Werts beruhende Bestimmen eines Aktivierungszustands der ersten Computervorrichtung umfasst:
- Bestimmen, dass der Aktivierungszustand ein aktiver Zustand ist.
6. Verfahren nach Klausel 1, umfassend:
- Empfangen zusätzlicher Audiodaten, die einer zusätzlichen Äußerung entsprechen, durch die erste Computervorrichtung;
- Bestimmen eines dritten Werts, der einer Wahrscheinlichkeit entspricht, dass die zusätzliche Äußerung das Aktivierungswort einschließt;
- Empfangen eines vierten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der vierte Wert durch eine dritte Computervorrichtung bestimmt wird;
- Vergleichen des dritten Werts und des vierten Werts; und
- auf dem Vergleichen des dritten Werts und des vierten Werts beruhendes Bestimmen, dass der Aktivierungszustand der ersten Computervorrichtung ein inaktiver Zustand ist.
7. Verfahren von Klausel 3, worin:
- das Übertragen des ersten Werts zur zweiten Computervorrichtung umfasst:
  - Übertragen des ersten Werts zu einem Server, über ein lokales Netzwerk oder über Kurzstreckenfunk, und
  - das Empfangen eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei das Bestimmen des zweiten Werts durch eine zweite Computervorrichtung umfasst:
- Empfangen eines zweiten Werts, der durch eine zweite Computervorrichtung bestimmt wurde, vom Server, über das lokale Netzwerk oder über den Kurzstreckenfunk.
8. Verfahren nach Klausel 1, umfassend:
- Identifizieren der zweiten Computervorrichtung; und
- Bestimmen, dass die zweite Computervorrichtung dafür konfiguriert ist, auf Äußerungen zu reagieren, die das Aktivierungswort einschließen.
9. Verfahren nach Klausel 3, worin:
- das Übertragen des ersten Werts zur zweiten Computervorrichtung umfasst:
  - Übertragen einer ersten Kennung für die erste Computervorrichtung, und
  - das Empfangen eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei das Bestimmen des zweiten Werts durch eine zweite Computervorrichtung umfasst:
- Empfangen einer zweiten Kennung für die zweite Computervorrichtung.
10. Verfahren nach Klausel 5, worin das Bestimmen, dass der Aktivierungszustand ein aktiver Zustand ist, umfasst:
- Bestimmen, dass seit dem Empfang der Audiodaten, die der Äußerung entsprechen, eine bestimmte Zeitspanne verstrichen ist.
11. Verfahren nach Klausel 5, umfassend:
- auf dem Bestimmen, dass der Aktivierungszustand ein aktiver Zustand ist, beruhendes Fortfahren für eine bestimmte Zeitspanne, den ersten Wert zu übertragen.
12. Computervorrichtung, umfassend:
- eine oder mehrere Speichervorrichtungen, die Anweisungen speichern, die, wenn sie durch die Computervorrichtung ausgeführt werden, betreibbar sind, um die Computervorrichtung zu veranlassen, Operationen durchzuführen, welche umfassen:
  - Empfangen von Audiodaten, die einer Äußerung entsprechen, durch eine erste Computervorrichtung;
  - Bestimmen eines ersten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung ein Aktivierungswort einschließt;
  - Empfangen eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der zweite Wert durch eine zweite Computervorrichtung bestimmt wird;
  - Vergleichen des ersten Werts und des zweiten Werts; und
  - auf dem Vergleichen des ersten Werts mit dem zweiten Wert beruhendes Initiieren von Spracherkennungsverarbeitung an den Audiodaten.
13. System nach Klausel 12, worin die Operationen ferner umfassen:
- Bestimmen, dass der erste Wert einen Aktivierungswort-Punktzahlschwellenwert erfüllt.
14. System nach Klausel 12, worin die Operationen ferner umfassen:
- Übertragen des ersten Werts zur zweiten Computervorrichtung.
15. System nach Klausel 12, worin die Operationen ferner umfassen:
- auf dem Vergleichen des ersten Werts und des zweiten Werts beruhendes Bestimmen eines Aktivierungszustands der ersten Computervorrichtung.
16. System nach Klausel 15, worin das auf dem Vergleichen des ersten Werts und des zweiten Werts beruhende Bestimmen eines Aktivierungszustands der ersten Computervorrichtung umfasst:
- Bestimmen, dass der Aktivierungszustand ein aktiver Zustand ist.
17. System nach Klausel 12, worin die Operationen ferner umfassen:
- Empfangen zusätzlicher Audiodaten, die einer zusätzlichen Äußerung entsprechen, durch die erste Computervorrichtung;
- Bestimmen eines dritten Werts, der einer Wahrscheinlichkeit entspricht, dass die zusätzliche Äußerung das Aktivierungswort einschließt;
- Empfangen eines vierten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der vierte Wert durch eine dritte Computervorrichtung bestimmt wird;
- Vergleichen des dritten Werts und des vierten Werts; und
- auf dem Vergleichen des dritten Werts und des vierten Werts beruhendes Bestimmen, dass der Aktivierungszustand der ersten Computervorrichtung ein inaktiver Zustand ist.
18. System nach Abschnitt 14, worin:
- das Übertragen des ersten Werts zur zweiten Computervorrichtung umfasst:
  - Übertragen des ersten Werts zu einem Server, über ein lokales Netzwerk oder über Kurzstreckenfunk, und
  - das Empfangen eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der zweite Wert durch eine zweite Computervorrichtung bestimmt wird, umfasst:
- Empfangen eines zweiten Werts, der durch eine zweite Computervorrichtung bestimmt wurde, vom Server, über das lokale Netzwerk oder über den Kurzstreckenfunk.
19. System nach Klausel 12, worin die Operationen ferner umfassen:
- Identifizieren der zweiten Computervorrichtung; und
- Bestimmen, dass die zweite Computervorrichtung dafür konfiguriert ist, auf Äußerungen zu reagieren, die das Aktivierungswort einschließen.
20. Nichtflüchtiges computerlesbares Medium, das Software speichert, die durch einen oder mehrere Computer ausführbare Anweisungen umfasst, welche bei solcher Ausführung den einen oder die mehreren Computer veranlassen, Operationen durchzuführen, die Folgendes umfassen:
- Empfangen von Audiodaten, die einer Äußerung entsprechen, durch eine erste Computervorrichtung;
- Bestimmen eines ersten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung ein Aktivierungswort einschließt;
- Empfangen eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der zweite Wert durch eine zweite Computervorrichtung bestimmt wird;
- Vergleichen des ersten Werts und des zweiten Werts; und
- auf dem Vergleichen des ersten Werts mit dem zweiten Wert beruhendes Initiieren von Spracherkennungsverarbeitung an den Audiodaten.

Claims

Nichtflüchtiges computerlesbares Medium, das Software speichert, die durch einen oder mehrere Computer ausführbare Anweisungen umfasst, die bei solcher Ausführung den einen oder die mehreren Computer veranlassen, Folgendes durchzuführen: Empfangen von Audiodaten durch eine Computervorrichtung; Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen; als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung; als Antwort auf das Übertragen der Daten zu der zusätzlichen Computervorrichtung erfolgendes Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung; und Bestimmen durch die Computervorrichtung auf der Grundlage der zusätzlichen Daten, ob ein Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll.
Nichtflüchtiges computerlesbares Medium, das Software speichert, die durch einen oder mehrere Computer ausführbare Anweisungen umfasst, die bei solcher Ausführung den einen oder die mehreren Computer veranlassen, Folgendes durchzuführen: Empfangen von Audiodaten, die einer Äußerung entsprechen, durch eine Computervorrichtung; Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen; als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten, die eine Aktivierungswort-Punktzahl umfassen, welche eine Qualität der Äußerung angibt, durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung; Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung, wobei die zusätzlichen Daten eine durch die zusätzliche Computervorrichtung bestimmte Aktivierungswort-Punktzahl umfassen, welche eine Qualität der Audiodaten wiedergibt; und mindestens teilweise auf der Grundlage eines Vergleichs der Aktivierungswort-Punktzahl für die Computervorrichtung mit den in den zusätzlichen Daten eingeschlossenen Aktivierungswort-Punktzahlen erfolgendes Bestimmen durch die Computervorrichtung, ob ein Befehl durchgeführt werden soll, der in einer Äußerung nach dem bestimmten vordefinierten Aktivierungswort umfasst ist.
Nichtflüchtiges computerlesbares Medium, das Software speichert, die durch einen oder mehrere Computer ausführbare Anweisungen umfasst, die bei solcher Ausführung den einen oder die mehreren Computer veranlassen, Folgendes durchzuführen: Empfangen von Audiodaten, die einer Äußerung entsprechen, durch eine Computervorrichtung; Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen; als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten, die eine Aktivierungswort-Punktzahl umfassen, die eine Lautstärke der Äußerung angibt, durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung; Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung, wobei die zusätzlichen Daten eine durch die zusätzliche Computervorrichtung bestimmte Aktivierungswort-Punktzahl umfassen, die eine Lautstärke der Äußerung widerspiegelt; und mindestens teilweise auf der Grundlage eines Vergleichs der Aktivierungswort-Punktzahl für die Computervorrichtung mit den in den zusätzlichen Daten umfassten Aktivierungswort-Punktzahlen erfolgendes Bestimmen durch die Computervorrichtung, ob ein Befehl, der in einer Äußerung nach dem bestimmten vordefinierten Aktivierungswort umfasst ist, durchgeführt werden soll.
Nichtflüchtiges computerlesbares Medium nach einem der vorhergehenden Ansprüche, worin die Anweisungen, wenn sie durch den einen oder die mehreren Computer ausgeführt werden, den einen oder die mehreren Computer veranlassen, ferner durchzuführen: Erzeugen der Daten durch die Computervorrichtung auf der Grundlage der Audiodaten.
Nichtflüchtiges computerlesbares Medium nach einem der vorhergehenden Ansprüche, worin das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, umfasst: Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, ohne automatisierte Spracherkennung an den Audiodaten durchzuführen.
Nichtflüchtiges computerlesbares Medium nach einem der vorhergehenden Ansprüche, worin die Anweisungen, wenn sie durch den einen oder die mehreren Computer ausgeführt werden, den einen oder die mehreren Computer veranlassen, ferner durchzuführen: Bestimmen, ob der Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll, indem bestimmt wird, dass der Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll; Durchführen automatisierter Spracherkennung an den Audiodaten durch die Computervorrichtung; auf der Grundlage des Durchführens der automatisierten Spracherkennung an den Audiodaten erfolgendes Identifizieren des Befehls, der in der Äußerung eingeschlossen ist, durch die Computervorrichtung; und Durchführen des Befehls durch die Computervorrichtung.
Nichtflüchtiges computerlesbares Medium nach einem der vorhergehenden Ansprüche, worin die Anweisungen, wenn sie durch den einen oder die mehreren Computer ausgeführt werden, den einen oder die mehreren Computer veranlassen, ferner durchzuführen: Empfangen der Audiodaten durch Empfangen der Audiodaten, während sich die Computervorrichtung in einem Stromsparmodus befindet; Bestimmen, ob der Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll, indem bestimmt wird, das Durchführen des Befehls, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, zu umgehen; und Halten der Computervorrichtung im Stromsparmodus auf der Grundlage des Bestimmens, das Durchführen des Befehls, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, zu umgehen.
Nichtflüchtiges computerlesbares Medium nach einem der vorhergehenden Ansprüche, worin die Anweisungen, wenn sie durch den einen oder die mehreren Computer ausgeführt werden, den einen oder die mehreren Computer veranlassen, ferner durchzuführen: Erzeugen der Daten durch die Computervorrichtung auf der Grundlage eines Abschnitts der Audiodaten, der die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließt.
Nichtflüchtiges computerlesbares Medium nach einem der vorhergehenden Ansprüche, worin die zusätzlichen Daten von der zusätzlichen Computervorrichtung eine Wahrscheinlichkeit angeben, dass die Audiodaten die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen.
System, umfassend: einen oder mehrere Computer; und eine oder mehrere Speichervorrichtungen, die Anweisungen speichern, die, wenn sie durch den einen oder die mehreren Computer ausgeführt werden, dafür betreibbar sind, den einen oder die mehreren Computer zu veranlassen, Operationen durchzuführen, die Folgendes umfassen: Empfangen von Audiodaten durch eine Computervorrichtung; Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen; als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung; als Antwort auf das Übertragen der Daten zu der zusätzlichen Computervorrichtung erfolgendes Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung; und Bestimmen durch die Computervorrichtung auf der Grundlage der zusätzlichen Daten, ob ein Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll.
System, umfassend: einen oder mehrere Computer; und eine oder mehrere Speichervorrichtungen, die Anweisungen speichern, die, wenn sie durch den einen oder die mehreren Computer ausgeführt werden, dafür betreibbar sind, den einen oder die mehreren Computer zu veranlassen, Operationen durchzuführen, die Folgendes umfassen: Empfangen von Audiodaten, durch eine Computervorrichtung; Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen; als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten, die eine Aktivierungswort-Punktzahl umfassen, welche eine Qualität der Äußerung angibt, durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung; Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung, wobei die zusätzlichen Daten eine durch die zusätzliche Computervorrichtung bestimmte Aktivierungswort-Punktzahl umfassen, welche eine Qualität der Audiodaten wiedergibt; und mindestens teilweise auf der Grundlage eines Vergleichs der Aktivierungswort-Punktzahl für die Computervorrichtung mit den in den zusätzlichen Daten umfassten Aktivierungswort-Punktzahlen erfolgendes Bestimmen durch die Computervorrichtung, ob ein Befehl durchgeführt werden soll, der in einer Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist.
System, umfassend: einen oder mehrere Computer; und eine oder mehrere Speichervorrichtungen, die Anweisungen speichern, die, wenn sie durch den einen oder die mehreren Computer ausgeführt werden, dafür betreibbar sind, den einen oder die mehreren Computer zu veranlassen, Operationen durchzuführen, die Folgendes umfassen: Empfangen von Audiodaten, die einer Äußerung entsprechen, durch eine Computervorrichtung; Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen; als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten, die eine Aktivierungswort-Punktzahl umfassen, die eine Lautstärke der Äußerung angibt, durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung; Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung, wobei die zusätzlichen Daten eine durch die zusätzliche Computervorrichtung bestimmte Aktivierungswort-Punktzahl umfassen, die eine Lautstärke der Äußerung widerspiegelt; und mindestens teilweise auf der Grundlage eines Vergleichs der Aktivierungswort-Punktzahl für die Computervorrichtung mit den in den zusätzlichen Daten umfassten Aktivierungswort-Punktzahlen erfolgendes Bestimmen durch die Computervorrichtung, ob ein Befehl, der in einer Äußerung nach dem bestimmten vordefinierten Aktivierungswort umfasst ist, durchgeführt werden soll.
System nach Anspruch 10 bis 12, worin die Operationen umfassen: Erzeugen der Daten durch die Computervorrichtung auf der Grundlage der Audiodaten.
System nach einem der Ansprüche 10 bis 13, worin das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, umfasst: Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, ohne automatisierte Spracherkennung an den Audiodaten durchzuführen.
System nach einem der Ansprüche 10 bis 14, worin die Operationen umfassen: Bestimmen, ob der Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll, indem bestimmt wird, dass der Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll; Durchführen automatisierter Spracherkennung an den Audiodaten durch die Computervorrichtung; auf der Grundlage des Durchführens der automatisierten Spracherkennung an den Audiodaten erfolgendes Identifizieren des Befehls, der in der Äußerung eingeschlossen ist, durch die Computervorrichtung; und Durchführen des Befehls durch die Computervorrichtung.
System nach einem der Ansprüche 10 bis 15, worin die Operationen umfassen: Empfangen der Audiodaten durch Empfangen der Audiodaten, während sich die Computervorrichtung in einem Stromsparmodus befindet; Bestimmen, ob der Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll, indem bestimmt wird, das Durchführen des Befehls, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, zu umgehen; und Halten der Computervorrichtung im Stromsparmodus auf der Grundlage des Bestimmens, das Durchführen des Befehls, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, zu umgehen.
System nach einem der Ansprüche 10 bis 16, worin die Operationen umfassen: Erzeugen der Daten durch die Computervorrichtung auf der Grundlage eines Abschnitts der Audiodaten, der die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließt.
System nach einem der Ansprüche 10 bis 17, worin die zusätzlichen Daten von der zusätzlichen Computervorrichtung eine Wahrscheinlichkeit angeben, dass die Audiodaten die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen.