DE102017127239A1

DE102017127239A1 - Vom Server gelieferte visuelle Ausgabe an einer Sprachschnittstellenvorrichtung

Info

Publication number: DE102017127239A1
Application number: DE102017127239.9A
Authority: DE
Inventors: Kenneth Mixter; Yuan Yuan
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-11-18
Filing date: 2017-11-20
Publication date: 2018-05-24
Also published as: US20190385418A1; GB201719037D0; DE202017107010U1; US20180144590A1; US20230055223A1; GB2559008B; GB2586184B; WO2018094254A1; CN113516979B; GB2586184A; US11521469B2; CN113516979A; US10854050B2; CN108111948A; US10339769B2; US20210082258A1; US11972678B2; CN108111948B; GB2559008A; GB202011451D0

Abstract

Ein Verfahren bei einer elektronischen Vorrichtung mit einer Anordnung von Anzeigeleuchten umfasst: Erhalten erster visueller Ausgabebefehle, die in der elektronischen Vorrichtung gespeichert sind, wobei die ersten visuellen Ausgabebefehle eine Operation der Anordnung von Anzeigeleuchten basierend auf einem Betriebszustand der elektronischen Vorrichtung steuern; Empfangen einer Spracheingabe; Erhalten einer Antwort auf die Spracheingabe und zweiter visueller Ausgabebefehle von einem entfernten System, wobei die zweiten visuellen Ausgabebefehlen zusammen mit der Antwort einer Bestimmung zufolge, dass die Spracheingabe eines oder mehrere Kriterien erfüllt, durch das entfernte System bereitgestellt werden; Ausführen der Antwort; und Anzeigen der visuellen Ausgabe auf der Anordnung von Anzeigeleuchten gemäß den zweiten visuellen Ausgabebefehlen, wobei die elektronische Vorrichtung ansonsten in Abwesenheit der zweiten visuellen Ausgabebefehle eine visuelle Ausgabe gemäß den ersten visuellen Ausgabebefehlen auf der Anordnung von Anzeigeleuchten anzeigt.

Description

Technisches Gebiet
Die offengelegten Implementierungen beziehen sich im Allgemeinen auf Sprachschnittstellen und verwandte Vorrichtungen, die Verfahren und Systeme, um eine Sprachschnittstellenvorrichtung anzuweisen, eine visuelle Ausgabe gemäß aus der Ferne gelieferten Befehlen anzuzeigen, umfassen, aber nicht auf diese beschränkt sind.
Hintergrund
Elektronische Vorrichtungen mit Sprachschnittstellen wurden weithin dazu verwendet, Spracheingaben von Anwendern zu sammeln und verschiedene sprachaktivierte Funktionen gemäß den Spracheingaben durchzuführen. Diese sprachaktivierten Funktionen können es umfassen, dass eine Zielvorrichtung angewiesen wird oder es ihr befohlen wird, eine Operation durchzuführen. Zum Beispiel kann der Anwender eine Spracheingabe in eine Sprachschnittstelle äußern, um eine Zielvorrichtung ein- oder auszuschalten oder um eine Medienwiedergabe an der Zielvorrichtung zu steuern.
Eine Sprachschnittstellenvorrichtung mit einer Sprachschnittstelle kann während des Betriebs verschiedene visuelle Ausgaben anzeigen. Die Sprachschnittstellenvorrichtung kann Informationen auf einer Anzeige oder mit Leuchten anzeigen. Die visuelle Ausgabe, die angezeigt wird, kann abhängig von der Situation standardisiert oder voreingestellt sein. Zum Beispiel kann eine bestimmte visuelle Ausgabe zum Vermitteln eines bestimmten Status immer dann angezeigt werden, wenn dieser Status gültig ist. Manchmal können allerdings standardisierte oder voreingestellte visuelle Ausgaben für den Anwender ästhetisch unbefriedigend und demotivierend sein.
Zusammenfassung
Dementsprechend besteht ein Bedarf an einer elektronischen Vorrichtung mit einem Sprachassistenzsystem und/oder Sprachassistenzserversystem, das Verfahren und Systeme zum Liefern alternativer visueller Ausgaben an eine Sprachschnittstellenvorrichtung zum Anzeigen anstelle von voreingestellten oder standardisierten visuellen Ausgaben in bestimmten Situationen umfasst. In verschiedenen in dieser Anmeldung beschriebenen Implementierungen umfasst eine Betriebsumgebung eine sprachaktivierte elektronische Vorrichtung, die eine Schnittstelle für einen Sprachassistenzdienst bereitstellt, und wahlweise eine oder mehrere Vorrichtungen (z. B. eine Castvorrichtung, Smart-Home-Vorrichtung), die durch Spracheingabe über den Sprachassistenzdienst gesteuert werden können. Die sprachaktivierte elektronische Vorrichtung ist dazu ausgelegt, standardmäßig eine bestimmte visuelle Ausgabe in einer bestimmten Situation anzuzeigen. Wenn eine Spracheingabe bestimmte Kriterien erfüllt, kann eine nicht voreingestellte visuelle Ausgabe anstelle der voreingestellten visuellen Ausgabe für die gleiche bestimmte Situation angezeigt werden. Die Befehle oder Informationen für die nicht voreingestellte visuelle Ausgabe werden durch ein Serversystem (z. B. ein Sprachassistenzserversystem) geliefert.
Gemäß einigen Implementierungen umfasst ein Verfahren an einer elektronischen Vorrichtung mit einem oder mehreren Mikrofonen, einem Lautsprecher, einer Anordnung von Anzeigeleuchten, einem oder mehreren Prozessoren und einem Speicher, der ein oder mehrere Programme zur Ausführung durch den einen oder die mehreren Prozessoren speichert, Folgendes: Erhalten erster visueller Ausgabebefehle, die in der elektronischen Vorrichtung gespeichert sind, wobei die ersten visuellen Ausgabebefehle eine Operation der Anordnung von Anzeigeleuchten basierend auf einem Betriebszustand der elektronischen Vorrichtung steuern, der Betriebszustände von Anwendungen, die darauf ausgeführt werden, umfasst; Empfangen einer Spracheingabe; Erhalten einer Antwort auf die Spracheingabe und zweiter visueller Ausgabebefehle von einem entfernten System, wobei die zweiten visuellen Ausgabebefehlen zusammen mit der Antwort einer Bestimmung zufolge, dass die Spracheingabe eines oder mehrere Kriterien erfüllt, durch das entfernte System bereitgestellt werden; Ausführen der Antwort; und Anzeigen der visuellen Ausgabe auf der Anordnung von Anzeigeleuchten gemäß den zweiten visuellen Ausgabebefehlen, wobei die elektronische Vorrichtung ansonsten in Abwesenheit der zweiten visuellen Ausgabebefehle eine visuelle Ausgabe gemäß den ersten visuellen Ausgabebefehlen auf der Anordnung von Anzeigeleuchten anzeigt.
Gemäß einigen Implementierungen enthält eine elektronische Vorrichtung ein oder mehrere Mikrofone, einen Lautsprecher, eine Anordnung von Anzeigeleuchten, einen oder mehrere Prozessoren und einen Speicher, der ein oder mehrere Programme, die durch den einen oder die mehreren Prozessoren ausgeführt werden sollen, speichert. Das eine oder die mehreren Programme umfassen Befehle für Folgendes: Erhalten erster visueller Ausgabebefehle, die in der elektronischen Vorrichtung gespeichert sind, wobei die ersten visuellen Ausgabebefehle eine Operation der Anordnung von Anzeigeleuchten basierend auf einem Betriebszustand der elektronischen Vorrichtung steuern, der Betriebszustände von Anwendungen, die darauf ausgeführt werden, umfasst; Empfangen einer Spracheingabe; Erhalten einer Antwort auf die Spracheingabe und zweiter visueller Ausgabebefehle von einem entfernten System, wobei die zweiten visuellen Ausgabebefehlen zusammen mit der Antwort einer Bestimmung zufolge, dass die Spracheingabe eines oder mehrere Kriterien erfüllt, durch das entfernte System bereitgestellt werden; Ausführen der Antwort; und Anzeigen der visuellen Ausgabe auf der Anordnung von Anzeigeleuchten gemäß den zweiten visuellen Ausgabebefehlen, wobei die elektronische Vorrichtung ansonsten in Abwesenheit der zweiten visuellen Ausgabebefehle eine visuelle Ausgabe gemäß den ersten visuellen Ausgabebefehlen auf der Anordnung von Anzeigeleuchten anzeigt.
Gemäß einigen Implementierungen speichert ein nichttransitorisches computerlesbares Medium ein oder mehrere Programme, wobei das eine oder die mehreren Programme Befehle enthalten, die, wenn sie durch eine elektronische Vorrichtung mit einem oder mehreren Mikrofonen, einem Lautsprecher, einer Anordnung von Anzeigeleuchten und einem oder mehreren Prozessoren ausgeführt werden, die elektronische Vorrichtung dazu veranlassen, Operationen auszuführen, die Folgendes umfassen: Erhalten erster visueller Ausgabebefehle, die in der elektronischen Vorrichtung gespeichert sind, wobei die ersten visuellen Ausgabebefehle eine Operation der Anordnung von Anzeigeleuchten basierend auf einem Betriebszustand der elektronischen Vorrichtung steuern, der Betriebszustände von Anwendungen, die darauf ausgeführt werden, umfasst; Empfangen einer Spracheingabe; Erhalten einer Antwort auf die Spracheingabe und zweiter visueller Ausgabebefehle von einem entfernten System, wobei die zweiten visuellen Ausgabebefehlen zusammen mit der Antwort einer Bestimmung zufolge, dass die Spracheingabe eines oder mehrere Kriterien erfüllt, durch das entfernte System bereitgestellt werden; Ausführen der Antwort; und Anzeigen der visuellen Ausgabe auf der Anordnung von Anzeigeleuchten gemäß den zweiten visuellen Ausgabebefehlen, wobei die elektronische Vorrichtung ansonsten in Abwesenheit der zweiten visuellen Ausgabebefehle eine visuelle Ausgabe gemäß den ersten visuellen Ausgabebefehlen auf der Anordnung von Anzeigeleuchten anzeigt.
Gemäß einigen Implementierungen umfasst ein Verfahren an einer elektronischen Vorrichtung mit einem oder mehreren Mikrofonen, einem Lautsprecher, einer Anordnung von Anzeigeleuchten, einem oder mehreren Prozessoren und einem Speicher, der ein oder mehrere Programme zur Ausführung durch den einen oder die mehreren Prozessoren speichert, Folgendes: Erhalten erster visueller Ausgabebefehle, die in der elektronischen Vorrichtung gespeichert sind, wobei die ersten visuellen Ausgabebefehle eine Operation der Anordnung von Anzeigeleuchten basierend auf einem Betriebszustand der elektronischen Vorrichtung steuern, der Betriebszustände von Anwendungen, die darauf ausgeführt werden, umfasst; Erhalten zweiter visueller Ausgabebefehle von einem entfernten System; Durchführen einer Operation; in Verbindung mit dem Durchführen der Operation bestimmen, ob ein oder mehrere Kriterien für eine visuelle Alternativ-Ausgabe erfüllt sind; gemäß einer Bestimmung, dass die Kriterien für eine visuelle Alternativ-Ausgabe erfüllt sind, Anzeigen einer visuellen Ausgabe gemäß den zweiten visuellen Ausgabebefehlen auf der Anordnung von Anzeigeleuchten; und gemäß einer Bestimmung, dass die Kriterien für eine visuelle Alternativ-Ausgabe nicht erfüllt sind, Anzeigen einer visuellen Ausgabe gemäß den ersten visuellen Ausgabebefehlen auf der Anordnung von Anzeigeleuchten.
Gemäß einigen Implementierungen enthält eine elektronische Vorrichtung ein oder mehrere Mikrofone, einen Lautsprecher, eine Anordnung von Anzeigeleuchten, einen oder mehrere Prozessoren und einen Speicher, der ein oder mehrere Programme, die durch den einen oder die mehreren Prozessoren ausgeführt werden sollen, speichert. Das eine oder die mehreren Programme umfassen Befehle für Folgendes: Erhalten erster visueller Ausgabebefehle, die in der elektronischen Vorrichtung gespeichert sind, wobei die ersten visuellen Ausgabebefehle eine Operation der Anordnung von Anzeigeleuchten basierend auf einem Betriebszustand der elektronischen Vorrichtung steuern, der Betriebszustände von Anwendungen, die darauf ausgeführt werden, umfasst; Erhalten zweiter visueller Ausgabebefehle von einem entfernten System; Durchführen einer Operation; in Verbindung mit dem Durchführen der Operation bestimmen, ob ein oder mehrere Kriterien für eine visuelle Alternativ-Ausgabe erfüllt sind; gemäß einer Bestimmung, dass die Kriterien für eine visuelle Alternativ-Ausgabe erfüllt sind, Anzeigen einer visuellen Ausgabe gemäß den zweiten visuellen Ausgabebefehlen auf der Anordnung von Anzeigeleuchten; und gemäß einer Bestimmung, dass die Kriterien für eine visuelle Alternativ-Ausgabe nicht erfüllt sind, Anzeigen einer visuellen Ausgabe gemäß den ersten visuellen Ausgabebefehlen auf der Anordnung von Anzeigeleuchten.
Gemäß einigen Implementierungen speichert ein nichttransitorisches computerlesbares Medium ein oder mehrere Programme, wobei das eine oder die mehreren Programme Befehle enthalten, die, wenn sie durch eine elektronische Vorrichtung mit einem oder mehreren Mikrofonen, einem Lautsprecher, einer Anordnung von Anzeigeleuchten und einem oder mehreren Prozessoren ausgeführt werden, die elektronische Vorrichtung dazu veranlassen, Operationen auszuführen, die Folgendes umfassen: Erhalten erster visueller Ausgabebefehle, die in der elektronischen Vorrichtung gespeichert sind, wobei die ersten visuellen Ausgabebefehle eine Operation der Anordnung von Anzeigeleuchten basierend auf einem Betriebszustand der elektronischen Vorrichtung steuern, der Betriebszustände von Anwendungen, die darauf ausgeführt werden, umfasst; Erhalten zweiter visueller Ausgabebefehle von einem entfernten System; Durchführen einer Operation; in Verbindung mit dem Durchführen der Operation bestimmen, ob ein oder mehrere Kriterien für eine visuelle Alternativ-Ausgabe erfüllt sind; gemäß einer Bestimmung, dass die Kriterien für eine visuelle Alternativ-Ausgabe erfüllt sind, Anzeigen einer visuellen Ausgabe gemäß den zweiten visuellen Ausgabebefehlen auf der Anordnung von Anzeigeleuchten; und gemäß einer Bestimmung, dass die Kriterien für eine visuelle Alternativ-Ausgabe nicht erfüllt sind, Anzeigen einer visuellen Ausgabe gemäß den ersten visuellen Ausgabebefehlen auf der Anordnung von Anzeigeleuchten.
Figurenliste
Für ein besseres Verständnis der verschiedenen beschriebenen Implementierungen sollte auf die nachstehende Beschreibung von Implementierungen in Verbindung mit den folgenden Zeichnungen, in denen sich gleiche Bezugszeichen über alle Figuren hinweg auf entsprechende Teile beziehen, Bezug genommen werden.

1 zeigt eine beispielhafte Betriebsumgebung gemäß einigen Implementierungen.
2A zeigt eine beispielhafte sprachaktivierte elektronische Vorrichtung gemäß einigen Implementierungen.
2B zeigt beispielhafte Datenstrukturen für LED-Ausgabebefehle gemäß einigen Implementierungen.
3 zeigt ein beispielhaftes Sprachassistenzserversystem gemäß einigen Implementierungen.
4 zeigt ein Ablaufdiagramm eines beispielhaften Prozesses zum Anzeigen eines von einem Server gelieferten, alternativen LED-Musters gemäß einigen Implementierungen.
5 zeigt ein Ablaufdiagramm eines beispielhaften Prozesses zum Anzeigen eines von einem Server gelieferten, alternativen LED-Musters gemäß einigen Implementierungen.
6A und 6B sind eine Vorderansicht und eine Rückansicht einer sprachaktivierten elektronischen Vorrichtung gemäß einigen Implementierungen.
6C ist eine Draufsicht einer sprachaktivierten elektronischen Vorrichtung gemäß einigen Implementierungen und 6D zeigt visuelle Muster, die durch eine Anordnung von Vollfarb-LEDs zum Angeben von Sprachverarbeitungszuständen angezeigt werden, gemäß einigen Implementierungen.

Gleiche Bezugszeichen beziehen sich über die mehreren Ansichten der Zeichnungen hinweg auf entsprechende Teile.
Beschreibung von Implementierungen
Obwohl die digitale Revolution viele Vorteile gebracht hat, die vom offenen Informationsaustausch bis zu einem globalen Gemeinschaftssinn reichen, verursachen aufkommende Technologien häufig Verwirrung, Skepsis und Angst unter den Verbrauchern, was die Verbraucher daran hindert, von den Technologien zu profitieren. Elektronische Vorrichtungen werden zweckdienlicherweise als Sprachschnittstellen verwendet, um Spracheingaben von Anwendern zu empfangen und sprachaktivierte Funktionen zu initiieren, und sie bieten dabei sichtunabhängige und freihändige Lösungen, um sich sowohl bestehenden als auch aufkommenden Technologien zu nähern. Insbesondere können die in der elektronischen Vorrichtung empfangenen Spracheingaben selbst dann, wenn die Sichtlinie eines Anwenders verdeckt ist und seine Hände voll sind, Befehle und Informationen übertragen. Um freihändige und sichtfreie Erfahrungen zu ermöglichen, hört die sprachaktivierte elektronische Vorrichtung die Umgebung konstant ab (d. h. verarbeitet kontinuierlich Audiosignale aus der Umgebung) oder tut dies nur auf einen Auslöser hin.
Vorrichtungen mit Sprachschnittstellen wie etwa Lautsprecher oder Heimautomatisierungshubs oder Sicherheitssysteme können minimale visuelle Oberflächen aufweisen. Diese Oberflächen können unter Verwendung einer begrenzten Anzahl von Leuchtdioden (LEDs) implementiert sein. Die LEDs können dazu verwendet werden, um Vorrichtungsfunktionszustände wie beispielsweise Warten auf eine Anwenderspracheingabe, Verarbeiten einer Spracheingabe, Erhalten von Informationen als Antwort auf eine Spracheingabe oder Antworten auf eine Spracheingabe anzugeben. Für bestimmte Anforderungen kann es nützlich sein, einen Zustand unter Verwendung einer anderen visuellen Ausgabe als einer standardmäßigen visuellen Ausgabe für den gleichen Zustand anzuzeigen.
In einigen Implementierungen kann ein Serversystem (z. B. ein Sprachassistenzserversystem) Anwenderanforderungen, die in Spracheingaben enthalten sind, verarbeiten und eine sprachaktivierte elektronische Vorrichtung weist eingebaute visuelle Ausgaben auf. Für manche Anwenderanforderungen sind nicht standardmäßige, alternative visuelle Ausgaben verfügbar und werden von dem Serversystem an die sprachaktivierte elektronische Vorrichtung gesendet (z. B. zusammen mit der Antwort, die von dem Serversystem erzeugt wird). Die Vorrichtung kann die alternative visuelle Ausgabe verwenden, um eine standardmäßige visuelle Ausgabe zu ersetzen. Zum Beispiel zeigt die Vorrichtung an einem Feiertag eine visuelle Ausgabe an, die eine feiertagsspezifische Beleuchtung umfasst, wenn der Anwender nach seinem Zeitplan fragt, „Guten Morgen“ sagt oder nach feiertagsspezifischen Liedern fragt. Als weiteres Beispiel können Spiele mit nicht standardmäßigen visuellen Ausgaben zeigen, wer dran ist, ob Antworten richtig oder falsch sind, etc. Da eingebaute, standardmäßige visuelle Ausgaben für die meisten visuellen Antworten der sprachaktivierten elektronischen Vorrichtung verwendet werden, wird an Datenübertragungsrate zwischen dem Serversystem und sprachaktivierten Vorrichtungen gespart (da der Server zusammen mit Antworten auf die meisten Anwenderanforderungen keine visuelle Ausgabe übermitteln muss).
Gemäß einigen Implementierungen kann eine sprachaktivierte elektronische Vorrichtung nicht standardmäßige, alternative visuelle Ausgaben einer Bestimmung zufolge, dass eine Spracheingabe ein oder mehrere Kriterien erfüllt, anzeigen. Die nicht standardmäßige, alternative visuelle Ausgabe kann anstelle einer standardmäßigen visuellen Ausgabe angezeigt werden, wenn ansonsten die standardisierte Ausgabe angezeigt worden wäre. Die Informationen oder Befehle zum Anzeigen der nicht standardmäßigen visuellen Ausgabe werden durch ein entferntes System (z. B. ein Serversystem) geliefert.
Auf diese Weise können unterschiedliche visuelle Ausgaben auf der Vorrichtung angezeigt werden, die dem Anwender Informationen auf eine visuell motivierende und wachrufende Weise liefern.
Sprachassistenzbetriebsumgebung
1 ist eine beispielhafte Betriebsumgebung gemäß einigen Implementierungen. Eine Betriebsumgebung 100 umfasst eine oder mehrere sprachaktivierte elektronische Vorrichtungen 140 (im Folgenden „sprachaktivierte Vorrichtung(en)“). Die eine oder die mehreren sprachaktivierten Vorrichtungen 104 können an einem oder mehreren Orten (z. B. alle in einem Zimmer oder Raum einer Struktur, verteilt über mehrere Räume innerhalb einer Struktur oder über mehrere Strukturen (z. B. eine in einem Haus und eine in dem Auto des Anwenders)) hinweg platziert sein. Der Einfachheit halber wird die Betriebsumgebung 100 mit einer sprachaktivierten Vorrichtung 104 gezeigt.
Wahlweise enthält die Betriebsumgebung 100 eine oder mehrere steuerbare Vorrichtungen 106 (z. B. elektronische Vorrichtungen 106-1 bis 106-N, im Folgenden „steuerbare Vorrichtung(en)“). Beispiele steuerbarer Vorrichtungen 106 umfassen Medienvorrichtungen (Smart-TV, Lautsprechersysteme, drahtlose Lautsprecher, Beistellgeräte, Medien-Streaming-Vorrichtungen, Castvorrichtungen) und Smart-Home-Vorrichtungen (z. B. eine intelligente Kamera, einen intelligenten Thermostaten, eine intelligente Beleuchtung, einen intelligenten Gefahrenmelder, ein intelligentes Türschloss).
Die sprachgesteuerte Vorrichtung 104 und die steuerbaren Vorrichtungen 106 sind durch Kommunikationsnetze 110 mit einem Sprachassistenzdienst 140 (z. B. mit einem Sprachassistenzserversystem 112 des Sprachassistenzdienstes 140) kommunikationstechnisch gekoppelt. In einigen Implementierungen sind beliebig viele sprachaktivierte Vorrichtungen 104 und steuerbare Vorrichtungen 106 mit einem lokalen Netz 108, das kommunikationstechnisch mit den Kommunikationsnetzen 110 gekoppelt ist, kommunikationstechnisch gekoppelt; die sprachaktivierte Vorrichtung 104 und/oder die steuerbare(n) Vorrichtung(en) 106 sind kommunikationstechnisch mit dem/n Kommunikationsnetz(en) 110 (und durch die Kommunikationsnetze 110 mit dem Sprachassistenzserversystem 112) über das lokale Netz 108 verbunden. In einigen Implementierungen ist das lokale Netz 108 ein in einer Netzschnittstelle (z. B. einem Router) eingebettetes Lokalbereichsnetz. Die sprachaktivierte Vorrichtung 104 und die steuerbaren Vorrichtungen 106, die mit dem lokalen Netz 108 lokal gekoppelt sind, können auch miteinander über das lokale Netz 108 kommunizieren.
Wahlweise ist die sprachaktivierte Vorrichtung 104 mit den Kommunikationsnetzen 110 kommunikationstechnisch verbunden und befindet sich nicht in dem lokalen Netz 108. Zum Beispiel kann sich eine sprachaktivierte Vorrichtung in der Betriebsumgebung 100 nicht in dem Drahtlosnetz, das dem lokalen Netz 108 entspricht, befinden, aber dennoch mit den Kommunikationsnetzen 110 (z. B. durch eine Mobilfunkverbindung) verbunden sein. In einigen Implementierungen werden Verbindungen zwischen sprachaktivierten Vorrichtungen, die in dem lokalen Netz 108 sind, und sprachaktivierten Vorrichtungen, die nicht in dem lokalen Netz sind, durch das Sprachassistenzserversystem 112 hergestellt. Die sprachaktivierte Vorrichtung 104 (egal, ob sie sich in dem lokalen Netz 108 oder in dem Netz 110 befindet) ist in einer Vorrichtungsregistrierung 118 des Sprachassistenzdienstes 140 registriert und somit dem Sprachassistenzserversystem 112 bekannt. Ebenso kann eine sprachaktivierte Vorrichtung 104, die nicht in dem lokalen Netz 108 ist, mit den steuerbaren Vorrichtungen 106 über das Sprachassistenzserversystem 112 kommunizieren. Die steuerbaren Vorrichtungen 106 (egal, ob sie sich in dem lokalen Netz 108 oder in dem Netz 110 befinden) sind ebenso in der Vorrichtungsregistrierung 118 registriert. In einigen Implementierungen läuft Kommunikation zwischen der sprachaktivierten Vorrichtung 104 und den steuerbaren Vorrichtungen 106 durch das Sprachassistenzserversystem 112.
In einigen Implementierungen enthält die Umgebung 100 zudem ein oder mehrere Inhalts-Hosts 114. Ein Inhalts-Host 114 kann eine entfernte Inhaltsquelle sein, von der Inhalt gestreamt oder auf andere Weise gemäß einer Anforderung, die in einer Anwenderspracheingabe oder einem Befehl enthalten ist, erhalten wird. Ein Inhalts-Host 114 kann eine Informationsquelle sein, von der das Sprachassistenzserversystem 112 Informationen gemäß einer Anwendersprachanforderung bezieht.
In einigen Implementierungen sind die steuerbaren Vorrichtungen 106 dazu fähig, Befehle oder Anforderungen zum Durchführen spezifischer Operationen oder zum Übergehen in spezifische Zustände (z. B. von der sprachaktivierten Vorrichtung 104 und/oder dem Sprachassistenzserversystem 112) zu empfangen und gemäß den empfangenen Befehlen oder Anforderungen die Operationen durchzuführen oder in Zustände überzugehen.
In einigen Implementierungen sind die eine oder die mehreren steuerbaren Vorrichtungen 106 Medienvorrichtungen, die in der Betriebsumgebung 100 angeordnet sind, um den einen oder den mehreren Anwendern Medieninhalte, Nachrichten und/oder andere Informationen zu liefern. In einigen Implementierungen wird der durch die Medienvorrichtungen gelieferte Inhalt in einer lokalen Inhaltsquelle gespeichert, von einer entfernten Quelle (z. B. dem/n Inhalts-Host(s) 114) gestreamt oder lokal erzeugt (z. B. durch einen lokalen Text-zu-Sprach-Prozessor, der einen angepassten Nachrichtenüberblick, Emails, Texte, einen lokalen Wetterbericht etc. einem oder mehreren Insassen der Betriebsumgebung 100 vorliest). In einigen Implementierungen umfassen die Medienvorrichtungen Medienausgabevorrichtungen, die den Medieninhalt direkt an ein Publikum (z. B. einen oder mehrere Anwender) ausgeben, und Castvorrichtungen, die vernetzt sind, um Medieninhalt an die Medienausgabevorrichtungen zu streamen. Beispiele von Medienausgabevorrichtungen umfassen, sind jedoch nicht begrenzt auf: Fernseh-Anzeigevorrichtungen (TV-Anzeigevorrichtungen) und Musikabspieler. Beispiele der Castvorrichtungen umfassen, sind aber nicht begrenzt auf: Beistellgeräte (STBs), DVD-Player, TV-Boxen und Medienstreamingdienste wie beispielsweise den Medienstreamingdienst Chromecast™ von Google.
In einigen Implementierungen ist eine steuerbare Vorrichtung 106 auch eine sprachaktivierte Vorrichtung 104. In einigen Implementierungen ist eine sprachaktivierte Vorrichtung 104 auch eine steuerbare Vorrichtung 106. Zum Beispiel kann eine steuerbare Vorrichtung 106 eine Sprachschnittstelle zu dem Sprachassistenzdienst 140 (z. B. eine Medienvorrichtung, die auch Anwenderspracheingaben empfangen, verarbeiten und auf diese antworten kann) umfassen. Als weiteres Beispiel kann eine sprachaktivierte Vorrichtung 104 auch gemäß Anforderungen oder Befehlen in den Spracheingaben bestimmte Operationen durchführen und in bestimmte Zustände übergehen (z. B. eine Sprachschnittstellenvorrichtung, die auch Streaming-Musik spielen kann, Emails vorlesen kann, die Zeit angeben kann, eine Stoppuhr laufen lassen kann etc.).
In einigen Implementierungen sind die sprachaktivierte Vorrichtung 104 und die steuerbaren Vorrichtungen 106 einem Anwender mit einem jeweiligen Konto oder mehreren Anwendern (z. B. einer Gruppe in Beziehung stehender Anwender wie beispielsweise Anwendern in einer Familie oder in einer Organisation; allgemeiner einem primären Anwender und einem oder mehreren autorisierten zusätzlichen Anwendern) mit jeweiligen Anwenderkonten in einer Anwenderdomäne zugeordnet. Ein Anwender kann Spracheingaben oder Sprachbefehle in die sprachaktivierte Vorrichtung 104 eingeben. Die sprachaktivierte Vorrichtung 104 empfängt diese Spracheingaben von dem Anwender (z. B. Anwender 102) und die sprachaktivierte Vorrichtung 104 und/oder das Sprachassistenzserversystem 112 fährt damit fort, eine Anforderung in der Spracheingabe zu bestimmen und eine Antwort auf die Anforderung zu erzeugen.
In einigen Implementierungen ist die in einer Spracheingabe enthaltene Anforderung ein Befehl oder eine Anforderung an eine steuerbare Vorrichtung 106, eine Operation durchzuführen (z. B. ein Medium abzuspielen, ein Medium zu pausieren, ein Medium vor- oder zurückzuspulen, die Lautstärke zu ändern, die Bildschirmhelligkeit zu ändern, die Lichtstärke zu ändern) oder in einen anderen Zustand überzugehen (z. B. die Betriebsart zu ändern, ein- oder auszuschalten, in den Ruhezustand überzugehen oder aus dem Ruhezustand aufzuwachen).
In einigen Implementierungen antwortet eine sprachaktivierte Vorrichtung 104 auf Spracheingaben durch: Erzeugen und Liefern einer gesprochenen Antwort auf einen Sprachbefehl (z. B. Sprechen der aktuellen Zeit als Antwort auf die Frage „Wie viel Uhr ist es?“); Streamen von Medieninhalt, der von einem Anwender angefordert wird (z. B. „Spiel ein Lied der Beach Boys“); Vorlesen eines Nachrichtenbeitrags oder eines täglichen Nachrichtenüberblicks, der für den Anwender vorbereitet wurde; Spielen eines Medienartikels, der auf der persönlichen Assistenzvorrichtung oder in dem lokalen Netz gespeichert ist; Ändern eines Zustands oder Betreiben einer oder mehrerer angeschlossener Vorrichtungen innerhalb der Betriebsumgebung 100 (z. B. Leuchten, Geräte oder Medienvorrichtungen ein-/ausschalten, ein Schloss öffnen/schließen, Fenster öffnen etc.); oder Ausgeben einer entsprechenden Anforderung an einen Server über ein Netz 110.
In einigen Implementierungen ist die sprachaktivierte Vorrichtung 104 in der Betriebsumgebung 100 angeordnet, um Audioeingaben zum Initiieren verschiedener Funktionen (z. B. Medienabspielfunktionen der Medienvorrichtungen) zu sammeln. In einigen Implementierungen ist die sprachaktivierte Vorrichtung 104 in der Nähe einer steuerbaren Vorrichtung 104 (z. B. einer Medienvorrichtung), beispielsweise in demselben Raum mit den Castvorrichtungen und den Medienausgabevorrichtungen, angeordnet. Alternativ ist die sprachaktivierte Vorrichtung 104 in einigen Implementierungen in einer Struktur mit einer oder mehreren Smart-Home-Vorrichtungen, aber ohne Medienvorrichtung, angeordnet. Alternativ ist in einigen Implementierungen die sprachaktivierte Vorrichtung 104 in einer Struktur mit einer oder mehreren Smart-Home-Vorrichtungen und einer oder mehreren Medienvorrichtungen angeordnet. Alternativ ist in einigen Implementierungen die sprachaktivierte Vorrichtung 104 an einem Ort ohne vernetzte elektronische Vorrichtung angeordnet. Ferner kann in einigen Implementierungen ein Zimmer oder ein Raum in der Struktur mehrere sprachaktivierte Vorrichtungen aufweisen.
In einigen Implementierungen enthält die sprachaktivierte Vorrichtung 104 mindestens ein oder mehrere Mikrofone, einen Lautsprecher, einen Prozessor und einen Speicher, der mindestens ein Programm zur Ausführung durch den Prozessor speichert. Der Lautsprecher ist dazu ausgelegt, es der sprachaktivierten Vorrichtung 104 zu ermöglichen, Sprachnachrichten und andere Audiodateien (z. B. auditive Töne) an einen Ort zu liefern, an dem die sprachaktivierte Vorrichtung 104 in der Betriebsumgebung 100 platziert ist, und dadurch Musik zu übertragen, einen Zustand der zu verarbeitenden Audioeingabe zu melden, eine Unterhaltung mit einem Anwender der sprachaktivierten Vorrichtung 104 zu führen oder ihm Anweisungen zu geben. Zusätzlich oder als Alternative zu den Sprachnachrichten können visuelle Signale dazu verwendet werden, Rückmeldungen an den Anwender der sprachaktivierten Vorrichtung 104 in Bezug auf den Zustand der zu verarbeitenden Audioeingabe, den Zustand oder Status der sprachaktivierten Vorrichtung 104 oder den Zustand oder Status einer Anwendung oder eines Moduls, das auf der Vorrichtung 104 läuft, bereitzustellen. Wenn die sprachaktivierte Vorrichtung 104 eine Mobilvorrichtung (z. B. ein Mobiltelefon oder ein Tabletcomputer) ist, ist ihr Anzeigebildschirm dazu ausgelegt, eine Benachrichtigung in Bezug auf den Zustand der zu verarbeitenden Audioeingabe oder des Vorrichtungszustands oder -status oder eines Anwendungszustands oder -status anzuzeigen.
In einigen Implementierungen ist die sprachaktivierte Vorrichtung 104 eine Sprachschnittstellenvorrichtung, die netzangebunden ist, um Spracherkennungsfunktionen mit der Hilfe eines Sprachassistenzserversystems 112 bereitzustellen. Zum Beispiel enthält die sprachaktivierte Vorrichtung 104 einen intelligenten Lautsprecher, der Musik an einen Anwender liefert und einen sichtfreien und freihändigen Zugang zu einem Sprachassistenzsystem (z. B. dem Google-Assistenten) ermöglicht. Wahlweise ist die sprachaktivierte Vorrichtung 104 eine der folgenden Vorrichtungen: ein Desktop- oder Laptop-Computer, ein Tablet, ein Mobiltelefon, das ein Mikrofon umfasst, eine Castvorrichtung, die ein Mikrofon und wahlweise einen Lautsprecher umfasst, ein Audiosystem (z. B. ein Stereosystem, ein Lautsprechersystem, ein tragbarer Lautsprecher), das ein Mikrofon und einen Lautsprecher umfasst, ein Fernseher, der ein Mikrofon und einen Lautsprecher umfasst, ein Anwenderschnittstellensystem, das in einer weiteren Vorrichtung oder einem Gerät integriert ist (z. B. ein Anwenderschnittstellensystem, das in einem Kühlschrank integriert ist) und das ein Mikrofon und einen Lautsprecher und wahlweise eine Anzeige umfasst, und ein Anwenderschnittstellensystem in einem Automobil, das ein Mikrofon und einen Lautsprecher und wahlweise eine Anzeige umfasst. Wahlweise ist die sprachaktivierte Vorrichtung 104 eine einfache und billige Sprachschnittstellenvorrichtung. Im Allgemeinen kann die sprachaktivierte Vorrichtung 104 jede Vorrichtung sein, die zu einer Netzverbindung fähig ist und die ein Mikrofon, einen Lautsprecher und Programme, Module und Daten zum Interagieren mit dem Sprachassistenzdienst 140 umfasst. Angesichts der Einfachheit und der niedrigen Kosten der sprachaktivierten Vorrichtung 104 umfasst die sprachaktivierte Vorrichtung 104 eine Anordnung von Leuchtdioden (LEDs) anstelle eines vollständigen Anzeigeschirms und zeigt ein visuelles Muster auf den LEDs an, um den Zustand der zu verarbeitenden Audioeingabe, einen Vorrichtungszustand oder -status oder einen Anwendungszustand oder-status anzugeben. In einigen Implementierungen sind die LEDs Vollfarb-LEDs und die Farben der LEDs können als Teil eines visuellen Musters verwendet werden, das auf den LEDs angezeigt werden soll. Zum Beispiel sind mehrere Beispiele der Verwendung von LEDs zum Anzeigen visueller Muster, um Informationen oder den Vorrichtungszustand zu vermitteln, unten unter Bezugnahme auf 6a-6D dieser Anmeldung und unter Bezugnahme auf 4A-4H der vorläufigen US-Patentanmeldung Nr. 62/336566 , die den Titel „LED Design Language for Visual Affordance of Voice User Interfaces“ trägt, am 13.05.2016 eingereicht wurde und hiermit durch Bezugnahme vollständig aufgenommen wird, beschrieben. In einigen Implementierungen werden visuelle Muster, die den Zustand sprachverarbeitender Operationen oder den Vorrichtungszustand/-status oder Anwendungszustand/-status angeben, unter Verwendung charakteristischer Bilder angezeigt, die auf herkömmlichen zu sprachaktivierten Vorrichtungen, die die sprachverarbeitenden Operationen durchführen, gehörigen Anzeigen gezeigt werden.
In einigen Implementierungen werden LEDs oder andere visuelle Anzeigen dazu verwendet, einen kollektiven sprachverarbeitenden Zustand mehrerer elektronischer Vorrichtungen zu vermitteln. Zum Beispiel können in einer Betriebsumgebung, in der es mehrere Sprachverarbeitungs- oder Sprachschnittstellenvorrichtungen (z. B. mehrere elektronische Vorrichtungen 104, wie es in 6A dieser Anmeldung und 4A der '566er Anmeldung gezeigt ist; und mehrere sprachaktivierte Vorrichtungen 104 von 1), Gruppen von Farb-LEDs (z. B. LEDs 404 wie in 4A der '566er Anmeldung und 604 von 6A), die mit jeweiligen elektronischen Vorrichtungen verbunden sind, dazu verwendet werden, um zu vermitteln, welche der elektronischen Vorrichtungen einem Anwender zuhört.
Allgemeiner beschreibt die Diskussion unten unter Bezugnahme auf 6A-6D und in der '566-Anmeldung (z. B. siehe Absätze [0087]-[0100]) eine „LED-Designsprache“ zum visuellen Anzeigen einer Vielzahl von Sprachverarbeitungszuständen einer elektronischen Vorrichtung wie beispielsweise eines Schlagwortdetektionszustands, eines Zuhörzustands, eines Denkmodus, eines Arbeitsmodus, eines Antwortmodus und/oder einen Sprechmodus unter Verwendung einer Sammlung von LEDs. In einigen Implementierungen werden die hierin beschriebenen einzigartigen Zustände von Sprachverarbeitungsoperationen unter Verwendung einer Gruppe von LEDs gemäß einem oder mehreren Aspekten der „LED-Designsprache“ der '566-Anmeldung dargestellt. Diese visuellen Angaben können auch mit einem oder mehreren auditiven Angaben, die durch elektronische Vorrichtungen, die Sprachverarbeitungsoperationen durchführen, erzeugt werden, kombiniert werden. Die sich ergebenden auditiven und/oder visuellen Angaben werden es Anwendern ermöglichen, in einer sprachinteraktiven Umgebung den Zustand verschiedener sprachverarbeitender elektronischer Vorrichtungen in der Umgebung zu verstehen und effektiv auf eine natürliche, intuitive Weise mit diesen Vorrichtungen zu interagieren.
In einigen Implementierungen ermöglicht die sprachaktivierte Vorrichtung 104 dann, wenn Spracheingaben an die sprachaktivierte Vorrichtung 104 dazu verwendet werden, die Medienausgabevorrichtungen über die Castvorrichtungen zu steuern, effektiv ein neues Ebene der Steuerung von castfähigen Medienvorrichtungen. In einem spezifischen Beispiel enthält die sprachaktivierte Vorrichtung 104 einen Lautsprecher für gelegentlichen Genuss mit Fernfeld-Sprachzugriff und dient als eine Sprachschnittstellenvorrichtung für den Sprachassistenzdienst. Die sprachaktivierte Vorrichtung 104 kann in jedem Bereich der Betriebsumgebung 100 angeordnet sein. Wenn mehrere sprachaktivierte Vorrichtungen 104 auf mehrere Räume verteilt sind, werden sie zu Castaudioempfängern, die synchronisiert werden, um Spracheingaben aus diesen Räumen bereitzustellen.
Insbesondere umfasst die sprachaktivierte Vorrichtung 104 in einigen Implementierungen einen Wi-Fi-Lautsprecher mit einem Mikrofon, das mit einem sprachaktivierten Sprachassistenzdienst (z. B. dem Google-Assistenten) verbunden ist. Ein Anwender (z. B. Anwender 102) kann über das Mikrofon der sprachaktivierten Vorrichtung 104 eine Medienabspielanforderung stellen und den Sprachassistenzdienst 140 bitten, Medieninhalte auf der sprachaktivierten Vorrichtung 104 auf einer weiteren angeschlossenen Medienausgabevorrichtung abzuspielen. Zum Beispiel kann der Anwender eine Medienabspielanforderung stellen, indem er zu dem Wi-Fi-Lautsprecher sagt „OK Google, lass Katzenvideos auf meinem Wohnzimmer-TV laufen“. Der Sprachassistenzdienst erfüllt dann die Medienabspielanforderung, indem er den angeforderten Medieninhalt auf der angeforderten Vorrichtung unter Verwendung einer standardmäßigen oder zugewiesenen Medienanwendung abspielt.
In einigen Implementierungen kann ein Anwender eine Sprachanforderung über das Mikrofon der sprachaktivierten Vorrichtung 104 in Bezug auf Medieninhalt stellen, der auf einer Anzeigevorrichtung bereits abgespielt worden ist oder gerade abgespielt wird (z. B. kann der Anwender um Informationen über den Medieninhalt bitten, den Medieninhalt über einen Online-Store kaufen oder einen sozialen Beitrag über den Medieninhalt zusammenstellen und ausgeben).
In einigen Implementierungen möchte ein Anwender vielleicht eine aktuelle Mediensitzung mitnehmen, während er durch das Haus geht, und kann einen solchen Dienst von der einen oder den mehreren sprachaktivierten Vorrichtungen 104 anfordern. Dafür muss die sprachaktivierte Vorrichtung 104 die aktuelle Mediensitzung von einer ersten Castvorrichtung zu einer zweiten Castvorrichtung, die nicht direkt mit der ersten Castvorrichtung verbunden ist oder kein Wissen über die Existenz der ersten Castvorrichtung hat, transferieren. Nach dem Medieninhaltstransfer fährt eine zweite Ausgabevorrichtung, die mit der zweiten Castvorrichtung gekoppelt ist, damit fort, den Medieninhalt einer vorherigen ersten Ausgabevorrichtung, die mit der ersten Castvorrichtung gekoppelt ist, von genau dem Punkt innerhalb eines Musikstücks oder eines Videoclips abzuspielen, an dem das Abspielen des Medieninhalts auf der ersten Ausgabevorrichtung beendet wurde. In einigen Implementierungen kann die sprachaktivierte Vorrichtung 104, die die Anforderung zum Transfer der Mediensitzung empfängt, die Anforderung erfüllen. In einigen Implementierungen gibt die sprachaktivierte Vorrichtung 104, die die Anforderung zum Transfer der Mediensitzung empfängt, die Anforderung an eine weitere Vorrichtung oder ein weiteres System (z. B. Sprachassistenzserversystem 112) zur Bearbeitung weiter.
Ferner kann in einigen Implementierungen ein Anwender über das Mikrofon der sprachaktivierten Vorrichtung 104 eine Anforderung von Informationen oder einer Durchführung einer Aktion oder Operation stellen. Die angeforderten Informationen können persönlich (z. B. Emails des Anwenders, Kalendereinträge des Anwenders, Fluginformationen des Anwenders etc.), nicht persönlich (z. B. Spielstand beim Sport, Nachrichten etc.) oder irgendwas dazwischen (z. B. Spielstände für von dem Anwender bevorzugte Mannschaften oder Sportarten, Nachrichten aus bevorzugten Quellen des Anwenders etc.) sein. Die angeforderten Informationen oder die Aktion/Operation können Zugriff auf persönliche Informationen (z. B. Kaufen eines digitalen Mediengegenstands mit Zahlungsinformationen, die durch Anwender bereitgestellt werden, Kaufen eines physischen Wertgegenstands) umfassen. Die sprachaktivierte Vorrichtung 104 und/oder der Sprachassistenzdienst 140 antwortet auf die Anforderung mit Sprachnachrichtantworten an den Anwender, wobei die Antwort beispielsweise Anforderungen von zusätzlichen Informationen zum Erfüllen der Anforderung, einer Bestätigung, dass die Anforderung erfüllt wurde, eine Mitteilung, dass die Anforderung nicht erfüllt werden kann, und so weiter umfassen. In einigen Implementierungen ist die Anforderung von Informationen eine Informationen-zu-Sprache-Anforderung (z. B. Text-zu-Sprache), bei der der Anwender anfordert, dass die angeforderten Informationen laut (z. B. als Rede) durch die sprachaktivierte Vorrichtung 104 vorgelesen werden, oder allgemeiner, dass die angeforderten Informationen durch die sprachaktivierte Vorrichtung 104 in einer auditiven und für Menschen verstehbaren Form ausgegeben werden. In einigen Implementierungen kann eine Anwendung auf der sprachaktivierten Vorrichtung 104 und/oder dem Sprachassistenzdienst 140 ausgeführt werden und die sprachaktivierte Vorrichtung 104 dient als eine Schnittstelle für die Anwendung. Zum Beispiel kann die sprachaktivierte Vorrichtung 104 eine Wissensspielanwendung ausführen und sich mit Spielteilnehmern unter Verwendung von Aufforderungen, Sprachausgaben und wahlweise visuellen Ausgaben (z. B. Lichtmuster, die unter Verwendung der Gruppe von LEDs angezeigt werden) auseinandersetzen.
Als ein Beispiel kann der Anwender eine Informationen-zu-Sprache-Anforderung (z. B. Text-zu-Sprache-Anforderung) über das Mikrofon der sprachaktivierten Vorrichtung 104 stellen und den Sprachassistenzdienst 140 bitten, Informationen (z. B. Emails, Kalendereinträge, Nachrichtenartikel, Spielstände beim Sport, die aktuelle Zeit, die auf einem Zeitgeber verbleibende Zeit etc.) auf der sprachaktivierten Vorrichtung 104 laut vorgelesen zu bekommen. Zum Beispiel kann der Anwender eine Informationen-zu-Sprache-Anforderung stellen, indem er zu der Sprachschnittstellenvorrichtung sagt: „OK Google, was steht für heute in meinem Kalender?“. Der Sprachassistenzdienst 140 erfüllt die Informationen-zu-Sprache-Anforderung durch lautes Vorlesen der auf der Sprachschnittstellenvorrichtung der sprachaktivierten Vorrichtung 104 angeforderten Informationen.
In einigen Implementierungen kann die Betriebsumgebung 100 zusätzlich zu der sprachaktivierten Vorrichtung 104 und den Medienvorrichtungen unter den steuerbaren Vorrichtungen 106 auch eine oder mehrere Smart-Home-Vorrichtungen unter den steuerbaren Vorrichtungen 106 umfassen. Die integrierten Smart-Home-Vorrichtungen umfassen intelligente, netzangebundene Multisensor-Vorrichtungen, die reibungslos miteinander in einem Smart-Home-Netz und/oder in einem zentralen Server oder einem Cloud-Computing-System integriert sind, um eine Bandbreite nützlicher Smart-Home-Funktionen bereitzustellen. In einigen Implementierungen ist eine Smart-Home-Vorrichtung an derselben Stelle der Betriebsumgebung 100 wie eine Castvorrichtung und/oder eine Ausgabevorrichtung angeordnet und ist daher in Nachbarschaft zu oder mit einem bekannten Abstand zu der Castvorrichtung und der Ausgabevorrichtung platziert.
Die Smart-Home-Vorrichtungen in der Betriebsumgebung 100 können ein oder mehrere intelligente, netzangebundene, Multisensor-Thermostate, einen oder mehrere intelligente, netzangebundene, Multisensor-Gefahrendetektoren, eine oder mehrere intelligente, netzangebundene, Multisensor-Eingabeschnittstellenvorrichtungen und (hiernach als „intelligente Türklingel“ und „intelligentes Türschloss“ bezeichnet) ein oder mehrere intelligente, netzangebundene, Multisensor-Alarmsysteme, ein oder mehrere intelligente, netzangebundene, Multisensor-Kamerasysteme, einen oder mehrere intelligente, netzangebundene, Multisensor-Wandschalter, eine oder mehrere intelligente, netzangebundene, Multisensor-Steckdosen und ein oder mehrere intelligente, netzangebundene, Multisensor-Leuchten umfassen. In einigen Implementierungen umfassen die Smart-Home-Vorrichtungen in der Betriebsumgebung 100 von 1 mehrere intelligente, netzangebundene, Multisensor-Geräte (nachstehend als „intelligente Geräte“ bezeichnet) wie beispielsweise Kühlschränke, Herdplatten, Backöfen, Fernseher, Waschmaschinen, Trockner, Leuchten, Stereoanlagen, Gegensprechanlagen, Garagentoröffner, Bodengebläse, Deckenventilatoren, Wandklimaanlagen, Poolheizungen, Bewässerungssysteme, Sicherheitssysteme, Raumheizungen, Fenster-Klimaanlageneinheiten, motorisierte Lüftungen und so weiter. In einigen Implementierungen kann jeder dieser Smart-Home-Vorrichtungstypen mit Mikrofonen und einer oder mehreren Sprachverarbeitungsfähigkeiten, wie sie hierin beschrieben sind, ausgestattet sein, um als Ganzes oder in Teilen auf Sprachanforderungen von einem Bewohner oder Anwender zu antworten.
In einigen Implementierungen sind jede der steuerbaren Vorrichtungen 106 und die sprachaktivierte Vorrichtung 104 dazu in der Lage, Kommunikation und Informationen mit anderen steuerbaren Vorrichtungen 106, der sprachaktivierten Vorrichtung 104, einem zentralen Server oder Cloud-Computing-System und/oder anderen Vorrichtungen (z.B. einer Clientvorrichtung), die netzangebunden sind, zu teilen. Datenkommunikation kann durchgeführt werden, indem irgendeines einer Vielzahl von maßgeschneiderten oder standardisierten Drahtlosprotokollen (z. B. IEEE 802.15.4, Wi-Fi, ZigBee, 6LoWPAN, Thread, Z-Wave, Bluetooth Smart, ISA100.11a, WirelessHart, MiWi etc.) und/oder irgendeines einer Vielzahl von maßgeschneiderten oder voreingestellten verdrahteten Protokollen (z. B. Ethernet, HomePlug etc.) oder ein beliebiges anderes geeignetes Kommunikationsprotokoll einschließlich Kommunikationsprotokollen, die zum Einreichungsdatum dieses Dokuments noch nicht entwickelt worden sind, verwendet werden.
Durch die Kommunikationsnetze (z. B. Internet) 110, können die steuerbaren Vorrichtungen 106 und die sprachaktivierte Vorrichtung 104 mit einem Serversystem (hier auch ein zentrales Serversystem und/oder ein Cloud-Computing-System genannt) kommunizieren. Wahlweise kann das Serversystem einem Hersteller, einer Supporteinheit oder einem Dienstanbieter, die den steuerbaren Vorrichtungen und dem dem Anwender gezeigten Medieninhalt zugeordnet sind, zugeordnet sein. Dementsprechend umfasst das Serversystem das Sprachassistenzserversystem 112, das Audioeingaben, die durch die sprachaktivierte Vorrichtung 104 gesammelt werden, verarbeitet, einen oder mehrere Inhalts-Hosts 114, die den angezeigten Medieninhalt liefern, wahlweise einen Cloud-Castdienstserver, der eine virtuelle Anwenderdomäne basierend auf verteilten Vorrichtungsendgeräten erzeugt, und das Vorrichtungsregister 118, das eine Aufzeichnung der verteilten Vorrichtungsendgeräte in der virtuellen Anwenderumgebung aufzeichnet. Beispiele für die verteilten Vorrichtungsendgeräte umfassen die steuerbaren Vorrichtungen 106, die sprachaktivierte Vorrichtung 104 und die Medienausgabevorrichtungen, sind aber nicht darauf beschränkt. In einigen Implementierungen sind diese verteilten Vorrichtungsendgeräte mit einem Anwenderkonto (z. B. einem Google-Anwenderkonto) in der virtuellen Anwenderdomäne verknüpft. Es sollte erwähnt werden, dass ein Verarbeiten von Audioeingaben, die durch die sprachaktivierten Vorrichtungen 104 gesammelt werden, lokal in der sprachaktivierten Vorrichtung 104, auf einem Sprachassistenzserversystem 112, auf einer weiteren Smart-Home-Vorrichtung (z. B. einer Hub-Vorrichtung) oder in einer Kombination von allen oder einer Teilmenge der oben genannten Vorrichtungen durchgeführt werden können.
Es ist zu beachten, dass die sprachaktivierte Vorrichtung 104 in einigen Implementierungen auch in einer Umgebung ohne Smart-Home-Vorrichtungen funktioniert. Zum Beispiel kann eine sprachaktivierte Vorrichtung 104 selbst in der Abwesenheit von Smart-Home-Vorrichtungen auf Anwenderanforderungen von Informationen oder der Durchführung einer Aktion und/oder zum Initiieren oder Steuern verschiedener Medienfunktionen antworten. Eine sprachaktivierte Vorrichtung 104 kann auch in einer großen Vielfalt an Umgebungen einschließlich eines Fahrzeugs, eines Schiffs, eines Geschäfts oder einer Produktionsumgebung funktionieren, ohne darauf beschränkt zu sein.
In einigen Implementierungen wird eine sprachaktivierte Vorrichtung 104 durch eine Spracheingabe, die ein Schlagwort (auch „Weckwort“ genannt) umfasst, „aufgeweckt“ (z. B. um eine Schnittstelle für den Sprachassistenzdienst auf der sprachaktivierten Vorrichtung 104 zu aktivieren, um die sprachaktivierte Vorrichtung 104 in einen Zustand zu bringen, in dem die sprachaktivierte Vorrichtung 104 bereit ist, Sprachanforderungen an den Sprachassistenzdienst zu empfangen). In einigen Implementierungen benötigt die sprachaktivierte Vorrichtung 104 ein Aufwecken, wenn die sprachaktivierte Vorrichtung 104 in Bezug auf das Annehmen von Spracheingaben über mindestens einen bestimmten Zeitraum (z. B. 5 Minuten) untätig war; die vorbestimmte Zeit entspricht einem Wartezeitraum, der erlaubt ist, bevor eine Sprachschnittstellensitzung oder ein Gespräch ausläuft. Das Schlagwort kann ein Wort oder eine Phrase sein und kann eine vorbestimmte Standardeinstellung sein und/oder durch einen Anwender festgelegt werden (z. B. kann ein Anwender einen Kurznamen für eine bestimmte sprachaktivierte Vorrichtung 104 als Schlagwort für die Vorrichtung festlegen). In einigen Implementierungen kann es mehrere Schlagworte geben, die eine sprachaktivierte Vorrichtung 104 aufwecken können. Ein Anwender kann das Schlagwort aussprechen, auf eine Bestätigungsantwort von der sprachaktivierten Vorrichtung 104 warten (z. B. gibt die sprachaktivierte Vorrichtung 104 einen Gruß aus) und dann eine erste Sprachanforderung stellen. Alternativ kann der Anwender das Schlagwort und die erste Sprachanforderung in einer Spracheingabe kombinieren (z. B. enthält die Spracheingabe das Schlagwort, dem die Sprachanforderung folgt).
In einigen Implementierungen interagiert eine sprachaktivierte Vorrichtung 104 mit einer steuerbaren Vorrichtung 106 (z. B. einer Medienvorrichtung, einer Smart-Home-Vorrichtung), einer Client-Vorrichtung (z. B. einer Client-Vorrichtung 103) oder einem Serversystem (z. B. dem Sprachassistenzserversystem 112) einer Betriebsumgebung gemäß einigen Implementierungen. Die sprachaktivierte Vorrichtung 104 ist dazu ausgelegt, Audioeingaben aus einer Umgebung in Nähe der sprachaktivierten Vorrichtung 104 zu empfangen. Wahlweise speichert die sprachaktivierte Vorrichtung 104 die Audioeingaben und verarbeitet die Audioeingaben mindestens in Teilen lokal. Wahlweise übermittelt die sprachaktivierte Vorrichtung 104 die empfangenen Audioeingaben oder die teilweise verarbeiteten Audioeingaben über die Kommunikationsnetze 110 zur weiteren Verarbeitung an ein Sprachassistenzserversystem 112. Die sprachaktivierte Vorrichtung 104 oder das Sprachassistenzserversystem 112 bestimmt, ob es eine Anforderung in der Audioeingabe gibt und welche Anforderung es ist, bestimmt und erzeugt eine Antwort auf die Anforderung und führt eine oder mehrere Operationen durch, um die Anforderung zu erfüllen (z. B. Erhalten von angeforderten Informationen und Umwandeln der Informationen in auditive Sprachausgabe, Übermitteln der Antwort an eine oder mehrere steuerbare Vorrichtungen 106 gemäß der Anforderung). Die steuerbare(n) Vorrichtung(en), die die Antwort empfangen, die ein oder mehrere Befehle an die steuerbare Vorrichtung 106 enthält, ist dazu ausgelegt, gemäß der Antwort Operationen durchzuführen oder Zustände zu ändern. Zum Beispiel ist eine Medienvorrichtung dazu ausgelegt, Medieninhalt oder Intemetinhalt von dem einen oder den mehreren Inhalts-Hosts 114 zur Anzeige auf einer Ausgabevorrichtung, die mit der Medienvorrichtung gekoppelt ist, gemäß einer Antwort auf eine Anforderung in einer Audioeingabe zu erhalten.
In einigen Implementierungen sind die steuerbare(n) Vorrichtung(en) 106 und die sprachaktivierte Vorrichtung 104 miteinander in einer Anwenderdomäne verknüpft und sind insbesondere über ein Anwenderkonto in der Anwenderdomäne einander zugeordnet. Informationen auf der steuerbaren Vorrichtung 106 (ob nun in dem lokalen Netz 108 oder in dem Netz 110) und der sprachaktivierten Vorrichtung 104 (ob nun in dem lokalen Netz 108 oder in dem Netz 110) werden in der Vorrichtungsregistrierung 118 in Verbindung mit dem Anwenderkonto gespeichert. In einigen Implementierungen gibt es eine Vorrichtungsregistrierung für steuerbare Vorrichtungen 106 und eine Vorrichtungsregistrierung für sprachaktivierte Vorrichtungen 104. Die Registrierung für steuerbare Vorrichtungen kann auf Vorrichtungen in der Registrierung der sprachaktivierten Vorrichtungen, die in der Anwenderdomäne zugeordnet sind, verweisen und umgekehrt.
In einigen Implementierungen werden eine oder mehrere sprachaktivierte Vorrichtungen 104 (und eine der mehrere Castvorrichtungen) und eine oder mehrere der steuerbaren Vorrichtungen 106 dem Service für Sprachunterstützung 140 über eine Client-Vorrichtung 103 in Auftrag gegeben. In einigen Implementierungen enthält die sprachaktivierte Vorrichtung 104 keinen Anzeigebildschirm und stützt sich auf die Clientvorrichtung 103, um während eines Inbetriebnahmeprozesses eine Anwenderschnittstelle bereitzustellen, und ähnliches gilt auch für eine steuerbare Vorrichtung 106. Insbesondere ist die Clientvorrichtung 103 mit einer Anwendung ausgestattet, die es einem Anwender ermöglicht, eine Inbetriebnahme einer neuen sprachaktivierten Vorrichtung 104 und/oder steuerbaren Vorrichtung 106 in der Nähe der Client-Vorrichtung zu vereinfachen. Ein Anwender kann an der Anwenderschnittstelle der Client-Vorrichtung 103 eine Anforderung senden, um einen Inbetriebnahmeprozess für die neue elektronische Vorrichtung 104 oder 106, die in Betrieb genommen werden soll, zu initiieren. Nach Empfangen der Inbetriebnahmeanforderung stellt die Client-Vorrichtung 103 eine Nahbereichskommunikationsverbindung mit der neuen elektronischen Vorrichtung 104 oder 106, die in Betrieb genommen werden soll, her. Wahlweise wird die Nahbereichskommunikationsverbindung basierend auf Nahfeldkommunikation (NFC), Bluetooth, Bluetooth Low Energy (BLE) und dergleichen hergestellt. Die Clientvorrichtung 103 vermittelt dann Drahtloskonfigurationsdaten, die einem drahtlosen lokalen Netz (WLAN, z. B. dem lokalen Netz 108) zugeordnet sind, an die neue elektronische Vorrichtung 104 oder 106. Die Drahtloskonfigurationsdaten umfassen mindestens einen WLAN-Sicherheitsschlüssel (d. h. ein Dienstsatzkennungspasswort (SSID)) und umfassen wahlweise eine SSID, eine Internetprotokolladresse (IP), eine Proxy-Konfiguration und eine Gateway-Konfiguration. Nach dem Empfangen der Drahtloskonfigurationsdaten über die Nahbereichskommunikationsverbindung decodiert die elektronische Vorrichtung 104 oder 106 und die Drahtloskonfigurationsdaten, stellt diese wieder her und tritt dem WLAN basierend auf den Drahtloskonfigurationsdaten bei.
In einigen Implementierungen werden zusätzliche Anwenderdomäneninformationen an der Anwenderschnittstelle, die auf der Clientvorrichtung 103 angezeigt wird, eingegeben und dazu verwendet, die neue elektronische Vorrichtung 104 oder 106 mit einem Konto in einer Anwenderdomäne zu verknüpfen. Wahlweise werden die zusätzlichen Anwenderdomäneninformationen der neuen elektronischen Vorrichtung 104 oder 106 in Verbindung mit den Drahtloskonfigurationsdaten über die Nahbereichskommunikationsverbindung vermittelt. Wahlweise werden die zusätzlichen Anwenderdomäneninformationen der neuen elektronischen Vorrichtung 104 und 106 über WLAN vermittelt, nachdem die neue Vorrichtung dem WLAN beigetreten ist.
Sobald die elektronische Vorrichtung 104 oder 106 in der Anwenderdomäne in Betrieb genommen wurde, können andere Vorrichtungen und diesen zugeordnete Aktivitäten über mehrere Steuerwege gesteuert werden. Gemäß einem Steuerweg wird eine auf der Clientvorrichtung 103 installierte Anwendung dazu verwendet, die anderen Vorrichtungen und diesen zugeordnete Aktivitäten (z. B. Medienabspielaktivitäten) zu steuern. Alternativ wird gemäß einem weiteren Steuerweg die elektronische Vorrichtung 104 oder 106 dazu verwendet, eine sichtunabhängige und freihändige Steuerung der anderen Vorrichtungen und diesen zugeordnete Aktivitäten zu ermöglichen.
In einigen Implementierungen werden LEDs oder andere visuelle Anzeigen der sprachaktivierten Vorrichtung 104 dazu verwendet, einen Zustand der Sprachverarbeitung in der sprachaktivierten Vorrichtung 104 und/oder dem Sprachassistenzserversystem 112, einen Vorrichtungszustand oder -status oder einen Anwendungszustand oder -status zu vermitteln. Bestimmte Zustände oder Status können bestimmten standardmäßigen visuellen LED-Mustern zugeordnet sein. In einigen Implementierungen umfasst ein visuelles LED-Muster, welche LEDs aufleuchten sollen und wann diese aufleuchten sollen (um z. B. ein Muster und/oder eine Bewegung der Lichter zu vermitteln) und die Farben der LEDs, die aufleuchten sollen. Im Allgemeinen zeigt die sprachaktivierte Vorrichtung immer dann, wenn ein Zustand oder Status in der sprachaktivierten Vorrichtung 104 aktiv ist, 104 die entsprechenden LED-Muster auf der Gruppe von LEDs. In einigen Implementierungen sind Befehle oder Daten für standardmäßige LED-Muster und Zuordnungen von standardmäßigen LED-Mustern zu bestimmten Zuständen und Status lokal in der sprachaktivierten Vorrichtung 104 gespeichert.
In einigen Implementierungen wird dann, wenn ein oder mehrere Kriterien erfüllt sind, ein alternatives LED-Muster zur Anzeige, wenn ein Zustand oder Status aktiv ist, durch den Sprachassistenzdienst 140 bereitgestellt. Das alternative LED-Muster wird durch die sprachaktivierte Vorrichtung 104 anstelle des standardmäßigen LED-Musters gezeigt, wenn ansonsten das standardmäßige LED-Muster gezeigt würde. In einigen Implementierungen werden Informationen oder Daten für das alternative LED-Muster von dem Sprachassistenzserversystem 112 zusammen mit einer beliebigen Antwort oder einem beliebigen Befehl, der durch das Sprachassistenzserversystem 112 als Antwort auf eine Spracheingabe eines Anwenders erzeugt wird, an die sprachaktivierte Vorrichtung 104 übermittelt. In einigen Implementierungen werden Informationen oder Daten für das alternative LED-Muster von dem Sprachassistenzserversystem 112 zu bestimmten Zeiten unabhängig von dem Erhalt oder der Verarbeitung von Spracheingaben von Anwendern an die sprachaktivierte Vorrichtung 104 übermittelt. In einigen Implementierungen werden Informationen zu alternativen LED-Mustern in der sprachaktivierten Vorrichtung 104 für eine bestimmte Zeitdauer gespeichert (z. B. in einem Zwischenspeicher zwischengespeichert, in dem Speicher gespeichert und nach einer bestimmten Zeitdauer aus dem Speicher entfernt).
Vorrichtungen in der Betriebsumgebung
2 ist ein Blockdiagramm, das eine beispielhafte sprachaktivierte Vorrichtung 104 zeigt, die als eine Sprachschnittstelle angewendet wird, um Anwendersprachbefehle in einer Betriebsumgebung (z. B. einer Betriebsumgebung 100) gemäß einigen Implementierungen zu sammeln. Die sprachaktivierte Vorrichtung 104 enthält typischerweise eine oder mehrere Verarbeitungseinheiten (CPUs) 202, eine oder mehrere Netzschnittstellen 204, einen Speicher 206 und einen oder mehrere Kommunikationsbusse 208 zum Verbinden dieser Komponenten (manchmal ein Chipsatz genannt). Die sprachaktivierte Vorrichtung 104 enthält eine oder mehrere Eingabevorrichtungen 210 wie beispielsweise einen Knopf 212, (wahlweise) eine Berührungssensoranordnung 214 und ein oder mehrere Mikrofone 216, die Anwendereingaben erleichtern. Die sprachaktivierte Vorrichtung 104 enthält auch eine oder mehrere Ausgabevorrichtungen 218, die einen oder mehrere Lautsprecher 220 und eine Anordnung von LEDs 22 und/oder eine Anzeige 224 umfassen. In einigen Implementierungen ist die Anordnung von LEDs 222 eine Anordnung von Vollfarb-LEDs. In einigen Implementierungen weist die sprachaktivierte Vorrichtung 104 in Abhängigkeit von dem Vorrichtungstyp entweder die Anordnung von LEDs 222 oder die Anzeige 224 oder beides auf. In einigen Implementierungen umfasst die sprachaktivierte Vorrichtung 104 auch eine Standortbestimmungsvorrichtung 226 (z. B. ein GPS-Modul) und einen oder mehrere Sensoren 228 (z. B. einen Beschleunigungsmesser, ein Gyroskop, einen Lichtsensor etc.).
Der Speicher 206 umfasst einen Hochgeschwindigkeitsspeicher mit wahlfreiem Zugriff wie beispielsweise DRAM, SRAM, DDR, RAM oder andere Festspeichervorrichtungen mit wahlweisem Zugriff; und umfasst wahlweise nichtflüchtige Speicher wie beispielsweise eine oder mehrere Magnetplattenspeichervorrichtungen, eine oder mehrere optische Festplatten-Speichervorrichtungen, eine oder mehrere Flash-Speichervorrichtungen oder eine oder mehrere andere nichtflüchtige Festspeichervorrichtungen. Der Speicher 206 umfasst wahlweise eine oder mehrere Speichervorrichtungen, die entfernt von der einen oder den mehreren Verarbeitungseinheiten 202 angeordnet sind. Der Speicher 206 oder alternativ der nichtflüchtige Speicher innerhalb des Speichers 206 umfasst ein nichttransitorisches computerlesbares Speichermedium. In einigen Implementierungen speichert der Speicher 206 oder das nichttransitorische computerlesbare Speichermedium des Speichers 206 die folgenden Programme, Module und Datenstrukturen oder eine Teilmenge oder Obermenge davon:

• ein Betriebssystem 232, das Prozeduren zum Betreiben verschiedener grundlegender Systemdienste und zum Durchführen hardwareabhängiger Aufgaben umfasst;
• ein Netzkommunikationsmodul 234 zum Verbinden der sprachaktivierten Vorrichtung 104 mit anderen Vorrichtungen (z. B. dem Sprachassistenzdienst 140, einer oder mehreren steuerbaren Vorrichtungen 106, einer oder mehreren Clientvorrichtungen 103 und anderen sprachaktivierten Vorrichtungen 104) über eine oder mehrere Netzschnittstellen 204 (drahtgebunden oder drahtlos) und ein oder mehrere Netze 110 wie z. B. das Internet, andere Weitbereichsnetze, lokale Netze (z. B. das lokales Netz 108), regionale Netze und so weiter;
• ein Eingabe-/Ausgabesteuermodul 236 zum Empfangen von Eingaben über die eine oder die mehreren Eingabevorrichtungen und zum Ermöglichen der Darstellung von Informationen an der sprachaktivierten Vorrichtung 104 über eine oder mehrere Ausgabevorrichtungen 218, die umfassen:
- ∘ ein Sprachverarbeitungsmodul 238 zum Verarbeiten von Audioeingaben oder Sprachnachrichten, die in einer Umgebung, die die sprachaktivierte Vorrichtung 104 umgibt, gesammelt werden, oder zum Vorbereiten der gesammelten Audioeingaben oder Sprachnachrichten zur Verarbeitung an einem Sprachassistenzserversystem 112;
- ∘ ein LED-Steuermodul 240 zum Erzeugen visueller Muster auf den LEDs 222 gemäß den Vorrichtungszuständen der sprachaktivierten Vorrichtung 104 und gemäß LED-Ausgabebefehlen 252 und 254; und
- ∘ ein Berührungserfassungsmodul 242 zum Erfassen von Berührungsereignissen auf einer Oberfläche (z. B. auf einer Berührungssensoranordnung 214) der sprachaktivierten Vorrichtung 104;
• Daten zur sprachaktivierten Vorrichtung 244 zum Speichern mindestens der Daten, die der sprachaktivierten Vorrichtung 104 zugeordnet sind, die Folgendes umfassen:
- ∘ Sprachvorrichtungseinstellungen 246 zum Speichern von Informationen, die der sprachaktivierten Vorrichtung 104 zugeordnet sind und die allgemeine Vorrichtungseinstellungen (z. B. Dienstebene, Vorrichtungsmodell, Speicherkapazität, Verarbeitungsfähigkeiten, Kommunikationsfähigkeiten etc.), Informationen von einem oder mehreren Anwenderkonten in einer Anwenderdomäne, Vorrichtungskurznamen und Vorrichtungsgruppen, Einstellungen in Bezug auf Beschränkungen dann, wenn mit einem nicht registriertem Anwender umgegangen wird, und Anzeigespezifikationen, die dem einen oder den mehreren visuellen Mustern zugeordnet sind, die von den LEDs 222 angezeigt werden (z. B. Zuordnungen von Zuständen und Status zu standardmäßigen LED-Ausgabebefehlen); und
- ∘ Sprachsteuerdaten 248 zum Speichern von Audiosignalen, Sprachnachrichten, Antwortnachrichten und anderen Daten, die den Sprachschnittstellenfunktionen der sprachaktivierten Vorrichtung 104 zugeordnet sind;
• ein Antwortmodul 250 zum Durchführen von Befehlen, die in den Sprachanforderungsantworten, die durch das Sprachassistenzserversystem 112 erzeugt werden, enthalten sind, und in einigen Implementierungen zum Erzeugen von Antworten auf bestimmte Spracheingaben; und
• lokale LED-Ausgabebefehle 252 zum lokalen Speichern von Ausgabebefehlen für LED-Muster;
• empfangene LED-Ausgabebefehle 254 zum Speichern alternativer Ausgabebefehlen für LED-Muster, die von einem Sprachassistenzserversystem 112 empfangen werden; und
• Anwendung(en) 255 zum Durchführen bestimmter Operationen oder Erhalten bestimmter Informationen. In einigen Implementierungen umfassen beispielhafte Anwendungen 255 einen Zeitgeber, einen Wecker, einen Einheitenumwandler und so weiter.

In einigen Implementierungen umfasst das Sprachverarbeitungsmodul 238 die folgenden Module (nicht gezeigt):

• ein Anwenderidentifikationsmodul zum Identifizieren und Auseinanderhalten von Anwendern, die Spracheingaben an die sprachaktivierte Vorrichtung 104 liefern;
• ein Schlagworterkennungsmodul zum Bestimmen, ob Spracheingaben ein Schlagwort zum Aufwecken der sprachaktivierten Vorrichtung 104 enthalten, und zum Erkennen dieser in den Spracheingaben; und
• ein Anforderungserkennungsmodul zum Bestimmen einer Anwenderanforderung, die in einer Spracheingabe enthalten ist.

2B zeigt beispielhafte Datenstrukturen für lokale LED-Ausgabebefehle 252 und empfangene LED-Ausgabebefehle 254 gemäß einigen Implementierungen. Die lokalen LED-Ausgabebefehle 252 speichern Ausgabebefehle für voreingestellte oder standardisierte LED-Muster, die immer dann gezeigt werden sollen, wenn bestimmte Zustände oder Status in der sprachaktivierten Vorrichtung 104 aktiv sind. Die lokalen LED-Ausgabebefehle 252 werden in dem Speicher 206 gespeichert und umfassen eine oder mehrere Sätze von Ausgabebefehlen für die jeweiligen Ausgabemuster (z. B. Sätze 252-1 bis 252-3).
In einigen Implementierungen umfassen die Datenstrukturen für die lokalen LED-Ausgabebefehle 252 die folgenden LED-Musterausgabebefehle, die in der Datenstruktur festgelegt sind:

• eine Ausgabebefehlssatzkennung 256, die einen alphanumerischen Kennungswert und/oder einen Namen umfassen kann; und
• Ausgabebefehle 258, die die tatsächlichen Befehle oder Informationen speichern, auf der Basis derer das LED-Steuermodul 240 die LED-Muster anzeigt. Die Ausgabebefehle oder Informationen enthalten Informationen wie beispielsweise eine Sequenz, in der LEDs aufleuchten, wann sie aufleuchten und die Farben der LEDs, die aufleuchten sollen.

Die empfangenen LED-Ausgabebefehle 254 speichern alternative LED-Ausgabebefehle 350 (3) für alternative LED-Muster, die anstelle der voreingestellten oder standardisierten LED-Muster immer dann angezeigt werden sollen, wenn bestimmte Zustände oder Status in der sprachaktivierten Vorrichtung 104 aktiv sind und ein oder mehrere Kriterien erfüllt sind. Die empfangenen LED-Ausgabebefehle 254 umfassen die alternativen LED-Ausgabebefehle 350, die von dem Sprachassistenzserversystem 112 empfangen werden. Die empfangenen LED-Ausgabebefehle 254 werden in dem Speicher 206 gespeichert und können aus dem Speicher 206 periodisch (z. B. nach einer Zwischenspeicherersetzungsrichtlinie) entfernt werden und umfassen einen oder mehrere Sätze von Ausgabebefehle für jeweilige Ausgabemuster (z. B. Sätze 254-1 bis 254-3).
In einigen Implementierungen umfasst die Datenstruktur für die empfangenen LED-Ausgabebefehle 254 Folgendes für einen LED-Musterausgabebefehlssatz in der Datenstruktur:

• ein Ausgabebefehlssatzkennung 260, die einen alphanumerischen Kennungswert und/oder einen Namen umfassen kann;
• Zuordnungen oder Entsprechungen 262 zu einem oder mehreren LED-Mustern, die Kennungen von lokalen LED-Mustern umfassen, für die das empfangene LED-Muster eine Anzeigealternative ist; und
• Ausgabebefehle 264, die die tatsächlichen Befehle oder Informationen speichern, auf deren Basis das LED-Steuermodul 240 die LED-Muster anzeigt. Die Ausgabebefehle oder Informationen umfassen Informationen wie beispielsweise eine Sequenz, in der LEDs aufleuchten, und wann diese aufleuchten und die Farben der LEDs, die aufleuchten sollen.

Jedes der oben identifizierten Elemente kann in einer oder mehreren der vorher erwähnten Speichervorrichtungen gespeichert werden und entspricht einem Satz von Befehlen zum Durchführen einer oben beschriebenen Funktion. Die oben identifizierten Module oder Programme (d. h. Befehlssätze) müssen nicht als getrennte Softwareprogramme, Prozeduren, Module oder Datenstrukturen implementiert sein und somit können verschiedene Teilmengen dieser Module kombiniert werden oder in verschiedenen Implementierungen anderweitig neu angeordnet werden. In einigen Implementierungen speichert der Speicher 206 wahlweise eine Teilmenge der Module und Datenstrukturen, die oben identifiziert sind. Ferner speichert der Speicher 206 wahlweise zusätzliche Module und Datenstrukturen, die oben nicht beschrieben sind. In einigen Implementierungen kann eine Teilmenge der Programme, Module und/oder Daten, die in dem Speicher 206 gespeichert sind, auf dem Sprachassistenzserversystem 112 gespeichert werden und/oder durch dieses ausgeführt werden.
In einigen Implementierungen sind ein oder mehrere oben beschriebene Module in dem Speicher 206 Teil einer Sprachverarbeitungsmodulbibliothek. Die Sprachverarbeitungsbibliothek kann auf einer großen Bandbreite von Vorrichtungen implementiert und eingebettet sein. Ein Beispiel einer Sprachverarbeitungsbibliothek ist in der vorläufigen US-Patentanmeldung Nr. 62/334434 , die „Implementations for Voice Assistant on Devices“ betitelt ist, am 10.05.2016 eingereicht wurde und hierin durch Bezugnahme in ihrer Gesamtheit aufgenommen ist, beschrieben.
3 ist ein Blockdiagramm, das ein beispielhaftes Sprachassistenzserversystem 112 eines Sprachassistenzdienstes 140 einer Betriebsumgebung (z. B. der Betriebsumgebung 100) gemäß einigen Implementierungen zeigt. Das Serversystem 112 enthält typischerweise eine oder mehrere Verarbeitungseinheiten (CPSs) 302, eine oder mehrere Netzschnittstellen 304, einen Speicher 306 und einen oder mehrere Kommunikationsbusse 308 zum Verbinden dieser Komponenten (manchmal ein Chipsatz genannt). Das Serversystem 112 kann eine oder mehrere Eingabevorrichtungen 310, die Anwendereingaben ermöglichen, enthalten, wie beispielsweise eine Tastatur, eine Maus, eine Sprachbefehlseingabeeinheit oder ein Mikrofon, einen Berührungsbildschirm, ein berührungsempfindliches Eingabefeld, eine gestenerfassende Kamera oder andere Eingabeknöpfe oder Bedienelemente. Ferner kann das Serversystem 112 ein Mikrofon und Spracherkennung oder eine Kamera und Gestenerkennung verwenden, um die Tastatur zu ergänzen oder zu ersetzen. In einigen Implementierungen enthält das Serversystem 112 eine oder mehrere Kameras, Scanner oder Fotosensoreinheiten zum Aufnehmen von Bildern z. B. von Grafikseriencodes, die auf die elektronischen Vorrichtungen gedruckt sind. Das Serversystem 112 kann auch eine oder mehrere Ausgabevorrichtungen 312 enthalten, die eine Darstellung von Anwenderschnittstellen ermöglichen und Inhalt anzeigen und die einen oder mehrere Lautsprecher und/oder eine oder mehrere visuelle Anzeigen umfassen.
Der Speicher 306 umfasst einen Hochgeschwindigkeitsspeicher mit wahlfreiem Zugriff wie beispielsweise DRAM, SRAM, DDR-RAM oder andere Halbleiterspeichervorrichtungen mit wahlfreiem Zugriff; und optional einen nichtflüchtigen Speicher wie beispielsweise eine oder mehrere Magnetplattenspeichervorrichtungen, eine oder mehrere optische Plattenspeichervorrichtungen, eine oder mehrere Flashspeichervorrichtungen oder eine oder mehrere andere nichtflüchtige Festkörperspeichervorrichtungen. Der Speicher 306 enthält optional eine oder mehrere Speichervorrichtungen, die entfernt von einer oder mehreren Verarbeitungseinheiten 302 angeordnet sind. Der Speicher 306, oder alternativ der nichtflüchtige Speicher innerhalb des Speichers 306, umfasst ein nichttransitorisches computerlesbares Speichermedium. In einigen Implementierungen speichert der Speicher 306 oder das nichttransitorische computerlesbare Speichermedium des Speichers 306 die folgenden Programme, Module und Datenstrukturen oder eine Teilmenge oder Obermenge davon:

• ein Betriebssystem 316, das Prozeduren zum Handhaben verschiedener grundlegender Systemdienste und zum Durchführen von hardwareabhängigen Aufgaben enthält;
• ein Netzkommunikationsmodul 318 zum Verbinden des Serversystems 112 mit anderen Vorrichtungen (z. B. Clientvorrichtungen 103, steuerbaren Vorrichtungen 106, sprachaktivierten Vorrichtungen 104) über eine oder mehrere Netzschnittstellen 304 (drahtgebunden oder drahtlos) und ein oder mehrere Netze 110 wie etwa das Internet, andere Weitbereichsnetze, lokale Netze, regionale Netze usw.;
• ein Anwenderschnittstellenmodul 320 zum Ermöglichen einer Präsentation von Informationen (z. B. eine graphische Anwenderschnittstelle zum Präsentieren von Anwendung(en) 322-328, Widgets, Webpräsenzen und Webseiten davon und/oder Spielen, Audio- und/oder Videoinhalt, Text etc.) an einer Clientvorrichtung;
• ein Befehlsausführungsmodul 321 zur Ausführung auf der Serverseite (z. B. von Spielen, Anwendungen sozialer Netzwerke, Smart-Home-Anwendungen und/oder anderen webbasierten oder nicht webbasierten Anwendungen zum Steuern einer Clientvorrichtung 103, einer steuerbaren Vorrichtung 106, einer sprachaktivierten Vorrichtung 104 und einer Smart-Home-Vorrichtung und Überprüfen von durch solche Vorrichtungen erfassten Daten), das eine oder mehrere der folgenden Elemente umfasst:
- ∘ eine Castvorrichtungsanwendung 322, die ausgeführt wird, um serverseitige Funktionen zur Vorrichtungsbereitstellung, Vorrichtungssteuerung und Anwenderkontenverwaltung in Verbindung mit Castvorrichtungen bereitzustellen;
- ∘ eine oder mehrere Medienabspieleranwendungen 324, die ausgeführt werden, um serverseitige Funktionen zur Medienanzeige und Anwenderkontenverwaltung in Verbindung mit entsprechenden Medienquellen bereitzustellen;
- ∘ eine oder mehrere Smart-Home-Vorrichtungsanwendungen 326, die ausgeführt werden, um serverseitige Funktionen zur Vorrichtungsbereitstellung, Vorrichtungssteuerung, Datenverarbeitung und Datenprüfung von entsprechenden Smart-Home-Vorrichtungen bereitzustellen; und
- ∘ eine Sprachassistenzanwendung 328, die ausgeführt wird, um eine Sprachverarbeitung einer von der sprachaktivierten Vorrichtung 104 empfangenen Sprachnachricht einzurichten oder die Sprachnachricht direkt zu verarbeiten, um einen Anwendersprachbefehl und einen oder mehrere Parameter für den Anwendersprachbefehl (z. B. eine Bezeichnung einer steuerbaren Vorrichtung 106 oder einer weiteren sprachaktivierten Vorrichtung 104) zu extrahieren, was ein Bestimmen, ob ein oder mehrere Kriterien für alternative LED-Muster erfüllt sind, umfasst;
• Serversystemdaten 330, die zumindest Daten, die einer automatischen Steuerung der Medienanzeige (z. B. in einem automatischen Medienausgabemodus und einem Nachfolgemodus) zugeordnet sind, und andere Daten speichern, die einzelne oder mehrere der folgenden Daten umfassen:
- ∘ Clientvorrichtungseinstellungen 332 zum Speichern von Informationen, die einer oder mehreren Clientvorrichtungen zugeordnet sind, einschließlich gemeinsamer Vorrichtungseinstellungen (z. B. Dienstebene, Vorrichtungsmodell, Speicherkapazität, Verarbeitungsfähigkeiten, Kommunikationsfähigkeiten usw.) und Informationen zur automatischen Medienanzeigesteuerung;
- ∘ Castvorrichtungseinstellungen 334 zum Speichern von Informationen, die Anwenderkonten der Castvorrichtungsanwendung 322 zugeordnet sind, einschließlich Kontozugriffsinformationen, Informationen für Vorrichtungseinstellungen (z. B.
- Dienstebene, Vorrichtungsmodell, Speicherkapazität, Verarbeitungsfähigkeiten und/oder Kommunikationsfähigkeiten usw.) und Informationen zur automatischen Medienanzeigesteuerung;
- ∘ Medienabspieleranwendungseinstellungen 336 zum Speichern von Informationen, die Anwenderkonten einer oder mehrerer Medienabspieleranwendungen 324 zugeordnet sind, einschließlich Kontozugriffsinformationen, Anwenderpräferenzen von Medieninhaltstypen, Überprüfungsverlaufsdaten/oder und Informationen zur automatischen Medienanzeigesteuerung;
- ∘ Smart-Home-Vorrichtungseinstellungen 338 zum Speichern von Informationen, die Anwenderkonten der Smart-Home-Anwendungen 326 zugeordnet sind, einschließlich Kontozugriffsinformationen und/oder Informationen für ein oder mehrere Smart-Home-Vorrichtungen (z. B. Dienstebene, Vorrichtungsmodell, Speicherkapazität, Verarbeitungsfähigkeiten, Kommunikationsfähigkeiten usw.);
- ∘ Sprachassistenzdaten 340 zum Speichern von Informationen, die Anwenderkonten der Sprachassistenzanwendung 328 zugeordnet sind, einschließlich Kontozugriffsinformationen und/oder Informationen für eine oder mehrere sprachaktivierte Vorrichtungen 104 (z. B. Dienstebene, Vorrichtungsmodell, Speicherkapazität, Verarbeitungsfähigkeiten, Kommunikationsfähigkeiten usw.);
- ∘ Anwenderdaten 342 zum Speichern von Informationen, die Anwendern in der Anwenderdomäne zugeordnet sind, einschließlich Abonnements von Anwendern (z. B. Abonnements für Musikstreamingdienste, Abonnements für Videostreamingdienste, Newsletterabonnements), Anwendervorrichtungen (z. B. Vorrichtungen, die in der jeweiligen Anwendern zugeordneten Vorrichtungsregistrierung 118 registriert sind), Vorrichtungskurznamen, Vorrichtungsgruppen), Anwenderkonten (z. B.
- Email-Konten, Kalenderkonten, Finanzkonten von Anwendern) und andere Anwenderdaten;
- ∘ Anwendersprachprofile 344 zum Speichern von Sprachprofilen der Anwender in der Anwenderdomäne, einschließlich beispielsweise Sprachmodelle oder Sprachfingerabdrücke der Anwender und angenehme Lautstärkepegelschwellen für Anwender; und
- ∘ Kriterien für Altemativ-LED-Muster 345 zum Speichern von Kriterieninformationen zum Bestimmen, wann ein alternatives LED-Muster anstelle eines standardisierten oder voreingestellten LED-Musters an einer sprachaktivierten Vorrichtung 104 angezeigt werden kann;
• ein Vorrichtungsregistrierungsmodul 348 zum Verwalten der Vorrichtungsregistrierung 118;
• ein Sprachverarbeitungsmodul 350 zum Verarbeiten von Audioeingaben oder Sprachnachrichten, die in einer Umgebung gesammelt werden, die die elektronische Vorrichtung 104 umgibt; und
• Alternative LED-Ausgabebefehle 350 zum Speichern von Ausgabebefehlen für LED-Muster, die an einer sprachaktivierten Vorrichtung 104 anstelle von standardisierten oder voreingestellten LED-Mustern angezeigt werden können.

In einigen Implementierungen ist die Datenstruktur für die alternativen LED-Ausgabebefehle 350 ähnlich der Datenstruktur für die empfangenen LED-Ausgabebefehle 254 (2B) und enthält für einen LED-Musterausgabebefehlssatz in der Datenstruktur Folgendes:

• eine Ausgabebefehlssatzkennung, die einen alphanumerischen Kennungswert und/oder einen Namen enthalten kann;
• Zuordnungen oder Entsprechungen zu einem oder mehreren standardisierten voreingestellten LED-Mustern, die Kennungen lokaler LED-Muster umfassen, für die das empfangene LED-Muster eine Anzeigealtemative darstellt; und
• Ausgabebefehle 264, die die tatsächlichen Befehle oder Informationen speichern, auf deren Basis das LED-Steuermodul 240 das LED-Muster anzeigt. Die Ausgabebefehle oder -informationen umfassen Informationen wie beispielsweise eine Sequenz, in der LEDs aufleuchten sollen, und wann sie aufleuchten sollen und die Farben der LEDs, die aufleuchten sollen.

In einigen Implementierungen ist das Sprachassistenzserversystem 112 primär für die Verarbeitung von Spracheingaben verantwortlich und somit sind eines oder mehrere der Programme, Module und Datenstrukturen in dem Speicher 206, der oben unter Bezugnahme auf 2 beschrieben ist, in jeweiligen Modulen in dem Speicher 306 enthalten (z. B. sind die Programme, Module und Datenstrukturen, die in dem Sprachverarbeitungsmodul 238 enthalten sind, in einem Sprachverarbeitungsmodul 350 enthalten). Die sprachaktivierte Vorrichtung 104 überträgt entweder erfasste Spracheingaben zur Verarbeitung an das Sprachassistenzserversystem 112 oder behandelt zuerst die Spracheingaben vor und überträgt die vorbehandelten Spracheingaben zur Verarbeitung an das Sprachassistenzserversystem 112. In einigen Implementierungen haben das Sprachassistenzserversystem 112 und die sprachaktivierte Vorrichtung 104 einige gemeinsame und einige getrennte Aufgaben hinsichtlich der Verarbeitung von Spracheingaben und die in 2 gezeigten Programme, Module und Datenstrukturen können in beiden enthalten sein oder auf das Sprachassistenzserversystem 112 und die sprachaktivierte Vorrichtung 104 aufgeteilt sein. Andere Programme, Module und Datenstrukturen, die in 2 gezeigt sind, oder Analoga davon können ebenfalls in dem Sprachassistenzserversystem 112 enthalten sein.
Jedes der oben identifizierten Elemente kann in einer oder mehreren der zuvor erwähnten Speichervorrichtungen gespeichert sein und entspricht einem Satz von Befehlen zum Ausführen einer oben beschriebenen Funktion. Die oben identifizierten Module oder Programme (d. h. Befehlssätze) müssen nicht als separate Softwareprogramme, Prozeduren, Module oder Datenstrukturen implementiert sein und somit können verschiedene Teilmengen dieser Module in verschiedenen Implementierungen kombiniert oder anderweitig neu angeordnet sein. In einigen Implementierungen speichert der Speicher 306 wahlweise eine Teilmenge der oben identifizierten Module und Datenstrukturen. Darüber hinaus speichert der Speicher 306 wahlweise zusätzliche Module und Datenstrukturen, die oben nicht beschrieben sind.
In einigen Implementierungen werden die Ausgabebefehle 258 und 264 und die Ausgabebefehle für die alternativen LED-Ausgaben 350-1, 350-2, 350-3 usw. gemäß einer LED-Designsprache spezifiziert, für die Beispiele in der oben erwähnten '566er Anmeldung beschrieben sind.
In einigen Implementierungen speichert das Sprachassistenz-Serversystem 112 auch Informationen, die den Kriterien zum Verwenden von alternativen LED-Mustern entsprechen. Die Informationen können beispielsweise in dem Speicher 306 gespeichert sein. Solche Informationen umfassen beispielsweise Feiertage (Daten von Feiertagen und Orte, an denen ein Feiertag gültig ist), an denen alternative LED-Muster angezeigt werden können, und Kennungen der entsprechenden alternativen LED-Muster, Anwendungen mit Zuständen oder Status, denen alternative LED-Muster zugeordnet sind, und so weiter. Das Sprachassistenzserversystem 112 kann diese Informationen verwenden, um zu bestimmen, ob die Kriterien zum Verwenden alternativer LED-Muster erfüllt sind (z. B. ob die Anforderung in der Spracheingabe auf einen Feiertag Bezug nimmt, ob die Spracheingabe an eine Anwendung gerichtet ist, deren Zustände und Status unter Verwendung alternativer LED-Muster angegeben werden können).
Beispielprozesse
4 zeigt ein Ablaufdiagramm eines beispielhaften Prozesses 400 zum Anzeigen eines von einem Server gelieferten alternativen LED-Musters gemäß einigen Implementierungen. In einigen Implementierungen wird der Prozess 400 in einer elektronischen Vorrichtung mit einem oder mehreren Mikrofonen, einem Lautsprecher, einer Anordnung von Anzeigeleuchten, einem oder mehreren Prozessoren und einem Speicher zum Speichern eines oder mehrerer Programme zur Ausführung durch den einen oder die mehreren Prozessoren (z. B. der sprachaktivierten Vorrichtung 104) implementiert.
Die elektronische Vorrichtung erhält (402) erste visuelle Ausgabebefehle, die in der elektronischen Vorrichtung gespeichert sind, wobei die ersten visuellen Ausgabebefehle den Betrieb der Anordnung von Anzeigeleuchten basierend auf dem Betriebszustand der elektronischen Vorrichtung, der Betriebszustände von darauf ausgeführten Anwendungen umfasst, steuern. Die sprachaktivierte Vorrichtung 104 greift auf lokale LED-Ausgabebefehle 252 zu, die in dem Speicher 206 gespeichert sind. Das LED-Steuermodul 240 zeigt LED-Lichtmuster auf der Anordnung von LEDs basierend auf diesen lokalen LED-Ausgabebefehlen 252 an; die Befehle weisen das LED-Steuermodul 240 an, welche LEDs ein- und ausgeschaltet werden sollen und wann dies geschehen soll und in welchen Farben die LEDs leuchten sollen.
Die elektronische Vorrichtung empfängt (404) eine Spracheingabe. Die sprachaktivierte Vorrichtung 104 detektiert und erfasst eine Äußerung einer Spracheingabe von einem Anwender 102. Die sprachaktivierte Vorrichtung 104 sendet die erfasste Spracheingabe zur Verarbeitung an das Sprachassistenzserversystem 112.
Die elektronische Vorrichtung erhält (406) von einem entfernten System eine Antwort auf die Spracheingabe und zweite visuelle Ausgabebefehle, wobei die zweiten visuellen Ausgabebefehle von dem entfernten System zusammen mit der Antwort einer Bestimmung zufolge, dass die Spracheingabe ein oder mehrere Kriterien erfüllt, geliefert werden. Die sprachaktivierte Vorrichtung 104 empfängt von dem Sprachassistenzserversystem 112 eine Antwort auf die Spracheingabe- und alternative LED-Ausgabebefehle 350, die die sprachaktivierte Vorrichtung 104 in dem Speicher 206 unter empfangenen LED-Ausgabebefehlen 254 speichert. Die Antwort kann durch den Sprachassistenzserver 112 (beispielsweise durch das Sprachverarbeitungsmodul 248) erzeugt werden und kann eine auditive Ausgabe und Befehle zum Ausgeben der auditiven Ausgabe und Befehle zum Ausführen bestimmter Operationen enthalten. In einigen Implementierungen umfasst die Antwort auch Befehle für die sprachaktivierte Vorrichtung 104, die alternativen LED-Ausgabebefehle anstelle der entsprechenden standardmäßigen lokalen LED-Ausgabebefehle zu verwenden. Die sprachaktivierte Vorrichtung 104 empfängt die alternativen LED-Ausgabebefehle 350 zusammen mit der Antwort von dem Sprachassistenzserversystem 112 gemäß einer Bestimmung, dass die Spracheingabe ein oder mehrere Kriterien erfüllt.
In einigen Implementierungen bestimmt das Sprachassistenzserversystem 112, ob ein oder mehrere Kriterien für alternative LED-Muster erfüllt sind. Die Kriterien können umfassen, ob die Spracheingabe Informationen oder Inhalte anfordert, die einem Feiertag zugeordnet sind, und so weiter.
Die elektronische Vorrichtung (408) führt die Antwort aus. Die sprachaktivierte Vorrichtung 104 führt Operationen gemäß Befehlen durch, die in der Antwort enthalten sind, und gibt eine Ausgabe (z. B. eine auditive Ausgabe) gemäß der Antwort aus.
Die elektronische Vorrichtung (410) zeigt auf der Anordnung von Anzeigeleuchten eine visuelle Ausgabe gemäß den zweiten visuellen Ausgabebefehlen an, wobei ansonsten in Abwesenheit der zweiten visuellen Ausgabebefehle die elektronische Vorrichtung auf der Anordnung von Anzeigeleuchten eine visuelle Ausgabe gemäß den ersten visuellen Ausgabebefehlen anzeigt. Die sprachaktivierte Vorrichtung 104 zeigt auf der Anordnung von LEDs ein Muster gemäß den alternativen LED-Ausgabebefehlen an, die von dem Sprachassistenzserversystem 112 empfangen werden. Bei Abwesenheit der alternativen LED-Ausgabebefehle oder von Befehlen zur Verwendung der alternativen LED-Ausgabebefehle in der Antwort, zeigt die sprachaktivierte Vorrichtung 104 auf der Anordnung von LEDs ein Muster gemäß den lokalen LED-Ausgabebefehlen an.
In einigen Implementierungen lädt die sprachaktivierte Vorrichtung 104 zu bestimmten Zeiten alternative LED-Ausgabebefehle herunter (z. B. auf Halloween bezogene LED-Ausgabebefehle einige Zeit vor (z. B. 2 Wochen vor) Halloween) und an Halloween werden standardmäßigen LED-Ausgabebefehle für den Tag durch die auf Halloween bezogenen LED-Ausgabebefehle ersetzt. Zum Beispiel wird an Halloween dann, wenn die sprachaktivierte Vorrichtung 104 nach dem Wecken „Guten Morgen“ sagt, ein an Halloween orientiertes LED-Muster (z. B. die gleiche Sequenz von LEDs wie das Standardmuster für „Guten Morgen“, aber mit schwarzen und orangenen Lichtern) anstelle des Standardmusters für „Guten Morgen“ angezeigt.
In einigen Implementierungen erfolgt das Anzeigen der visuellen Ausgabe auf der Anordnung von Anzeigeleuchten gemäß den zweiten visuellen Ausgabebefehlen gleichzeitig mit dem Ausführen der Antwort.
In einigen Implementierungen erhält die elektronische Vorrichtung von dem entfernten System auditive Ausgabebefehle, die den zweiten visuellen Ausgabebefehlen zugeordnet sind, und gibt eine auditive Ausgabe gemäß den auditiven Ausgabebefehlen auf dem Lautsprecher aus, wobei die auditiven Ausgabebefehle eine auditive Ausgabe ergänzen, die mit der Antwort auf die Spracheingabe verbunden ist. Spezielle oder alternative Töne können alternative LED-Ausgabemuster begleiten. Die sprachaktivierte Vorrichtung 104 empfängt die Befehle und Daten für die alternativen Töne zusammen mit den alternativen LED-Ausgabebefehlen und gibt den alternativen Ton, der eine auditive Ausgabe der Antwort auf die Spracheingabe ergänzt, gemäß den Befehlen beim Ausgeben des alternativen LED-Musters aus.
In einigen Implementierungen umfassen das eine oder die mehreren Kriterien: die Spracheingabe, die eine Anforderung enthält, die einem in der Spracheingabe spezifizierten Feiertag zugeordnet ist. Wenn beispielsweise die Spracheingabe eine Anforderung zum Abspielen von Weihnachtsliedern enthält oder nach einer Anzahl von Tagen bis Weihnachten fragt, wenn sich die sprachaktivierte Vorrichtung 104 in dem Text-zu-Sprache-Verarbeitungszustand befindet, kann die sprachaktivierte Vorrichtung 104 ein Text-zu-Sprache-Status-LED-Muster mit roten und grünen Farben anstelle von Standardfarben anzeigen.
In einigen Implementierungen umfassen das eine oder die mehreren Kriterien: ein Datum, an dem die Spracheingabe empfangen wird, entspricht einem Feiertag. Wenn die sprachaktivierte Vorrichtung 104 beispielsweise zu Weihnachten geweckt wird, kann das LED-Muster, das angezeigt wird, wenn die sprachaktivierte Vorrichtung 104 auf das Wecken mit einer auditiven Ausgabe „Guten Morgen“ antwortet, anstelle von Standardfarben rote und grüne Farben aufweisen.
In einigen Implementierungen umfassen das eine oder die mehreren Kriterien, dass die Spracheingabe einer laufenden Spielesitzung an der elektronischen Vorrichtung zugeordnet ist. Wenn die sprachaktivierte Vorrichtung 104 beispielsweise eine Spieleanwendung ausführt, können Text-zu-Sprache-Verarbeitungszustands-LED-Muster, die für Spracheingaben angezeigt werden, die mit einer offenen Spielesitzung der Spieleanwendung interagieren, anstelle der Standardmuster und -farben unterschiedliche Muster und/oder Farben für jeden Anwender/Spieler aufweisen.
In einigen Implementierungen umfassen zusätzliche Kriterien zum Anzeigen alternativer LED-Muster (z. B. eines alternativen Musters für den Text-zu-Sprache-Verarbeitungszustand anstelle des Standardmusters) bestimmte Wetterbedingungen (wenn die Anforderung einen Wetterbericht betrifft) und/oder eine schlechte Verkehrslage (wenn die Anforderung einen Verkehrs- oder Pendlerbericht betrifft).
In einigen Implementierungen umfasst die Anordnung von Anzeigeleuchten eine Anordnung von LED-Leuchten. In einigen Implementierungen umfasst die Anordnung von Anzeigeleuchten Vollfarbleuchten. Die Anordnung von Anzeigeleuchten kann aus LED-Leuchten bestehen und kann aus Vollfarbleuchten (z. B. Vollfarb-LED-Leuchten) bestehen.
5 zeigt ein Ablaufdiagramm eines beispielhaften Prozesses 500 zum Anzeigen eines von einem Server gelieferten, alternativen LED-Musters gemäß einigen Implementierungen. In einigen Implementierungen ist der Prozess 500 in einer elektronischen Vorrichtung mit einem oder mehreren Mikrofonen, einem Lautsprecher, einer Anordnung von Anzeigeleuchten, einem oder mehreren Prozessoren und einem Speicher, der ein oder mehrere Programme zur Ausführung durch den einen oder die mehreren Prozessoren speichert, implementiert (z. B. der sprachaktivierten Vorrichtung 104).
Die elektronische Vorrichtung erhält (502) erste visuelle Ausgabebefehle, die in der elektronischen Vorrichtung gespeichert sind, wobei die ersten visuellen Ausgabebefehle den Betrieb der Anordnung von Anzeigeleuchten basierend auf dem Betriebszustand der elektronischen Vorrichtung, der Betriebszustände von darauf ausgeführten Anwendungen umfasst, steuern. Die sprachaktivierte Vorrichtung 104 greift auf lokale LED-Ausgabebefehle 252 zu, die in dem Speicher 206 gespeichert sind. Das LED-Steuermodul 240 zeigt LED-Lichtmuster auf der Anordnung von LEDs basierend auf diesen lokalen LED-Ausgabebefehlen 252 an; die Befehle weisen das LED-Steuermodul 240 an, welche LEDs ein- und ausgeschaltet werden sollen, wann dies geschehen soll und in welchen Farben die LEDs leuchten sollen.
Die elektronische Vorrichtung erhält (504) von einem entfernten System zweite visuelle Ausgabebefehle. Die sprachaktivierte Vorrichtung 104 empfängt von dem Sprachassistenzserversystem 112 alternative LED-Ausgabebefehle 350, die die sprachaktivierte Vorrichtung 104 in dem Speicher 206 unter empfangenen LED-Ausgabebefehlen 254 speichert. Die sprachaktivierte Vorrichtung 104 empfängt die alternativen LED-Ausgabebefehlen 350 zu bestimmten Zeiten (z. B. periodisch; eine vordefinierte Anzahl von Tagen vor einem Feiertag, dem die alternativen LED-Ausgabebefehlen zugeordnet sind; zusammen mit einer Antwort auf eine Spracheingabe).
Die elektronische Vorrichtung (506) führt eine Operation aus. Die sprachaktivierte Vorrichtung 104 kann eine Operation gemäß einer Antwort auf eine Spracheingabe oder als Teil einer Ausführung einer Anwendung durchführen.
In Verbindung mit der Durchführung der Operation bestimmt die elektronische Vorrichtung (508), ob ein oder mehrere Kriterien für eine alternative visuelle Ausgabe erfüllt sind. Die sprachaktivierte Vorrichtung 104 bestimmt, ob Bedingungen (z. B. die Inhalte der Spracheingabe, die die Operation ausgelöst hat, als die Spracheingabe empfangen wurde), mit denen die Operation verknüpft ist, die Kriterien zum Verwenden alternativer LED-Ausgabebefehle erfüllen. Wenn beispielsweise die Operation eine auditive Begrüßung ausgeben soll, bestimmt die sprachaktivierte Vorrichtung 104, ob das eine oder die mehreren Kriterien erfüllt sind (z. B. ist heute ein bestimmter Feiertag).
Gemäß einer Bestimmung, dass die alternativen visuellen Ausgabekriterien erfüllt sind, zeigt (510) die elektronische Vorrichtung auf der Anordnung von Anzeigeleuchten eine visuelle Ausgabe gemäß den zweiten visuellen Ausgabebefehlen an. Wenn das eine oder die mehreren Kriterien erfüllt sind, zeigt die sprachaktivierte Vorrichtung 104 Lichtmuster gemäß den alternativen LED-Ausgabebefehlen auf der Anordnung von LEDs an.
Gemäß der Bestimmung, dass die alternativen visuellen Ausgabekriterien nicht erfüllt sind, zeigt die elektronische Vorrichtung (512) eine visuelle Ausgabe gemäß den ersten visuellen Ausgabebefehlen auf der Anordnung von Anzeigeleuchten an. Wenn das eine oder die mehreren Kriterien erfüllt sind, zeigt die sprachaktivierte Vorrichtung 104 Lichtmuster gemäß den lokalen LED-Ausgabebefehlen auf der Anordnung von LEDs an.
Wenn die Spracheingabe eine Gruppe von Vorrichtungen einbezieht (z. B. die Anforderung ist, dass Weihnachtslieder auf einer Gruppe von Vorrichtungen abgespielt werden), zeigen in einigen Implementierungen die Vorrichtungen in der Gruppe Lichtmuster gemäß den alternativen LED-Ausgabebefehlen an.

Tabelle 1 zeigt Beispiele von bestimmten Anwenderanforderungen oder Ausgaben durch eine sprachaktivierte Vorrichtung 104 und ein entsprechendes LED-Lichtmuster, das angezeigt werden kann. Tabelle 1

Anforderung oder Ausgabe	Gezeigtes Lichtmuster
„Spiele etwas Weihnachtsmusik“ „Wie viele Tage noch bis Weihnachten?“	Gleiches Muster wie Standard-Lichtmuster für Text-zu-Sprache- Verarbeitungszustand, jedoch mit roten und grünen Lichtern
„Spiele etwas Hannukah-Musik“ „Wie viele Tage noch bis Hannukah?“	Gleiches Muster wie Standard-Lichtmuster für Text-zu-Sprache- Verarbeitungszustand, jedoch mit blauen und silbernen Lichtern
Nachdem der Anwender die Vorrichtung geweckt hat, sagt die Vorrichtung die Begrüßung (z. B. „Guten Morgen“) sagt, oder der Anwender „Guten Morgen“ zu der Vorrichtung sagt, an Weihnachten, an Hannukah-Tagen oder an anderen religiösen Feiertagen	Standard-Lichtmuster für Text-zu-Sprache-Verarbeitungszustand
Nachdem der Anwender die Vorrichtung geweckt hat, die Vorrichtung die Begrüßung (z. B. „Guten Morgen“) sagt, oder der Anwender „Guten Morgen“ zu der Vorrichtung sagt, an Silvester oder an Neujahr	Weiße flackernde LED-Lichter (die fallendem Konfetti ähneln)
Nachdem der Anwender die Vorrichtung geweckt hat, die Vorrichtung die Begrüßung (z. B. „Guten Morgen“) sagt, oder der Anwender „Guten Morgen“ zu der Vorrichtung sagt, am Erntedankfest	Rote/orangene flackernde LED-Lichter (die fallenden Blättern ähneln)
Nachdem der Anwender die Vorrichtung geweckt hat, die Vorrichtung die Begrüßung (z. B. „Guten Morgen“) sagt, oder der Anwender „Guten Morgen“ zu der Vorrichtung sagt, am 4. Juli, Tag der Präsidenten, Tag der Veteranen, Memorial Day	Lichtmuster rot/weiß/blau

In einigen Implementierungen weist ein alternatives LED-Muster für einen Zustand oder Status ähnliche Eigenschaften wie das Standard-LED-Muster für den gleichen Zustand oder Status auf, aber auch unterschiedliche Eigenschaften, die die zwei Muster voneinander unterscheiden. Zum Beispiel können das Standardmuster und das alternative Muster für einen Zustand die gleiche Lichtbewegung oder Animation, aber unterschiedliche Lichtfarben aufweisen.
Physische Merkmale einer sprachaktivierten elektronischen Vorrichtung
6A und 6B sind eine Vorderansicht 600 und eine Rückansicht 620 einer beispielhaften sprachaktivierten Vorrichtung 104 gemäß einigen Implementierungen. Die sprachaktivierte Vorrichtung 104 ist warm und einladend gestaltet und passt auf natürliche Weise in viele Bereiche eines Hauses. Die sprachaktivierte Vorrichtung 104 umfasst ein oder mehrere Mikrofone 602 und eine Anordnung von Vollfarb-LEDs 604. Die Vollfarb-LEDs 604 können unter einer oberen Oberfläche der sprachaktivierten Vorrichtung 104 verborgen sein und sind in manchen Implementierungen für den Anwender unsichtbar, wenn sie nicht beleuchtet sind. In einigen Implementierungen ist die Anordnung von Vollfarb-LEDs 604 physisch in einem Ring angeordnet. In einigen Implementierungen ist die Anordnung von Vollfarb-LEDs physisch in einem Gitter angeordnet. Ferner umfasst die Rückseite der sprachaktivierten Vorrichtung 104 optional einen Stromversorgungsverbinder 608, der zum Koppeln mit einer Stromversorgung ausgelegt ist. In einigen Implementierungen umfasst die sprachaktivierte Vorrichtung 104 auch eine Basis mit einem Lautsprechergitter 610, das einen unter dem Lautsprechergitter verborgenen Lautsprecher schützt.
In einigen Implementierungen zeigt die sprachaktivierte Vorrichtung 104 ein klares Erscheinungsbild ohne sichtbare Tasten und die Interaktion mit der sprachaktivierten Vorrichtung 104 basiert auf Sprach- und Berührungsgesten (z. B. mit einer berührungsempfindlichen Oberfläche (nicht gezeigt) auf der sprachaktivierten Vorrichtung 104). Alternativ enthält die sprachaktivierte Vorrichtung 104 in einigen Implementierungen eine begrenzte Anzahl von physischen Tasten (z. B. eine Taste 606 auf ihrer Rückseite) und die Interaktion mit der sprachaktivierten Vorrichtung 104 basiert ferner auf dem Drücken auf den Knopf zusätzlich zu den Sprach- und Berührungsgesten.
LED-Designsprache zur visuellen Anpassung der Sprach-Anwenderschnittstelle
In einigen Implementierungen umfasst die sprachaktivierte Vorrichtung 104 eine Anordnung von Vollfarb-Leuchtdioden (LEDs) anstelle eines vollständigen Bildschirms. Eine LED-Designsprache wird verwendet, um die Beleuchtung der Anordnung von Vollfarb-LEDs zu konfigurieren und verschiedene visuelle Muster zu ermöglichen, die unterschiedliche Sprachverarbeitungszustände der sprachaktivierten Vorrichtung 104 angeben. Die LED-Designsprache besteht aus einer Grammatik von Farben, Mustern und spezifischen Bewegungen, die auf einen festen Satz von Vollfarb-LEDs angewendet wird. Die Elemente in der Sprache werden kombiniert, um während der Verwendung der sprachaktivierten Vorrichtung 104 bestimmte Vorrichtungszustände visuell anzugeben. In einigen Implementierungen zielt die Beleuchtung der Vollfarb-LEDs darauf ab, die passiven und aktiven Hörzustände der sprachaktivierten Vorrichtung 104 von anderen wichtigen Zuständen klar abzugrenzen. Die Anordnung der Vollfarb-LEDs entspricht den physischen Beschränkungen der sprachaktivierten Vorrichtung 104 und die Anordnung von Vollfarb-LEDs kann in einem Lautsprecher verwendet werden, der von einem Drittanbieter-Originalhersteller (Drittanbieter-OEM) basierend auf einer spezifischen Technologie (z. B. dem Google-Assistenten) hergestellt wird.
Wenn die Anordnung von Vollfarb-LEDs in einem Lautsprecher verwendet wird, der von einem Drittanbieter-OEM basierend auf einer spezifischen Technologie hergestellt wird, sind die Vollfarb-LEDs und die LED-Designsprache so ausgelegt, dass sie zu einer entsprechenden physischen Anwenderschnittstelle des OEM-Lautsprechers passen. In dieser Situation bleiben die Vorrichtungszustände des OEM-Lautsprechers gleich, während spezifische visuelle Muster, die die Vorrichtungszustände darstellen, variiert werden können (beispielsweise könnten die Farben der Vollfarb-LEDs anders sein, aber mit ähnlichen Animationseffekten angezeigt werden).
In einer sprachaktivierten Vorrichtung 104 findet passives Zuhören statt, wenn die sprachaktivierte Vorrichtung 104 Audioeingaben verarbeitet, die von ihrer Umgebung gesammelt werden, aber die Audioeingaben nicht speichert oder die Audioeingaben an irgendeinen entfernten Server überträgt. Im Gegensatz dazu findet aktives Zuhören statt, wenn die sprachaktivierte Vorrichtung 104 die von ihrer Umgebung gesammelten Audioeingaben speichert und/oder die Audioeingaben mit einem entfernten Server teilt. Gemäß einigen Implementierungen dieser Anmeldung hört die sprachaktivierte Vorrichtung 104 passiv nur die Audioeingaben in ihrer Umgebung ab, ohne die Privatsphäre der Anwender der sprachaktivierten Vorrichtung 104 zu verletzen.
6C ist eine Draufsicht auf eine sprachaktivierte Vorrichtung 104 gemäß einigen Implementierungen und 6D zeigt visuelle Muster, die gemäß einigen Implementierungen durch eine Anordnung von Vollfarb-LEDs zum Angeben von Sprachverarbeitungszuständen angezeigt werden. In einigen Implementierungen enthält die sprachaktivierte Vorrichtung 104 keinen Anzeigebildschirm und die Vollfarb-LEDs bieten eine einfache und kostengünstige visuelle Anwenderschnittstelle verglichen mit einem vollständigen Bildschirm. Die Vollfarb-LEDs können unter einer oberen Oberfläche der elektronischen Vorrichtung verborgen und für den Anwender unsichtbar sein, wenn sie nicht beleuchtet sind. In einigen Implementierungen ist die obere Oberfläche der sprachaktivierten Vorrichtung 104 berührungsempfindlich. Unter Bezugnahme auf 6C und 6D ist die Anordnung von Vollfarb-LEDs in einigen Implementierungen physisch in einem Ring angeordnet. In einigen Implementierungen folgen die Lichter den physischen Interaktionen eines Anwenders mit der elektronischen Vorrichtung 104. Zum Beispiel kann wie in Fig. 6D(6) gezeigt, die Anordnung von Vollfarb-LEDs 604 der Reihe nach aufleuchten, um einer Überstreichbewegung im oder gegen den Uhrzeigersinn auf einer berührungsempfindlichen oberen Oberfläche der sprachaktivierten Vorrichtung zu folgen. Weitere Details zu visuellen Mustern, die Sprachverarbeitungszuständen der elektronischen Vorrichtung 104 zugeordnet sind, sind nachstehend unter Bezugnahme auf Fig. 6D(1) bis 6D(8) erläutert.
In der elektronischen Vorrichtung 104 ist ein Verfahren zum visuellen Angeben eines Sprachverarbeitungszustands implementiert. Die elektronische Vorrichtung 104 sammelt über das eine oder die mehreren Mikrofone 602 Audioeingaben von einer Umgebung in der Nähe der elektronischen Vorrichtung und verarbeitet die Audioeingaben. Die Verarbeitung umfasst ein Identifizieren und/oder Antworten auf Spracheingaben von einem Anwender in der Umgebung. Die elektronische Vorrichtung 104 bestimmt einen Zustand der Verarbeitung unter mehreren vordefinierten Sprachverarbeitungszuständen. Für jede der Vollfarb-LEDs 604 identifiziert die elektronische Vorrichtung 104 eine jeweilige vorbestimmte LED-Beleuchtungsspezifikation, die dem bestimmten Sprachverarbeitungszustand zugeordnet ist. Die Beleuchtungsspezifikation umfasst eine LED-Beleuchtungsdauer, eine Pulsrate, einen Tastgrad, eine Farbsequenz und/oder eine Helligkeit. In einigen Implementierungen bestimmt die elektronische Vorrichtung 104, dass der Sprachverarbeitungszustand einem von mehreren Anwendern zugeordnet ist, und identifiziert die vorbestimmten LED-Beleuchtungsspezifikationen der Vollfarb-LEDs 604 durch Anpassen von mindestens einer der vorbestimmten LED-Beleuchtungsspezifikationen (z. B. der Farbsequenz) der Vollfarb-LEDs 604 entsprechend einer Identität des einen der mehreren Anwender. Zum Beispiel kann eine LED-Beleuchtungsspezifikation: (a) veranlassen, dass alle LEDs zusammen in einer einzigen Farbe pulsieren oder „atmen“ (z. B. zwischen verschiedenen roten Intensitäten pulsieren, wie in Fig. 6D(1) gezeigt); (b) bestimmte LEDs in verschiedenen Farben leuchten lassen (z. B. jeweilige obere, rechte, untere und linke LEDs in blau, rot, gelb und grün leuchten lassen, wie es in Fig. 6D(2) gezeigt ist, oder alle LEDs jeweils in einer anderen Farbe leuchten lassen, wie es in Fig. 6D(4) gezeigt ist; (c) veranlassen, dass alle LEDs zwischen verschiedenen Farben wechseln (z. B. zwischen weißen und verschiedenen Grautönen flackern, wie es in Fig. 6D(3) gezeigt ist); oder veranlassen, dass ein definierter Satz der LEDs blinkt (z. B. von weiß zu ausgeschaltet blinken, wie es in Fig. 6D(5) gezeigt ist).
In einigen Implementierungen umfassen die Farben der Vollfarb-LEDs gemäß dem bestimmten Sprachverarbeitungszustand einen vorbestimmten Satz von Farben. Unter beispielhafter Bezugnahme auf Fig. 6D(2), 6D(4) und 6D(7)- 10) umfasst der vorbestimmte Satz von Farben Google-Markenfarben einschließlich Blau, Grün, Gelb und Rot und die Anordnung von Vollfarb-LEDs ist in vier Quadranten unterteilt, die jeweils einer der Markenfarben von Google zugeordnet sind.
Gemäß den identifizierten LED-Beleuchtungsspezifikationen der Vollfarb-LEDs synchronisiert die elektronische Vorrichtung 104 die Beleuchtung der Anordnung von Vollfarb-LEDs, um ein visuelles Muster zu liefern, das den bestimmten Sprachverarbeitungszustand angibt. In einigen Implementierungen umfasst das visuelle Muster, das den Sprachverarbeitungszustand angibt, mehrere diskrete LED-Beleuchtungspixel. In einigen Implementierungen umfasst das visuelle Muster ein Startsegment, ein Schleifensegment und ein Abschlusssegment. Das Schleifensegment dauert eine Zeitspanne, die den LED-Beleuchtungsdauern der Vollfarb-LEDs zugeordnet ist und so ausgelegt ist, dass sie mit einer Länge des Sprachverarbeitungszustands übereinstimmt.
In einigen Implementierungen weist die elektronische Vorrichtung 104 mehr als zwanzig verschiedene Vorrichtungszustände (einschließlich der mehreren vordefinierten Sprachverarbeitungszustände) auf, die durch die LED-Designsprache dargestellt werden. Optional umfassen die mehreren vordefinierten Sprachverarbeitungszustände einen oder mehrere Zustände eines Zustands eines Schlagwortes, eines Hörzustands, eines Denkzustands und eines Antwortzustands.
Wie hier beschrieben kann die sprachaktivierte elektronische Vorrichtung 104 gemäß einigen Implementierungen nicht standardmäßige, alternative visuelle Ausgaben gemäß einer Bestimmung, dass eine Spracheingabe oder ein Betrieb der elektronischen Vorrichtung 104 ein oder mehrere Kriterien erfüllt, anzeigen. Die nicht standardmäßige, alternative visuelle Ausgabe kann anstelle einer visuellen Standardausgabe (z. B. irgendeiner der beispielhaften standardmäßigen visuellen Ausgabefarben und/oder Muster/Sequenzen, die unter Bezugnahme auf 6D beschrieben sind) angezeigt werden, wenn ansonsten die visuelle Standardausgabe angezeigt würde. Wie hierin beschrieben werden in einigen Implementierungen die Informationen oder Befehle zum Anzeigen der nicht standardmäßigen visuellen Ausgabe durch ein entferntes System (z. B. ein Serversystem) geleifert und/oder sind in der elektronischen Vorrichtung 104 zur Verwendung, wenn Kriterien für eine alternative visuelle Ausgabe erfüllt sind, gespeichert. Wie hierin beschrieben können in einigen Implementierungen die alternativen visuellen Ausgabecharakteristiken in den empfangenen LED-Ausgabebefehlen 254 (2) spezifiziert sein und die standardmäßigen oder vordefinierten visuellen Ausgabebefehle können in den lokalen LED-Ausgabebefehlen 252 (2) spezifiziert sein.
Es wurde ausführlich auf Implementierungen Bezug genommen, von denen Beispiele in den begleitenden Zeichnungen dargestellt sind. In der obigen genauen Beschreibung wurden zahlreiche spezifische Einzelheiten dargelegt, um ein gründliches Verständnis der verschiedenen beschriebenen Implementierungen bereitzustellen. Für Fachleute ist es jedoch offensichtlich, dass die verschiedenen beschriebenen Implementierungen ohne diese spezifischen Einzelheiten ausgeführt werden können. In anderen Fällen wurden wohlbekannte Verfahren, Prozeduren, Komponenten, Schaltungen und Netze nicht im Einzelnen beschrieben, um Aspekte der Implementierungen nicht unnötig zu verunklaren.
Es versteht sich auch, dass, obwohl die Begriffe erste/r/s, zweite/r/s usw. in einigen Fällen hierin verwendet werden, um verschiedene Elemente zu beschreiben, diese Elemente nicht durch diese Begriffe eingeschränkt sein sollten. Diese Begriffe werden nur verwendet, um ein Element von einem anderen zu unterscheiden. Zum Beispiel könnte eine erste Vorrichtung als eine zweite Vorrichtung bezeichnet werden und ebenso könnte eine zweite Vorrichtung als eine erste Vorrichtung bezeichnet werden, ohne von dem Umfang der verschiedenen beschriebenen Implementierungen abzuweichen. Die erste Vorrichtung und die zweite Vorrichtung sind beide Vorrichtungstypen, aber sie sind nicht die gleiche Vorrichtung.
Die in der Beschreibung der verschiedenen hierin beschriebenen Implementierungen verwendete Terminologie dient nur dem Zweck, bestimmte Implementierungen zu beschreiben, und soll nicht einschränkend sein. Wie in der Beschreibung der verschiedenen beschriebenen Implementierungen und der angefügten Ansprüche verwendet sollen die Singularformen „ein/eine/einer“ und „der/die/das“ auch die Mehrzahlformen einschließen, sofern der Kontext nicht klar anderes angibt. Es versteht sich auch, dass der Ausdruck „und/oder“, wie er hier verwendet wird, sich auf alle möglichen Kombinationen von einem oder mehreren der zugehörigen aufgelisteten Elemente bezieht und diese umfasst. Es versteht sich ferner, dass die Begriffe „enthält“, „enthaltend“, „umfasst“ und/oder „umfassend“, wenn sie in dieser Beschreibung verwendet werden, das Vorhandensein der angegebenen Merkmale, ganzen Zahlen, Schritte, Operationen, Elemente und/oder Komponenten angeben, jedoch nicht das Vorhandensein oder Hinzufügen eines oder mehrerer anderer Merkmale, ganzer Zahlen, Schritte, Operationen, Elemente, Komponenten und/oder Gruppen davon ausschließen.
Wie hier verwendet, wird der Begriff „wenn“ optional so interpretiert, dass er abhängig vom Kontext „wenn“ oder „bei“ oder „als Antwort auf das Bestimmen“ oder „als Antwort auf das Detektieren“ oder „gemäß einer Bestimmung, dass“ bedeutet. In ähnlicher Weise wird der Ausdruck „wenn bestimmt wird“ oder „wenn [eine bestimmte Bedingung oder ein Ereignis] bestimmt wird“ abhängig vom Kontext optional als „bei Bestimmung“ oder „als Antwort auf die Bestimmung“ oder „bei Detektion [der angegebenen Bedingung oder des Ereignisses]“ oder „als Antwort auf das Detektieren [der angegebenen Bedingung oder des Ereignisses]“ oder „gemäß einer Bestimmung, dass [eine angegebene Bedingung oder ein Ereignis] detektiert wird“ ausgelegt.
Für Situationen, in denen die oben diskutierten Systeme Informationen über Anwender sammeln, kann den Anwendern die Möglichkeit gegeben werden, aus Programmen oder Funktionen, die persönliche Informationen sammeln können (z. B. Informationen über Präferenzen eines Anwenders oder die Verwendung einer intelligenten Vorrichtung) auszusteigen bzw. in diese einzusteigen. Zusätzlich können in bestimmten Implementierungen bestimmte Daten auf eine oder mehrere Arten anonymisiert werden, bevor sie gespeichert oder verwendet werden, so dass personenbezogene Informationen entfernt werden. Zum Beispiel kann die Identität eines Anwenders anonymisiert werden, so dass die personenbezogenen Informationen nicht bestimmt oder dem Anwender zugeordnet werden können und so dass Anwenderpräferenzen oder Anwenderinteraktionen verallgemeinert werden (z. B. basierend auf Demographie des Anwenders verallgemeinert werden), anstelle einem bestimmten Anwender zugeordnet zu werden.
Obwohl einige der verschiedenen Zeichnungen eine Anzahl von logischen Phasen in einer bestimmten Reihenfolge darstellen, können Phasen, die nicht von der Reihenfolge abhängen, neu angeordnet werden und andere Phasen können kombiniert oder herausgenommen werden. Während einige Umordnungen oder andere Gruppierungen speziell erwähnt sind, sind andere für Fachleute auf dem Gebiet offensichtlich, so dass die Anordnung und Gruppierungen, die hierin präsentiert sind, keine erschöpfende Liste von Alternativen darstellen. Darüber hinaus sollte erkannt werden, dass die Phasen in Hardware, Firmware, Software oder einer beliebigen Kombination davon implementiert werden könnten.
Die vorstehende Beschreibung wurde zum Zweck der Erläuterung unter Bezugnahme auf spezifische Implementierungen gegeben. Die obigen Erläuterungen sollen jedoch nicht erschöpfend sein oder den Umfang der Ansprüche auf die genauen offenbarten Formen beschränken. Im Hinblick auf die obigen Lehren sind viele Abwandlungen und Variationen möglich. Die Implementierungen wurden ausgewählt, um die Prinzipien, die den Ansprüchen und ihren praktischen Anwendungen zugrunde liegen, am besten zu erklären, um es so anderen Fachleuten zu ermöglichen, die Implementierungen mit verschiedenen Abwandlungen, die für die bestimmten vorgesehenen Verwendungen geeignet sind, bestmöglich zu verwenden.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 62336566 [0031]
US 62334434 [0061]

Claims

Verfahren, das umfasst: bei einer elektronischen Vorrichtung mit einem oder mehreren Mikrofonen, einem Lautsprecher, einer Anordnung von Anzeigeleuchten, einem oder mehreren Prozessoren und einem Speicher, der ein oder mehrere Programme zur Ausführung durch den einen oder die mehreren Prozessoren speichert: Erhalten erster visueller Ausgabebefehle, die in der elektronischen Vorrichtung gespeichert sind, wobei die ersten visuellen Ausgabebefehle eine Operation der Anordnung von Anzeigeleuchten basierend auf einem Betriebszustand der elektronischen Vorrichtung steuern, der Betriebszustände von Anwendungen, die darauf ausgeführt werden, umfasst; Empfangen einer Spracheingabe; Erhalten einer Antwort auf die Spracheingabe und zweiter visueller Ausgabebefehle von einem entfernten System, wobei die zweiten visuellen Ausgabebefehlen zusammen mit der Antwort einer Bestimmung zufolge, dass die Spracheingabe eines oder mehrere Kriterien erfüllt, durch das entfernte System bereitgestellt werden; Ausführen der Antwort; und Anzeigen einer visuellen Ausgabe auf der Anordnung von Anzeigeleuchten gemäß den zweiten visuellen Ausgabebefehlen, wobei die elektronische Vorrichtung ansonsten in Abwesenheit der zweiten visuellen Ausgabebefehle eine visuelle Ausgabe gemäß den ersten visuellen Ausgabebefehlen auf der Anordnung von Anzeigeleuchten anzeigt.
Verfahren nach Anspruch 1, wobei das Anzeigen der visuellen Ausgabe auf der Anordnung von Anzeigeleuchten gemäß den zweiten visuellen Ausgabebefehlen gleichzeitig mit dem Ausführen der Antwort erfolgt.
Verfahren nach Anspruch 1 oder 2, das ferner umfasst: Erhalten von auditiven Ausgabebefehlen von dem entfernten System, die den zweiten visuellen Ausgabebefehlen zugeordnet sind; und Ausgeben einer auditiven Ausgabe auf dem Lautsprecher gemäß den auditiven Ausgabebefehlen; wobei die auditiven Ausgabebefehle eine auditive Ausgabe ergänzen, die der Antwort auf die Spracheingabe zugeordnet ist.
Verfahren nach einem der Ansprüche 1 bis 3, wobei das eine oder die mehreren Kriterien umfassen: die Spracheingabe enthält eine Anforderung, die einem in der Spracheingabe spezifizierten Feiertag zugeordnet ist.
Verfahren nach einem der Ansprüche 1 bis 4, wobei das eine oder die mehreren Kriterien umfassen: ein Datum, an dem die Spracheingabe empfangen wird, entspricht einem Feiertag.
Verfahren nach einem der Ansprüche 1 bis 5, wobei das eine oder die mehreren Kriterien umfassen: die Spracheingabe ist einer laufenden Spielesitzung auf der elektronischen Vorrichtung zugeordnet.
Verfahren nach einem der Ansprüche 1 bis 6, wobei die Anordnung von Anzeigeleuchten eine Anordnung von LED-Leuchten umfasst.
Verfahren nach einem der Ansprüche 1 bis 7, wobei die Anordnung von Anzeigeleuchten Vollfarbleuchten umfasst.
Verfahren, das umfasst: an einer elektronischen Vorrichtung mit einem oder mehreren Mikrofonen, einem Lautsprecher, einer Anordnung von Anzeigeleuchten, einem oder mehreren Prozessoren und einem Speicher, der ein oder mehrere Programme zur Ausführung durch den einen oder die mehreren Prozessoren speichert: Erhalten erster visueller Ausgabebefehle, die in der elektronischen Vorrichtung gespeichert sind, wobei die ersten visuellen Ausgabebefehle eine Operation der Anordnung von Anzeigeleuchten basierend auf einem Betriebszustand der elektronischen Vorrichtung steuern, der Betriebszustände von Anwendungen, die darauf ausgeführt werden, umfasst; Erhalten zweiter visueller Ausgabebefehle von einem entfernten System; Durchführen einer Operation; in Verbindung mit dem Durchführen der Operation, Bestimmen, ob ein oder mehrere Kriterien für eine visuelle Alternativ-Ausgabe erfüllt sind; gemäß einer Bestimmung, dass die Kriterien für eine visuelle Alternativ-Ausgabe erfüllt sind, Anzeigen einer visuellen Ausgabe gemäß den zweiten visuellen Ausgabebefehlen auf der Anordnung von Anzeigeleuchten; und gemäß einer Bestimmung, dass die Kriterien für eine visuelle Alternativ-Ausgabe nicht erfüllt sind, Anzeigen einer visuellen Ausgabe gemäß den ersten visuellen Ausgabebefehlen auf der Anordnung von Anzeigeleuchten.
Verfahren nach Anspruch 9, wobei das Anzeigen der visuellen Ausgabe auf der Anordnung von Anzeigeleuchten gemäß den zweiten visuellen Ausgabebefehlen gleichzeitig mit dem Ausführen der Antwort erfolgt.
Verfahren nach Anspruch 9 oder 10, das ferner umfasst: Erhalten von auditiven Ausgabebefehlen von dem entfernten System, die den zweiten visuellen Ausgabebefehlen zugeordnet sind; und Ausgeben einer auditiven Ausgabe auf dem Lautsprecher gemäß den auditiven Ausgabebefehlen; wobei die auditiven Ausgabebefehle eine auditive Ausgabe ergänzen, die der Antwort auf die Spracheingabe zugeordnet ist.
Verfahren nach einem der Ansprüche 9 bis 11, wobei das eine oder die mehreren Kriterien für eine visuelle Alternativ-Ausgabe umfassen: die Operation umfasst ein Abspielen einer Antwort, die einem Feiertag zugeordnet ist.
Verfahren nach einem der Ansprüche 9 bis 12, wobei das eine oder die mehreren Kriterien für eine visuelle Alternativ-Ausgabe umfassen: die Operation wird an einem Datum durchgeführt, das einem Feiertag entspricht.
Verfahren nach einem der Ansprüche 9 bis 13, wobei das eine oder die mehreren Kriterien umfassen: die Operation ist mit einer laufenden Spielesitzung auf der elektronischen Vorrichtung zugeordnet.
Verfahren nach einem der Ansprüche 9 bis 14, wobei die elektronische Vorrichtung eine aus einer Gruppe von kommunikationstechnisch gekoppelten Vorrichtungen ist und das Verfahren ferner umfasst: wenn die Operation auf die Gruppe von Vorrichtungen gerichtet ist und durch die elektronische Vorrichtung bestimmt wird, um die Kriterien für eine visuelle Alternativ-Ausgabe erfüllt sind, Veranlassen, dass jede aus der Gruppe von Vorrichtungen die Operation ausführt und Lichtmuster gemäß den zweiten visuellen Ausgabebefehlen anzeigt
Elektronische Vorrichtung, die enthält: ein oder mehrere Mikrofone; einen Lautsprecher; eine Anordnung von Anzeigeleuchten; einen oder mehrere Prozessoren; und einen Speicher, der ein oder mehrere Programme, die durch den einen oder die mehreren Prozessoren ausgeführt werden sollen, speichert.
Nicht-transitorisches computerlesbares Medium, das ein oder mehrere Programme speichert, wobei das eine oder die mehreren Programme Befehle enthalten, die, wenn sie durch eine elektronische Vorrichtung mit einem oder mehreren Mikrofonen, einem Lautsprecher, einer Anordnung von Anzeigeleuchten und einem oder mehreren Prozessoren ausgeführt werden, die elektronische Vorrichtung dazu veranlassen, das Verfahren nach einem der Ansprüche 1-15 auszuführen.