DE102017122216A1 - Mehrfachanwenderpersonalisierung bei einer Sprachschnittstellenvorrichtung - Google Patents

Mehrfachanwenderpersonalisierung bei einer Sprachschnittstellenvorrichtung Download PDF

Info

Publication number
DE102017122216A1
DE102017122216A1 DE102017122216.2A DE102017122216A DE102017122216A1 DE 102017122216 A1 DE102017122216 A1 DE 102017122216A1 DE 102017122216 A DE102017122216 A DE 102017122216A DE 102017122216 A1 DE102017122216 A1 DE 102017122216A1
Authority
DE
Germany
Prior art keywords
electronic device
user
voice
voice input
devices
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102017122216.2A
Other languages
English (en)
Inventor
Kenneth Mixter
Diego Melendo Casado
Bibo Xu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of DE102017122216A1 publication Critical patent/DE102017122216A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0652Erasing, e.g. deleting, data cleaning, moving of data to a wastebasket
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1008Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
    • G06F11/1048Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices using arrangements adapted for a specific error detection or correction feature
    • G06F11/106Correcting systematically all correctable errors, i.e. scrubbing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1008Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
    • G06F11/1012Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices using codes or arrangements adapted for a specific type of error
    • G06F11/1016Error in accessing a memory location, i.e. addressing error
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0619Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0658Controller construction arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Detection And Correction Of Errors (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Ein Verfahren bei einer elektronischen Vorrichtung mit einem oder mehreren Mikrofonen und einem Lautsprecher enthält ein Empfangen einer ersten Spracheingabe in freier Form; ein Vergleichen der ersten Spracheingabe mit einer Gruppe von Sprachmodellen, die mit einer Vielzahl von Anwendern assoziiert sind, die mit der elektronischen Vorrichtung assoziiert sind, wobei die Sprachmodelle zur elektronischen Vorrichtung trainiert werden; basierend auf dem Vergleichen Bestimmen, dass die erste Spracheingabe einem ersten Anwender der Vielzahl von Anwendern entspricht; und Präsentieren einer Antwort gemäß der Bestimmung.

Description

  • ZUGEHÖRIGE ANMELDUNGEN
  • Diese Anmeldung ist bezogen auf die folgenden Anmeldungen, die hierin in ihrer Gesamtheit durch Bezugnahme enthalten sind:
    • Vorläufige US-Patentanmeldung Nr. 62/334,434, mit dem Titel ”Implementations for Voice Assistant an Devices”, eingereicht am 10. Mai 2016; und
    • Vorläufige US-Patentanmeldung Nr. 62/336,566, mit dem Titel ”LED Design Language for Visual Affordance of Voice User Interfaces”, eingereicht am 13. Mai 2016.
  • TECHNISCHES GEBIET
  • Die offenbarten Implementierungen beziehen sich allgemein auf Sprachschnittstellen und zugehörige Vorrichtungen, einschließlich, aber nicht darauf beschränkt, von Verfahren und Systemen für ein Handhaben von mehreren Anwendern, eine Koordination von mehreren Vorrichtungen und eine Verringerung von Rauschen.
  • HINTERGRUND
  • Elektronische Vorrichtungen integriert mit Mikrofonen sind weitverbreitet verwendet worden, um Spracheingaben von Anwendern zu sammeln und sprachaktivierte Funktionen gemäß den Spracheingaben zu implementieren. Beispielsweise enthalten viele moderne mobile Vorrichtungen ein Sprachunterstützungsfeature (z. B. Siri, Google Assistant), das konfiguriert ist, Spracheingaben zu verwenden, um einen Telefonanruf zu initiieren, eine Restaurantsuche durchzuführen, eine Routenplanung auf einer Karte zu beginnen, Kalenderereignisse zu erzeugen, einen Post zu einem sozialen Netz hinzuzufügen, ein Lied zu erkennen und viele andere Aufgaben abzuarbeiten.
  • Ein Standort (z. B. ein Zimmer oder ein Raum innerhalb einer Wohnung) kann mehrere Vorrichtungen enthalten, die Sprachunterstützungssysteme enthalten, und einen oder mehrere Anwender von solchen Vorrichtungen. Da die Vorrichtungen mehr als je konfiguriert sind, auf anwenderspezifische Information zugreifen und diese präsentieren zu können, ist es für eine Sprachunterstützungsvorrichtung erwünscht, dass sie mit mehreren Anwendern höflich umgehen kann und anwenderspezifische Information zum zuständigen Anwender liefern kann. Es ist für dort auch erwünscht, dass sie ein Führer unter den Sprachunterstützungsvorrichtungen ist, der für ein Antworten auf Spracheingaben eines Anwenders verantwortlich ist, um eine Anwenderverwirrung zu reduzieren. Weiterhin ist es für eine Sprachunterstützungsvorrichtung erwünscht, dass sie für den Fall Rauschverringerungsmaßnahmen enthält, dass die Sprachunterstützungsvorrichtungen an einem geräuschvollen Standort angeordnet sind.
  • ZUSAMMENFASSUNG
  • Demgemäß gibt es eine Notwendigkeit für eine elektronische Vorrichtung mit einem Sprachunterstützungssystem und/oder einem Sprachunterstützungsserversystem, die/das Verfahren und Systeme zum Umgehen mit mehreren Anwendern enthalten/enthält, für eine Koordination von mehreren Vorrichtungen, um einen Führer zu bestimmen, und für eine Rauschverringerung. Die Vorrichtung und/oder das Serversystem können/kann konfiguriert sein, einen Sprecher einer Spracheingabe basierend auf Vergleichen mit Sprachmodellen zu identifizieren und Antworten zum identifizierten Sprecher zu personalisieren. Die Vorrichtung und/oder das Serversystem können/kann auch konfiguriert sein, eine Führung unter mehreren Vorrichtungen für eine Antwort zu einem Sprecher auszuhandeln. Die Vorrichtung und/oder das Serversystem können/kann weiterhin konfiguriert sein, zu erfassen, dass eine Umgebung um die Vorrichtung ausreichend geräuschvoll ist, wo ein alternatives Verfahren zu einer Hotword-Spracheingabe zum Aufwecken der Vorrichtung ratsam ist.
  • Gemäß einigen Implementierungen enthält ein Verfahren bei einer elektronischen Vorrichtung mit einem oder mehreren Mikrofonen, einem Lautsprecher, einem oder mehreren Prozessoren und einem Speicher, der ein oder mehrere Programme zur Ausführung durch den einen oder die mehreren Prozessoren speichert: Empfangen einer ersten Spracheingabe in freier Form, Vergleichen der ersten Spracheingabe mit einer Gruppe von Sprachmodellen, die mit einer Vielzahl von Anwendern assoziiert sind, die mit der elektronischen Vorrichtung assoziiert sind, wobei die Sprachmodelle zu der elektronischen Vorrichtung trainiert werden, und zwar basierend auf dem Vergleichen, Bestimmen, dass die erste Spracheingabe einem ersten Anwender der Vielzahl von Anwendern entspricht, und Präsentieren einer Antwort gemäß der Bestimmung.
  • Bei einigen Implementierungen enthält eine elektronische Vorrichtung ein oder mehrere Mikrofone, einen Lautsprecher, einen oder mehrere Prozessoren und einen Speicher, der ein oder mehrere Programme zur Ausführung durch den einen oder die mehreren Prozessoren speichert. Das eine oder die mehreren Programme enthalten Anweisungen zum: Empfangen einer ersten Spracheingabe in freier Form, Vergleichen der ersten Spracheingabe mit einer Gruppe von Sprachmodellen, die mit einer Vielzahl von Anwendern assoziiert sind, die mit der elektronischen Vorrichtung assoziiert sind, wobei die Sprachmodelle zur elektronischen Vorrichtung trainiert werden, basierend auf dem Vergleichen Bestimmen, dass die erste Spracheingabe einem ersten Anwender der Vielzahl von Anwendern entspricht, und Präsentieren einer Antwort gemäß der Bestimmung.
  • Bei einigen Implementierungen speichert ein nichtflüchtiges computerlesbares Speichermedium ein oder mehrere Programme. Das eine oder die mehreren Programme enthalten Anweisungen, die dann, wenn sie durch eine elektronische Vorrichtung mit einem oder mehreren Mikrofonen, einem Lautsprecher und einem oder mehreren Prozessoren ausgeführt werden, veranlassen, dass die elektronische Vorrichtung Operationen durchführt, die enthalten: Empfangen einer ersten Spracheingabe in freier Form, Vergleichen der ersten Spracheingabe mit einer Gruppe von Sprachmodellen, die mit einer Vielzahl von Anwendern assoziiert sind, die mit der elektronischen Vorrichtung assoziiert sind, wobei die Sprachmodelle zur elektronischen Vorrichtung trainiert werden, basierend auf dem Vergleichen Bestimmen, dass die erste Spracheingabe einem ersten Anwender der Vielzahl von Anwendern entspricht, und Präsentieren einer Antwort gemäß der Bestimmung.
  • Gemäß einigen Implementierungen enthält ein Verfahren bei einer ersten elektronischen Vorrichtung einer Vielzahl von elektronischen Vorrichtungen, wobei jede elektronische Vorrichtung der Vielzahl von elektronischen Vorrichtungen ein oder mehrere Mikrofone, einen Lautsprecher, einen oder mehrere Prozessoren, und einen Speicher, der ein oder mehrere Programme zur Ausführung durch den einen oder die mehreren Prozessoren speichert, umfasst: Erfassen einer Spracheingabe, Bestimmen einer Qualitätswertung für die erfasste Spracheingabe, Kommunizieren der Qualitätswertung zu den anderen Vorrichtungen der Vielzahl von elektronischen Vorrichtungen, Empfangen von Qualitätswertungen, die durch die anderen Vorrichtungen der Vielzahl von elektronischen Vorrichtungen erzeugt sind, zur Erfassung der Spracheingabe durch die anderen Vorrichtungen, gemäß einer Bestimmung, dass die durch die erste elektronische Vorrichtung erzeugte Qualitätswertung die höchste unter der ersten Qualitätswertung und den empfangenen Qualitätswertungen für die Spracheingabe ist, Ausgeben einer hörbaren und/oder einer sichtbaren Antwort auf die erfasste Spracheingabe, wobei die anderen Vorrichtungen der Vielzahl von elektronischen Vorrichtungen auf ein Ausgeben einer hörbaren Antwort auf die erfasste Spracheingabe verzichten, und gemäß einer Bestimmung, dass die durch die erste elektronische Vorrichtung erzeugte Qualitätswertung nicht die höchste unter den Qualitätswertungen für die durch die Vielzahl von elektronischen Vorrichtungen erzeugte Spracheingabe ist, Verzichten auf ein Ausgeben einer Antwort auf die erfasste Spracheingabe.
  • Gemäß einigen Implementierungen enthält eine erste elektronische Vorrichtung einer Vielzahl von elektronischen Vorrichtungen und enthält jede der Vielzahl von elektronischen Vorrichtungen ein oder mehrere Mikrofone, einen Lautsprecher, einen oder mehrere Prozessoren und einen Speicher, der ein oder mehrere Programme speichert, um durch den einen oder die mehreren Prozessoren ausgeführt zu werden. Das eine oder die mehreren Programmen enthalten Anweisungen zum: Erfassen einer Spracheingabe; Bestimmen einer Qualitätswertung für die erfasste Spracheingabe; Kommunizieren der Qualitätswertung zu den anderen Vorrichtungen der Vielzahl von elektronischen Vorrichtungen; Empfangen von Qualitätswertungen, die durch die anderen Vorrichtungen der Vielzahl von elektronischen Vorrichtungen erzeugt sind, zur Erfassung der Spracheingabe durch die anderen Vorrichtungen; gemäß einer Bestimmung, dass die durch die erste elektronische Vorrichtung erzeugte Qualitätswertung die höchste unter der erzeugten Qualitätswertung und den empfangenen Qualitätswertungen für die Spracheingabe ist, Ausgeben einer hörbaren und/oder einer sichtbaren Antwort auf die erfasste Spracheingabe, wobei die anderen Vorrichtungen der Vielzahl von elektronischen Vorrichtungen auf ein Ausgeben einer hörbaren Antwort auf die erfasste Spracheingabe verzichten; und gemäß einer Bestimmung, dass die durch die erste elektronische Vorrichtung erzeugte Qualitätswertung nicht die höchste unter den Qualitätswertungen für die durch die Vielzahl von elektronischen Vorrichtungen erzeugte Spracheingabe ist, Verzichten auf ein Ausgeben einer Antwort auf die erfasste Spracheingabe.
  • Gemäß einigen Implementierungen speichert ein nichtflüchtiges computerlesbares Speichermedium ein oder mehrere Programme. Das eine oder die mehreren Programme enthalten Anweisungen, die dann, wenn sie durch eine erste elektronische Vorrichtung einer Vielzahl von elektronischen Vorrichtungen ausgeführt werden, wobei jede der Vielzahl von elektronischen Vorrichtungen ein oder mehrere Mikrofone, einen Lautsprecher und einen oder mehrere Prozessoren aufweisen, veranlassen, dass die elektronische Vorrichtung Operationen durchführt, die enthalten: Erfassen einer Spracheingabe; Bestimmen einer Qualitätswertung für die erfasste Spracheingabe; Kommunizieren der Qualitätswertung zu den anderen Vorrichtungen der Vielzahl von elektronischen Vorrichtungen; Erfassen einer Spracheingabe; Bestimmen einer Qualitätswertung für die erfasste Spracheingabe; Kommunizieren der Qualitätswertung zu den anderen Vorrichtungen der Vielzahl von elektronischen Vorrichtungen; Empfangen von Qualitätswertungen, die durch die anderen Vorrichtungen der Vielzahl von elektronischen Vorrichtungen erzeugt sind, zur Erfassung der Spracheingabe durch die anderen Vorrichtungen; gemäß einer Bestimmung, dass die durch die erste elektronische Vorrichtung erzeugte Qualitätswertung die höchste unter der erzeugten Qualitätswertung und den empfangenen Qualitätswertungen für die Spracheingabe ist, Ausgeben einer hörbaren und/oder einer sichtbaren Antwort auf die erfasste Spracheingabe, wobei die anderen Vorrichtungen der Vielzahl von elektronischen Vorrichtungen auf ein Ausgeben einer hörbaren Antwort auf die erfasste Spracheingabe verzichten; und gemäß einer Bestimmung, dass die durch die erste elektronische Vorrichtung erzeugte Qualitätswertung nicht die höchste unter den Qualitätswertungen für die durch die Vielzahl von elektronischen Vorrichtungen erzeugte Spracheingabe ist, Verzichten auf ein Ausgeben einer Antwort auf die erfasste Spracheingabe.
  • Bei einigen Implementierungen enthält ein Verfahren bei einer elektronischen Vorrichtung mit einem oder mehreren Mikrofonen, einem Lautsprecher, einem oder mehreren Prozessoren und einem Speicher, der ein oder mehrere Programme zur Ausführung durch den einen oder die mehreren Prozessoren speichert, wobei die elektronische Vorrichtung konfiguriert ist, um durch irgendeine einer Vielzahl von Aufforderungen, einschließlich einer sprachbasierten Aufforderung, aufgeweckt zu werden: Bestimmen eines Rauschprofils einer Umgebung um die elektronische Vorrichtung; Bestimmen, ob das Rauschprofil mit der sprachbasierten Aufforderung interferiert; und gemäß einer Bestimmung, dass das Rauschprofil mit der sprachbasierten Aufforderung interferiert, Präsentieren eines Hinweises zu einem Anwender, eine Aufforderung der Vielzahl von Aufforderungen zu verwenden, die eine andere als die sprachbasierte Aufforderung ist, um die elektronische Vorrichtung aufzuwecken.
  • Bei einigen Implementierungen enthält eine elektronische Vorrichtung ein oder mehrere Mikrofone, einen Lautsprecher, einen oder mehrere Prozessoren und einen Speicher, der ein oder mehrere Programme speichert, um durch den einen oder die mehreren Prozessoren ausgeführt zu werden. Die elektronische Vorrichtung ist konfiguriert, um durch irgendeine einer Vielzahl von Aufforderungen, einschließlich einer sprachbasierten Aufforderung, aufgeweckt zu werden. Das eine oder die mehreren Programme enthalten Anweisungen zum: Bestimmen eines Rauschprofils einer Umgebung um die elektronische Vorrichtung; Bestimmen, ob das Rauschprofil mit der sprachbasierten Aufforderung interferiert; und gemäß einer Bestimmung, dass das Rauschprofil mit der sprachbasierten Aufforderung interferiert, Präsentieren eines Hinweises zu einem Anwender, eine Aufforderung der Vielzahl von Aufforderungen zu verwenden, die eine andere als die sprachbasierte Aufforderung ist, um die elektronische Vorrichtung aufzuwecken.
  • Ein nichtflüchtiges computerlesbares Speichermedium speichert ein oder mehrere Programme. Das eine oder die mehreren Programme enthalten Anweisungen, die dann, wenn sie durch eine elektronische Vorrichtung mit einem oder mehreren Mikrofonen, einem Lautsprecher und einem oder mehreren Prozessoren ausgeführt werden, wobei die elektronische Vorrichtung konfiguriert ist, um durch irgendeine einer Vielzahl von Aufforderungen, einschließlich einer sprachbasierten Aufforderung, aufgeweckt zu werden, veranlassen, dass die elektronische Vorrichtung Operationen durchführt, die enthalten: Bestimmen eines Rauschprofils einer Umgebung um die elektronische Vorrichtung; Bestimmen, ob das Rauschprofil mit der sprachbasierten Aufforderung interferiert; und gemäß einer Bestimmung, dass das Rauschprofil mit der sprachbasierten Aufforderung interferiert, Präsentieren eines Hinweises zu einem Anwender, eine Aufforderung der Vielzahl von Aufforderungen zu verwenden, die eine andere als die sprachbasierte Aufforderung ist, um die elektronische Vorrichtung aufzuwecken.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Die Patent- oder Anmeldungsakte enthält wenigstens eine Zeichnung, die in Farbe ausgeführt ist. Kopien dieser Patent- oder Patentanmeldungsveröffentlichung mit farbiger Zeichnung (farbigen Zeichnungen) werden durch das Amt auf einen Antrag und eine Bezahlung der nötigen Gebühr hin zur Verfügung gestellt werden.
  • Für ein besseres Verstehen der verschiedenen beschriebenen Implementierungen sollte auf die nachstehende Beschreibung von Implementierungen Bezug genommen werden, in Verbindung mit den folgenden Zeichnungen, in welchen sich gleiche Bezugszeichen auf entsprechende Teile in allen der Figuren beziehen.
  • 1 ist eine beispielhafte Betriebsumgebung gemäß einigen Implementierungen.
  • 2A2B sind Blockdiagramme, die eine beispielhafte elektronische Vorrichtung darstellen, die als eine Sprachschnittstelle angewendet wird, um Anwendersprachbefehle in einer Betriebsumgebung gemäß einigen Implementierungen zu sammeln.
  • 3 ist ein Blockdiagramm, das einen beispielhaften Server im Serversystem einer Betriebsumgebung gemäß einigen Implementierungen darstellt. Ein beispielhafter Server ist einer von einem Sprachunterstützungsserver.
  • 4A4B sind Diagramme, die eine beispielhafte Vorrichtungsführungsverhandlung gemäß einigen Implementierungen darstellen.
  • 5 ist ein Ablaufdiagramm, das ein Verfahren zum Antworten auf eine Spracheingabe eines Anwenders gemäß einigen Implementierungen darstellt.
  • 6 ist ein Ablaufdiagramm, das ein Verfahren zum Verhandeln einer Vorrichtungsführung unter mehreren Sprachschnittstellenvorrichtungen gemäß einigen Implementierungen darstellt.
  • 7 ist ein Ablaufdiagramm, das ein Verfahren zum Verringern von Rauschen um eine Sprachschnittstellenvorrichtung gemäß einigen Implementierungen darstellt.
  • 8A und 8B sind eine Vorderansicht und eine Rückansicht einer sprachaktivierten elektronischen Vorrichtung gemäß einigen Implementierungen.
  • 8C ist eine Draufsicht auf eine sprachaktivierte elektronische Vorrichtung gemäß einigen Implementierungen und 8D zeigt sechs visuelle Muster, die durch ein Feld bzw. eine Anordnung von Vollfarb-LEDs zum Anzeigen von Sprachverarbeitungszuständen gemäß einigen Implementierungen angezeigt sind.
  • Gleiche Bezugszeichen beziehen sich auf entsprechende Teile durchgehend durch die mehreren Ansichten der Zeichnungen
  • BESCHREIBUNG VON IMPLEMENTIERUNGEN
  • Während die digitale Revolution viele Vorteile zur Verfügung gestellt hat, die von einem offenen gemeinsamen Nutzen von Information bis zu einem Gefühl einer globalen Gemeinschaft reichen, induziert ein Auftauchen neuer Technologie oft Verwirrung, Skepsis und Furcht unter Verbrauchern, was Verbraucher davon abhält, einen Vorteil aus der Technologie zu ziehen. Elektronische Vorrichtungen werden herkömmlich als Sprachschnittstellen verwendet, um Spracheingaben von Anwendern zu empfangen und sprachaktivierte Funktionen zu initiieren und dadurch augenfreie und handfreie Lösungen anzubieten, um sich sowohl existierender als auch auftauchender Technologie anzunähern. Spezifisch können die bei der elektronischen Vorrichtung empfangenen Spracheingaben Anweisungen und Information selbst dann tragen, wenn eine Sichtlinie eines Anwenders verdeckt ist und seine Hände voll sind. Um eine handfreie und augenfreie Erfahrung zu ermöglichen, hört die sprachaktivierte elektronische Vorrichtung auf die Umgebung (d. h. verarbeitet konstant Audiosignale, die aus der Umgebung gesammelt sind) dauernd oder nur dann, wenn sie angesteuert ist. Andererseits sind Anwenderidentitäten mit einer Stimme eines Anwenders und einer durch den Anwender verwendeten Sprache verbunden. Um diese Anwenderidentitäten zu schützen, werden diese sprachaktivierten elektronischen Vorrichtungen normalerweise an nicht öffentlichen Plätzen verwendet, die geschützte, kontrollierte und intime Räume sind (z. B. Wohnung und Auto).
  • Gemäß einigen Implementierungen identifiziert eine sprachaktivierte elektronische Vorrichtung einen Sprecher einer Spracheingabe als einen von einem oder mehreren assoziierten oder registrierten Anwendern. Antworten auf die Sprecherausgabe durch die elektronische Vorrichtung werden auf den identifizierten Sprecher personalisiert. Der Sprecher wird durch Vergleichen der Spracheingabe des Sprechers mit einer Gruppe von trainierten Sprachmodellen oder sprachlichen Fingerabdrücken identifiziert. Bei einigen Implementierungen sind Wörter und Phrasen, die durch einen Sprecher verwendet sind, um die Sprachmodelle zu trainieren, nicht notwendigerweise vordefiniert und müssen nicht mit Wörtern übereinstimmen, die später durch den Sprecher gesprochen werden, damit die elektronische Vorrichtung den Sprecher identifiziert.
  • Weiterhin verhandeln gemäß einigen Implementierungen mehrere sprachaktivierte elektronische Vorrichtungen über einen Führer zwischen sich selbst, um auf Spracheingaben von einem Anwender zu antworten. Die Verhandlung kann darauf basieren, welche Vorrichtung die Spracheingabe am besten erfasste oder welche Vorrichtung dem Anwender am nächsten ist. Zusätzlich kann, wenn die Spracheingabe besonders relevant für eine der Vorrichtungen ist, diese Vorrichtung ausgewählt werden, um zu antworten, selbst wenn sie sonst nicht für eine Antwort ausgewählt werden würde; die Relevanz des in der Spracheingabe enthaltenen Befehls für eine bestimmte Vorrichtung (z. B. ”Stopp Musik” sollte sich auf eine Vorrichtung beziehen, die Musik abspielt) und der Zustand der Vorrichtung, die die Spracheingabe empfängt (z. B. ”Bildschirm ein” gegenüber ”Bildschirm aus”) werden beim Bestimmen berücksichtigt, welche Vorrichtung der Führer sein wird.
  • Weiterhin bestimmt eine sprachaktivierte Vorrichtung gemäß einigen Implementierungen, ob das umgebende Rauschen ausreichend mit einer Erfassung von gesprochenen Hotwords (heißen Wörtern) zum Aufwecken der Vorrichtung (bei einigen Implementierungen ist ein ”Hotword” ein anwenderdefiniertes oder vordefiniertes Wort oder eine Phrase, das oder die zum ”Aufwecken” oder Ansteuern einer sprachaktivierten Vorrichtung verwendet wird, um einen gesprochenen Befehl zu bedienen/auf ihn zu antworten, der nachfolgend zum Hotword ausgegeben wird) oder von anderen gesprochenen Spracheingaben interferiert. Wenn das Rauschen ausreichend interferierend ist, zeigt die Vorrichtung dies an und gibt dem Anwender einen Hinweis, eine alternative Art zum Aufwecken der Vorrichtung zu verwenden, oder andere Rauschverringerungsmaßnahmen.
  • Sprachassistenten-Betriebsumgebung
  • 1 ist eine beispielhafte Betriebsumgebung gemäß einigen Implementierungen. Eine Betriebsumgebung 100 enthält eine oder mehrere sprachaktivierte elektronische Vorrichtungen 190 (z. B. elektronische Vorrichtungen 190-1 bis 190-N). Die eine oder die mehreren sprachaktivierten elektronischen Vorrichtungen 190 können an einem oder mehreren Standorten angeordnet sein (z. B. alle in einem Zimmer oder Raum einer Struktur, ausgebreitet über mehrere Räume innerhalb einer Struktur oder durchgehend durch mehrere Strukturen (z. B. eine in einem Haus und eine im Auto eines Anwenders)). Die Umgebung 100 enthält optional eine oder mehrere Vorrichtungen (z. B. Medienvorrichtungen, smarte Heimvorrichtungen) (nicht gezeigt), mit welchen die sprachaktivierten elektronischen Vorrichtungen 190 kommunizieren können.
  • Die elektronischen Vorrichtungen 190 sind durch Kommunikationsnetzwerke 110 mit einem Sprachunterstützungsserver 112 eines Sprachassistentendienstes kommunikativ gekoppelt. Eine oder mehrere der elektronischen Vorrichtungen 190 sind mit einem lokalen Netz 104 kommunikativ gekoppelt, das mit den Kommunikationsnetzwerken 110 kommunikativ gekoppelt ist (z. B. die elektronischen Vorrichtungen 190-1 und 190-2). Bei einigen Implementierungen ist das lokale Netz 104 ein lokales Netz, das bei einer Netzwerkschnittstelle (z. B. einem Router) implementiert ist. Die elektronischen Vorrichtungen 190, die mit dem lokalen Netz 104 kommunikativ gekoppelt sind, können auch miteinander durch das lokale Netz 104 kommunizieren.
  • Optional sind eine oder mehrere der elektronischen Vorrichtungen 190 mit den Kommunikationsnetzwerken 110 kommunikativ gekoppelt und sind nicht am lokalen Netz 104 (z. B. die elektronische Vorrichtung 190-N). Beispielsweise sind diese elektronischen Vorrichtungen 190 nicht am Wi-Fi-Netzwerk entsprechend dem lokalen Netz 104, sondern sind mit den Kommunikationsnetzwerken 110 durch eine zellulare Verbindung verbunden. Bei einigen Implementierungen wird eine Kommunikation zwischen elektronischen Vorrichtungen 190, die am lokalen Netz 104 sind, und elektronischen Vorrichtungen 190, die nicht am lokalen Netz 104 sind, durch den Sprachunterstützungsserver 112 durchgeführt. Die elektronischen Vorrichtungen 190 sind in einer Vorrichtungsregistratur 118 des Sprachassistentendienstes registriert und somit dem Sprachunterstützungsserver 112 bekannt.
  • Die Umgebung 100 enthält auch einen oder mehrere Inhaltshosts 114. Ein Inhaltshost 114 kann eine entfernte Inhaltsquelle sein, von welcher Inhalt gemäß einer Anwendersprachanfrage gestreamt oder auf andere Weise erhalten wird. Ein Inhaltshost 114 kann eine Informationsquelle sein, von welcher der Sprachunterstützungsserver 112 Information gemäß einer Anwendersprachanfrage wiedergewinnt bzw. ausliest.
  • Bei einigen Implementierungen kann eine elektronische Vorrichtung 190 mit mehreren Anwendern assoziiert sein, die jeweilige Anwenderkonten in der Anwenderdomäne haben. Irgendwelche von diesen Anwendern, sowie Anwender, die nicht mit der Vorrichtung assoziiert sind, können Spracheingaben zur elektronischen Vorrichtung 190 durchführen. Die elektronisch Vorrichtung 190 empfängt diese Spracheingaben von diesen Anwendern 102-1 bis 102-M (einschließlich assoziierter und nicht assoziierter Anwender), und die elektronische Vorrichtung 190 und/oder der Sprachunterstützungsserver 112 fahren damit fort, für eine Spracheingabe den Anwender zu identifizieren, der die Spracheingabe durchführt. Mit der Anwenderidentifizierung kann eine Antwort auf diese Spracheingabe zum identifizierten Anwender personalisiert werden.
  • Bei einigen Implementierungen enthält die Umgebung 100 mehrere elektronische Vorrichtungen 190 (z. B. Vorrichtungen 190-1 bis 190-N). Die Vorrichtungen 190 sind in der gesamten Umgebung 100 angeordnet (z. B. alle innerhalb eines Zimmers oder Raums in einer Struktur, über die gesamte Struktur verteilt, einige innerhalb der Struktur und einige außerhalb). Wenn ein Anwender 102 eine Spracheingabe durchführt, empfängt jede dieser Vorrichtungen 190 entweder die Eingabe oder empfängt die Eingabe nicht (z. B. wenn die Vorrichtung zu weit weg vom Anwender war). Die Vorrichtungen, die die Eingabe empfangen, empfangen die Eingabe mit variierenden Ausmaßen an Qualität; die Qualität der Probe der Spracheingabe bei einer Vorrichtung basiert auf mehreren Faktoren, einschließlich, aber nicht darauf beschränkt, eines Abstands des Anwenders von der Vorrichtung und des Rauschens um die Vorrichtung. Die mehreren Vorrichtungen 190 verhandeln über einen Führer unter sich selbst, um dem Anwender zu antworten und um weitere Spracheingabe vom Anwender 102 zu empfangen, basierend auf der Qualität der Proben der Spracheingaben.
  • Bei einigen Implementierungen bestimmt eine elektronische Vorrichtung 190 ein Ausmaß an Rauschen um die Vorrichtung und bestimmt, ob der bestimmte Rauschpegel ausreichend hoch ist, um mit einer Erkennung vom Hotword in Spracheingaben zu interferieren und somit mit einem Aufwecken der Vorrichtung durch Sprache oder mit einer Erkennung von Sprachanfragen zu interferieren. Wenn der Rauschpegel als ausreichend hoch dafür bestimmt wird, dass er interferiert, zeigt die elektronische Vorrichtung 190 dem Anwender an, dass der Rauschpegel interferierend ist, und gibt dem Anwender einen Hinweis, dass der Anwender eine andere Art verwenden sollte, die elektronische Vorrichtung 190 aufzuwecken (z. B. eine Taste zu aktivieren). Die Anzeige des interferierenden Rauschpegels und der Hinweis, eine andere Art zu verwenden, um die Vorrichtung aufzuwecken, kann bei derselben Präsentation durchgeführt werden (z. B. Aufleuchten der Aufwecktaste).
  • Bei einigen Implementierungen sind eine oder mehrere Medienvorrichtungen in der Betriebsumgebung 100 angeordnet, um einem oder mehreren Besitzern bzw. Bewohnern bzw. Fahrzeuginsassen Medienhalt, Nachrichten und/oder andere Information zu liefern. Bei einigen Implementierungen wird der durch die Medienvorrichtungen gelieferte Inhalt bei einer lokalen Inhaltsquelle gespeichert, von einer enffernten Inhaltsquelle (z. B. Inhaltshost(s) 114) gestreamt oder lokal erzeugt (z. B. durch einen lokalen Text-Zu-Sprache-Prozessor, der eine kundenspezifische Nachrichtenanweisung, Emails, Texte, einen lokalen Wetterbericht, etc. zu einem oder mehreren Bewohnern der Betriebsumgebung 100 liest). Bei einigen Implementierungen enthalten die Medienvorrichtungen Medienausgabevorrichtungen, die den Medieninhalt direkt zu einem Publikum ausgeben (z. B. einem oder mehreren Anwendern), und Verteilungsvorrichtungen, die vernetzt sind, um Medieninhalt zu den Medienausgabevorrichtungen zu streamen. Beispiele der Medienausgabevorrichtungen enthalten, sind aber nicht darauf beschränkt, Fernseh-(TV-)Anzeigevorrichtungen und Musikabspielgeräte. Beispiele der Verteilungsvorrichtungen enthalten, sind aber nicht darauf beschränkt, Digitalempfänger (STBs), DVD-Abspielgeräte, TV-Geräte und Medienstreamingvorrichtungen, wie beispielsweise die Medienstreamingvorrichtung ChromecastTM von Google.
  • Bei einigen Implementierungen enthalten die Medienvorrichtungen eine oder mehrere sprachaktivierte elektronische Vorrichtungen 190, die Sprachbefehle von Bewohnern bzw. Besitzern empfangen, verarbeiten und darauf antworten. Bei einigen Implementierungen antworten die sprachaktivierten elektronischen Vorrichtungen 190 auf Sprachbefehle durch: Erzeugen und Liefern einer gesprochenen Antwort auf einen Sprachbefehl (z. B. Sprechen der aktuellen Zeit in Antwort auf die Frage ”Wie spät ist es?”); Streamingmedieninhalt, der durch einen Anwender angefragt ist (z. B. ”Spiele ein Lied von den Beach Boys”); Lesen einer Nachrichtengeschichte oder einer täglichen Nachrichtenanweisung, die für den Anwender vorbereitet ist; Abspielen eines Medienobjekts, das auf der persönlichen Assistentenvorrichtung oder auf dem lokalen Netz gespeichert ist; Ändern eines Zustands oder Betreiben von einer oder mehreren anderen angeschlossenen Vorrichtungen innerhalb der Betriebsumgebung 100 (z. B. Ein-/Ausschalten von Lichtern, Haushaltsgeräten oder Medienvorrichtungen, Verriegeln/Entriegeln eines Schlosses bzw. einer Verriegelung, Öffnen von Fenstern, etc.); oder Ausgeben einer entsprechenden Anfrage zu einem Server über ein Netzwerk 110.
  • Bei einigen Implementierungen sind die eine oder die mehreren elektronischen Vorrichtungen 190 in der Betriebsumgebung 100 angeordnet, um Audioeingaben zum Initiieren verschiedener Funktionen zu sammeln, einschließlich Medienabspielfunktionen der Medienvorrichtungen. Bei einigen Implementierungen sind diese sprachaktivierten elektronischen Vorrichtungen 190 (z. B. die Vorrichtungen 190-1 bis 190-N) in einer Nähe zu einer Medienvorrichtung angeordnet, beispielsweise in demselben Zimmer mit den Verteilungsvorrichtungen und den Medienausgabevorrichtungen. Alternativ dazu ist bei einigen Implementierungen eine sprachaktivierte elektronische Vorrichtung 190 in einem Zimmer angeordnet, das eine oder mehrere smarte Heimvorrichtungen hat, aber keine Medienvorrichtung. Alternativ dazu ist bei einigen Implementierungen eine sprachaktivierte elektronische Vorrichtung 190 an einem Standort angeordnet, der keine vernetzte elektronische Vorrichtung hat. Weiterhin kann bei einigen Implementierungen ein Zimmer oder Raum bei der Struktur mehrere elektronische Vorrichtungen 190 haben.
  • Bei einigen Implementierungen enthält die elektronische Vorrichtung 190 wenigstens ein oder mehrere Mikrofone, einen Lautsprecher, einen Prozessor und einen Speicher, der wenigstens ein Programm zur Ausführung durch den Prozessor speichert. Der Lautsprecher ist konfiguriert, um zuzulassen, dass die elektronische Vorrichtung 190 Sprachnachrichten und andere Audionachrichten (z. B. hörbare Töne) zu einem Standort liefert, wo die elektronische Vorrichtung 190 in der Betriebsumgebung 100 angeordnet ist, um dadurch Musik zu senden, einen Zustand über eine Audioeingabeverarbeitung zu berichten, eine Unterhaltung mit einem Anwender der elektronischen Vorrichtung 190 zu haben oder ihm Anweisungen zu geben. Als Alternative zu den Sprachnachrichten könnten visuelle Signale auch dazu verwendet werden, eine Rückkopplung bezüglich des Zustands einer Audioeingabeverarbeitung zum Anwender der elektronischen Vorrichtung 190 zu liefern. Wenn die elektronische Vorrichtung 190 eine mobile Vorrichtung ist (z. B. ein Mobiltelefon oder ein Tablet-Computer), ist ihr Anzeigebildschirm konfiguriert, um eine Mitteilung in Bezug auf den Zustand einer Audioeingabeverarbeitung anzuzeigen.
  • Bei einigen Implementierungen ist die elektronische Vorrichtung 190 eine Sprachschnittstellenvorrichtung, die über ein Netz verbunden ist, um Spracherkennungsfunktionen mit der Hilfe eines Sprachunterstützungsservers 112 und/oder optional eines Cloud-Verteilungsdienstservers (nicht gezeigt) zu liefern. Beispielsweise enthält die elektronische Vorrichtung 190 einen smarten Lautsprecher, der Musik zu einem Anwender liefert und einen augenfreien und handfreien Zugriff auf einen Sprachassistentendienst (z. B. Google Assistant) zulässt. Optional ist die elektronische Vorrichtung 190 eine von einem Desktop- oder Laptop-Computer, einem Tablet, einem Mobiltelefon, das ein Mikrofon enthält, einer Verteilungsvorrichtung, die ein Mikrofon und optional einen Lautsprecher enthält, ein Audiosystem (z. B. ein Stereosystem, ein Lautsprechersystem, ein portierbarer Lautsprecher), das ein Mikrofon und einen Lautsprecher enthält, ein Fernsehgerät, das ein Mikrofon und einen Lautsprecher enthält, und ein Anwenderschnittstellensystem in einem Auto, das ein Mikrofon und einen Lautsprecher und optional eine Anzeige enthält. Optional ist die elektronische Vorrichtung 190 eine einfache und billige Sprachschnittstellenvorrichtung. Allgemein kann die elektronische Vorrichtung 190 irgendeine Vorrichtung sein, die zu einer Netzwerkverbindung fähig ist und die ein Mikrofon, einen Lautsprecher und Programme, Module und Daten zum Interagieren mit einem Sprachassistentendienst enthält. Bei vorgegebener Einfachheit und niedrigen Kosten für die elektronische Vorrichtung 190 enthält die elektronische Vorrichtung 190 eher eine Anordnung von lichtemittierenden Dioden (LEDs) als einen vollständigen Anzeigebildschirm und zeigt ein visuelles Muster auf den LEDs an, um den Zustand einer Audioeingabeverarbeitung anzuzeigen. Bei einigen Implementierungen sind die LEDs Vollfarb-LEDs und können die Farben der LEDs als Teil des sichtbaren Musters verwendet werden, um an den LEDs angezeigt zu werden. Mehrere Beispiele eines Verwendens von LEDs, um visuelle Muster anzuzeigen, um Information oder einen Vorrichtungszustand zu vermitteln, sind in der vorläufigen US-Patentanmeldung Nr. 62/336,566, mit dem Titel ”LED Design Language for Visual Affordance of Voice User Interfaces”, eingereicht am 13. Mai 2016, beschrieben, die in ihrer Gesamtheit durch Bezugnahme enthalten ist. Bei einigen Implementierungen werden visuelle Muster, die den Zustand von Sprachverarbeitungsoperationen anzeigen, unter Verwendung von charakteristischen Bildern angezeigt, die auf herkömmlichen Anzeigen gezeigt sind, die mit elektronischen Vorrichtungen assoziiert sind, die die Sprachverarbeitungsoperationen durchführen.
  • Bei einigen Implementierungen werden LEDs oder andere visuelle Anzeigen verwendet, um einen kollektiven Sprachverarbeitungszustand von mehreren teilnehmenden elektronischen Vorrichtungen zu vermitteln. Beispielsweise können in einer Betriebsumgebung, in welcher es mehrere Sprachverarbeitungs- oder Sprachschnittstellenvorrichtungen gibt (z. B. mehrere elektronische Vorrichtungen 400, wie es in 4A der '566-Anmeldung gezeigt ist, die nachstehend als 8A dupliziert ist; mehrere elektronische Vorrichtungen 190), Gruppen von Farb-LEDs (z. B. LEDs 404, wie sie in 4A der '566-Anmeldung gezeigt sind), die mit jeweiligen elektronischen Vorrichtungen assoziiert sind, verwendet werden, um zu vermitteln, welche der elektronischen Vorrichtungen auf einen Anwender hört und welche der hörenden Vorrichtungen der Führer ist (wobei die ”Führer”-Vorrichtung allgemein die Führung beim Antworten auf eine durch den Anwender ausgegebene gesprochene Anfrage übernimmt).
  • Allgemeiner beschreibt die '566-Anmeldung (z. B. siehe die Paragrafen [0087]–[0100]) eine ”LED-Gestaltungssprache” zum visuellen Anzeigen eines Verwendens einer Sammlung von LEDs für eine Vielfalt von Sprachverarbeitungszuständen einer elektronischen Vorrichtung, wie beispielsweise einen ”Hotword-Erfassungszustand und Zuhörzustand”, einen ”Denkmodus oder Arbeitsmodus” und einen ”Antwortmodus oder Sprechmodus”. Bei einigen Implementierungen sind eindeutige Zustände von hierin beschriebenen Sprachverarbeitungsoperationen unter Verwendung einer Gruppe von LEDs gemäß einem oder mehreren Aspekten der ”LED-Gestaltungssprache” der '566-Anmeldung repräsentiert. Diese visuellen Indikatoren können auch mit einem oder mehreren hörbaren Indikatoren kombiniert sein, die durch elektronische Vorrichtungen erzeugt sind, die Sprachverarbeitungsoperationen durchführen. Die resultierenden Audio- und/oder visuellen Indikatoren werden ermöglichen, dass Anwender in einer sprachinteraktiven Umgebung den Zustand von verschiedenen elektronischen Vorrichtungen, die Sprache verarbeiten, in der Umgebung verstehen und effektiv mit diesen Vorrichtungen auf natürliche, intuitive Weise interagieren.
  • Wenn Spracheingaben von der elektronischen Vorrichtung 190 verwendet werden, um Medienausgabevorrichtungen über die Verteilungsvorrichtungen zu steuern, ermöglicht die elektronische Vorrichtung 190 effektiv eine neue Ebene einer Steuerung von verteilungsfähigen Medienvorrichtungen. Bei einem spezifischen Beispiel enthält die elektronische Vorrichtung 190 einen formlosen Vergnügungslautsprecher mit Fernfeld-Sprachzugriff und fungiert als Sprachschnittstellenvorrichtung für den Sprachassistentendienst. Die elektronische Vorrichtung 190 könnte in irgendeinem Bereich in der Betriebsumgebung 100 angeordnet sein. Wenn mehrere elektronische Vorrichtungen 190 in mehreren Räumen verteilt sind, werden sie Verteilungsaudioempfänger, die synchronisiert sind, um Spracheingaben von allen diesen Räumen zu liefern.
  • Spezifisch enthält die elektronische Vorrichtung 190 bei einigen Implementierungen einen Wi-Fi-Lautsprecher mit einem Mikrofon, das mit einem sprachaktivierten Sprachassistentendienst (z. B. Google Assistant) verbunden ist. Ein Anwender kann eine Medienabspielanfrage über das Mikrofon der elektronischen Vorrichtung 190 ausgeben und den Sprachassistentendienst fragen, Medieninhalt auf der elektronischen Vorrichtung 190 selbst oder einer anderen angeschlossenen Medienausgabevorrichtung abzuspielen. Beispielsweise kann der Anwender eine Medienabspielanfrage dadurch ausgeben, dass er dem Wi-Fi-Lautsprecher ”OK Google, spiele Katzenvideos auf meinem Fernseher im Wohnzimmer” sagt. Der Sprachassistentendienst erfüllt dann die Medienabspielanfrage durch Abspielen des angefragten Medieninhalts auf der angefragten Vorrichtung unter Verwendung einer Vorgabe oder einer bestimmten Medienanwendung.
  • Bei einigen Implementierungen kann ein Anwender eine Sprachanfrage über das Mikrofon der elektronischen Vorrichtung 190 in Bezug auf Medieninhalt ausgeben, der bereits abgespielt worden ist oder der auf einer Anzeigevorrichtung abgespielt wird (z. B. kann der Anwender nach Information über den Medieninhalt fragen, den Medieninhalt über einen Online-Laden kaufen oder einen sozialen Post über den Medieninhalt zusammensetzen und ausgeben).
  • Bei einigen Implementierungen kann ein Anwender wünschen, eine aktuelle Mediensession mitzunehmen, wenn er sich durch das Haus bewegt, und kann einen solchen Dienst von einer oder mehreren der elektronischen Vorrichtungen 190 anfragen. Dies erfordert, dass der Sprachassistentendienst die aktuelle Mediensession von einer ersten Verteilungsvorrichtung zu einer zweiten Verteilungsvorrichtung transferiert, die nicht direkt mit der ersten Verteilungsvorrichtung verbunden ist oder keine Kenntnis über die Existenz der ersten Verteilungsvorrichtung hat. Nachfolgend zum Medieninhaltstransfer fährt eine zweite Ausgabevorrichtung, die mit der zweiten Verteilungsvorrichtung gekoppelt ist, damit fort, den zuvor durch eine erste Ausgabevorrichtung, die mit der ersten Verteilungsvorrichtung gekoppelt ist, abgespielten Medieninhalt ab genau der Stelle innerhalb eines Musikstücks oder eines Videoclips abzuspielen, wo ein Abspielen des Medieninhalts auf der ersten Ausgabevorrichtung ausgegeben wurde. Bei einigen Implementierungen kann die elektronische Vorrichtung 190, die die Anfrage empfängt, die Mediensession zu transferieren, die Anfrage erfüllen. Bei einigen Implementierungen leitet die elektronische Vorrichtung 190, die die Anfrage empfängt, die Mediensession zu transferieren, die Anfrage zu einer anderen Vorrichtung oder zu einem anderen System (z. B. einer zentralen Vorrichtung, einem Sprachunterstützungsserver 112) zur Handhabung weiter.
  • Weiterhin kann ein Anwender bei einigen Implementierungen über das Mikrofon der elektronischen Vorrichtung 190 eine Anfrage nach Information oder nach einer Aufführung einer Aktion oder einer Operation fragen. Die angefragte Information kann persönlich sein (z. B. Emails des Anwenders, Kalenderereignisse des Anwenders, Fluginformation des Anwenders, etc.), nicht persönlich (z. B. Sportwertungen, Nachrichtengeschichten, etc.) oder irgendwo dazwischen (z. B. Wertungen für Teams oder Sport, die vom Anwender bevorzugt sind, Nachrichtengeschichten von den bevorzugten Quellen des Anwenders, etc.). Die angefragte Information oder Aktion/Operation kann einen Zugriff auf persönliche Information enthalten (z. B. Einkaufen eines digitalen Medienobjekts mit Bezahlungsinformation, die durch den Anwender geliefert ist, Einkaufen eines physikalischen Guts). Die elektronische Vorrichtung 190 antwortet auf die Anfrage mit Sprachnachrichtenantworten zum Anwender, wobei die Antwort beispielsweise Anfragen nach zusätzlicher Information, um die Anfrage zu erfüllen, eine Bestätigung, dass die Anfrage erfüllt worden ist, eine Nachricht, dass die Anfrage nicht erfüllt werden kann, und so weiter enthalten kann.
  • Bei einigen Implementierungen kann, zusätzlich zu den sprachaktivierten elektronischen Vorrichtungen 190 und den Medienvorrichtungen (z. B. den Ausgabevorrichtungen und den Verteilungsvorrichtungen), die Betriebsumgebung 100 auch eine oder mehrere smarte Heimvorrichtungen (nicht gezeigt) enthalten. Die integrierten smarten Heimvorrichtungen enthalten intelligente, mehrfacherfassende, mit dem Netz verbundene Vorrichtungen, die sich miteinander in einem smarten Heimnetz und/oder mit einem zentralen Server oder einem Cloud-Computersystem nahtlos integrieren, um eine Vielfalt von nützlichen smarten Heimfunktionen zu liefern. Bei einigen Implementierungen ist eine smarte Heimvorrichtung an demselben Standort der Betriebsumgebung 100 wie eine Verteilungsvorrichtung und/oder eine Ausgabevorrichtung angeordnet und ist daher in einer Nähe zu oder mit einem bekannten Abstand in Bezug auf die Verteilungsvorrichtung und die Ausgabevorrichtung lokalisiert.
  • Die smarten Heimvorrichtungen in der Betriebsumgebung 100 können enthalten, sind aber nicht darauf beschränkt: einen oder mehrere intelligente, mehrfacherfassende, mit einem Netz verbundene Thermostate, einen oder mehrere intelligente, im Netz verbundene, mehrfacherfassende Gefahrendetektoren, eine oder mehrere intelligente, mehrfacherfassende, im Netz verbundene Eingangsbereichs-Schnittstellenvorrichtung (hierin nachfolgend ”smarte Türglocken” und ”smarte Türschlösser” genannt), ein oder mehrere intelligente, mehrfacherfassende, im Netz verbundene Alarmsysteme, ein oder mehrere intelligente, mehrfacherfassende, im Netz verbundene Kamerasysteme und ein oder mehrere intelligente, mehrfacherfassende, im Netz verbundene Wandschalter und ein oder mehrere intelligente, mehrfacherfassende, im Netz verbundene Steckdosen. Bei einigen Implementierungen enthalten die smarten Heimvorrichtungen in der Betriebsumgebung 100 der 1 eine Vielzahl von intelligenten, mehrfacherfassenden, im Netz verbundenen Hausgeräten (hierin nachfolgend ”smarte Hausgeräte” genannt”), wie beispielsweise Kühlschränke, Herde, Öfen, Fernsehgeräte, Waschmaschinen, Trockenmaschinen, Leuchten, Stereoanlagen, Wechselsprechanlagensysteme, Garagentüröffner, Bodenventilatoren, Deckenventilatoren, Wand-Klimaanlagen, Poolheizgeräte, Bewässerungssysteme, Sicherheitssysteme, Raumheizgeräte, Fenster-AC-Einheiten, motorisierte Durchführungsventile und so weiter. Bei einigen Implementierungen können irgendwelche von diesen smarten Heimvorrichtungstypen mit Mikrofonen und einer oder mehreren Sprachverarbeitungsfähigkeiten ausgestattet sein, wie es hierin beschrieben ist, um insgesamt oder teilweise auf Sprachanfragen von einem Bewohner oder Anwender zu antworten.
  • Bei einigen Implementierungen ist jede der Verteilungsvorrichtungen und der sprachaktivierten elektronischen Vorrichtungen 190 zu einer Datenkommunikation und einem gemeinsamen Nutzen von Information mit anderen Verteilungsvorrichtungen, sprachaktivierten elektronischen Vorrichtungen 190, smarten Heimvorrichtungen, einem zentralen Server oder einem Cloud-Computersystem und/oder anderen Vorrichtungen (z. B. der Clientvorrichtung) fähig, die im Netzwerk verbunden sind. Datenkommunikationen können unter Verwendung von irgendeinem einer Vielfalt von gewöhnlichen oder standardmäßigen drahtlosen Protokollen ausgeführt werden (z. B. IEEE 802.15.4, Wi-Fi, ZigBee, 6LoWPAN, Thread, Z-Wave, Bluetooth Smart, ISA100.11a, drahtloses HART, MiWi, etc.) und/oder irgendeinem einer Vielzahl von gewöhnlichen oder standardmäßigen verdrahteten Protokollen (z. B. Ethernet, HomePlug, etc.) oder irgendeinem anderen geeigneten Kommunikationsprotokoll, einschließlich Kommunikationsprotokollen, die zum Einreichungsdatum dieses Dokuments noch nicht entwickelt sind.
  • Durch die Kommunikationsnetzwerke (z. B. das Internet) 110 können die Verteilungsvorrichtungen, die elektronischen Vorrichtungen 190 und die smarten Heimvorrichtungen mit einem Serversystem (das hierin auch zentrales Serversystem und/oder Cloud-Computersystem genannt wird) kommunizieren. Optional kann das Serversystem mit einem Hersteller, einer Unterstützungsentität oder einem Serviceprovider bzw. Dienstleister assoziiert sein, der mit den Verteilungsvorrichtungen und dem dem Anwender angezeigten Medieninhalt assoziiert ist. Demgemäß enthält das Serversystem den Sprachunterstützungsserver 112, der Audioeingaben verarbeitet, die durch die sprachaktivierten elektronischen Vorrichtungen 190 gesammelt sind, einen oder mehrere Inhaltshosts 114, die den angezeigten Medieninhalt liefern, einen Cloud-Verteilungsdienstserver, der eine virtuelle Anwenderdomäne basierend auf verteilten Vorrichtungsendgeräten erzeugt, und die Vorrichtungsregistratur 118, die eine Aufzeichnung der verteilten Vorrichtungsendgeräte in der virtuellen Anwenderumgebung hält. Beispiele der verteilten Vorrichtungsendgeräte enthalten, sind aber nicht darauf beschränkt, die Verteilungsvorrichtungen, die Medienausgabevorrichtungen, die elektronischen Vorrichtungen 190 und die smarten Heimvorrichtungen. Bei einigen Implementierungen sind diese verteilten Vorrichtungsendgeräte mit einem Anwenderkonto (z. B. einem Google-Anwenderkonto) in der virtuellen Anwenderdomain verbunden. Es sollte erkannt werden, dass eine Verarbeitung von Audioeingaben, die durch die elektronischen Vorrichtungen 190 gesammelt sind, lokal bei einer elektronischen Vorrichtung 190, bei einem Sprachunterstützungsserver 112, bei einer anderen smarten Heimvorrichtung (z. B. einer zentralen Vorrichtung) oder bei irgendeiner Kombination von allen oder einer Untergruppe von den obigen durchgeführt werden kann.
  • Es wird erkannt werden, dass bei einigen Implementierungen die elektronische(n) Vorrichtung(en) 190 auch in einer Umgebung ohne smarte Heimvorrichtungen funktioniert (funktionieren). Beispielsweise kann eine elektronische Vorrichtung 190 sogar in der Abwesenheit von smarten Heimvorrichtungen auf Anwenderanfragen nach Information oder Durchführung einer Aktion antworten und/oder verschiedene Medienabspielfunktionen initiieren oder steuern. Eine elektronische Vorrichtung 190 kann auch in einem weiten Bereich von Umgebungen funktionieren, einschließlich, ohne Beschränkung, eines Fahrzeugs, eines Schiffs, eines Geschäfts oder einer Herstellungsumgebung.
  • Bei einigen Implementierungen wird eine elektronische Vorrichtung 190 ”aufgeweckt” (z. B. um eine Schnittstelle für den Sprachassistentendienst auf der elektronischen Vorrichtung 190 zu aktivieren, um die elektronische Vorrichtung 190 in einen Zustand zu versetzen, in welchem die elektronische Vorrichtung 190 dazu bereit ist, Sprachanfragen zum Sprachassistentendienst zu empfangen), und zwar durch eine Spracheingabe, die ein Hotword enthält (das auch ”Aufweckwort” genannt wird). Bei einigen Implementierungen erfordert die elektronische Vorrichtung 190 ein Aufwecken, wenn die elektronische Vorrichtung 190 in Bezug auf einen Empfang von Spracheingaben für wenigstens eine vordefinierte Menge an Zeit (z. B. 5 Minuten) freigeworden ist; die vordefinierte Menge an Zeit entspricht einer Menge an leerer bzw. freier Zeit, die zugelassen ist, bevor eine Sprachschnittstellensession oder eine Konversation abläuft. Das Hotword kann ein Wort oder eine Phrase sein und kann eine vordefinierte Vorgabe sein und/oder kann durch einen Anwender kundenspezifisch sein (z. B. kann ein Anwender einen Spitznamen für eine bestimmte elektronische Vorrichtung 190 als das Hotword der Vorrichtung einstellen). Bei einigen Implementierungen kann es mehrere Hotwords geben, die eine elektronische Vorrichtung 190 aufwecken können. Ein Anwender kann das Hotword sprechen, auf eine Bestätigungsantwort von der elektronischen Vorrichtung 190 warten (z. B. gibt die elektronische Vorrichtung 190 eine Begrüßung aus) und dann eine erste Sprachanfrage durchführen. Alternativ dazu kann der Anwender das Hotword und die erste Sprachanfrage in einer Spracheingabe kombinieren (z. B. enthält die Spracheingabe das Hotword, gefolgt durch die Sprachanfrage).
  • Bei einigen Implementierungen können die durch den Anwender zu einer elektronischen Vorrichtung 190 gesprochenen Spracheingaben allgemein Sprache in freier Form oder Sprache in natürlicher Sprache sein. Das bedeutet, dass die Spracheingabe nicht streng auf eine vordefinierte Gruppe von Wörtern und Phrasen innerhalb einer vordefinierten Syntax beschränkt sein muss, mit möglichen bestimmten Ausnahmen (z. B. muss ein Anwender das Hotword zuerst sprechen, um die Vorrichtung aufzuwecken).
  • Bei einigen Implementierungen enthält eine elektronische Vorrichtung 190 neben einem Sprechen des Hotwords zur elektronischen Vorrichtung 190 eine oder mehrere zusätzliche Arten oder Aufforderungen, um die Vorrichtung aufzuwecken. Die zusätzlichen Arten oder Aufforderungen können beispielsweise ein Aktivieren einer vordefinierten Taste oder eines Berührungssensors (z. B. eines Berührungserfassungsfelds) auf der elektronische Vorrichtung 190 enthalten.
  • Bei einigen Implementierungen interagiert eine sprachaktivierte elektronische Vorrichtung 190 mit einer Verteilungsvorrichtung, einer Clientvorrichtung oder einem Serversystem einer Betriebsumgebung 100 gemäß einigen Implementierungen. Die sprachaktivierte elektronische Vorrichtung 190 ist konfiguriert, um Audioeingaben von einer Umgebung in der Nähe zu der sprachaktivierten elektronischen Vorrichtung 190 zu empfangen. Optional speichert die elektronische Vorrichtung 190 die Audioeingaben und verarbeitet wenigstens teilweise die Audioeingaben lokal. Optional überträgt die elektronische Vorrichtung 190 die empfangenen Audioeingaben oder die teilweise verarbeiteten Audioeingaben zu einem Sprachunterstützungsserver 112 über die Kommunikationsnetzwerke 110 zur weiteren Verarbeitung. Die Verteilungsvorrichtung ist konfiguriert, um Medieninhalt oder Internetinhalt von einem oder mehreren Inhaltshosts 114 zur Anzeige auf einer Aufgabevorrichtung zu erhalten, die mit der Verteilungsvorrichtung gekoppelt ist. Bei einigen Implementierungen sind die Verteilungsvorrichtung und die sprachaktivierte elektronische Vorrichtung 190 miteinander in einer Anwenderdomäne verbunden und, spezifischer, miteinander über ein Anwenderkonto in der Anwenderdomäne assoziiert. Information der Verteilungsvorrichtung und Information der elektronischen Vorrichtung 190 werden in der Vorrichtungsregistratur 118 in Assoziation mit dem Anwenderkonto gespeichert. Bei einigen Implementierungen gibt es eine Vorrichtungsregistratur für Verteilungsvorrichtungen und eine Registratur für sprachaktivierte elektronische Vorrichtungen 190. Bei einigen Implementierungen managt ein Cloud-Verteilungsdienstserver die Verteilungsvorrichtungsregistratur und managt der Sprachunterstützungsserver 112 die Registratur der sprachaktivierten elektronischen Vorrichtungen. Die Registratur der Verteilungsvorrichtungen kann sich auf Vorrichtungen in der Registratur der sprachaktivierten elektronischen Vorrichtungen beziehen, die in der Anwenderdomäne assoziiert sind, und umgekehrt.
  • Bei einigen Implementierungen sind eine oder mehrere der elektronischen Vorrichtungen 190 (und eine oder mehrere Verteilungsvorrichtungen) zum Sprachunterstützungsdienst über eine Clientvorrichtung (nicht gezeigt) bevollmächtigt. Bei einigen Implementierungen enthält die sprachaktivierte elektronische Vorrichtung 190 keinerlei Anzeigebildschirm und beruht darauf, dass die Clientvorrichtung eine Anwenderschnittstelle während eines Bevollmächtigungsprozesses liefert, und gleichermaßen für eine Verteilungsvorrichtung ebenso. Spezifisch ist die Clientvorrichtung mit einer Anwendung installiert, die ermöglicht, dass eine Anwenderschnittstelle ein Bevollmächtigen bzw. Kommissionieren einer neuen sprachaktivierten elektronischen Vorrichtung 190 ermöglicht, die in der Nähe zur Clientvorrichtung angeordnet ist. Ein Anwender kann eine Anfrage auf der Anwenderschnittstelle der Clientvorrichtung senden, um einen Bevollmächtigungsprozess für die neue elektronische Vorrichtung 190 zu initiieren, die bevollmächtigt werden muss. Nach einem Empfangen der Bevollmächtigungsanfrage richtet die Clientvorrichtung eine Kurzstrecken-Kommunikationsverbindung mit der neuen elektronischen Vorrichtung 190 ein, die kommissioniert bzw. bevollmächtigt werden muss. Optional wird die Kurzstrecken-Kommunikationsverbindung basierend auf einer Nahfeldkommunikation (NFC) eingerichtet, Bluetooth, Energiespar-Bluetooth (BLE = Bluetooth Low Energy) und ähnlichem. Die Clientvorrichtung vermittelt dann Daten für eine drahtlose Konfiguration, die mit einem drahtlosen lokalen Netz (WLAN) (z. B. dem lokalen Netz 104) assoziiert sind, zur neuen oder elektronischen Vorrichtung 190. Die Daten für eine drahtlose Konfiguration enthalten wenigstens einen WLAN-Sicherheitscode (d. h. ein Service Set Identifier-(SSID-)Passwort) und enthält optional einen SSID, eine Internetprotokoll-(IP-)Adresse, eine Proxy-Konfiguration und eine Gateway-Konfiguration. Nach einem Empfangen der Daten für eine drahtlose Konfiguration über die Kurzstrecken-Kommunikationsverbindung decodiert und wiedergewinnt die neue elektronische Vorrichtung 190 die Daten für eine drahtlose Konfiguration und verbindet mit dem WLAN basierend auf den Daten für eine drahtlose Konfiguration.
  • Bei einigen Implementierungen wird zusätzliche Anwenderdomäneninformation auf der Anwenderschnittstelle eingegeben, die auf der Clientvorrichtung angezeigt ist, und dazu verwendet, die neue elektronische Vorrichtung 190 mit einem Konto bei einer Anwenderdomäne zu verbinden. Optional wird die zusätzliche Anwenderdomäneninformation zur neuen elektronischen Vorrichtung 190 in Verbindung mit den Daten für drahtlose Kommunikation über die Kurzstrecken-Kommunikationsverbindung übermittelt. Optional wird die zusätzliche Anwenderdomäneninformation zur neuen elektronischen Vorrichtung 190 über das WLAN übermittelt, nachdem sich die neue Vorrichtung mit dem WLAN verbunden hat.
  • Wenn die elektronische Vorrichtung 190 einmal in die Anwenderdomäne kommissioniert worden ist, können andere Vorrichtungen und ihre assoziierten Aktivitäten über mehrere Steuerungspfade gesteuert werden. Gemäß einem Steuerungspfad wird eine auf der Clientvorrichtung installierte Anwendung dazu verwendet, die andere Vorrichtung und ihre assoziierten Aktivitäten zu steuern (z. B. Medienabspielaktivitäten). Alternativ wird gemäß einem anderen Steuerungspfad die elektronische Vorrichtung 190 dazu verwendet, eine augenfreie und handfreie Steuerung der anderen Vorrichtung und ihrer assoziierten Aktivitäten zu ermöglichen.
  • Sprachaktiviertes Abspielen von Medien auf einer Medienausgabevorrichtung
  • Bei einigen Implementierungen kann, nachdem die Verteilungsvorrichtung und die sprachaktivierte elektronische Vorrichtung 190 beide kommissioniert und mit einer gemeinsamen Anwenderdomäne verbunden sind, die sprachaktivierte elektronische Vorrichtung 190 als Sprachanwenderschnittstelle verwendet werden, um eine augenfreie und handfreie Steuerung eines Streamens von Medieninhalt zu einer Verteilungsvorrichtung zu ermöglichen, die keine Fernbedienung enthält, einer Clientvorrichtung oder einer anderen zweiten Bildschirmvorrichtung. Beispielsweise kann der Anwender Sprachbefehle geben, wie beispielsweise ”Spiele Lady Gaga an Lautsprechern im Wohnzimmer”. Ein Musikstück oder ein Videoclip von Lady Gaga wird zu einer Verteilungsvorrichtung gestreamt, die mit den ”Lautsprechern des Wohnzimmers” assoziiert ist. Die Clientvorrichtung ist nicht beteiligt und auch keinerlei Verteilungsvorrichtungsanwendung oder Medienabspielanwendung, die auf der Clientvorrichtung geladen ist.
  • Bei einigen Implementierungen verbindet ein Proxy-Dienst (z. B. ein Sprachunterstützungsdienst, ein Cloud-Verteilungsdienst) die sprachaktivierte elektronische Vorrichtung 190 mit der Verteilungsvorrichtung kommunikativ und führt ein Verteilen zur Verteilungsvorrichtung möglichst ohne Beteiligen von irgendwelchen Anwendungen auf der Clientvorrichtung durch. Spezifisch wird eine Sprachnachricht erfasst und durch eine elektronische Vorrichtung 190 aufgezeichnet, und die Sprachnachricht ist konfiguriert, um ein Abspielen von Medien auf einer Medienausgabevorrichtung anzufragen. Optional verarbeitet die elektronische Vorrichtung 190 die Sprachnachricht teilweise lokal. Optional überträgt die elektronische Vorrichtung 190 die Sprachnachricht oder die teilweise verarbeitete Sprachnachricht zu einem Sprachunterstützungsserver 112 über die Kommunikationsnetzwerke 110 zur weiteren Verarbeitung. Der Sprachunterstützungsserver 112 oder ein Cloud-Verteilungsdienstserver bestimmt, dass die Sprachnachricht eine erste Anfrage zum Abspielen von Medien enthält und dass die erste Anfrage zum Abspielen von Medien einen Anwendersprachbefehl enthält, um Medieninhalt auf einer Medienausgabevorrichtung abzuspielen, und eine Anwendersprachbestimmung der Medienausgabevorrichtung. Der Anwendersprachbefehl enthält weiterhin wenigstens Information einer ersten Anwendung zum Abspielen von Medien (z. B. YouTube und Netflix) und den Medieninhalt (z. B. Musik von Lady Gaga), der abgespielt werden muss.
  • Gemäß der Sprachbestimmung der Medienausgabevorrichtung identifiziert der Sprachunterstützungsserver 112 oder der Cloud-Verteilungsdienstserver in einer Vorrichtungsregistratur 118 eine Verteilungsvorrichtung, die in der Anwenderdomäne mit der elektronischen Vorrichtung 190 assoziiert ist und mit der Medienausgabevorrichtung gekoppelt ist. Die Verteilungsvorrichtung ist konfiguriert, um einige oder mehrere Anwendungen zum Abspielen von Medien zum Steuern der Medienausgabevorrichtung auszuführen, um Medieninhalt abzuspielen, der von einem oder mehreren Medieninhaltshosts 114 empfangen ist. Dann sendet der Cloud-Verteilungsdienstserver zur Verteilungsvorrichtung eine zweite Anfrage zum Abspielen von Medien einschließlich der Information der ersten Anwendung zum Abspielen von Medien und des Medieninhalts, der abgespielt werden muss. Auf ein Empfangen der durch den Cloud-Verteilungsdienstserver gesendeten Information hin führt die Verteilungsvorrichtung die erste Anwendung zum Abspielen von Medien aus und steuert die Medienausgabevorrichtung, den angefragten Medieninhalt abzuspielen.
  • Bei einigen Implementierungen enthält die Anwendersprachbestimmung der Medienausgabevorrichtung eine Beschreibung der Zielort-Medienausgabevorrichtung. Der Sprachunterstützungsserver 112 oder der Cloud-Verteilungsdienstserver identifiziert in der Vorrichtungsregistratur 118 die Zielort-Medienausgabevorrichtung unter einer Vielzahl von Medienausgabevorrichtungen gemäß der Beschreibung der Zielort-Medienausgabevorrichtung. Bei einigen Implementierungen enthält die Beschreibung der Zielort-Medienausgabevorrichtung wenigstens eine Marke (”Samsung TV”) oder einen Standort der Medienausgabevorrichtung (”mein TV im Wohnzimmer”).
  • Sprachaktivierter Medientransfer unter Medienausgabevorrichtungen
  • Bei einigen Implementierungen enthält die Betriebsumgebung 100 eine erste Verteilungsvorrichtung (nicht gezeigt) und eine erste Ausgabevorrichtung (nicht gezeigt), die mit der ersten Verteilungsvorrichtung gekoppelt ist. Die Betriebsumgebung 100 enthält auch eine zweite Verteilungsvorrichtung (nicht gezeigt) und eine zweite Ausgabevorrichtung (nicht gezeigt), die mit der zweiten Verteilungsvorrichtung gekoppelt ist. Die Verteilungsvorrichtungen sind optional an demselben Standort (z. B. dem Wohnzimmer) oder zwei unterschiedlichen Standorten (z. B. zwei Zimmern) in der Betriebsumgebung 100 angeordnet. Jede der Verteilungsvorrichtungen ist konfiguriert, um Medieninhalt oder Internetinhalt von Inhaltshosts 114 zur Anzeige auf der Ausgabevorrichtung zu erhalten, die mit der jeweiligen Verteilungsvorrichtung gekoppelt ist. Beide der ersten und der zweiten Verteilungsvorrichtung sind kommunikativ mit dem Sprachunterstützungsserver 112, optional einem Cloud-Verteilungsdienstserver, und den Inhaltshosts 114 gekoppelt.
  • Die Betriebsumgebung 100 enthält weiterhin eine oder mehrere sprachaktivierte elektronische Vorrichtungen 190, die kommunikativ mit dem Sprachunterstützungsserver 112 und optional dem Cloud-Verteilungsdienstserver gekoppelt sind. Bei einigen Implementierungen sind die sprachaktivierten elektronischen Vorrichtungen 190 unabhängig von den Verteilungsvorrichtungen und den Ausgabevorrichtungen angeordnet. Beispielsweise ist eine elektronische Vorrichtung 190 in einem Zimmer angeordnet, wo keine Verteilungsvorrichtung oder Ausgabevorrichtung angeordnet ist. Bei einigen Implementierungen ist eine erste elektronische Vorrichtung 190 in der Nähe zu der ersten Verteilungsvorrichtung und der ersten Ausgabevorrchtung angeordnet, z. B. sind die erste elektronische Vorrichtung 190, die erste Verteilungsvorrichtung und die erste Ausgabevorrichtung im selben Zimmer angeordnet. Optional ist eine zweite elektronische Vorrichtung 190 unabhängig von oder in der Nähe zu der zweiten Verteilungsvorrichtung und der zweiten Ausgabevorrichtung angeordnet.
  • Wenn Medieninhalt auf der ersten Ausgabevorrichtung abgespielt wird, kann ein Anwender einen Sprachbefehl zu irgendeiner der elektronischen Vorrichtungen 190 senden, um anzufragen, dass ein Abspielen des Medieninhalts zur zweiten Ausgabevorrichtung transferiert wird. Der Sprachbefehl enthält eine Medienabspieltransferanfrage. In einer Situation kann der Anwender den Sprachbefehl zu der elektronischen Vorrichtung 190 ausgeben, die in der Nähe zu der ersten Verteilungsvorrichtung angeordnet ist, bevor sich der Anwender zu einem Ziel-Standort bewegt. Alternativ dazu kann der Anwender in einer anderen Situation den Sprachbefehl zu der elektronischen Vorrichtung 190 ausgeben, die in der Nähe zu der zweiten Vorrichtung angeordnet ist, nachdem der Anwender den Ziel-Standort erreicht.
  • Der Sprachbefehl wird zum Sprachunterstützungsserver 112 übertragen. Der Sprachunterstützungsserver 112 sendet eine Medienanzeigeinformationsanfrage zur ersten Verteilungsvorrichtung, um momentane Medienabspielinformation des Medieninhalts abzufragen, der aktuell auf der mit der ersten Verteilungsvorrichtung gekoppelten ersten Ausgabevorrichtung abgespielt wird. Die erste Verteilungsvorrichtung bringt dann die angefragte momentane Abspielinformation einschließlich wenigstens Information einer ersten Medienabspielanwendung (z. B. YouTube) des Medieninhalts, der aktuell gespielt wird (z. B. ”Lady Gaga – National Anthem – Super Bowl 2016”) und einer temporären Position in Bezug auf ein Abspielen des Medieninhalts zurück zum Sprachunterstützungsserver 112. Die zweite Verteilungsvorrichtung empfängt dann eine Medienanzeigeanfrage, die die momentane Abspielinformation enthält, vom Sprachunterstützungsserver 112 und führt gemäß der momentanen Abspielinformation die erste Medienabspielanwendung aus, die die zweite Ausgabevorrichtung steuert, um den Medieninhalt vom temporären Standort abzuspielen.
  • Wenn beispielsweise eine Musikabspielliste auf der ersten Ausgabevorrichtung abgespielt wird, sagt der Anwender ”Spiele bei meinen Lautsprechern im Wohnzimmer”. Die erste Ausgabevorrichtung stoppt ein Abspielen des aktuell abgespielten Songs und der gestoppte Song wird wieder auf den Lautsprechern des Wohnzimmers aufgenommen. Wenn der Song beendet ist, fahren die Lautsprecher des Wohnzimmers damit fort, den nächsten Song in der Musikabspielliste abzuspielen, die zuvor auf der ersten Ausgabevorrichtung abgespielt ist. Als solches würde dann, wenn der Anwender sich in der Betriebsumgebung 100 bewegt, das Abspielen des Medieninhalts nahtlos dem Anwender folgen, während nur eine beschränkte Anwenderintervention beteiligt ist (d. h. Geben des Sprachbefehls).
  • Einzelne Vorrichtungen, die in der Betriebsumgebung beteiligt sind
  • Die 2A2B sind Blockdiagramme, die eine beispielhafte elektronische Vorrichtung 190 darstellen, die als eine Sprachschnittstelle angewendet wird, um Anwendersprachbefehle in einer Betriebsumgebung (z. B. der Betriebsumgebung 100) gemäß einigen Implementierungen zu sammeln. Die elektronische Vorrichtung 190 enthält typischerweise eine oder mehrere Verarbeitungseinheiten (CPUs) 502, eine oder mehrere Netzwerkschnittstellen 504, einen Speicher 506 und einen oder mehrere Kommunikationsbusse 508 zum Verbinden dieser Komponenten (was manchmal Chipgruppe genannt wird). Die elektronische Vorrichtung 190 enthält eine oder mehrere Eingabevorrichtungen 510, die eine Anwendereingabe ermöglichen, wie beispielsweise eine Taste 512, ein Berührungserfassungsfeld 514 und ein oder mehrere Mikrofone 516. Die elektronische Vorrichtung 190 enthält auch eine oder mehrere Ausgabevorrichtungen 518, einschließlich eines oder mehrerer Lautsprecher 520, optional eines Feldes von LEDs 522 und optional einer Anzeige 524. Bei einigen Implementierungen ist das Feld von LEDs 522 ein Feld von Vollfarb-LEDs. Bei einigen Implementierungen hat die elektronische Vorrichtung 190 in Abhängigkeit vom Typ der Vorrichtung entweder das Feld von LEDs 522 oder die Anzeige 524 oder beides. Bei einigen Implementierungen enthält die elektronische Vorrichtung 190 auch eine Standorterfassungsvorrichtung 526 (z. B. ein GPS-Modul) und einen oder mehrere Sensoren 528 (z. B. ein Beschleunigungsmesser, ein Gyroskop, einen Lichtsensor, etc.).
  • Der Speicher 506 enthält einen Direktzugriffsspeicher hoher Geschwindigkeit, wie beispielsweise DRAM, SRAM, DDR RAM oder andere Direktzugriffs-Festkörperspeichervorrichtungen; und enthält optional einen nichtflüchtigen Speicher, wie beispielsweise eine oder mehrere Magnetplattenspeichervorrichtungen, eine oder mehrere Speichervorrichtungen aus einer optischen Platte, eine oder mehrere Flash-Speichervorrichtungen oder eine oder mehrere andere nichtflüchtige Festkörperspeichervorrichtungen. Der Speicher 506 enthält optional eine oder mehrere Speichervorrichtungen, die entfernt von einer oder mehreren Verarbeitungseinheiten 502 angeordnet sind. Der Speicher 506, oder alternativ der nichtflüchtige Speicher innerhalb des Speichers 506, enthält ein nichtflüchtiges computerlesbares Speichermedium. Bei einigen Implementierungen speichert der Speicher 506 oder das nichtflüchtige computerlesbare Speichermedium des Speichers 506 die folgenden Programme, Module und Datenstrukturen oder eine Untergruppe oder eine Supergruppe davon:
    • • Betriebssystem 532, das Prozeduren zum Handhaben verschiedener Grundsystemdienste und zum Durchführen von hardwareabhängigen Aufgaben enthält;
    • • Netzwerkkommunikationsmodul 534 zum Verbinden der elektronischen Vorrichtung 190 mit anderen Vorrichtungen (z. B. dem Serversystem 140, einer oder mehreren Verteilungsvorrichtungen, einer oder mehreren Clientvorrichtungen, einer oder mehreren smarten Heimvorrichtungen und anderen elektronischen Vorrichtung(en) 190) über eine oder mehrere Netzwerkschnittstellen 504 (verdrahtet oder drahtlos) und einem oder mehreren Netzwerken 110, wie beispielsweise dem Internet, anderen Weitverkehrsnetzen, lokalen Netzen (z. B. dem lokalen Netz 104), Stadtgebietsnetzen, und so weiter;
    • • Eingabe/Ausgabe-Steuermodul 536 zum Empfangen von Eingaben über eine oder mehrere Eingabevorrichtungen und zum Ermöglichen einer Präsentation von Information bei der elektronischen Vorrichtung 190 über eine oder mehrere Ausgabevorrichtungen 518, einschließlich: – Sprachverarbeitungsmodul 538 zum Verarbeiten von Audioeingaben oder Sprachnachrichten, die in einer Umgebung gesammelt sind, die die elektronische Vorrichtung 190 umgibt, oder zum Vorbereiten der gesammelten Audioeingaben oder Sprachnachrichten zum Verarbeiten bei einem Sprachunterstützungsserver 112; – LED-Steuermodul 540 zum Erzeugen visueller Muster auf den LEDs 522 gemäß Vorrichtungszuständen der elektronischen Vorrichtung 190; und – Berührungserfassungsmodul 542 zum Erfassen von Berührungsereignissen auf einer obersten Oberfläche (z. B. auf einem Berührungserfassungsfeld 514) der elektronischen Vorrichtung 190;
    • • Daten der sprachaktivierten Vorrichtung 544 zum Speichern von wenigstens Daten, die mit der elektronischen Vorrichtung 190 assoziiert sind, einschließlich: – Sprachvorrichtungseinstellungen 546 zum Speichern von Information, die mit der elektronischen Vorrichtung 190 selbst assoziiert ist, einschließlich gemeinsamer Vorrichtungseinstellungen (z. B. Servicestufe, Vorrichtungsmodell, Speicherkapazität, Verarbeitungskapazitäten, Kommunikationskapazitäten, etc.), Information von einem oder mehreren Anwenderkonten in einer Anwenderdomäne, Einstellungen in Bezug auf Beschränkungen, wenn nicht registrierte Anwender behandelt werden und Anzeigespezifikationen, die mit einem oder mehreren visuellen Mustern assoziiert sind, die durch die LEDs 522 angezeigt werden; – Sprachsteuerungsdaten 548 zum Speichern von Audiosignalen, Sprachnachrichten, Antwortnachrichten und anderen Daten in Bezug auf Sprachschnittstellenfunktionen der elektronischen Vorrichtung; – Sprachmodelldaten 550 zum Speichern von Sprachmodellen oder Sprach-Fingerabdrücken entsprechend Anwendern in der Anwenderdomäne, die mit der elektronischen Vorrichtung 190 assoziiert sind;
    • • Vorrichtungsführungsmodul 552 zum Bestimmen eines Führers unter mehreren elektronischen Vorrichtungen 190 in Antwort auf Anwenderspracheingaben;
    • • Sprachmodell-Trainingsmodul 554 zum Trainieren und Erzeugen von Sprachmodellen oder Sprach-Fingerabdrücken 550, die verwendet werden können, um Anwender in der Anwenderdomäne zu identifizieren und eindeutig zu machen, die mit der elektronischen Vorrichtung 190 assoziiert sind;
    • • Antwortmodul 556 zum Durchführen von Anweisungen, die in Sprachanfrageantworten enthalten sind, die durch den Sprachunterstützungsserver 112 erzeugt sind, und bei einigen Implementierungen zum Erzeugen von Antworten auf bestimmte Spracheingaben; und
    • • Rauschmodul 558 zum Bestimmen von Rauschpegeln um die elektronische Vorrichtung 190 und zum Liefern von Anzeigen von interferierenden Rauschpegeln und Hinweisen, alternative Wege zum Aufwecken der elektronischen Vorrichtung zu verwenden.
  • Bei einigen Implementierungen enthält das Sprachverarbeitungsmodul 538 die folgenden Module:
    • • Anwenderidentifikationsmodul 560 zum Identifizieren und Eindeutigmachen von Anwendern, die Spracheingaben zu der elektronischen Vorrichtung 190 liefern;
    • • Hotword-Erkennungsmodul 562 zum Bestimmen, ob Spracheingaben ein Hotword bzw. heißes Wort zum Aufwecken der elektronischen Vorrichtung 190 enthalten, und zum Erkennen eines solchen in den Spracheingaben;
    • • Anfrageerkennungsmodul 564 zum Bestimmen einer Anwenderanfrage, die in einer Spracheingabe enthalten ist; und
    • • Erkennungsqualitätsmodul 566 zum Bestimmen eines Maßes der Qualität (z. B. einen Wert) einer Erkennung von Hotwords und/oder Anfragen in Spracheingaben.
  • Bei einigen Implementierungen enthält das Rauschmodul 558 die folgenden Module:
    • • Erkennungsanalysemodul 568 zum Analysieren, wie unterschiedliche Pegel von Rauschen die Operationen des Sprachverarbeitungsmoduls 538 beeinflussen (z. B. insbesondere das Hotword-Erkennungsmodul 562 und/oder das Anfrageerkennungsmodul 564) in Bezug auf die bestimmte elektronische Vorrichtung 190;
    • • Anwendervolumenschwellenmodul 568 zum Bestimmen für einen gegebenen Abstand von der elektronischen Vorrichtung 190 von höchsten komfortablen Lautstärkepegeln, bei welchen Anwender Spracheingaben zu der elektronischen Vorrichtung 190 äußern werden;
    • • Rauschbestimmungsmodul 572 zum Bestimmen eines Rauschpegels und eines Rauschprofils um die elektronische Vorrichtung 190;
    • • Rauschprofilmodul 574 zum Trainieren und Erzeugen von Rauschprofilen von Rauschen, die mit einer Erkennung von Hotwords und/oder Anfragen in Spracheingaben interferieren; und
    • • Rauschprofilspeicher 576 zum Speichern von Rauschprofilen, die derart bestimmt worden sind, dass sie interferieren.
  • Jedes der oben identifizierten Elemente kann in einer oder mehreren der zuvor angegebenen Speichervorrichtungen gespeichert werden und entspricht einer Gruppe von Anweisungen zum Durchführen einer oben beschriebenen Funktion. Die oben identifizierten Module oder Programme (d. h. Gruppen von Anweisungen) müssen nicht als separate Softwareprogramme, Prozeduren, Module oder Datenstrukturen implementiert sein, und somit können verschiedene Untergruppen von diesen Modulen bei verschiedenen Implementierungen kombiniert oder auf andere Weise neu angeordnet werden. Bei einigen Implementierungen speichert der Speicher 506 optional eine Untergruppe der Module und Datenstrukturen, die oben identifiziert sind. Weiterhin speichert der Speicher 506 optional zusätzliche Module und Datenstrukturen, die oben nicht beschrieben sind. Bei einigen Implementierungen kann eine Untergruppe der Programme, Module und/oder Daten, die im Speicher 506 gespeichert sind, auf dem Serversystem 140/dem Sprachunterstützungsserver 112 gespeichert und/oder durch dieses ausgeführt werden.
  • Bei einigen Implementierungen sind ein oder mehrere der Module im Speicher 506, die oben beschrieben sind, Teil einer Sprachverarbeitungsbibliothek von Modulen. Die Sprachverarbeitungsbibliothek kann auf einer weiten Vielfalt von Vorrichtungen implementiert und eingebettet sein. Ein Beispiel einer Sprachverarbeitungsbibliothek ist in der vorläufigen US-Patentanmeldung Nr. 62/334,434, mit dem Titel ”Implementations for Voice Assistant an Devices”, eingereicht am 10. Mai 2016, beschrieben, die hierin in ihrer Gesamtheit durch Bezugnahme enthalten ist.
  • 3 ist ein Blockdiagramm, das einen beispielhaften Server im Serversystem 140 einer Betriebsumgebung (z. B. der Betriebsumgebung 100) gemäß einigen Implementierungen darstellt. Ein beispielhafter Server ist einer von einem Sprachunterstützungsserver 112. Der Server 140 enthält typischerweise eine oder mehrere Verarbeitungseinheiten (CPUs) 702, eine oder mehrere Netzwerkschnittstellen 704, einen Speicher 706 und einen oder mehrere Kommunikationsbusse 708 zum Verbinden dieser Komponenten (was manchmal eine Chipgruppe genannt wird). Der Server 140 könnte eine oder mehrere Eingabevorrichtungen 710 enthalten, die eine Anwendereingabe ermöglichen, wie beispielsweise eine Tastatur, eine Maus, eine Sprachbefehlseingabeeinheit oder ein Mikrofon, eine Berührungsbildschirmanzeige, ein berührungsempfindliches Eingabefeld, eine Gestenerfassungskamera oder andere Eingabetasten oder Steuerungen. Weiterhin könnte der Server 140 ein Mikrofon und eine Spracherkennung oder eine Kamera und eine Gestenerkennung verwenden, um die Tastatur zu ergänzen oder zu ersetzen. Bei einigen Implementierungen enthält der Server eine oder mehrere Kameras, Scanner oder Fotosensoreinheiten zum Erfassen von Bildern, wie beispielsweise von grafischen seriellen Codes, die auf den elektronischen Vorrichtungen gedruckt sind. Der Server 140 könnte auch eine oder mehrere Ausgabevorrichtungen 712 enthalten, die eine Präsentation von Anwenderschnittstellen und Anzeigeinhalt ermöglichen, einschließlich von einem oder mehreren Lautsprechern und/oder von einer oder mehreren visuellen Anzeigen.
  • Der Speicher 706 enthält einen Direktzugriffsspeicher hoher Geschwindigkeit, wie beispielsweise DRAM, SRAM, DDR RAM und andere Direktzugriffs-Festkörperspeichervorrichtungen; und enthält optional einen nichtflüchtigen Speicher, wie beispielsweise eine oder mehrere Magnetplattenspeichervorrichtungen, eine oder mehrere optische Speicherplattenvorrichtungen, eine oder mehrere Flash-Speichervorrichtungen oder eine oder mehrere nichtflüchtige Festkörperspeichervorrichtungen. Der Speicher 706 enthält optional eine oder mehrere Speichervorrichtungen, die entfernt von einer oder mehreren Verarbeitungseinheiten 702 angeordnet sind. Der Speicher 706, oder alternativ der nichtflüchtige Speicher innerhalb des Speichers 706, enthält ein nichtflüchtiges computerlesbares Speichermedium. Bei einigen Implementierungen speichert der Speicher 706, oder das nichtflüchtige computerlesbare Speichermedium des Speichers 706, die folgenden Programme, Module und Datenstrukturen oder eine Untergruppe oder eine Supergruppe davon:
    • • Betriebssystem 706, das Prozeduren zum Handhaben verschiedener Grundsystemdienste und zum Durchführen von hardwareabhängigen Aufgaben enthält;
    • • Netzwerkkommunikationsmodul 718 zum Verbinden des Serversystems 140 mit anderen Vorrichtungen (z. B. verschiedenen Servern im Serversystem 140, Clientvorrichtungen, Verteilungsvorrichtungen, elektronischen Vorrichtungen 190 und smarten Heimvorrichtungen) über ein oder mehrere Netzwerkschnittstellen 704 (verdrahtet oder drahtlos) und einem oder mehreren Netzwerken 110, wie beispielsweise dem Internet, anderen Weitverkehrsnetzen, lokalen Netzen, Stadtgebietsnetzen und so weiter;
    • • Anwenderschnittstellenmodul 720 zum Ermöglichen einer Präsentation von Information (z. B. eine grafische Anwenderschnittstelle zum Präsentieren von Anwendung(en) 826830, Widgets, Webseiten und Webseiten davon und/oder Spiele, Audio- und/oder Videoinhalt, Text, etc.) bei einer Clientvorrichtung;
    • • Befehlsausführungsmodul 721 zur Ausführung auf der Serverseite (z. B. von Spielen, Anwendungen für ein soziales Netz, smarten Heimanwendungen und/oder andere Web- oder Nichtweb-basierte Anwendungen zum Steuern einer Clientvorrichtung, einer Verteilungsvorrichtung, einer elektronischen Vorrichtung 190 und von smarten Heimvorrichtungen und zum Durchschauen von Daten, die durch solche Vorrichtungen erfasst sind), einschließlich von einem oder mehreren von: – eine Verteilungsvorrichtungsanwendung 722, die ausgeführt wird, um Serverseitenfunktionalitäten für eine Vorrichtung zur Beschaffung bzw. Versorgung, eine Vorrichtungssteuerung und ein Anwenderkontomanagement, das mit Verteilungsvorrichtung(en) assoziiert ist, zu liefern; – eine oder mehrere Medienabspielanwendungen 724, die ausgeführt werden, um Serverseitenfunktionalitäten für eine Medienanzeige und ein Anwenderkontomanagement, das mit entsprechenden Medienquellen assoziiert ist, zu liefern; – eine oder mehrere smarten Heimvorrichtungsanwendungen 726, die ausgeführt werden, um Serverseitenfunktionalitäten für eine Vorrichtungsbeschaffung, eine Vorrichtungssteuerung, eine Datenverarbeitung und eine Datendurchsicht von entsprechenden smarten Heimvorrichtungen zu liefern; und – eine Sprachunterstützungsanwendung 728, die ausgeführt wird, um eine Sprachverarbeitung einer Sprachnachricht zu arrangieren, die von der elektronischen Vorrichtung 190 empfangen ist, oder um die Sprachnachricht direkt zu verarbeiten, um einen Anwendersprachbefehl zu extrahieren, und einen oder mehrere Parameter für den Anwendersprachbefehl (z. B. eine Bestimmung einer Verteilungsvorrichtung oder einer anderen elektronischen Vorrichtung 190); und
    • • Serversystemdaten 730, die wenigstens Daten speichern, die mit einer automatischen Steuerung einer Medienanzeige assoziiert sind (z. B. in einem automatischen Medienausgabemodus und einem Folgemodus), einschließlich von einem oder mehreren von: – Clientvorrichtungseinstellungen 732 zum Speichern von Information, die mit einer oder mehreren Clientvorrichtungen assoziiert ist, einschließlich allgemeiner bzw. gemeinsamer Vorrichtungseinstellungen (z. B. Serviceebene, Vorrichtungsmodell, Speicherkapazität, Verarbeitungsfähigkeiten, Kommunikationsfähigkeiten, etc.) und Information für eine automatische Medienanzeigesteuerung; – Verteilungsvorrichtungseinstellungen 734 zum Speichern von Information, die mit Anwenderkonten der Verteilungsvorrichtungsanwendung 722 assoziiert ist, einschließlich von einem oder mehreren von Kontozugriffsinformation, Information für Vorrichtungseinstellungen (z. B. Serviceebene, Vorrichtungsmodell, Speicherkapazität, Verarbeitungsfähigkeiten, Kommunikationsfähigkeiten, etc.), und Information zur automatischen Medienanzeigesteuerung; – Medienabspielgeräteanwendungseinstellungen 736 zum Speichern von Information, die mit Anwenderkonten von einer oder mehreren Medienabspielgeräteanwendungen 724 assoziiert ist, einschließlich von einem oder mehreren von Kontozugriffsinformation, Anwenderpräferenzen von Medieninhaltstypen, Übersichtsvorgeschichtendaten und Information zur automatischen Medienanzeigesteuerung; – Smart-Heimvorrichtungseinstellungen 738 zum Speichern von Information, die mit Anwenderkonten der smarten Heimanwendungen 726 assoziiert ist, einschließlich von einem oder mehreren von Kontozugriffsinformation, Information für eine oder mehrere Smart-Heimvorrichtungen (z. B. Serviceebene, Vorrichtungsmodell, Speicherkapazität, Verarbeitungsfähigkeiten, Kommunikationsfähigkeiten, etc.); – Sprachunterstützungsdaten 740 zum Speichern von Information, die mit Anwenderkonten der Sprachunterstützungsanwendung 728 assoziiert ist, einschließlich von einem oder mehreren von Kontozugriffsinformation, Information für eine oder mehrere elektronische Vorrichtungen 190 (z. B. Serviceebene, Vorrichtungsmodell, Speicherkapazität, Verarbeitungsfähigkeiten, Kommunikationsfähigkeiten, etc.); – Anwenderdaten 742 zum Speichern von Information, die mit Anwendern in der Anwenderdomäne assoziiert ist, einschließlich Teilnahmen von Anwendern (z. B. Musikstreamingdienstteilnahme, Videostreamingdienstteilnahmen, Newsletter-Teilnahmen), Anwendervorrichtungen (z. B. Vorrichtungen, die in der Vorrichtungsregistratur 118 registriert sind, die mit jeweiligen Anwendern assoziiert ist), Anwenderkonten (z. B. Email-Konten von Anwendern, Kalenderkonten, Finanzkonten), und andere Anwenderdaten; und – Anwendersprachprofile 744 zum Speichern von Sprachprofilen der Anwender in der Anwenderdomäne, einschließlich beispielsweise von Sprachmodellen oder Sprach-Fingerabdrücken der Anwender und komfortable Volumenpegelschwellen der Anwender.
    • • Vorrichtungsregistrierungsmodul 750 zum Managen der Vorrichtungsregistratur 118, die mit dem Sprachunterstützungsserver 112 gekoppelt ist;
    • • Vorrichtungsführungsmoderatormodul 780 zum Moderieren von Vorrichtungsführungsbestimmungen zwischen den elektronischen Vorrichtungen 190 in der Betriebsumgebung;
    • • Rauschmodul 790 zum Bestimmen von Rauschpegeln um die elektronische Vorrichtung 190; und
    • • Sprachverarbeitungsmodul 7100 zum Verarbeiten von Audioeingaben oder Sprachnachrichten, die in einer Umgebung gesammelt sind, die die elektronische Vorrichtung 190 umgibt.
  • Bei einigen Implementierungen ist der Sprachunterstützungsserver 112 primär verantwortlich für ein Verarbeiten von Spracheingaben und für eine Rauschverringerung, und somit sind ein oder mehrere von den Programmen, Modulen und Datenstrukturen in dem oben beschriebenen Speicher 506 in Bezug auf die 2A2B in jeweiligen Modulen im Speicher 706 enthalten (z. B. die Programme, Module und Datenstrukturen, die bei dem Sprachverarbeitungsmodul 538 enthalten sind, sind in dem Sprachverarbeitungsmodul 7100 enthalten, und die Programme, Module und Datenstrukturen, die bei dem Rauschmodul 558 enthalten sind, sind im Rauschmodul 790 enthalten). Die elektronische Vorrichtung 190 überträgt entweder erfasste Spracheingaben zum Sprachunterstützungsserver 112 zur Verarbeitung oder vorverarbeitet zuerst die Spracheingaben und überträgt die vorverarbeiteten Spracheingaben zum Sprachunterstützungsserver 112 zur Verarbeitung. Bei einigen Implementierungen haben der Sprachunterstützungsserver 112 und die elektronische Vorrichtung 190 einige gemeinsam genutzte und einige aufgeteilte Verantwortlichkeiten in Bezug auf eine Verarbeitung von Spracheingaben und eine Rauschverringerung, und die Programme, Module und Datenstrukturen, die in den 2A2B gezeigt sind, können in beiden des Sprachunterstützungsservers 112 und der elektronischen Vorrichtung 190 enthalten oder unter diesen aufgeteilt sein. Andere Programme, Module und Datenstrukturen, die in den 2A2B gezeigt sind (z. B. Sprachmodelldaten 550, Sprachmodell-Trainingsmodul 554) oder Analogien davon können auch im Sprachunterstützungsserver 112 enthalten sein.
  • Jedes der oben identifizierten Elemente kann in einer oder mehreren der zuvor angegebenen Speichervorrichtungen gespeichert sein und entspricht einer Gruppe von Anweisungen zum Durchführen einer oben beschriebenen Funktion. Die oben identifizierten Module oder Programme (d. h. Gruppen von Anweisungen) müssen nicht als separate Softwareprogramme, Prozeduren, Module oder Datenstrukturen implementiert sein, und somit können bei verschiedenen Implementierungen verschiedene Untergruppen dieser Module kombiniert oder auf andere Weise neu angeordnet sein. Bei einigen Implementierungen speichert der Speicher 706 optional eine Untergruppe der Module und Datenstrukturen, die oben identifiziert sind. Weiterhin speichert der Speicher 706 optional zusätzliche Module und Datenstrukturen, die oben nicht beschrieben sind.
  • BEISPIELHAFTE VORRICHTUNGSFÜHRUNGSVERHANDLUNG
  • Die 4A4B stellen ein Beispiel einer Vorrichtungsführungsverhandlung zwischen mehreren elektronischen Vorrichtungen (z. B. den elektronischen Vorrichtungen 190) gemäß einigen Implementierungen dar. In einer Betriebsumgebung mit mehreren elektronischen Vorrichtungen 190 (z. B. der Betriebsumgebung 100) erfassen und empfangen dann, wenn ein Anwender in der Umgebung eine Spracheingabe durchführt, eine oder mehrere der mehreren elektronischen Vorrichtungen 190 die Spracheingabe. Die elektronischen Vorrichtungen 190 bestimmen einen Führer unter sich selbst, um auf die Spracheingabe eines Anwenders zu antworten und um weitere Spracheingaben vom Anwender zu erfassen.
  • 4A zeigt drei sprachaktivierte elektronische Vorrichtungen 1002-1 bis 1002-3 (z. B. elektronische Vorrichtungen 190) in einer Betriebsumgebung (z. B. Betriebsumgebung 100). Sie können alle in demselben Raum wie ein Anwender (nicht gezeigt) sein, z. B. in demselben Zimmer. Der Anwender führt eine Spracheingabe (z. B. eine Äußerung) (nicht gezeigt) durch und die drei elektronischen Vorrichtungen 1002-1 bis 1002-3 erfassen und erfassen eine Probe der Spracheingabe bei variierenden Ausmaßen oder Pegeln an Qualität. Die Qualität einer erfassten Probe der Spracheingabe bei einer elektronischen Vorrichtung kann durch einen oder mehrere Faktoren beeinflusst werden, einschließlich, aber nicht darauf beschränkt, eines Umgebungsrauschens, Fähigkeiten der Vorrichtung, eines Abstands und einer Position der Vorrichtung relativ zum Anwender, einer Position der Vorrichtung innerhalb des Raums, und so weiter.
  • Bei einigen Implementierungen bestimmt jede der elektronischen Vorrichtungen einen Maß an Qualität der jeweiligen Probe der durch die elektronische Vorrichtung erfassten Spracheingabe. Das Qualitätsmaß kann als ein Wertung oder irgendein anderer Wert ausgedrückt werden. Beispielsweise hat in 4A jede der elektronischen Vorrichtungen 1002 eine jeweilige Probe einer Spracheingabe eines Anwenders erfasst und hat eine Punktzahl bzw. Wertung für seine jeweilige Probe bestimmt; die Probe bei der elektronischen Vorrichtung 1002-1 ist mit 0,98 (auf einer Skala von 0 bis 1, wobei 1 der höchsten Qualität entspricht) bewertet, die Probe bei der elektronischen Vorrichtung 1002-2 ist mit 0,37 bewertet und die Probe bei der elektronischen Vorrichtung 1002-3 ist mit 0,61 bewertet. Bei einigen Implementierungen bestimmt das Erkennungsqualitätsmodul 566 (2B) bei der elektronischen Vorrichtung 1002 das Qualitätsmaß der jeweiligen erfassten Probe. Bei einigen Implementierungen enthalten Kriterien zum Auswerten der Qualität einer Sprachprobe beispielsweise eine Lautheit oder eine Amplitude der Probe, ein Vorhandensein oder Nichtvorhandensein von Rauschen (z. B. Übersprechen, Gezische) und einen entsprechenden Pegel, ein Vorhandensein oder Nichtvorhandensein einer Verzerrung (z. B. Echo) und einen entsprechenden Pegel, ein Frequenzprofil der Probe, und so weiter.
  • Die elektronischen Vorrichtungen 1002 kommunizieren ihre Qualitätswertungen miteinander. Somit empfängt beispielsweise die elektronische Vorrichtung 1002-1 die Qualitätswertungen von den elektronischen Vorrichtungen 1002-2 und 1002-3. Die elektronische Vorrichtung 1002-2 empfängt die Qualitätswertungen von den elektronischen Vorrichtungen 1002-1 und 1002-3. Die elektronische Vorrichtung 1002-3 empfängt die Qualitätswertungen von den elektronischen Vorrichtungen 1002-1 und 1002-2. Wenn alle der elektronischen Vorrichtungen 1002 in demselben lokalen Netz (z. B. dem lokalen Netz 104, 1) sind, tauschen die elektronischen Vorrichtungen 1002 Wertungen durch das lokale Netz aus. Beispielsweise kann eine elektronische Vorrichtung 1002 ihre Qualitätswertung zu den anderen elektronischen Vorrichtungen 1002 durch Senden von Multicast-Nachrichten innerhalb des lokalen Netzes senden. Wenn wenigstens eine der elektronischen Vorrichtungen 1002 nicht im lokalen Netz ist, können Wertungen zum Serversystem 140 gesendet werden, und das Vorrichtungsführungsmoderatormodul 780 des Sprachunterstützungsservers 112 verteilt die Wertungen auf die elektronischen Vorrichtungen 1002. Alternativ bestimmt das Vorrichtungsführungsmoderatormodul 780, welche der Vorrichtungen der Führer sein soll, basierend auf den empfangenen Wertungen, und sendet das Ergebnis der Bestimmung zu den Vorrichtungen. Bei einigen Implementierungen entdecken die elektronischen Vorrichtungen 1002 einander und ihre Standorte durch den Sprachunterstützungsserver 112 und die Vorrichtungsregistratur 118 (z. B. prüft eine Vorrichtung 1002 periodisch mit dem Sprachunterstützungsserver 112 und wird über andere Vorrichtungen informiert, die mit demselben Anwenderkonto assoziiert sind, basierend auf Information in der Vorrichtungsregistratur 118).
  • Bei einigen Implementierungen wird, wenn genau eine der mehreren elektronischen Vorrichtungen 1002 eine Probe der Spracheingabe erfasste (z. B. die anderen elektronischen Vorrichtungen 1002 waren zu weit weg von dem Anwender, um die Spracheingabe zu erfassen), die Vorrichtung, die die Probe der Spracheingabe erfasste, zum Führer bestimmt. Bei einigen Implementierungen ist, wenn eine elektronische Vorrichtung 1002 fehlschlug, eine Probe der Spracheingabe zu erfassen (z. B. die Vorrichtung zu weit weg von dem Anwender war, um die Spracheingabe zu erfassen), die Qualitätswertung für diese Vorrichtung für die Spracheingabe 0,00 oder ein Null-Wert; eine Vorrichtung mit ”0,00” oder einer Null-Wertung wird von einem Wettbewerb eliminiert, der Führer zu sein.
  • Wenn eine elektronische Vorrichtung 1002 die Wertungen von den anderen elektronischen Vorrichtungen 1002 empfängt, vergleicht die elektronische Vorrichtung ihre Qualitätswertung mit den Wertungen von den anderen Vorrichtungen. Wenn ihre Wertung nicht der beste (z. B. die höchste) unter den Wertungen ist, verzichtet die elektronische Vorrichtung auf ein Ausgeben von Antworten (z. B. Antworten, die durch das Serversystem 140 erzeugt sind), auf die Spracheingabe (z. B. durch Herunterfahren oder ”Ausschalten” des Lautsprechers 520). Wenn ihre Wertung die beste unter den Wertungen ist, gibt die elektronische Vorrichtung Antworten auf die Spracheingabe und nachfolgende Spracheingaben aus; diese Vorrichtung wird als der ”Führer” bestimmt. Bei einigen Implementierungen fährt der Führer auch damit fort, nachfolgende Spracheingaben vom Anwender zu erfassen und zu verarbeiten oder vorzuverarbeiten (gleichgültig, ob er der Führer ist, der die Spracheingaben verarbeitet und der die Antworten erzeugt, der Führer, der die Spracheingaben zur Übertragung zum Sprachunterstützungsserver 112 vorverarbeitet, der die Antworten erzeugt, oder der Führer, der einfach die Spracheingaben zum Sprachunterstützungsserver 112 überträgt, der die Antwort erzeugt), und die Nicht-Führer verzichten auf ein Empfangen, Erfassen und Verarbeiten nachfolgender Spracheingaben vom Anwender.
  • Bei einigen Implementierungen wird die Führerbestimmung in Antwort auf eine Spracheingabe eines Anwenders zum Aufwecken der Vorrichtung durchgeführt (z. B. eine Spracheingabe, die das Hotword bzw. heiße Wort enthält). Bei einigen Implementierungen kann die Führerbestimmung in Antwort auf jede Spracheingabe vom Anwender oder in Intervallen einer vordefinierten Anzahl von Spracheingaben vom Anwender durchgeführt werden (z. B. bei jeder 5-ten Spracheingabe vom Anwender). Auf diese Weise kann die Führungsbestimmung aktualisiert werden, um sich ändernde Bedingungen zu berücksichtigen (z. B. der Anwender sich herumbewegt, der Rauschpegel um die Vorrichtungen sich ändert, etc.).
  • Bei einigen Implementierungen kann die Führerbestimmung basierend auf Qualitätswertungen basierend auf zusätzlichen Kriterien außer Kraft gesetzt werden. Das bedeutet, dass eine Vorrichtung bestimmt werden kann, der Führer zu sein, selbst wenn sie sonst, basierend lediglich auf den Qualitätswertungen, nicht als der Führer bestimmt würde. Die zusätzlichen Kriterien können beispielsweise einen Typ einer Anfrage oder eines Befehls in der Spracheingabe und einen Zustand der Vorrichtung enthalten. Wenn beispielsweise die Spracheingabe eine Anfrage enthält, ein Abspielen eines Videos zu spielen oder zu stoppen, dann ist die Anfrage von besonderer Relevanz für eine elektronische Vorrichtung 1002, die Videos abspielen kann (z. B. ein Smart-TV, eine Verteilungsvorrichtung) und ist nicht besonders relevant für ein elektronische Vorrichtung 1002, die eine Nur-Audio-Vorrichtung ist (z. B. ein Klangsystem, ein portierbarer Lautsprecher). Wenn die Anfrage von besonderer Relevanz für eine elektronische Vorrichtung 1002 ist, dann kann diese elektronische Vorrichtung 1002 selbst dann als der Führer bestimmt werden, wenn die Qualitätswertung für diese Vorrichtung nicht der höchste ist. Bei einigen Implementierungen wird, wenn die Anfrage von besonderer Relevanz für mehrere elektronische Vorrichtungen im Raum ist, diejenige mit der besten Qualitätswertung unter den Vorrichtungen als der Führer bestimmt, für welche die Anfrage besondere Relevanz hat. Als ein weiteres Beispiel ist, wenn der Befehl in der Spracheingabe ein Befehl ist, einen Vorrichtungszustand zu ändern (z. B. ”Bildschirm aus”), dann eine Vorrichtung in einem Zustand, auf welche der Befehl anwendbar ist (z. B. ein Smart-TV, dessen Bildschirm gegenwärtig eingeschaltet ist), und kann als Führer bestimmt werden, trotz einer niedrigeren Qualitätswertung, und eine Vorrichtung in einem Zustand, auf welchen der Befehl nicht anwendbar ist (z. B. ein Smart-TV, dessen Bildschirm bereits ausgeschaltet ist) wird in Bezug auf eine Führung übergangen. Weiterhin wird, wenn die Anfrage/der Befehl nicht von besonderer Relevanz für irgendeine der Vorrichtungen 1002 ist (z. B. die Vorrichtungen 1002 sind nur Audio-Sprachschnittstellenvorrichtungen, die mit einer Nichtsprachschnittstellen-Verteilungsvorrichtung durch den Sprachschnittstellenserver 112 kommunizieren können, und der Befehl ist eine Anfrage, ein Video über die Verteilungsvorrichtung abzuspielen), die Führungsbestimmung basierend auf Qualitätswertungen bestimmt, wie es oben beschrieben ist. Bei einigen Implementierungen können mehrere Führungsbestimmungskriterien (z. B. Qualitätswertungen, Relevanz eines Befehls und Zustand der Vorrichtung, wie es oben beschrieben ist) als eine Mehrfachschritt-Führungsbestimmung implementiert sein (z. B. Bestimmen einer Relevanz des Befehls und des Vorrichtungszustands, um Führungskandidaten einzuengen, dann Bestimmen eines Führers basierend auf Qualitätswertungen; ein Bestimmen einer Vorrichtung mit höchster Wertung, dann Prüfen, ob Befehlsrelevanz- oder Vorrichtungszustandskriterien für die anderen Vorrichtungen gelten) oder als eine gewichtete Bestimmung (z. B. jedes Kriterium wird berücksichtigt und in einer gewichteten Wertung gewichtet).
  • 4B stellt ein Ergebnis der Vorrichtungsführungsverhandlung unter den elektronischen Vorrichtungen 1002 in 4A dar. Die elektronische Vorrichtung 1002-1 bestimmt, dass ihre Qualitätswertung die beste unter den drei elektronischen Vorrichtungen 1002 ist, und sie nimmt eine Führung zum Ausgeben von Antworten zum Anwender an. Die elektronischen Vorrichtungen 1002-2 und 1002-3 bestimmen, dass ihre Qualitätswertungen nicht die besten unter den drei elektronischen Vorrichtungen 1002 sind, und fahren ihre Lautsprecher 520 herunter und verzichten auf ein Ausgeben von Antworten zum Anwender.
  • Bei einigen Implementierungen fahren die elektronischen Vorrichtungen 1002, die nicht der Führer sind, auch ihre Mikrofone 516 herunter, und erfassen somit keine weiteren Spracheingaben vom Anwender; die Führervorrichtung ist auch der Führer in Bezug auf eine Erfassung und Verarbeitung von weiteren Spracheingaben vom Anwender. Bei einigen Implementierungen behalten die elektronischen Vorrichtungen 1002, die nicht Führer sind, ihre Stromversorgung zu ihren Mikrofonen 516 bei und liefern eine Unterstützung bei einer Erfassung von weiteren Spracheingaben vom Anwender. Beispielsweise empfangen die Führervorrichtung und die Vorrichtungen, die nicht Führer sind, jeweilige Proben einer Spracheingabe und zeichnen sie auf und übertragen sie zum Sprachunterstützungsserver 112, der die mehreren Proben zusammen verwenden kann, um die Spracheingabe besser zu verarbeiten (z. B. Anhäufen der Proben, Auswählen der besten Probe zur Verarbeitung, Vergleichen der Proben, um die besten Teile von jeder zu bekommen).
  • Bei einigen Implementierungen wiederholen die elektronischen Vorrichtungen 1002 den Führungsbestimmungsprozess, wie er oben beschrieben ist, nach jeder Spracheingabe vom Anwender. Bei einigen Implementierungen wiederholen die elektronischen Vorrichtungen 1002 den Führungsbestimmungsprozess, wie er oben beschrieben ist, nach Intervallen einer vordefinierten Anzahl von Spracheingaben (z. B. Bestimmen einen Führer wieder bei jeder 5-ten Spracheingabe oder bei jeder 10-ten Spracheingabe).
  • Bei einigen Implementierungen geben eine oder mehrere der elektronischen Vorrichtungen 1002 eine visuelle Antwort, nachdem ein Führer bestimmt ist (z. B. zusammen mit der Audioantwort auf die Spracheingabe zeigt der bestimmte Führer eine Benachrichtigung oder ein vordefiniertes LED-Lichtmuster an, das anzeigt, dass sie der Führer ist).
  • Bei einigen Implementierungen gibt jede der elektronischen Vorrichtungen 1002 eine visuelle Anzeige aus (z. B. ein vordefiniertes LED-Lichtmuster), dass sie zuhört, wann immer sie einem Anwender zuhört (z. B. empfängt und erfasst sie die Spracheingabe eines Anwenders), und dann gibt nur die Führervorrichtung die Antwort auf die Spracheingabe für die Führungsbestimmung aus. Wenn beispielsweise ein Anwender eine Spracheingabe spricht, zeigen die elektronischen Vorrichtungen 1002-1 bis 1002-3 die visuelle Anzeige an, um anzuzeigen, dass sie zuhören, während sie die Spracheingabe empfangen, und darauffolgend gibt nur die Führervorrichtung 1002-1 die Antwort für die Führungsbestimmung aus.
  • Bei einigen Implementierungen zeigt eine elektronische Vorrichtung 1002 an, dass sie zuhört, indem sie unter Verwendung einer Gruppe von LEDs ein charakteristisches visuelles Muster anzeigt, wie beispielsweise eines der Muster, die in den 4G der '566-Anmeldung (die nachstehend als 8D dupliziert ist), gezeigt ist. Die visuellen Muster können statisch (sich nicht ändernd) oder dynamisch (den Eindruck einer Bewegung durch Änderungen bezüglich der Farbe, Helligkeit, Tastgrad, etc. von einzelnen LEDs gebend) sein. Bei einigen Implementierungen zeigt die eine elektronische Vorrichtung 1002 an, dass sie der Führer unter mehreren zuhörenden Vorrichtungen ist, indem sie ein anderes charakteristisches visuelles Muster unter Verwendung ihrer LEDs anzeigt. Gleichermaßen können mehrere zuhörende Vorrichtungen, die bei einer Verhandlung beteiligt sind, zu bestimmen, welche Vorrichtung der Führer sein sollte, anzeigen, dass die Verhandlung andauert, indem ein anderes charakteristisches visuelles Muster unter Verwendung ihrer jeweiligen LEDs angezeigt wird.
  • BEISPIELHAFTER PROZESS FÜR EINE MEHRFACHANWENDERPERSONALISIERUNG
  • 5 ist ein Ablaufdiagramm, das ein Verfahren 1100 zum Antworten auf eine Spracheingabe eines Anwenders gemäß einigen Implementierungen darstellt. Das Verfahren 1100 ist bei einer elektronischen Vorrichtung 190 mit einem oder mehreren Mikrofonen, einem Lautsprecher, einem oder mehreren Prozessoren und einem Speicher, der ein oder mehrere Programme zur Ausführung durch den einen oder die mehreren Prozessoren speichert, implementiert.
  • Die elektronische Vorrichtung 190 empfängt (1102) über das eine oder die mehreren Mikrofone 516 eine erste Spracheingabe von einem Anwender. Die elektronische Vorrichtung 190 umfasst eine Probe der ersten Spracheingabe über das Mikrofon 516 und zeichnet sie auf. Bei einigen Implementierungen ist die erste Spracheingabe eine Spracheingabe in freier Form in dem Sinn, dass die Spracheingabe nicht streng auf eine vordefinierte Gruppe von Wörtern und Phrasen innerhalb einer vordefinierten Syntax beschränkt sein muss; die Spracheingabe kann beispielsweise eine Spracheingabe in natürlicher Sprache sein.
  • Die elektronische Vorrichtung 190 vergleicht (1104) die erste Spracheingabe mit einer Gruppe von Sprachmodellen, die mit einer Vielzahl von Anwendern assoziiert sind, die mit der elektronische Vorrichtung 190 assoziiert sind, wobei die Sprachmodelle zur elektronischen Vorrichtung trainiert sind. Das Anwenderidentifikationsmodul 560 vergleicht die aufgezeichnete Probe der ersten Spracheingabe mit Sprachmodellen in Sprachmodelldaten 550. Die Sprachmodelldaten 550 enthalten Sprachmodelle oder Sprach-Fingerabdrücke von einem oder mehreren Anwendern in der Anwenderdomäne, die mit der elektronischen Vorrichtung 190 assoziiert sind (z. B. Anwender, die zur elektronischen Vorrichtung 190 registriert sind). Bei einigen Implementierungen sind die Sprachmodelle durch das Sprachmodell-Trainingsmodul 554 zur elektronischen Vorrichtung 190 trainiert.
  • Basierend auf dem Vergleichen bestimmt die elektronische Vorrichtung 190 (1106), dass die erste Spracheingabe einem ersten Anwender der Vielzahl von Anwendern entspricht. Beispielsweise identifiziert das Anwenderidentifikationsmodul 560 ein Sprachmodell in Sprachmodelldaten 550, das am besten mit der ersten Spracheingabe übereinstimmt, und bestimmt gemäß der Identifikation der Übereinstimmung, dass der Anwender, der die erste Spracheingabe spricht, der Anwender ist, welchem das übereinstimmende bzw. passende Sprachmodell entspricht. Bei einigen Implementierungen bestimmt das Anwenderidentifikationsmodul 560 auch eine Vertrauensebene oder irgendeine ähnliche Maßnahme der Qualität oder Nähe der Übereinstimmung zwischen einem Sprachmodell und der Spracheingabe und identifiziert eine Übereinstimmung nur, wenn die Übereinstimmung die beste ist und die Vertrauensebene über einer vordefinierten Schwelle ist.
  • Die elektronische Vorrichtung 190 präsentiert (1108) eine Antwort gemäß der Bestimmung. Bei einigen Implementierungen erzeugt die elektronische Vorrichtung 190 die Antwort gemäß der Bestimmung und der ersten Spracheingabe. Die Antwort enthält eine Anzeige der Identität des identifizierten ersten Anwenders, um den ersten Anwender wissen zu lassen, dass er identifiziert worden ist. Die Antwort enthält auch eine Antwort auf irgendeine Sprachanfrage in der ersten Spracheingabe. Beispielsweise erzeugt die elektronische Vorrichtung 190 in Antwort auf eine Hotword-Spracheingabe, um die elektronische Vorrichtung 190 aufzuwecken, eine Sprachbegrüßung und präsentiert sie (z. B. gibt sie aus), die den Namen des ersten Anwenders enthält (z. B. ”Hallo David”, ”Guten Morgen Mary”). Die Antwort kann eine Sprachausgabe und/oder Anweisungen zu einer anderen Vorrichtung zum Durchführen einer Operation enthalten. Für Anweisungen, um eine Operation durchzuführen, ist die Anzeige der Identität des identifizierten Anwenders enthalten, so dass die Operation in Bezug auf den identifizierten Anwender durchgeführt wird. Wenn beispielsweise die Operation Musik von einer Musikteilnahme abspielt, spielt die Vorrichtung Musik von der Musikteilnahme des identifizierten Anwenders.
  • Bei einigen Implementierungen ist die Antwort eine hörbare Sprachausgabe und enthält ein Präsentieren der Antwort ein Ausgeben der hörbaren Sprachausgabe. Die elektronische Vorrichtung 190 gibt die hörbare Sprachausgabe durch den Lautsprecher 520 aus.
  • Bei einigen Implementierungen bestimmt die elektronische Vorrichtung eine Anwenderanfrage basierend auf der ersten Spracheingabe und erzeugt die Antwort gemäß der bestimmten Anwenderanfrage. Bei einigen Implementierungen enthält ein Erzeugen der Antwort gemäß der Bestimmung und gemäß der ersten Spracheingabe diese Bestimmungs- und Erzeugungsoperationen. Zusätzlich zu einem Identifizieren des Sprechers der Spracheingabe bestimmt die elektronische Vorrichtung 190 die Anwenderanfrage in der Spracheingabe (z. B. eine Anfrage zum nochmaligen Spielen von Medien, eine Anfrage nach Nachrichtenüberschriften, eine Anfrage nach zu lesenden Emails, etc.), und erzeugt eine Antwort, die auf die Anfrage antwortet (z. B. eine hörbare Bestätigung der Anfrage, eine hörbare Anfrage an den Anwender nach mehr Information, die zum Erfüllen der Anfrage nötig ist).
  • Bei einigen Implementierungen enthält die bestimmte Anwenderanfrage eine Anfrage an die elektronische Vorrichtung, aufzuwachen, und die Antwort enthält eine hörbare Begrüßung, wobei die Begrüßung eine Anzeige einer Identität des bestimmten ersten Anwenders enthält. Wenn die Spracheingabe ein Hotword bzw. heißes Wort enthält (d. h. die Spracheingabe eine Anfrage an die elektronische Vorrichtung 190 ist, aufzuwachen), enthält die erzeugte Antwort eine hörbare Begrüßung, die eine Identität des ersten Anwenders enthält (z. B. ”Guten Morgen Dave”). Die Begrüßung zeigt an, dass die elektronische Vorrichtung 190 aufgewacht ist, und zeigt die Identität des Anwenders als durch die elektronische Vorrichtung 190 identifiziert an.
  • Bei einigen Implementierungen enthält die bestimmte Anwenderanfrage eine Anfrage nach Information und enthält ein Erzeugen der Antwort gemäß der bestimmten Anfrage ein Erhalten der angefragten Information in Bezug auf den ersten Anwender. Wenn die Anfrage eine Anfrage nach Information ist (z. B. eine Anfrage, die Emails eines Anwenders zu lesen, eine Anfrage, kommende Kalenderereignisse eines Anwenders laut auszusprechen), greift die elektronische Vorrichtung 190 auf Information des identifizierten Anwenders zu (z. B. die Emails des Anwenders, den Kalender des Anwenders), um die Antwort zu erzeugen. Bei einigen Implementierungen umfasst ein Erhalten der angefragten Information in Bezug auf den bestimmten ersten Anwender ein Zugreifen auf ein Konto, das mit dem ersten Anwender assoziiert ist; um die Information des identifizierten Anwenders für die Antwort zu erhalten, greift die elektronische Vorrichtung 190 auf Konten des Anwenders zu (z. B. das Emailkonto des Anwenders, das Kalenderkonto des Anwenders). Bei der elektronischen Vorrichtung 190 kann die Anwenderkonteninformation in den Sprachvorrichtungseinstellungen 546 gespeichert sein.
  • Bei einigen Implementierungen empfängt die elektronische Vorrichtung 190 eine zweite Spracheingabe, vergleicht die zweite Spracheingabe mit der Gruppe von Sprachmodellen, bestimmt basierend auf dem Vergleichen, dass die zweite Spracheingabe einem zweiten Anwender der Vielzahl von Anwendern entspricht, und präsentiert eine Antwort gemäß der Bestimmung, dass die zweite Spracheingabe dem zweiten Anwender entspricht. Bei einigen Implementierungen erzeugt die elektronische Vorrichtung die Antwort gemäß der Bestimmung und gemäß der zweiten Spracheingabe. Wenn ein anderer Anwender, der mit der elektronischen Vorrichtung 190 assoziiert ist, eine Spracheingabe zur elektronischen Vorrichtung 190 spricht, identifiziert die elektronische Vorrichtung 190 den anderen Anwender auf eine gleiche Weise wie bei der Identifikation des ersten Anwenders – Vergleichen der Spracheingabe des anderen Anwenders mit den Sprachmodellen und Finden der besten Übereinstimmung. Mit der Identifikation des anderen Anwenders kann die elektronische Vorrichtung 190 eine Antwort basierend auf dieser neuen Identifikation erzeugen. Somit kann die elektronische Vorrichtung 190 zwischen assoziierten Anwendern durch Vergleichen der Spracheingaben mit den Sprachmodellen und Identifizieren des sprechenden Anwenders basierend auf dem Vergleichen umschalten, während eine Notwendigkeit negiert wird, dass die Anwender einen Befehl explizit unterbrechen, um den Fokus der elektronischen Vorrichtung 190 von einem Anwender zu einem anderen Anwender umzuschalten.
  • Bei einigen Implementierungen empfängt die elektronische Vorrichtung 190 eine dritte Spracheingabe, vergleicht die dritte Spracheingabe mit der Gruppe von Sprachmodellen, bestimmt basierend auf dem Vergleichen, dass die dritte Spracheingabe keinem der Vielzahl von Anwendern entspricht, und beschränkt gemäß der Bestimmung, dass die dritte Spracheingabe keinem der Vielzahl von Anwendern entspricht, eine Funktionalität der elektronischen Vorrichtung. Wenn ein Anwender, der nicht mit der elektronischen Vorrichtung 190 assoziiert ist, eine Spracheingabe zur elektronischen Vorrichtung 190 spricht, empfängt die elektronische Vorrichtung 190 die Spracheingabe und versucht, den Anwender zu identifizieren. Da dieser Anwender nicht mit der elektronischen Vorrichtung 190 assoziiert ist und somit kein assoziiertes Sprachmodell in den Sprachmodelldaten 550 hat, bestimmt die elektronische Vorrichtung 190, dass dieser Anwender ein nicht identifizierter Anwender ist. Für diesen nicht identifizierten Anwender kann die elektronische Vorrichtung 190 ihre Funktionalität beschränken, um zu verhindern, dass auf persönliche oder private Information zugegriffen wird. Beispielsweise kann die elektronische Vorrichtung 190 nur auf Anfragen von dem nicht identifizierten Anwender reagieren, die nicht private oder nicht persönliche Information enthalten (z. B. Anfragen nach Sportwertungen, Nachrichten, Wertpapieren, Wetter). Bei einigen Implementierungen kann die elektronische Vorrichtung 190 dem nicht identifizierten Anwender einen Zugriff auf irgendeine Funktionalität der elektronischen Vorrichtung 190 und des Sprachunterstützungsdienstes verweigern (z. B. durch Ignorieren der Spracheingaben des nicht identifizierten Anwenders oder durch Antworten mit einer Antwort, die anzeigt, dass der Anwender nicht autorisiert ist). Bei einigen Implementierungen basiert die Beschränkung einer Funktionalität für nicht identifizierte Anwender auf Einstellungen für die Vorrichtung (z. B. Sprachvorrichtungseinstellungen 546). Der Vorrichtungsbesitzer kann beispielsweise einstellen, ob eine Funktionalität für nicht identifizierte Anwender gänzlich oder nur zu einer Funktionalität zu beschränken ist, die keine persönliche oder private Information enthält.
  • Bei einigen Implementierungen enthält die elektronische Vorrichtung eine Anzeige und zeigt auf der Anzeige eine Anzeige einer Identität des bestimmten ersten Anwenders an. Wenn die elektronische Vorrichtung 190 eine Anzeige 524 enthält, kann die elektronische Vorrichtung 190 die Identität des identifizierten Anwenders (z. B. den Namen des identifizierten Anwenders anzeigen, eine Begrüßung mit dem Namen des identifizierten Anwenders anzeigen, das Bild des identifizierten Anwenders anzeigen, einen Avatar oder ein anderes Bild, das mit dem identifizierten Anwender assoziiert ist) auf der Anzeige 524 anzeigen, um anzuzeigen, dass die elektronische Vorrichtung 190 einen Sprecher der Spracheingabe identifiziert hat, und um dem Anwender eine Gelegenheit zu geben, die Identifikation zu verifizieren.
  • Bei einigen Implementierungen enthält die elektronische Vorrichtung eine Anzeige und zeigt auf der Anzeige eine visuelle Anwenderschnittstelle an, die mit dem bestimmten ersten Anwender assoziiert ist. Wenn die elektronische Vorrichtung 190 eine Anzeige 524 enthält, kann die elektronische Vorrichtung 190 eine visuelle Anwenderschnittstelle anzeigen, die mit dem identifizierten Anwender identifiziert ist (z. B. eine Anwenderschnittstelle mit einem Thema, das mit dem angewendeten identifizierten Anwender assoziiert ist). Bei einigen Implementierungen zeigt die elektronische Vorrichtung 190 auf den LEDs 522 ein Muster an, das mit dem identifizierten Anwender assoziiert ist.
  • Bei einigen Implementierungen empfängt die elektronische Vorrichtung 190 die Spracheingabe (z. B. erfasst sie eine Probe der Spracheingabe), wie im Schritt 1102, und sendet die Spracheingabe zum Sprachunterstützungsserver 112. Der Sprachunterstützungsserver 112 vergleicht die Spracheingabe mit einer Gruppe von Sprachmodellen (z. B. Sprachmodellen in Anwendersprachprofilen 744), die mit einer Vielzahl von Anwendern assoziiert sind, die mit der elektronischen Vorrichtung 190 assoziiert sind und bestimmt basierend auf dem Vergleichen die Identität des Anwenders, der die Spracheingabe sprach, gleich den Schritten 1104 und 1106. Der Sprachunterstützungsserver 112 erzeugt die Antwort auf die Spracheingabe und überträgt die erzeugte Antwort zu der elektronischen Vorrichtung 190, die die Antwort ausgibt. Bei einigen Implementierungen identifiziert der Sprachunterstützungsserver 112 den Anwender und überträgt das Anwenderidentifikationsergebnis zu der elektronischen Vorrichtung 190, die eine Antwort gemäß dem von dem Sprachunterstützungsserver 112 empfangenen Identifikationsergebnis erzeugt und ausgibt.
  • Bei einigen Implementierungen empfängt die elektronische Vorrichtung 190 die Spracheingabe (z. B. erfasst sie eine Probe der Spracheingabe), wie im Schritt 1102, führt eine Verarbeitung an der Spracheingabe durch und sendet die vorverarbeitete Spracheingabe zum Sprachunterstützungsserver 112. Die Vorverarbeitung kann eine Identifikation des sprechenden Anwenders enthalten, wie in den Schritten 1104 und 1106, und das Identifikationsergebnis begleitet die Spracheingabe zum Sprachunterstützungsserver 112. Alternativ wird die Anwenderidentifikation durch den Sprachunterstützungsserver 112 durchgeführt. Der Sprachunterstützungsserver 112 empfängt die vorverarbeitete Spracheingabe, identifiziert den sprechenden Anwender, wenn es nicht bereits durch die elektronische Vorrichtung 190 durchgeführt ist (gleich den Schritten 1104 und 1106), erzeugt die Antwort auf die Spracheingabe und überträgt die erzeugte Antwort zur elektronischen Vorrichtung 190, die die Antwort ausgibt.
  • Bei einigen Implementierungen empfängt die elektronische Vorrichtung 190 die Spracheingabe (z. B. erfasst eine Probe der Spracheingabe) und sendet entweder die Spracheingabe zum Sprachunterstützungsserver 112 oder führt eine Vorabverarbeitung durch und sendet die vorverarbeitete Spracheingabe zum Sprachunterstützungsserver 112. Der Sprachunterstützungsserver 112 vergleicht die Spracheingabe mit einer Gruppe von Sprachmodellen (z. B. Sprachmodellen in den Anwendersprachprofilen 744), die mit einer Vielzahl von Anwendern assoziiert sind, die mit der elektronischen Vorrichtung 190 assoziiert sind, und bestimmt basierend auf den Vergleichen die Identität des Anwenders, der die Spracheingabe sprach, wie in den Schritten 1104 und 1105. Der Sprachunterstützungsserver 112 erzeugt die Antwort auf die Spracheingabe und überträgt die erzeugte Antwort zu der elektronischen Vorrichtung 190, die die Antwort ausgibt. Bei einigen Implementierungen identifiziert der Sprachunterstützungsserver 112 den Anwender und überträgt das Anwenderidentifikationsergebnis zur elektronischen Vorrichtung 190, die eine Antwort gemäß dem Identifikationsergebnis erzeugt und ausgibt, das vom Sprachunterstützungsserver 112 empfangen ist.
  • Wie es oben beschrieben ist, wird der sprechende Anwender durch Anpassen eines Sprachmodells oder eines Sprach-Fingerabdrucks an die Spracheingabe identifiziert. Bei einigen Implementierungen ist die elektronische Vorrichtung 190 konfiguriert, um einen Prozess zum Erfassen und Trainieren von Sprachmodellen oder Sprach-Fingerabdrücken durchzuführen. Wenn beispielsweise ein Anwender mit der elektronischen Vorrichtung 190 zu assoziieren ist (z. B. zur Vorrichtung zu registrieren), kann die elektronische Vorrichtung 190 (z. B. das Sprachmodell-Trainingsmodul 554) den mit der elektronischen Vorrichtung 190 zu assoziierenden Anwender durch einen Schritt-für-Schritt-Prozess initiieren und führen, um ein Sprachmodell des Anwenders zu erfassen und zu trainieren. Während dieses Prozesses kann die elektronische Vorrichtung 190 den Anwender auffordern, ein oder mehrere Wörter oder Phrasen (z. B. das heiße Wort bzw. Hotword, eine Phrase oder einen Satz, der mehrere unterschiedliche Phoneme bzw. Laute enthält) zu sprechen, um das Sprachmodell zu erzeugen und zu trainieren. Das Sprachmodell-Trainingsmodul 554 kann das LED-Steuermodul 540 anleiten, verschiedene visuelle Muster auf den LEDs 522 zu erleuchten, um dem Anwender einen Status des Sprachmodell-Erfassungs- und -Trainingsprozesses anzuzeigen. Bei einigen Implementierungen speichert die elektronische Vorrichtung 190 die trainierten Sprachmodelle in Sprachmodelldaten 550 und überträgt optional die trainierten Sprachmodelle zum Sprachunterstützungsserver 112 zur Speicherung (z. B. in Anwendersprachprofilen 744).
  • Bei einigen Implementierungen hat ein gegebener Anwender Sprachmodelle für jede elektronische Vorrichtung 190, mit welcher der Anwender assoziiert ist. Die Sprachmodelle bei den jeweiligen Vorrichtungen 190 werden zur bestimmten Vorrichtung trainiert, um dadurch die bestimmten Vorrichtungen zu berücksichtigen, und die Umgebungen, die die jeweiligen Vorrichtungen umgeben.
  • Bei einigen Implementierungen wird der Sprachmodell-Trainingsprozess durch den Sprachunterstützungsserver 112 in Verbindung mit der elektronischen Vorrichtung 190 durchgeführt. Beispielsweise überträgt dann, wenn ein Anwender mit einer elektronischen Vorrichtung 190 zu assoziieren ist, ein Sprachmodell-Trainingsmodul (nicht gezeigt) beim Sprachunterstützungsserver 112 Anweisungen und Audioausgaben zur elektronischen Vorrichtung 190. Die elektronische Vorrichtung 190 führt die Anweisungen aus und gibt die Audioausgaben aus, um den Anwender durch den Trainingsprozess zu führen, gleich dem Trainingsprozess, der durch das Sprachmodell-Trainingsmodul 554 durchgeführt ist, was oben beschrieben ist. Die elektronische Vorrichtung 190 erfasst die gesprochenen Spracheingaben eines Anwenders zum Trainingsprozess und überträgt die erfassten Spracheingaben zum Sprachunterstützungsserver 112, der die Sprachmodelle erzeugt und sie in Anwendersprachprofilen 744 speichert. Bei einigen Implementierungen überträgt der Sprachunterstützungsserver 112 zur elektronischen Vorrichtung 190 Sprachmodelle von Anwendern, die mit der elektronischen Vorrichtung 190 assoziiert sind, zur Speicherung (z. B. in Sprachmodelldaten 550) und zur lokalen Anwendung.
  • Bei einigen Implementierungen wird, wenn ein Sprachmodell für einen Anwender erzeugt und trainiert wird, auch ein Identifizierungstoken für den Anwender erzeugt. Der Authentifizierungstoken authentifiziert den Anwender zum Sprachunterstützungsserver 112. Die Spracheingabe eines Sprechers wird an Sprachmodelle angepasst, die mit unterschiedlichen Anwendern assoziiert sind. Wenn ein passendes Sprachmodell für die Spracheingabe eines Sprechers gefunden wird, wird der Authentifizierungstoken für das Anwenderkonto, das mit dem passenden Sprachmodell assoziiert ist, verwendet. Bei einigen Implementierungen werden Authentifizierungstoken im Voraus erzeugt, aber anfänglich nicht mit irgendeinem Sprachmodell assoziiert. Der Trainingsprozess assoziiert ein Sprachmodell, das als ein Ergebnis des Trainingsprozesses trainiert ist, mit einem im Voraus erzeugten Authentifizierungstoken. Bei einigen Implementierungen wird, nachdem die elektronische Vorrichtung 190 den Sprecher einer Spracheingabe identifiziert, die Spracheingabe (oder die Daten, die die Anwenderanfrage und assoziierte Parameter enthalten, die aus der Spracheingabe bestimmt sind), zum Sprachunterstützungsserver 112 zusammen mit dem Authentifizierungstoken übertragen, der mit dem Sprecher assoziiert ist; der Authentifizierungstoken authentifiziert den Sprecher zum Sprachunterstützungsserver 112. Bei einigen Implementierungen kann ein Sprecher mit einem Authentifizierungstoken eines Anwenders assoziiert sein, dem irgendein Sprecher eine Erlaubnis zugeteilt hat. Beispielsweise kann ein mit einer elektronischen Vorrichtung 190 assoziierter Anwender sein Konto konfigurieren, um zuzulassen, dass irgendjemand seine Zugangsdaten für ein Einloggen bei einem Musikdienst verwendet, so dass andere Anwender auf irgendeine angeschlossene Ausgabevorrichtung (z. B. Lautsprecher) nahe der Vorrichtung 190 des Anwenders zugreifen können.
  • Bei einigen Implementierungen identifiziert eine elektronische Vorrichtung 190 den sprechenden Anwender durch Erfassen einer Schlüsselvorrichtung in der Nähe, die mit dem sprechenden Anwender assoziiert ist (z. B. unter Verwendung von Energiespar-Bluetooth oder Ultraschall-RF).
  • Bei einigen Implementierungen erzeugt ein Inhaltshost 114 die hörbare Antwort auf eine Spracheingabe. Beispielsweise kann die Spracheingabe eine Anfrage nach dem Ausgleich bei einem Bankkonto enthalten, das mit dem Anwender assoziiert ist (z. B. ”Was ist der Kontostand bei meinem Chase-Konto?”). Für eine solche Spracheingabe identifiziert die elektronische Vorrichtung 190 oder der Sprachunterstützungsserver 112 den sprechenden Anwender, wie es oben beschrieben ist. Nach einem Identifizieren des Anwenders und einem Erhalten der Bankkonteninformation (von z. B. Anwenderdaten 742), überträgt die elektronische Vorrichtung 190 oder der Sprachunterstützungsserver 112 eine Anfrage nach dem Kontostand (z. B. durch eine Anwendungsprogrammierschnittstelle (API)) zu einem Inhaltshost 114, der mit der Bank assoziiert ist, wo das Bankkonto lokalisiert ist (z. B. das Datenbanksystem der Bank). Der Bankinhaltshost erhält den Kontostand von seinen Datenbanken und erzeugt eine hörbare Antwort in Antwort auf die Anfrage. Der Bankinhaltshost überträgt die hörbare Antwort zur elektronischen Vorrichtung 190 oder zum Sprachunterstützungsserver 112 (der dann die hörbare Antwort zur elektronischen Vorrichtung 190 überträgt), und die elektronische Vorrichtung 190 gibt die hörbare Antwort aus. Auf diese Weise werden eine Übertragung und eine Speicherung von Kontendaten in numerischer Form über Netzwerke und auf der Vorrichtung reduziert, was eine Sicherheit und eine Privatheit von Anwenderdaten fördert.
  • BEISPIELHAFTER PROZESS FÜR EINE VORRICHTUNGSFÜHRUNGSVERHANDLUNG
  • 6 ist ein Ablaufdiagramm, das ein Verfahren 1200 zum Verhandeln einer Vorrichtungsführung unter mehreren Sprachschnittstellenvorrichtungen gemäß einigen Implementierungen darstellt. Das Verfahren 1200 ist bei einer elektronischen Vorrichtung (z. B. der Vorrichtung 1002-1, 1002-2 oder 1002-3) von zwei oder mehr elektronischen Vorrichtungen 190 (elektronischen Vorrichtungen 1002) implementiert, wobei jede der zwei oder mehr elektronischen Vorrichtungen ein oder mehrere Mikrofone, einen Lautsprecher, einen oder mehrere Prozessoren und einen Speicher, der ein oder mehrere Programme zur Ausführung durch den einen oder die mehreren Prozessoren speichert, enthält.
  • Die elektronische Vorrichtung 190 erfasst (1202) eine Spracheingabe. Die elektronische Vorrichtung 190 erfasst eine Probe der Spracheingabe von einem Anwender über das Mikrofon 516 und zeichnet sie auf.
  • Die elektronische Vorrichtung 190 bestimmt (1204) eine Qualitätswertung für die erfasste Spracheingabe. Die elektronische Vorrichtung 190 bestimmt eine Wertung, eine Bewertung oder irgendein anderes Maß für die Qualität der erfassten Probe einer Spracheingabe. Die Qualität der Probe kann durch mehrere Faktoren beeinflusst sein, einschließlich des Abstands eines Anwenders von der Vorrichtung, der Lautstärke, mit welcher der Anwender die Spracheingabe sprach, der umgebenden Umgebung und eines Rauschens, der Fähigkeiten der Vorrichtung, und so weiter. Bei einigen Implementierungen enthalten Kriterien zum Bewerten der Qualität einer Sprachprobe beispielsweise eine Lautheit oder eine Amplitude der Probe, ein Vorhandensein oder Nichtvorhandensein von Rauschen (z. B. ein Übersprechen, ein Gezische) und einen entsprechenden Pegel, ein Vorhandensein oder Nichtvorhandensein einer Verzerrung (z. B. Echo) und eines entsprechenden Pegels, ein Frequenzprofils der Probe, und so weiter.
  • Die elektronische Vorrichtung 190 kommuniziert (1206) die Qualitätswertung zu den anderen Vorrichtungen der Vielzahl von elektronischen Vorrichtungen und empfängt (1208) Qualitätswertungen, die durch die anderen Vorrichtungen der Vielzahl von Vorrichtungen erzeugt sind, zur Erfassung der Spracheingabe durch die anderen Vorrichtungen. Die elektronische Vorrichtung 190 überträgt die Wertung für ihre Probe einer Spracheingabe zu den anderen Vorrichtungen der Vielzahl von elektronischen Vorrichtungen und empfängt Wertungen von den anderen Vorrichtungen für ihre jeweiligen Proben der Spracheingabe.
  • Gemäß einer Bestimmung, dass die durch die erste elektronische Vorrichtung erzeugte Qualitätswertung die höchste unter der erzeugten Qualitätswertung und den empfangenen Qualitätswertungen für die Spracheingabe ist, gibt die elektronische Vorrichtung (1210) eine hörbare Antwort und/oder eine visuelle Antwort (z. B. eine Mitteilung oder ein LED-Lichtmuster) auf die erfasste Spracheingabe aus, und die anderen Vorrichtungen der Vielzahl von elektronischen Vorrichtungen verzichten auf ein Ausgeben einer hörbaren Antwort auf die erfasste Spracheingabe. Bei einigen Implementierungen vorverarbeitet die Vorrichtung mit der höchsten Wertung (oder allgemeiner der besten Wertung) unter den Vorrichtungen in Bezug auf die Spracheingabe optional ihre jeweilige Probe einer Spracheingabe und überträgt die Probe einer Spracheingabe oder die vorverarbeitete Probe einer Spracheingabe zum Sprachunterstützungsserver 112, der eine Antwort erzeugt, die eine hörbare Ausgabe enthält (z. B. Sprachbestätigung der Anwenderanfrage, ein Auslesen der vom Anwender angefragten Information), auf die Spracheingabe und überträgt die Antwort zu den Vorrichtungen. Alternativ erzeugt die Vorrichtung mit der höchsten Wertung die Antwort auf die Spracheingabe. In jeder Situation gibt die Vorrichtung mit der höchsten Wertung (z. B. die Vorrichtung 1002-1) die Antwort aus und die anderen Vorrichtungen (z. B. die Vorrichtungen 1002-2 und 1002-3), die die niedrigeren Wertungen haben, geben die Antwort nicht aus. Bei einigen Implementierungen ist die elektronische Vorrichtung, die der Führer ist (z. B. die Vorrichtung mit der höchsten Wertung bei dem Beispiel hier) auch der Führer in Bezug auf eine Verarbeitung oder Vorverarbeitung von nachfolgenden Spracheingaben vom Anwender.
  • Gemäß einer Bestimmung, dass die durch die erste elektronische Vorrichtung erzeugte Qualitätswertung nicht die höchste unter den Qualitätswertungen für die durch die Vielzahl von elektronischen Vorrichtungen erzeugte Spracheingabe ist, verzichtet die elektronische Vorrichtung 190 auf ein Ausgeben einer Antwort auf die erfasste Spracheingabe. Wenn eine Vorrichtung bestimmt, dass ihre Wertung nicht der höchste unter den Vorrichtungen in Bezug auf die Spracheingabe ist (z. B. die Vorrichtungen 1002-2 und 1002-3), gibt die Vorrichtung keine Antwort auf die Spracheingabe aus. Beispielsweise fahren die Vorrichtungen mit den niedrigeren Wertungen ihre Lautsprecher 520 herunter. Bei einigen Implementierungen fahren die Vorrichtungen mit den niedrigeren Wertungen auch ihre Mikrofone 516 herunter, so dass nur die Vorrichtung mit der höchsten Wertung weitere Spracheingaben erfasst. Bei einigen Implementierungen verzichtet die elektronische Vorrichtung 190 gemäß der Bestimmung, dass die durch die erste elektronische Vorrichtung erzeugte Qualitätswertung nicht die höchste unter den Qualitätswertungen für die durch die Vielzahl von elektronischen Vorrichtungen erzeugte Spracheingabe ist, auf ein Ausgaben einer hörbaren Antwort auf die erfasste Spracheingabe und kann eine visuelle Antwort ausgeben (z. B. eine visuelle Anzeige, dass die Vorrichtung nicht als Führer bestimmt wurde).
  • Bei einigen Implementierungen ist die Vielzahl von elektronischen Vorrichtungen kommunikativ durch ein lokales Netz gekoppelt, und das Kommunizieren und Empfangen werden durch das lokale Netz durchgeführt. Die elektronischen Vorrichtungen 190 sind durch ein lokales Netz (z. B. das lokale Netz 104) kommunikativ gekoppelt und können ihre Wertungen zueinander über das lokale Netz übertragen. Beispielsweise kann eine Vorrichtung ihre Wertung durch das lokale Netz mehrfach senden oder rundsenden.
  • Wenn wenigstens eine der Vorrichtungen nicht am lokalen Netz ist, dann können die Vorrichtungen ihre Wertungen zum Sprachunterstützungsserver 112 übertragen. Bei einigen Implementierungen überträgt das Vorrichtungsführungsmoderatormodul 780 die empfangenen Werte zu den Vorrichtungen und bestimmen die Vorrichtungen, ob ihre jeweiligen Wertungen die höchsten sind. Bei einigen Implementierungen bestimmt das Vorrichtungsführungsmoderatormodul, welche Wertung die höchste ist, und überträgt ein Ergebnis der Bestimmung zu den Vorrichtungen. Bei einigen Implementierungen kann eine zentrale Vorrichtung ein Modul enthalten, das gleich dem Vorrichtungsführungsmoderatormodul 780 ist, und in einer ähnlichen Rolle bedienen.
  • Bei einigen Implementierungen enthält die Qualitätswertung eine Vertrauensebene einer Erfassung der Spracheingabe; die Qualitätswertung ist eine Vertrauensebenenwertung für die Probe einer Spracheingabe. Bei einigen Implementierungen enthält die Qualitätswertung eine Signal-zu-Rausch-Bewertung einer Erfassung der Spracheingabe; die Qualitätswertung ist eine Signal-zu-Rausch-Bewertung oder ein Wert (z. B. ein Signal-zu-Rausch-Verhältnis) für die Probe einer Spracheingabe.
  • Bei einigen Implementierungen erkennt die elektronische Vorrichtung 190 einen Befehl in der Spracheingabe, und gemäß einer Bestimmung, dass ein Typ des Befehls auf die erste elektronische Vorrichtung bezogen ist, gibt sie eine hörbare und/oder eine sichtbare Antwort auf die erfasste Spracheingabe aus. Wenn der Befehl oder die Anfrage in der Spracheingabe als einer mit besonderer Relevanz für eine Vorrichtung der mehreren Vorrichtungen erkannt wird, die die Spracheingabe erfassten, dann gibt diese Vorrichtung eine Antwort auf die Spracheingabe aus und verzichten die anderen Vorrichtungen auf ein Ausgeben der Antwort, selbst wenn die Vorrichtung, für welche der Befehl eine besondere Relevanz hat, nicht die höchste Wertung unter den Vorrichtungen in Bezug auf die Spracheingabe hat. Beispiele von Befehlen oder Anfragen, die eine besondere Relevanz haben, enthalten Anfragen für ein Abspielen eines Videos (z. B. für Verteilungs- oder TV-Vorrichtungen) und Anfragen für ein Abspielen von Musik (z. B. für Audiosysteme oder Lautsprechersysteme). Zusätzlich kann ein Befehl oder eine Anfrage eine besondere Relevanz für eine Vorrichtung haben, wenn der Befehl oder die Anfrage die besondere Vorrichtung identifiziert, für die der Anwender wäscht, dass sie die Anfrage erfüllt (z. B. der Befehl ”Spiele ein Video auf dem TV in meinem Schlafzimmer” eine besondere Relevanz für die TV-Vorrichtung im Schlafzimmer, weil der Befehl explizit diese Vorrichtung identifiziert), oder der Befehl/die Anfrage enthält einen Vorrichtungszustandsparameter, der auf den aktuellen Zustand der Vorrichtung anwendbar ist (z. B. ein ”Bildschirm aus”-Befehl ist relevant für eine Vorrichtung, deren Bildschirm eingeschaltet ist, und nicht relevant für eine Vorrichtung ohne einen Bildschirm oder eine Vorrichtung, deren Bildschirm ausgeschaltet ist).
  • Auf diese Weise erfassen die mehreren Vorrichtungen jeweilige Proben der Spracheingabe und eine Bestimmung diesbezüglich, welche Probe am besten ist, wird durchgeführt. Basierend auf dieser Bestimmung antwortet eine der Vorrichtungen auf die Spracheingabe und weitere Spracheingaben vom Anwender. Bei einigen Implementierungen wiederholen die mehreren Vorrichtungen den Prozess, der oben beschrieben ist, für jede Spracheingabe oder in Intervallen einer vordefinierten Anzahl von Spracheingaben (z. B. bestimmen sie den Führer bei jeder 5-ten Spracheingabe oder bei jeder 10-ten Spracheingabe wieder).
  • Bei einigen Implementierungen erfassen die mehreren Vorrichtungen die Spracheingabe und senden ihre erfassten Proben einer Spracheingabe zum Sprachunterstützungsserver 112. Der Sprachunterstützungsserver 112 häuft die Proben an oder wählt die Probe mit bester Qualität zur Verarbeitung aus oder vergleicht die Proben, um die besten Teile von jeder zu bekommen. Bei einigen Implementierungen zeigen, wenn die mehreren Vorrichtungen die Spracheingabe empfangen und erfassen, die Vorrichtungen jeweils eine visuelle Anzeige an (z. B. ein vordefiniertes LED-Muster), das sie auf den Anwender hört.
  • BEISPIELHAFTER PROZESS FÜR EINE RAUSCHVERRINGERUNG
  • 7 ist ein Ablaufdiagramm, das ein Verfahren 1300 zum Verringern von Rauschen um eine Sprachschnittstellenvorrichtung gemäß einigen Implementierungen darstellt. Das Verfahren 1300 ist bei einer elektronischen Vorrichtungen 190 mit einem oder mehreren Mikrofonen, einem Lautsprecher, einem oder mehreren Prozessoren und einem Speicher, der ein oder mehrere Programme zur Ausführung durch den einen oder die mehreren Prozessoren speichert, implementiert. Die elektronische Vorrichtung 190 ist konfiguriert, um durch irgendeine einer Vielzahl von Aufforderungen aufgeweckt zu werden, einschließlich einer sprachbasierten Aufforderung z. B. einer Spracheingabe, die ein heißes Wort bzw. Hotword enthält).
  • Die elektronische Vorrichtung bestimmt (1302) ein aktuelles Rauschprofil einer Umgebung um die elektronische Vorrichtung. Die elektronische Vorrichtung 190 kann, während sie frei ist, das Rauschmodul 558 (z. B. das Rauschbestimmungsmodul 572) laufenlassen, um ein Rauschprofil für ihre Umgebungen zu bestimmen. Bei einigen Implementierungen enthält ein Bestimmen des aktuellen Rauschprofils ein Bestimmen eines Rauschpegels (z. B. eine Lautstärke) des Rauschens und ein Erfassen und Verarbeiten des Umgebungsrauschens. Die Verarbeitung kann beispielsweise ein Bestimmen von Frequenzen und anderen Parametern des Umgebungsrauschens enthalten.
  • Die elektronische Vorrichtung bestimmt (1304), ob das Rauschprofil mit der sprachbasierten Aufforderung interferiert. Die elektronische Vorrichtung 190 vergleicht das bestimmte Rauschprofil mit Rauschprofilen im Rauschprofilspeicher 576 und bewertet die Parameter des Rauschprofils, um zu bestimmen, ob das Rauschprofil (d. h. das aktuelle Rauschen, das die elektronische Vorrichtung 190 umgibt) mit der sprachbasierten Aufforderung interferiert.
  • Gemäß einer Bestimmung, dass das Rauschprofil mit der sprachbasierten Aufforderung interferiert, präsentiert (1306) die elektronische Vorrichtung 190 einen Hinweis zu einem Anwender, eine Aufforderung der Vielzahl von Aufforderungen zu verwenden, die eine andere als die sprachbasierte Aufforderung ist, um die elektronische Vorrichtung zu wecken. Der Hinweis leitet den Anwender an, eine weitere Aufforderung zu verwenden, die eine andere als die sprachbasierte Aufforderung ist, um die elektronische Vorrichtung 190 zu wecken. Bei einigen Implementierungen ist der Hinweis auch oder enthält auf andere Weise eine Anzeige, dass das Umgebungsrauschen mit einer Hotword-Erkennung interferiert. Beispielsweise kann die elektronische Vorrichtung 190 ein vordefiniertes Muster auf den LEDs 522 anzeigen, das eine Umgebungsrauschinterferenz mit der sprachbasierten Aufforderung anzeigt und dem Anwender einen Hinweis gibt, dass der Anwender eine andere Aufforderung zum Aufwecken der Vorrichtung verwenden sollte (z. B. Drücken einer Taste 512, Berühren eines Berührungserfassungsfelds 514, ein Verwenden einer anderen Vorrichtung, die kommunikativ mit der elektronischen Vorrichtung 190 gekoppelt ist, wie beispielsweise ein Smartphone). Die Anzeige/der Hinweis kann auf der Anzeige 524 angezeigt oder als Klänge oder Töne durch den Lautsprecher 520 ausgegeben werden.
  • Bei einigen Implementierungen, bei welchen die sprachbasierte Aufforderung ein gesprochenes Hotword enthält, enthält die sprachbasierte Aufforderung, dass der Anwender das Hotword spricht, um die elektronische Vorrichtung 190 aufzuwecken, wie es oben beschriebe ist.
  • Bei einigen Implementierungen enthält ein Bestimmen, ob das Rauschprofil mit der sprachbasierten Aufforderung interferiert, ein Bestimmen, ob das Rauschprofil eine Erkennung des Hotwords in Spracheingaben negativ beeinflusst, die durch die elektronische Vorrichtung erfasst sind. Die elektronische Vorrichtung 190 bestimmt, ob das Umgebungsrauschen (das durch das Rauschprofil dargestellt ist) eine Erfassungs-Erkennung des Hotwords durch die elektronische Vorrichtung 190 negativ beeinflussen würde (z. B. ist das Rauschen ausreichend laut, um die Spracheingabe eines Anwenders mit dem Hotword zu übertönen, hat das Rauschen ein Frequenzprofil, das mit der Spracheingabe eines Anwenders mit dem Hotword interferieren würde, würde das Rauschen die Spracheingabe eines Anwenders mit dem Hotword verzerren).
  • Bei einigen Implementierungen enthält ein Bestimmen, ob das Rauschprofil eine Erkennung des Hotwords in Spracheingaben negativ beeinflusst, ein Vergleichen des Rauschprofils mit einer Rauschpegelschwelle eines Hotword-Erkennungsprozesses, der mit der elektronischen Vorrichtungen assoziiert ist. Das Erkennungsanalysemodul 568 der elektronischen Vorrichtung 190 (oder des Sprachunterstützungsservers 112) analysiert das Hotword-Erkennungsmodul 562 der elektronischen Vorrichtung 190 (z. B. wenn die elektronische Vorrichtung 190 nicht in Betrieb ist), um Rauschschwellen zu bestimmen, bei welchen ein Rauschen zu Probleme für den Algorithmus oder den Prozess führen würde, der durch das Modul verwendet wird. Diese Schwellen werden gesichert und können mit aktuellen Rauschprofilen verglichen werden, um zu bestimmen, ob das aktuelle Rauschprofil ein Problem für das Hotword-Erkennungsmodul 562 auferlegen würde. Die Analyse des Hotword-Erkennungsmoduls erfolgt in Bezug auf die elektronische Vorrichtung 190 und somit kann die Schwelle zwischen Vorrichtungen unterschiedlich sein.
  • Bei einigen Implementierungen enthält ein Bestimmen, ob das Rauschprofil eine Erkennung des Hotwords in Spracheingaben negativ beeinflusst, ein Vergleichen des Rauschprofils mit einer Sprachlautstärkepegelschwelle, wo die Sprachlautstärkepegelschwelle basierend auf einem vordefinierten Abstand von der elektronischen Vorrichtung definiert ist. Das Anwenderlautstärkenschwellenmodul 570 der elektronischen Vorrichtung 190 (oder des Sprachunterstützungsservers 112) führt Analysen der Spracheingaben eines Anwenders durch, um einen maximalen komfortablen Lautstärkepegel zu bestimmen, bei welchem der Anwender Spracheingaben sprechen wird, und zwar mit der auf einem vordefinierten Abstand basierten Bestimmung (z. B. ein vordefinierter Abstand, der auf einem ”typischen Anwenderabstand” basiert, über welchen hinausgehend Spracheingaben dämpfen).
  • Bei einigen Implementierungen enthält ein Bestimmen, ob das Rauschprofil eine Erkennung des Hotwords in Spracheingaben negativ beeinflusst, ein Vergleichen des Rauschprofils mit einer vorbestimmten Gruppe von Rauschprofilen, die mit der elektronischen Vorrichtung assoziiert sind, wobei die Rauschprofile der vorbestimmten Gruppe von Rauschprofilen bekannt sind, um eine Erkennung des Hotwords durch die elektronische Vorrichtung in Spracheingaben negativ zu beeinflussen. Die elektronische Vorrichtung 190 vergleicht die Rauschprofile mit vorherigen Rauschprofilen (z. B. im Rauschprofilspeicher 576), die mit einer Hotword-Erfassung interferierten.
  • Bei einigen Implementierungen enthält die elektronische Vorrichtung eine Taste und die Aufforderung der Vielzahl von Aufforderungen, die eine andere als die sprachbasierte Aufforderung ist, enthält ein Aktivieren der Taste. Die elektronische Vorrichtung 190 enthält eine physikalische Drucktaste 512 und der Anwender kann die Vorrichtung durch Aktivieren der Taste 512 anstelle eines Sprechens einer Spracheingabe mit dem Hotword aufwecken.
  • Bei einigen Implementierungen enthält ein Präsentieren eines Hinweises zu einem Anwender, eine Aufforderung der Vielzahl von Aufforderungen zu verwenden, die eine andere als die sprachbasierte Aufforderung ist, um die elektronische Vorrichtung Aufzuwecken, ein Erleuchten der Taste auf der elektronischen Vorrichtung entsprechend einer tastenbasierten Aufforderung der Vielzahl von Aufforderungen. Die Taste 512 kann eine Beleuchtung enthalten (z. B. ein eingebettetes LED-Licht) und die elektronische Vorrichtung 190 kann den Anwender darauf hinweisen, die Taste 512 anstelle eines Sprechens des Hotwords zu verwenden, indem die Taste 512 erleuchtet wird.
  • Bei einigen Implementierungen enthält ein Präsentieren eines Hinweises zu einem Anwender, eine Aufforderung der Vielzahl von Aufforderungen zu verwenden, die eine andere als die sprachbasierte Aufforderung ist, um die elektronische Vorrichtung aufzuwecken, ein Ausgeben eines vordefinierten hörbaren Klangs. Die elektronische Vorrichtung 190 kann den Anwender darauf hinweisen, eine alternative Aufforderung zu verwenden, durch Ausgeben eines vordefinierten Klangs oder Tons (oder einer Gruppe von Klängen oder Tönen) durch den Lautsprecher 520.
  • Bei einigen Implementierungen enthält die elektronische Vorrichtung eine Anzeige und ein Präsentieren eines Hinweises zu einem Anwender, eine Aufforderung der Vielzahl von Aufforderungen zu verwenden, die eine andere als die sprachbasierte Aufforderung ist, um die elektronische Vorrichtung aufzuwecken, ein Anzeigen des Hinweises auf eine Anzeige. Die elektronische Vorrichtung 190 kann den Anwender darauf hinweisen, eine alternative Aufforderung zu verwenden, indem eine Hinweisnachricht auf der Anzeige 524 angezeigt wird.
  • Bei einigen Implementierungen enthält die elektronische Vorrichtung ein oder mehrere LED-Lichter, und ein Präsentieren eines Hinweises zu einem Anwender, eine Aufforderung der Vielzahl von Aufforderungen zu verwenden, die unterschiedlich von der sprachbasierten Aufforderung ist, um die elektronische Vorrichtung aufzuwecken, enthält ein Anzeigen des Hinweises unter Verwendung von dem einen oder den mehreren LED-Lichtern. Die elektronische Vorrichtung 190 kann den Anwender darauf hinweisen, eine alternative Aufforderung zu verwenden, indem ein vordefiniertes Lichtmuster auf den LEDs 522 angezeigt wird.
  • Die 8A und 8B sind eine Vorderansicht 400 und eine Rückansicht 420 einer sprachaktivierten elektronischen Vorrichtung 190 gemäß einigen Implementierungen. Die elektronische Vorrichtung 190 ist als warm und einladend entworfen und passt auf natürliche Weise in viele Bereiche eines Heims. Die elektronische Vorrichtung 190 enthält ein oder mehrere Mikrofone 402 und ein Feld von Vollfarb-LEDs 404. Die Vollfarb-LEDs 404 könnten unter einer obersten Oberfläche der elektronischen Vorrichtung 190 versteckt sein und für den Anwender unsichtbar sein, wenn sie nicht erleuchtet sind. Bei einigen Implementierungen ist das Feld von Vollfarb-LEDs 404 physikalisch in einem Ring angeordnet. Weiterhin enthält die Rückseite der elektronischen Vorrichtung 190 optional einen Energieversorgungsanschluss 408, der konfiguriert ist, um mit einer Energieversorgung zu koppeln.
  • Bei einigen Implementierungen präsentiert die elektronische Vorrichtung 190 einen sauberen Eindruck ohne sichtbare Taste und die Interaktion mit der elektronischen Vorrichtung 190 basiert auf Sprache und Berührungsgesten. Alternatlv dazu enthält die elektronische Vorrichtung 190 bei einigen Implementierungen eine beschränkte Anzahl von physikalischen Tasten (z. B. eine Taste 406 auf ihrer Rückseite), und die Interaktion mit der elektronischen Vorrichtung 190 basiert weiterhin auf einem Drücken auf die Taste zusätzlich zu der Sprache und den Berührungsgesten.
  • Bei einigen Implementierungen enthält die elektronische Vorrichtung 190 bei gegebener Einfachheit und niedrigen Koste der elektronischen Vorrichtung 190 eher ein Feld von vollfarbigen lichtemittierenden Dioden (LEDs) als einen vollständigen Anzeigebildschirm. Eine LED-Entwicklungssprache ist angenommen, um eine Beleuchtung des Felds von Vollfarb-LEDs zu konfigurieren und unterschiedliche visuelle Muster zu ermöglichen, die unterschiedliche Sprachverarbeitungszustände der elektronischen Vorrichtung 190 anzeigen. Die LED-Entwicklungssprache besteht aus einer Grammatik von Farben, Mustern und einer spezifischen Bewegung, die auf eine feste Gruppe von Vollfarb-LEDs angewendet ist. Die Elemente in der Sprache sind kombiniert, um spezifische Vorrichtungszustände während der Verwendung der elektronischen Vorrichtung 190 visuell anzuzeigen. Bei einigen Implementierungen zielt eine Erleuchtung der Vollfarb-LEDs auf ein klares Darstellen der Zustände eines passiven Hörens und eines aktiven Hörens der elektronischen Vorrichtung 190 unter anderen wichtigen Zuständen ab. Eine Platzierung der Vollfarb-LEDs stimmt mit physikalischen Beschränkungen der elektronischen Vorrichtung 190 überein und das Feld von Vollfarb-LEDs könnte in einem Lautsprecher verwendet werden, der durch einen ursprünglichen Gerätehersteller (OEM) Dritter basierend auf spezifischer Technologie hergestellt ist (z. B. Google Assistant).
  • Wenn das Feld von Vollfarb-LEDs in einem Lautsprecher verwendet wird, der durch einen OEM Dritter hergestellt ist, basierend auf spezifischer Technologie, sind die Vollfarb-LEDs und die LED-Entwicklungssprache konfiguriert, um zu einer entsprechenden physikalischen Anwenderschnittstelle der OEM-Lautsprecher zu passen. In dieser Situation bleiben Vorrichtungszustände des OEM-Lautsprechers dieselben, während spezifische visuelle Muster, die die Vorrichtungszustände repräsentieren, variiert sein könnten (beispielsweise könnten die Farben der Vollfarb-LEDs unterschiedlich sein, werden aber mit gleichen Animationseffekten angezeigt).
  • Bei einer sprachaktivierten elektronischen Vorrichtung 190 tritt ein passives Hören auf, wenn die elektronische Vorrichtung 190 Audioeingaben verarbeitet, die von ihrer umgebenden Umgebung gesammelt sind, aber nicht die Audioeingaben speichert oder die Audioeingaben zu irgendeinem entfernten Server überträgt. Gegensätzlich dazu tritt ein aktives Hören auf, wenn die elektronische Vorrichtung 190 die von ihrer umgebenden Umgebung gesammelten Audioeingaben speichert und/oder die Audioeingaben mit einem entfernten Server gemeinsam nutzt. Gemäß einigen Implementierungen dieser Anmeldung hört die elektronische Vorrichtung 190 nur auf die Audioeingaben in ihrer umgebenden Umgebung passiv, ohne eine Privatheit von Anwendern der elektronischen Vorrichtung 190 zu verletzen.
  • 8C ist eine Draufsicht auf eine sprachaktivierte elektronische Vorrichtung 190 gemäß einigen Aktivierungen und 8D zeigt sechs visuelle Muster, die durch ein Feld von Vollfarb-LEDs angezeigt werden, zum Anzeigen von Sprachverarbeitungszuständen, gemäß einigen Implementierungen. Bei einigen Implementierungen enthält die elektronische Vorrichtung 190 keinen Anzeigebildschirm, und die Vollfarb-LEDs liefern eine einfache und billige visuelle Anwenderschnittstelle im Vergleich mit einem vollständigen Anzeigebildschirm. Die Vollfarb-LEDs könnten unter einer obersten Oberfläche der elektronischen Vorrichtung versteckt und für den Anwender unsichtbar sein, wenn sie nicht erleuchtet sind. In Bezug auf die 8C und 8D ist das Feld von Vollfarb-LEDs bei einigen Implementierungen physikalisch in einem Ring angeordnet.
  • Es ist detailliert Bezug genommen worden auf Implementierungen, von welchen Beispiele in den beigefügten Zeichnungen dargestellt sind. In der obigen detaillierten Beschreibung sind zahlreiche spezifische Details dargelegt worden, um ein sorgfältiges Verstehen der verschiedenen beschriebenen Implementierungen zur Verfügung zu stellen. Es wird jedoch von Fachleuten auf dem Gebiet offensichtlich werden, dass die verschiedenen beschriebenen Implementierungen ohne diese spezifischen Details ausgeführt werden können. In anderen Fällen sind wohlbekannte Verfahren, Prozeduren, Komponenten, Schaltungen und Netzwerke nicht detailliert beschrieben worden, um Aspekte der Implementierungen nicht unnötig zu verschleiern.
  • Es wird auch verstanden werden, dass, obwohl die Ausdrücke erster, zweiter, etc., in einigen Fällen hierin verwendet sind, um verschiedene Elemente zu beschreiben, diese Elemente durch diese Ausdrücke nicht beschränkt sein sollten. Diese Ausdrücke werden nur verwendet, um ein Element von einem anderen zu unterscheiden. Beispielsweise könnte eine erste Vorrichtung zweite Vorrichtung genannt werden, und gleichermaßen könnte eine zweite Vorrichtung erste Vorrichtung genannt werden, ohne vom Schutzumfang der verschiedenen beschriebenen Implementierungen abzuweichen. Die erste Vorrichtung und die zweite Vorrichtung sind beides Typen von Vorrichtungen, aber sie sind nicht dieselbe Vorrichtung.
  • Die in der Beschreibung der verschiedenen beschriebenen Implementierungen hierin verwendete Terminologie dient nur zum Zweck eines Beschreibens bestimmter Implementierungen und soll nicht beschränkend sein. Wie es in der Beschreibung der verschiedenen beschriebenen Implementierungen und der beigefügten Ansprüche verwendet ist, ist beabsichtigt, dass die Singularformen ”ein”, ”eine” und ”der, die, das” die Pluralformen ebenso gut enthalten, solange der Kontext nicht klar anderes anzeigt. Es wird auch verstanden werden, dass sich der Ausdruck ”und/oder”, wie er hierin verwendet ist, auf irgendwelche und alle möglichen Kombinationen von einem oder mehreren der assoziierten aufgelisteten Objekte bezieht und diese umfasst. Es wird weiterhin verstanden werden, dass die Ausdrücke ”enthält”, ”enthaltend”, ”umfasst” und/oder ”umfassend”, wenn sie in dieser Beschreibung verwendet sind, das Vorhandensein von angegebenen Merkmalen, ganzen Zahlen, Schritten, Operationen, Elementen und/oder Komponenten spezifizieren, aber nicht das Vorhandensein oder den Zusatz von einem oder mehreren anderen Merkmalen, ganzen Zahlen, Schritten, Operationen, Elementen, Komponenten und/oder Gruppen davon ausschließen.
  • Wie er hierin verwendet ist, ist der Ausdruck ”ob bzw. wenn” optional derart ausgelegt, dass er in Abhängigkeit vom Zusammenhang ”wenn” oder ”bei” oder ”in Antwort auf ein Bestimmen” oder ”in Antwort auf ein Erfassen” oder ”gemäß einer Bestimmung, dass” bedeutet. Gleichermaßen ist die Phrase ”wenn es bestimmt ist” oder ”wenn [ein angegebener Zustand oder ein angegebenes Ereignis...] erfasst ist” optional derart auszulegen, dass sie in Abhängigkeit vom Zusammenhang ”auf ein Bestimmen hin” oder ”in Antwort auf ein Bestimmen” oder ”auf ein Erfassen [des angegebenen Zustands oder Ereignisses]” oder ”in Antwort auf ein Erfassen [des angegebenen Zustands oder Ereignisses]” oder ”gemäß einer Bestimmung, dass [eines angegebenen Zustands oder Ereignisses] erfasst wird” bedeutet.
  • Für Situationen, in welchen die oben diskutierten Systeme Information über Anwender sammeln, kann den Anwendern eine Gelegenheit zur Verfügung gestellt werden, sich für/gegen Programme oder Merkmale zu entscheiden, die persönliche Information sammeln können (z. B. Information über Präferenzen eines Anwenders oder eine Nutzung einer Smart-Vorrichtung). Zusätzlich können bei einigen Implementierungen bestimmte Daten auf eine oder mehrere Arten anonymisiert werden, bevor sie gespeichert oder verwendet werden, so dass persönlich identifizierbare Information entfernt wird. Beispielsweise kann eine Identität eines Anwenders anonymisiert werden, so dass die persönlich identifizierbare Information für den Anwender oder assoziiert mit diesem nicht bestimmt werden kann und so dass Anwenderpräferenzen oder Anwenderinteraktionen verallgemeinert werden (beispielsweise basierend auf Anwenderdemographien verallgemeinert), eher als dass sie mit einem bestimmten Anwender assoziiert sind.
  • Obwohl einige von verschiedenen Zeichnungen einer Anzahl von logischen Stufen in einer bestimmten Reihenfolge darstellen, können Stufen, die nicht reihenfolgenabhängig sind, neu angeordnet werden, und andere Stufen können kombiniert werden oder herausgebrochen werden. Während einiges an Neuanordnung oder anderer Gruppierungen spezifisch erwähnt ist, werden andere Fachleute auf dem Gebiet offensichtlich sein, so dass die Reihenfolgenanordnung und Gruppierungen, die hierin präsentiert sind, keine erschöpfende Liste von Alternativen sind. Darüber hinaus sollte es erkannt werden, dass die Stufen in Hardware, Firmware, Software oder irgendeiner Kombination davon implementiert sein könnten.
  • Die vorangehende Beschreibung ist zum Zwecke einer Erklärung in Bezug auf spezifische Implementierungen beschrieben worden. Jedoch sollen die obigen illustrativen Diskussionen nicht erschöpfend oder den Schutzumfang der Ansprüche auf die offenbarten präzisen Formen beschränkend sein. Viele Modifikationen und Variationen sind angesichts der obigen Lehren möglich. Die Implementierungen wurden ausgewählt, um die Prinzipien am besten zu erklären, die den Ansprüchen und ihren praktischen Anwendungen zugrunde liegen, um dadurch anderen Fachleuten auf dem Gebiet zu ermöglichen, die Implementierungen mit verschiedenen Modifikationen am besten zu verwenden, wie sie für die bestimmten Verwendungen, die betrachtet werden, geeignet sind.

Claims (20)

  1. Verfahren, umfassend: bei einer elektronischen Vorrichtung mit einem oder mehreren Mikrofonen, einem Lautsprecher, einem oder mehreren Prozessoren, und einem Speicher, der ein oder mehrere Programme speichert, zur Ausführung durch den einen oder die mehreren Prozessoren: Empfangen einer ersten Spracheingabe in freier Form; Vergleichen der ersten Spracheingabe mit einer Gruppe von Sprachmodellen, die mit einer Vielzahl von Anwendern assoziiert sind, die mit der elektronischen Vorrichtung assoziiert sind, wobei die Sprachmodelle zur elektronischen Vorrichtung trainiert werden; basierend auf den Vergleichen Bestimmen, dass die erste Spracheingabe einem ersten Anwender der Vielzahl von Anwendern entspricht; und Präsentieren einer Antwort gemäß der Bestimmung.
  2. Verfahren nach Anspruch 1, wobei die Antwort eine hörbare Sprachausgabe ist und ein Präsentieren der Antwort ein Ausgeben der hörbaren Sprachausgabe umfasst.
  3. Verfahren nach Anspruch 1 oder 2, weiterhin umfassend: Bestimmen einer Anwenderanfrage basierend auf der ersten Spracheingabe; und Erzeugen der Antwort gemäß der bestimmten Anwenderanfrage.
  4. Verfahren nach Anspruch 3, wobei: die bestimmte Anwenderanfrage eine Anfrage zur elektronischen Vorrichtung enthält, um sie aufzuwecken; und die Antwort eine hörbare Begrüßung enthält, wobei die Begrüßung eine Anzeige einer Identität des bestimmten ersten Anwenders enthält.
  5. Verfahren nach Anspruch 3, wobei: die bestimmte Anwenderanfrage eine Anfrage nach Information enthält; und ein Erzeugen der Antwort gemäß der bestimmten Anfrage ein Erhalten der angefragten Information in Bezug auf den ersten Anwender umfasst.
  6. Verfahren nach Anspruch 5, wobei: ein Erhalten der angefragten Information in Bezug auf den bestimmten ersten Anwender ein Zugreifen auf ein Konto umfasst, das mit dem ersten Anwender assoziiert ist.
  7. Verfahren nach einem der Ansprüche 1 bis 6, weiterhin umfassend: Empfangen einer zweiten Spracheingabe; Vergleichen der zweiten Spracheingabe mit der Gruppe von Sprachmodellen; basierend auf dem Vergleichen Bestimmen, dass die zweite Spracheingabe einem zweiten Anwender der Vielzahl von Anwendern entspricht; und Präsentieren einer Antwort gemäß der Bestimmung, dass die zweite Spracheingabe dem zweiten Anwender entspricht.
  8. Verfahren nach einem der Ansprüche 1 bis 7, weiterhin umfassend: Empfangen einer dritten Spracheingabe; Vergleichen der dritten Spracheingabe mit der Gruppe von Sprachmodellen; basierend auf dem Vergleichen Bestimmen, dass die dritte Spracheingabe keinem der Vielzahl von Anwendern entspricht; und gemäß der Bestimmung, dass die dritte Spracheingabe keinem der Vielzahl von Anwendern entspricht, Beschränken einer Funktionalität der elektronischen Vorrichtung.
  9. Verfahren nach einem der Ansprüche 1 bis 8, wobei die elektronische Vorrichtung eine Anzeige enthält; und das Verfahren weiterhin umfasst: Anzeigen auf der Anzeige einer Anzeige einer Identität des bestimmten ersten Anwenders.
  10. Verfahren nach einem der Ansprüche 1 bis 9, wobei die elektronische Vorrichtung eine Anzeige enthält; und das Verfahren weiterhin umfasst: Anzeigen auf der Anzeige einer visuellen Anwenderschnittstelle, die mit dem bestimmten ersten Anwender assoziiert ist.
  11. Elektronische Vorrichtung, umfassend: ein oder mehrere Mikrofone; einen Lautsprecher; einen oder mehrere Prozessoren; und einen Speicher, der ein oder mehrere Programme speichert, um durch den einen oder die mehreren Prozessoren ausgeführt zu werden, wobei das eine oder die mehreren Programme Anweisungen umfassen zum: Empfangen einer ersten Spracheingabe in freier Form; Vergleichen der ersten Spracheingabe mit einer Gruppe von Sprachmodellen, die mit einer Vielzahl von Anwendern assoziiert sind, die mit der elektronischen Vorrichtung assoziiert sind, wobei die Sprachmodelle zur elektronischen Vorrichtung trainiert werden; basierend auf dem Vergleichen Bestimmen, dass die erste Spracheingabe einen ersten Anwender der Vielzahl von Anwendern entspricht; und Präsentieren einer Antwort gemäß der Bestimmung.
  12. Vorrichtung nach Anspruch 11, umfassend Anweisungen zum: Bestimmen einer Anwenderanfrage basierend auf der ersten Spracheingabe; und Erzeugen der Antwort gemäß der bestimmten Anwenderanfrage.
  13. Vorrichtung nach Anspruch 12, wobei: die bestimmte Anwenderanfrage eine Anfrage zur elektronischen Vorrichtung enthält, um sie aufzuwecken; und die Antwort eine hörbare Begrüßung enthält, wobei die Begrüßung eine Anzeige einer Identität des bestimmten ersten Anwenders enthält.
  14. Vorrichtung nach Anspruch 12, wobei: die bestimmte Anwenderanfrage eine Anfrage nach Information enthält; und die Vorrichtung Anweisungen umfasst zum: Erhalten der angefragten Information in Bezug auf den ersten Anwender.
  15. Vorrichtung nach Anspruch 14, umfassend Anweisungen zum: Zugreifen auf ein Konto, das mit dem ersten Anwender assoziiert ist.
  16. Nichtflüchtiges computerlesbares Speichermedium, das ein oder mehrere Programme speichert, wobei das eine oder die mehreren Programme Anweisungen umfassen, die dann, wenn sie durch eine elektronische Vorrichtung mit einem oder mehreren Mikrofonen, einem Lautsprecher und einem oder mehreren Prozessoren ausgeführt werden, veranlassen, dass die elektronische Vorrichtung Operationen durchführt, die umfassen: Empfangen einer ersten Spracheingabe in freier Form; Vergleichen der ersten Spracheingabe mit einer Gruppe von Sprachmodellen, die mit einer Vielzahl von Anwendern assoziiert sind, die mit der elektronischen Vorrichtung assoziiert sind, wobei die Sprachmodelle zur elektronischen Vorrichtung trainiert werden; basierend auf dem Vergleichen Bestimmen, dass die erste Spracheingabe einem ersten Anwender der Vielzahl von Anwendern entspricht; und Präsentieren einer Antwort gemäß der Bestimmung.
  17. Computerlesbares Speichermedium nach Anspruch 16, das weiterhin Anweisungen umfasst, die dann, wenn sie durch die elektronische Vorrichtung ausgeführt werden, veranlassen, dass die elektronische Vorrichtung Operationen durchführt, die umfassen: Empfangen einer zweiten Spracheingabe; Vergleichen der zweiten Spracheingabe mit der Gruppe von Sprachmodellen; basierend auf dem Vergleichen Bestimmen, dass die zweite Spracheingabe einem zweiten Anwender der Vielzahl von Anwendern entspricht; und Präsentieren einer Antwort gemäß der Bestimmung, dass die zweite Spracheingabe dem zweiten Anwender entspricht.
  18. Computerlesbares Speichermedium nach Anspruch 16 oder 17, das weiterhin Anweisungen umfasst, die dann, wenn sie durch die elektronische Vorrichtung ausgeführt werden, veranlassen, dass die elektronische Vorrichtung Operationen durchführt, die umfassen: Empfangen einer dritten Spracheingabe; Vergleichen der dritten Spracheingabe mit der Gruppe von Sprachmodellen; basierend auf dem Vergleichen Bestimmen, dass die dritte Spracheingabe keinem der Vielzahl von Anwendern entspricht; und gemäß der Bestimmung, dass die dritte Spracheingabe keinem der Vielzahl von Anwendern entspricht, Beschränken einer Funktionalität der elektronischen Vorrichtung.
  19. Computerlesbares Speichermedium nach Anspruch 16, 17 oder 18, wobei die elektronische Vorrichtung eine Anzeige enthält; und das computerlesbare Speichermedium weiterhin Anweisungen umfasst, die dann, wenn sie durch die elektronische Vorrichtung ausgeführt werden, veranlassen, dass die elektronische Vorrichtung Operationen durchführt, die umfassen: Anzeigen auf der Anzeige einer Anzeige einer Identität des bestimmten ersten Anwenders.
  20. Computerlesbares Speichermedium nach einem der Ansprüche 16 bis 19, wobei die elektronische Vorrichtung eine Anzeige enthält; und das computerlesbare Speichermedium weiterhin Anweisungen umfasst, die dann, wenn sie durch die elektronische Vorrichtung ausgeführt werden, veranlassen, dass die elektronische Vorrichtung Operationen durchführt, die umfassen: Anzeigen auf der Anzeige einer visuellen Anwenderschnittstelle, die mit dem bestimmten ersten Anwender assoziiert ist.
DE102017122216.2A 2016-08-15 2017-09-26 Mehrfachanwenderpersonalisierung bei einer Sprachschnittstellenvorrichtung Pending DE102017122216A1 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662375411P 2016-08-15 2016-08-15
US15/284,478 2016-10-03
US15/284,478 US10241860B2 (en) 2016-08-15 2016-10-03 Method of executing data scrubbing inside a smart storage device

Publications (1)

Publication Number Publication Date
DE102017122216A1 true DE102017122216A1 (de) 2018-04-05

Family

ID=61160167

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102017122216.2A Pending DE102017122216A1 (de) 2016-08-15 2017-09-26 Mehrfachanwenderpersonalisierung bei einer Sprachschnittstellenvorrichtung

Country Status (6)

Country Link
US (1) US10241860B2 (de)
JP (1) JP6788554B2 (de)
KR (1) KR102094932B1 (de)
CN (1) CN107765994B (de)
DE (1) DE102017122216A1 (de)
TW (1) TWI699644B (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102020129606A1 (de) 2020-11-10 2022-05-12 nxtbase technologies GmbH Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10437501B1 (en) * 2018-03-23 2019-10-08 EMC IP Holding Company LLC Storage system with detection and correction of reference count based leaks in physical capacity
US10901847B2 (en) * 2018-07-31 2021-01-26 EMC IP Holding Company LLC Maintaining logical to physical address mapping during in place sector rebuild
US11163886B2 (en) * 2018-09-28 2021-11-02 Dell Products L.P. Information handling system firmware bit error detection and correction

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956473A (en) * 1996-11-25 1999-09-21 Macronix International Co., Ltd. Method and system for managing a flash memory mass storage system
US7136885B2 (en) * 2002-12-20 2006-11-14 International Business Machines Corporation Free space management
US7496823B2 (en) 2005-03-16 2009-02-24 Hewlett-Packard Development Company, L.P. Hardware based memory scrubbing
US8145941B2 (en) * 2006-10-31 2012-03-27 Hewlett-Packard Development Company, L.P. Detection and correction of block-level data corruption in fault-tolerant data-storage systems
JP5076488B2 (ja) * 2006-12-22 2012-11-21 富士通株式会社 情報処理装置、履歴管理方法、履歴管理プログラム
US7661045B2 (en) 2007-12-19 2010-02-09 International Business Machines Corporation Method and system for enterprise memory management of memory modules
US8280858B2 (en) 2009-06-29 2012-10-02 Oracle America, Inc. Storage pool scrubbing with concurrent snapshots
US8407191B1 (en) * 2010-06-29 2013-03-26 Emc Corporation Priority based data scrubbing on a deduplicated data store
US8229901B2 (en) 2010-09-04 2012-07-24 International Business Machines Corporation Disk scrubbing
CN102184211B (zh) * 2011-05-03 2014-08-06 华为数字技术(成都)有限公司 文件系统和检索、写入、修改或删除文件的方法与装置
US8694719B2 (en) * 2011-06-24 2014-04-08 Sandisk Technologies Inc. Controller, storage device, and method for power throttling memory operations
US8687421B2 (en) * 2011-11-21 2014-04-01 Sandisk Technologies Inc. Scrub techniques for use with dynamic read
KR20140001535A (ko) 2012-06-27 2014-01-07 삼성전자주식회사 스토리지 시스템 및 그것의 데이터 관리 방법
US9081693B2 (en) 2012-08-17 2015-07-14 Freescale Semiconductor, Inc. Data type dependent memory scrubbing
US9026869B1 (en) * 2012-11-01 2015-05-05 Amazon Technologies, Inc. Importance-based data storage verification
WO2014110095A1 (en) * 2013-01-08 2014-07-17 Violin Memory Inc. Method and system for data storage
US9189330B2 (en) * 2013-04-11 2015-11-17 International Business Machines Corporation Stale data detection in marked channel for scrub
JP5971423B2 (ja) * 2014-07-23 2016-08-17 富士通株式会社 情報処理装置、メモリコントローラ、記憶装置の制御プログラム及び記憶装置の制御方法
CN105630808A (zh) * 2014-10-31 2016-06-01 北京奇虎科技有限公司 基于分布式文件系统的文件读取、写入方法及节点服务器
CN104484427B (zh) * 2014-12-19 2017-12-29 武汉长江通信智联技术有限公司 一种录像文件存储装置及方法
KR101609509B1 (ko) * 2015-04-10 2016-04-05 홍익대학교 산학협력단 에러를 검출하고 수정하는 컴퓨팅 방법 및 장치
US10209895B2 (en) * 2016-02-18 2019-02-19 Toshiba Memory Corporation Memory system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102020129606A1 (de) 2020-11-10 2022-05-12 nxtbase technologies GmbH Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe

Also Published As

Publication number Publication date
KR102094932B1 (ko) 2020-03-30
US20180046546A1 (en) 2018-02-15
JP6788554B2 (ja) 2020-11-25
JP2018028905A (ja) 2018-02-22
KR20180019051A (ko) 2018-02-23
TW201807573A (zh) 2018-03-01
TWI699644B (zh) 2020-07-21
CN107765994B (zh) 2023-01-03
CN107765994A (zh) 2018-03-06
US10241860B2 (en) 2019-03-26

Similar Documents

Publication Publication Date Title
DE202017105819U1 (de) Mehrfachanwenderpersonalisierung bei einer Sprachschnittstellenvorrichtung
US11869527B2 (en) Noise mitigation for a voice interface device
US11024311B2 (en) Device leadership negotiation among voice interface devices
DE102017129939B4 (de) Gesprächsbewusste proaktive Benachrichtigungen für eine Sprachschnittstellenvorrichtung
DE102017125745A1 (de) Fokussitzung an einem Sprachschnittstellengerät
DE102017127239A1 (de) Vom Server gelieferte visuelle Ausgabe an einer Sprachschnittstellenvorrichtung
WO2018067528A1 (en) Device leadership negotiation among voice interface devices
DE102017129920A1 (de) Bauform für kompakten Heimassistenten mit kombiniertem Schallwellenleiter und Kühlkörper
DE102017122216A1 (de) Mehrfachanwenderpersonalisierung bei einer Sprachschnittstellenvorrichtung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: MAIKOWSKI & NINNEMANN PATENTANWAELTE PARTNERSC, DE

Representative=s name: BETTEN & RESCH PATENT- UND RECHTSANWAELTE PART, DE

R082 Change of representative

Representative=s name: MAIKOWSKI & NINNEMANN PATENTANWAELTE PARTNERSC, DE

R016 Response to examination communication