DE202015010012U1 - Aktivierungswort-Ermittlung auf mehreren Vorrichtungen - Google Patents

Aktivierungswort-Ermittlung auf mehreren Vorrichtungen Download PDF

Info

Publication number
DE202015010012U1
DE202015010012U1 DE202015010012.0U DE202015010012U DE202015010012U1 DE 202015010012 U1 DE202015010012 U1 DE 202015010012U1 DE 202015010012 U DE202015010012 U DE 202015010012U DE 202015010012 U1 DE202015010012 U1 DE 202015010012U1
Authority
DE
Germany
Prior art keywords
computing device
utterance
activation word
audio data
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE202015010012.0U
Other languages
English (en)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=54330874&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE202015010012(U1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Google LLC filed Critical Google LLC
Publication of DE202015010012U1 publication Critical patent/DE202015010012U1/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

Nichtflüchtiges computerlesbares Medium, das Software speichert, die durch einen oder mehrere Computer ausführbare Anweisungen umfasst, die bei solcher Ausführung den einen oder die mehreren Computer veranlassen, Folgendes durchzuführen:
Empfangen von Audiodaten durch eine Computervorrichtung;
Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen;
als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung;
als Antwort auf das Übertragen der Daten zu der zusätzlichen Computervorrichtung erfolgendes Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung; und
Bestimmen durch die Computervorrichtung auf der Grundlage der zusätzlichen Daten, ob ein Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll.

Description

  • FACHGEBIET
  • Die vorliegende Patentschrift betrifft allgemein Systeme und Methoden zur Erkennung von Wörtern, die eine Person spricht, was auch als Spracherkennung bezeichnet wird.
  • HINTERGRUND
  • Die Realität eines sprachgesteuerten Hauses oder einer anderen Umgebung - d.h. einer Umgebung, in der ein Benutzer nur eine Anfrage oder einen Befehl laut auszusprechen braucht und ein computergestütztes System die Anfrage aufnimmt und beantwortet und/oder die Durchführung des Befehls veranlasst - ist in greifbare Nähe gerückt. Eine sprachgesteuerte Umgebung (z.B. Wohnung, Arbeitsplatz, Schule usw.) kann unter Verwendung eines Netzwerks von angeschlossenen Mikrofonvorrichtungen realisiert werden, die über die verschiedenen Räume oder Bereiche der Umgebung verteilt sind. Über ein solches Netzwerk von Mikrofonen hat ein Benutzer die Fähigkeit, das System von praktisch überallher in der Umgebung mündlich anzufragen, ohne einen Computer oder eine andere Vorrichtung vor ihm/ihr oder auch nur in der Nähe haben zu müssen. Zum Beispiel könnte ein Benutzer beim Kochen in der Küche das System fragen: „Wie viele Milliliter sind in drei Tassen?“, und als Reaktion eine Antwort vom System empfangen, z.B. in Form einer synthetischen Sprachausgabe.
  • Alternativ könnte ein Benutzer dem System Fragen stellen wie etwa: „Wann schließt meine nächste Tankstelle?“, oder, wenn er sich darauf vorbereitet, das Haus zu verlassen: „Sollte ich heute einen Mantel tragen?“
  • Ferner kann ein Benutzer dem System eine Frage stellen und/oder einen Befehl erteilen, der sich auf die persönlichen Informationen des Benutzers bezieht. Zum Beispiel könnte ein Benutzer das System fragen: „Wann ist mein Treffen mit John?“, oder dem System befehlen: „Erinnere mich daran, John anzurufen, wenn ich nach Hause komme.“
  • ZUSAMMENFASSUNG
  • Bei einem sprachgesteuerten System ist die Art und Weise, wie die Benutzer mit dem System interagieren, vorrangig, wenn nicht ausschließlich, mittels Spracheingabe vorgesehen. Folglich muss das System, das potenziell alle Äußerungen in der Umgebung aufnimmt, einschließlich derjenigen, die nicht an das System gerichtet sind, über eine Möglichkeit verfügen, zu erkennen, wann eine bestimmte Äußerung an das System gerichtet ist, statt z.B. an eine in der Umgebung anwesende Person gerichtet zu sein. Eine Möglichkeit, dies zu erreichen, ist die Verwendung eines Aktivierungsworts, das nach Absprache zwischen den Benutzern in der Umgebung als ein vorbestimmtes Wort reserviert wird, das gesprochen wird, um die Aufmerksamkeit des Systems zu wecken. In einer beispielhaften Umgebung werden als Aktivierungswort die Wörter „OK Computer“ verwendet, um die Aufmerksamkeit des Systems zu wecken. Folglich werden jedes Mal, wenn die Wörter „OK Computer“ gesprochen werden, diese durch ein Mikrofon aufgenommen und an das System weitergeleitet, das Spracherkennungsmethoden durchführt, um zu bestimmen, ob das Aktivierungswort gesprochen wurde, und, falls ja, einen darauf folgenden Befehl oder eine Anfrage erwartet. Dementsprechend nehmen an das System gerichtete Äußerungen die allgemeine Form [HOTWORD] [QUERY] an, wobei „HOTWORD“ in diesem Beispiel „OK Computer“ ist und „QUERY“ eine beliebige Frage, ein Befehl, eine Erklärung oder eine andere Anfrage sein kann, die durch das System sprachlich erkannt, analysiert und befolgt werden kann, entweder allein oder in Verbindung mit dem Server über das Netzwerk.
  • Gemäß einem innovativen Aspekt des in der vorliegenden Patentschrift beschriebenen Gegenstands empfängt eine Benutzervorrichtung eine Äußerung, die durch einen Benutzer gesprochen wird. Die Benutzervorrichtung bestimmt, ob die Äußerung ein Aktivierungswort einschließt, und berechnet eine Aktivierungswort-Konfidenzpunktzahl, die eine Wahrscheinlichkeit angibt, dass die Äußerung das Aktivierungswort einschließt. Die Benutzervorrichtung überträgt diese Punktzahl zu anderen Benutzervorrichtungen in der näheren Umgebung. Die anderen Benutzervorrichtungen haben wahrscheinlich die gleiche Äußerung empfangen. Die anderen Benutzervorrichtungen berechnen eine Aktivierungswort-Konfidenzpunktzahl und übertragen ihre Punktzahlen zu der Benutzervorrichtung. Die Benutzervorrichtung vergleicht die Aktivierungswort-Konfidenzpunktzahlen. Wenn die Benutzervorrichtung die höchste Aktivierungswort-Konfidenzpunktzahl hat, bleibt sie aktiv und bereitet sich darauf vor, weitere Audiodaten zu verarbeiten. Wenn die Benutzervorrichtung nicht die höchste Aktivierungswort-Konfidenzpunktzahl hat, dann verarbeitet die Benutzervorrichtung die zusätzlichen Audiodaten nicht.
  • Grundsätzlich kann ein weiterer innovativer Aspekt des in der vorliegenden Patentschrift beschriebenen Gegenstands in Verfahren verkörpert werden, welche die folgenden Aktionen einschließen: Empfangen von Audiodaten, die einer Äußerung entsprechen, durch eine erste Computervorrichtung; Bestimmen eines ersten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung ein Aktivierungswort enthält; Empfangen eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der zweite Wert durch eine zweite Computervorrichtung bestimmt wird; Vergleichen des ersten Werts und des zweiten Werts; und auf dem Vergleichen des ersten Werts mit dem zweiten Wert beruhendes Initiieren einer Spracherkennungsverarbeitung an den Audiodaten.
  • Diese und andere Ausführungsformen können jeweils optional eines oder mehrere der folgenden Merkmale einschließen. Die Aktionen schließen ferner ein: Bestimmen, dass der erste Wert einen Aktivierungswort-Punktzahlschwellenwert erfüllt. Die Aktionen schließen ferner ein: Übertragen des ersten Werts zur zweiten Computervorrichtung. Die Aktionen schließen ferner ein: auf dem Vergleichen des ersten Werts und des zweiten Werts beruhendes Bestimmen eines Aktivierungszustands der ersten Computervorrichtung. Die Aktion des auf dem Vergleichen des ersten Werts und des zweiten Werts beruhenden Bestimmens eines Aktivierungszustands der ersten Computervorrichtung schließt ferner ein: Bestimmen, dass der Aktivierungszustand ein aktiver Zustand ist. Die Aktionen schließen ferner ein: Empfangen zusätzlicher Audiodaten, die einer zusätzlichen Äußerung entsprechen, durch die erste Computervorrichtung; Bestimmen eines dritten Werts, der einer Wahrscheinlichkeit entspricht, dass die zusätzliche Äußerung das Aktivierungswort einschließt; Empfangen eines vierten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der vierte Wert durch eine dritte Computervorrichtung bestimmt wird; Vergleichen des ersten Werts und des zweiten Werts; und auf dem Vergleichen des ersten Werts und des zweiten Werts beruhendes Bestimmen, dass der Aktivierungszustand der ersten Computervorrichtung ein inaktiver Zustand ist.
  • Die Aktion des Übertragens des ersten Werts zur zweiten Computervorrichtung schließt ferner ein: Übertragen des ersten Werts über ein lokales Netzwerk oder über Kurzstreckenfunk zu einem Server. Die Aktion des Empfangens eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort enthält, wobei der zweite Wert durch eine zweite Computervorrichtung bestimmt wird, schließt ferner ein: Empfangen eines zweiten Werts, der durch eine zweite Computervorrichtung bestimmt wurde, vom Server, über das lokale Netzwerk oder über den Kurzstreckenfunk. Die Aktionen schließen ferner ein: Identifizieren der zweiten Computervorrichtung; und Bestimmen, dass die zweite Computervorrichtung dafür konfiguriert ist, auf Äußerungen zu reagieren, die das Aktivierungswort einschließen. Die Aktion des Übertragens des ersten Werts zur zweiten Computervorrichtung schließt ferner ein: Übertragen einer ersten Kennung für die erste Computervorrichtung. Die Aktion des Empfangens eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der zweite Wert durch eine zweite Computervorrichtung bestimmt wird, schließt ferner ein: Empfangen einer zweiten Kennung für die zweite Computervorrichtung. Die Aktion des Bestimmens, dass der Aktivierungszustand ein aktiver Zustand ist, schließt ferner ein: Bestimmen, dass seit dem Empfangen der Audiodaten, die der Äußerung entsprechen, eine bestimmte Zeitspanne verstrichen ist. Die Aktionen schließen ferner ein: auf dem Bestimmen, dass der Aktivierungszustand ein aktiver Zustand ist, beruhendes Fortfahren für eine bestimmte Zeitspanne, den ersten Wert zu übertragen.
  • Andere Ausführungsformen dieses Aspekts schließen entsprechende Systeme, Vorrichtungen und auf Computerspeichervorrichtungen aufgezeichnete Computerprogramme ein, die jeweils dafür konfiguriert sind, die Operationen der Verfahren durchzuführen.
  • Bestimmte Ausführungsformen des in der vorliegenden Patentschrift beschriebenen Gegenstands können so implementiert werden, dass dadurch einer oder mehrere der folgenden Vorteile verwirklicht werden. Mehrere Vorrichtungen können ein Aktivierungswort ermitteln und nur eine Vorrichtung wird auf das Aktivierungswort reagieren.
  • Die Einzelheiten von einer oder mehreren Ausführungsformen des in der vorliegenden Patentschrift beschriebenen Gegenstands sind in den beigefügten Zeichnungen und in der nachstehenden Beschreibung dargelegt. Andere Merkmale, Aspekte und Vorteile des Gegenstandes werden aus der Beschreibung, den Zeichnungen und den Ansprüchen ersichtlich.
  • Figurenliste
    • 1 ist eine grafische Darstellung eines beispielhaften Systems zur Aktivierungswort-Ermittlung.
    • 2 ist eine grafische Darstellung eines beispielhaften Prozesses für die Aktivierungswort-Ermittlung.
    • 3 zeigt ein Beispiel für eine Computervorrichtung und eine mobile Computervorrichtung.
  • Gleiche Bezugszeichen und Bezeichnungen in den verschiedenen Zeichnungen geben gleiche Elemente an.
  • AUSFÜHRLICHE BESCHREIBUNG
  • In nicht allzu ferner Zukunft ist es möglich, dass viele Vorrichtungen kontinuierlich nach Aktivierungswörtern lauschen. Wenn ein einzelner Benutzer mehrere Vorrichtungen hat, die darauf trainiert sind, auf seine Stimme zu reagieren (z.B. ein Telefon, ein Tablet, ein Fernseher usw.), kann es erwünscht sein, das Reagieren auf Aktivierungswörter auf Vorrichtungen zu unterdrücken, die wahrscheinlich nicht diejenigen sind, die ein Benutzer ansprechen will. Wenn ein Benutzer zum Beispiel das Aktivierungswort in Richtung einer Vorrichtung spricht, ist es wahrscheinlich, wenn andere Vorrichtungen in der Nähe sind, dass auch sie eine Sprachsuche auslösen. In vielen Fällen ist dies nicht die Absicht des Nutzers. Daher kann es von Vorteil sein, dass nur eine einzige Vorrichtung ausgelöst wird, nämlich die Vorrichtung, mit welcher der Benutzer spricht. Die vorliegende Patentschrift befasst sich mit dem Problem, die richtige Vorrichtung zum Reagieren auf ein Aktivierungswort auszuwählen und auf anderen Vorrichtungen die Reaktion auf das Aktivierungswort zu unterdrücken.
  • 1 ist eine grafische Darstellung eines beispielhaften Systems 100 zur Aktivierungswort-Ermittlung. Grundsätzlich zeigt das System 100 einen Benutzer 102, der eine Äußerung 104 spricht, die durch Mikrofone der Computervorrichtungen 106, 108 und 110 ermittelt wird. Die Computervorrichtungen 106, 108 und 110 verarbeiten die Äußerung 104, um die Wahrscheinlichkeit zu bestimmen, dass die Äußerung 104 ein Aktivierungswort einschließt. Die Computervorrichtungen 106, 108 und 110 übertragen jeweils Daten zueinander, welche die Wahrscheinlichkeit angeben, dass die Äußerung 104 ein Aktivierungswort einschließt. Die Computervorrichtungen 106, 108 und 110 vergleichen jeweils die Daten, und die Computervorrichtung, welche die höchste Wahrscheinlichkeit berechnet hat, dass die Äußerung 104 ein Aktivierungswort einschloss, initiiert die Spracherkennung an der Äußerung 104. Die Computervorrichtungen, die nicht die höchste Wahrscheinlichkeit berechnet haben, dass die Äußerung 104 ein Aktivierungswort einschließt, initiieren keine Spracherkennung an der auf die Äußerung 104 folgenden Sprache.
  • Bevor Daten, die eine Wahrscheinlichkeit angeben, dass die Äußerung 104 einem Aktivierungswort entspricht, zu einer anderen Computervorrichtung übertragen werden, identifizieren die Computervorrichtungen einander, die sich nahe beieinander befinden. In einigen Implementierungen identifizieren die Computervorrichtungen einander, indem sie das lokale Netzwerk nach anderen Vorrichtungen durchsuchen, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren. Zum Beispiel kann die Computervorrichtung 106 das lokale Netzwerk nach anderen Vorrichtungen durchsuchen, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren, und die Computervorrichtung 108 und die Computervorrichtung 110 identifizieren.
  • In einigen Implementierungen identifizieren die Computervorrichtungen andere Computervorrichtungen in der Nähe, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren, indem sie den Benutzer identifizieren, der bei jeder Vorrichtung angemeldet ist. Zum Beispiel ist der Benutzer 102 bei den Computervorrichtungen 106, 108 und 110 angemeldet. Der Benutzer 102 hat die Computervorrichtung 106 in der Hand. Die Computervorrichtung 108 liegt auf dem Tisch, und die Vorrichtung 110 befindet sich an einer Wand in der Nähe. Die Computervorrichtung 106 ermittelt die Computervorrichtungen 108 und 110, und jede Computervorrichtung teilt Informationen, die sich auf den an der Computervorrichtung angemeldeten Benutzer beziehen, wie etwa eine Benutzerkennung. In einigen Implementierungen können die Computervorrichtungen andere Computervorrichtungen in der Nähe identifizieren, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren, indem sie Computervorrichtungen identifizieren, die dafür konfiguriert sind, durch Sprecheridentifizierung zu reagieren, wenn das Aktivierungswort durch den gleichen Benutzer gesprochen wird. Zum Beispiel hat der Benutzer 102 die Computervorrichtungen 106, 108 und 110 jeweils dafür konfiguriert, auf die Stimme des Benutzers 102 zu reagieren, wenn Benutzer 102 das Aktivierungswort spricht. Die Computervorrichtungen teilen die Informationen zur Sprecheridentifizierung, indem sie jeder anderen Computervorrichtung eine Benutzerkennung für Benutzer 102 bereitstellen. In einigen Implementierungen können die Computervorrichtungen andere Computervorrichtungen identifizieren, die dafür konfiguriert sind, auf das Aktivierungswort über Kurzstreckenfunk zu reagieren. Zum Beispiel kann die Computervorrichtung 106 ein Signal über Kurzstreckenfunk übertragen, um nach anderen Computervorrichtungen zu suchen, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren. Die Computervorrichtungen können eine dieser Methoden oder eine Kombination daraus verwenden, um andere Computervorrichtungen zu identifizieren, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren.
  • Sobald die Computervorrichtungen 106, 108 und 110 andere Computervorrichtungen identifiziert haben, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren, teilen und speichern die Computervorrichtungen 106, 108 und 110 Vorrichtungskennungen für die identifizierten Computervorrichtungen. Die Kennungen können auf einem Vorrichtungstyp, einer IP-Adresse der Vorrichtung, einer MAC-Adresse, einem Namen, welcher der Vorrichtung durch einen Benutzer gegeben wurde, oder einer ähnlichen eindeutigen Kennung beruhen. Zum Beispiel kann die Kennung 112 für die Computervorrichtung 106 „Telefon“ lauten. Die Kennung 114 für die Computervorrichtung 108 kann „Tablet“ lauten. Die Kennung 116 für die Computervorrichtung 110 kann „Thermostat“ lauten. Die Computervorrichtungen 106, 108 und 110 speichern die Vorrichtungskennung für die anderen Computervorrichtungen, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren. Jede Computervorrichtung hat eine Vorrichtungsgruppe, in der die Computervorrichtung die Vorrichtungskennungen speichert. Zum Beispiel hat die Computervorrichtung 106 die Vorrichtungsgruppe 118, die „Tablet“ und „Thermostat“ als die beiden Vorrichtungen auflistet, welche die Wahrscheinlichkeit empfangen, dass die Audiodaten das Aktivierungswort einschließen, wie sie durch die Computervorrichtung 106 berechnet wurde. Die Computervorrichtung 108 hat die Vorrichtungsgruppe 120, die „Telefon“ und „Thermostat“ als die beiden Vorrichtungen auflistet, welche die Wahrscheinlichkeit empfangen, dass die Audiodaten das Aktivierungswort einschließen, wie sie durch die Computervorrichtung 108 berechnet wurde. Die Computervorrichtung 110 hat die Vorrichtungsgruppe 122, die „Telefon“ und „Tablet“ als die beiden Vorrichtungen auflistet, welche die Wahrscheinlichkeit empfangen, dass die Audiodaten das Aktivierungswort einschließen, wie sie durch die Computervorrichtung 110 berechnet wurde.
  • Wenn der Benutzer 102 die Äußerung 104, „OK Computer“, spricht, ermittelt und verarbeitet jede Computervorrichtung in der Nähe des Benutzers 102, die ein Mikrofon hat, die Äußerung 104. Jede Computervorrichtung ermittelt die Äußerung 104 über eine Audioeingabevorrichtung wie etwa ein Mikrofon. Jedes Mikrofon stellt Audiodaten für ein jeweiliges Audio-Subsystem bereit. Das jeweilige Audio-Subsystem puffert, filtert und digitalisiert die Audiodaten. In einigen Implementierungen kann auch jede Computervorrichtung an den Audiodaten eine Endpunktbestimmung und Sprecheridentifizierung durchführen. Das Audio-Subsystem übergibt die verarbeiteten Audiodaten an einen Hotworder, auch Aktivierungswort-Erkennungsvorrichtung genannt. Der Hotworder vergleicht die verarbeiteten Audiodaten mit bekannten Aktivierungswortdaten und berechnet eine Konfidenzpunktzahl, welche die Wahrscheinlichkeit angibt, dass die Äußerung 104 einem Aktivierungswort entspricht. Der Hotworder kann Audiomerkmale aus den verarbeiteten Audiodaten extrahieren, wie etwa Filterbank-Energien oder Mel-Frequenz-Cepstrum-Koeffizienten. Der Hotworder kann Klassifizierungsfenster verwenden, um diese Audiomerkmale zu verarbeiten, wie etwa durch Verwendung einer Support-Vektor-Maschine, auch Stützvektormethode genannt, oder eines neuronalen Netzes. Auf der Grundlage der Verarbeitung der Audiomerkmale berechnet der Hotworder 124 eine Konfidenzpunktzahl von 0,85, der Hotworder 126 berechnet eine Konfidenzpunktzahl von 0,6 und der Hotworder 128 berechnet eine Konfidenzpunktzahl von 0,45. In einigen Implementierungen kann die Konfidenzpunktzahl auf eine Skala von null bis eins normiert werden, wobei eine höhere Zahl eine größere Konfidenz angibt, dass die Äußerung 104 ein Aktivierungswort einschließt.
  • Jede Computervorrichtung überträgt ein entsprechendes Konfidenzpunktzahl-Datenpaket zu den anderen Computervorrichtungen in der Vorrichtungsgruppe. Jedes Konfidenzpunktzahl-Datenpaket schließt eine jeweilige Konfidenzpunktzahl und die jeweilige Vorrichtungskennung für die Computervorrichtung ein. Zum Beispiel überträgt die Computervorrichtung 106 das Konfidenzpunktzahl-Datenpaket 130, das die Konfidenzpunktzahl von 0,85 und die Kennung „Telefon“ einschließt, zu den Computervorrichtungen der Vorrichtungsgruppe 118, nämlich den Computervorrichtungen 108 und 110. Die Computervorrichtung 108 überträgt das Konfidenzpunktzahl-Datenpaket 132, das die Konfidenzpunktzahl von 0,6 und die Kennung „Tablet“ einschließt, zu Computervorrichtungen der Vorrichtungsgruppe 120, also zu den Computervorrichtungen 106 und 110. Die Computervorrichtung 110 überträgt das Konfidenzpunktzahl-Datenpaket 134, das die Konfidenzpunktzahl von 0,45 und die Kennung „Thermostat“ einschließt, zu Computervorrichtungen in der Vorrichtungsgruppe 118, also zu den Computervorrichtungen 106 und 108.
  • In einigen Implementierungen kann eine Computervorrichtung das Konfidenzpunktzahl-Datenpaket übertragen, wenn die Konfidenzpunktzahl einen Aktivierungswort-Punktzahlschwellenwert erfüllt. Wenn der Aktivierungswort-Punktzahlschwellenwert zum Beispiel 0,5 ist, würde die Computervorrichtung 110 das Konfidenzpunktzahl-Datenpaket 134 nicht zu den anderen Computervorrichtungen in der Vorrichtungsgruppe 122 übertragen. Die Computervorrichtungen 106 und 108 würden dennoch die Konfidenzpunktzahl-Datenpakete 130 und 132 zu den Computervorrichtungen in den Vorrichtungsgruppen 118 bzw. 120 übertragen.
  • In einigen Implementierungen kann die Computervorrichtung, die ein Konfidenzpunktzahl-Datenpaket überträgt, das Konfidenzpunktzahl-Datenpaket direkt zu anderen Computervorrichtungen übertragen. Zum Beispiel kann die Computervorrichtung 106 das Konfidenzpunktzahl-Datenpaket 130 über Kurzstreckenfunk zu den Computervorrichtungen 108 und 110 übertragen. Das zwischen zwei Computervorrichtungen verwendete Kommunikationsprotokoll kann universelles Plug-and-Play sein. In einigen Implementierungen kann eine Computervorrichtung, die ein Konfidenzpunktzahl-Datenpaket überträgt, das Konfidenzpunktzahl-Datenpaket rundsenden. In diesem Fall kann das Konfidenzpunktzahl-Datenpaket durch die Computervorrichtungen in der Vorrichtungsgruppe und durch andere Computervorrichtungen empfangen werden. In einigen Implementierungen kann eine Computervorrichtung, die ein Konfidenzpunktzahl-Datenpaket überträgt, das Konfidenzpunktzahl-Datenpaket zu einem Server übertragen, und der Server überträgt dann das Konfidenzpunktzahl-Datenpaket zu den Computervorrichtungen in der Datengruppe. Der Server kann sich innerhalb des lokalen Netzwerks der Computervorrichtungen befinden oder über das Internet zugänglich sein. Zum Beispiel sendet die Computervorrichtung 108 das Konfidenzpunktzahl-Datenpaket 132 und die Liste der Computervorrichtungen in der Vorrichtungsgruppe 120 an einen Server. Der Server überträgt das Konfidenzpunktzahl-Datenpaket 132 zu den Computervorrichtungen 106 und 110. In Fällen, in denen eine Computervorrichtung, die das Konfidenzpunktzahl-Datenpaket zu einer anderen Computervorrichtung überträgt, kann die empfangende Computervorrichtung eine Bestätigung zurücksenden, dass die empfangende Computervorrichtung das Konfidenzpunktzahl-Datenpaket empfangen hat.
  • Jede Computervorrichtung verwendet einen Punktzahlvergleicher, um die Aktivierungswort-Konfidenzpunktzahlen zu vergleichen, welche die Computervorrichtung empfangen hat. Zum Beispiel hat die Computervorrichtung 106 eine Aktivierungswort-Konfidenzpunktzahl von 0,85 berechnet und Aktivierungswort-Konfidenzpunktzahlen von 0,6 und 0,45 empfangen. In diesem Fall vergleicht der Punktzahlvergleicher 136 die drei Werte und identifiziert den Wert von 0,85 als den höchsten. Für die Computervorrichtungen 108 und 110 kommen die Punktzahlvergleicher 138 und 140 zu ähnlichen Ergebnissen, indem sie den Wert von 0,85, welcher der Computervorrichtung 106 entspricht, als den höchsten identifizieren.
  • Diejenige Computervorrichtung, die bestimmt, dass ihre eigene Aktivierungswort-Konfidenzpunktzahl die höchste ist, initiiert die Spracherkennung an den Sprachdaten, die auf die Äußerung des Aktivierungsworts folgen. Zum Beispiel kann der Benutzer „OK Computer“ sprechen und die Computervorrichtung 106 kann bestimmen, dass sie die höchste Aktivierungswort-Konfidenzpunktzahl hat. Die Computervorrichtung 106 initiiert die Spracherkennung an den nach dem Aktivierungswort empfangenen Audiodaten. Wenn der Benutzer „Ruf Alice an“ sagt, wird die Computervorrichtung 106 die Äußerung verarbeiten und den entsprechenden Befehl ausführen. In einigen Implementierungen kann der Empfang eines Aktivierungsworts bewirken, dass die Computervorrichtungen, die das Aktivierungswort empfangen, aus einem Ruhezustand aktiviert werden. In diesem Fall bleibt die Computervorrichtung mit der höchsten Aktivierungswort-Konfidenzpunktzahl in einem Wachzustand, während die anderen Computervorrichtungen, die nicht die höchste Aktivierungswort-Konfidenzpunktzahl haben, keine Sprachdaten verarbeiten, die auf die Äußerung des Aktivierungsworts folgen, und in einen Ruhezustand übergehen.
  • Wie in 1 dargestellt, hat der Punktzahlvergleicher 136 die der Vorrichtung 106 entsprechende Aktivierungswort-Konfidenzpunktzahl als die höchste identifiziert. Daher ist der Status der Vorrichtung 142 „wach“. Die Punktzahlvergleicher 138 und 140 haben ebenfalls das Aktivierungswort mit der höchsten Konfidenzpunktzahl für die Vorrichtung 106 identifiziert. Daher sind die Vorrichtungsstatus 138 und 140 „in Ruhe“. In einigen Implementierungen kann der Aktivierungszustand der Computervorrichtung unbeeinflusst bleiben. Zum Beispiel kann der Benutzer 102 gerade einen Film auf der Computervorrichtung 108 ansehen und die Computervorrichtung 106 in der Hand haben. Wenn der Benutzer 102 „OK Computer“ sagt, initiiert die Computervorrichtung 106, da sie die höchste Aktivierungswort-Konfidenzpunktzahl hat, die Spracherkennung an den auf das Aktivierungswort folgenden Audiodaten. Die Computervorrichtung 108 initiiert keine Spracherkennung an den auf das Aktivierungswort folgenden Audiodaten und fährt fort, den Film abzuspielen.
  • In einigen Implementierungen wartet die Computervorrichtung, die bestimmt, dass sie die höchste Aktivierungswort-Konfidenzpunktzahl hat, für eine bestimmte Zeitspanne, bevor sie beginnt, die Spracherkennung an der auf das Aktivierungswort folgende Sprache durchzuführen. Das ermöglicht einer Computervorrichtung, welche die höchste Aktivierungswort-Konfidenzpunktzahl berechnet hat, mit der Durchführung der Spracherkennung an der Sprache zu beginnen, die auf das Aktivierungswort folgt, ohne auf eine höhere Aktivierungswort-Konfidenzpunktzahl zu warten. Zur Veranschaulichung: Der Punktzahlvergleicher 136 der Computervorrichtung 106 hat Aktivierungswort-Konfidenzpunktzahlen von 0,6 und 0,45 von den Computervorrichtungen 108 bzw. 110 sowie die Aktivierungswort-Konfidenzpunktzahl von 0,85 vom Hotworder 124 empfangen. Ab dem Zeitpunkt, an dem der Hotworder 124 eine Aktivierungswort-Konfidenzpunktzahl an den Audiodaten „OK Computer“ berechnet, wartet die Computervorrichtung 106 fünfhundert Millisekunden, bevor sie Spracherkennung an der Sprache durchführt, die auf das Aktivierungswort folgt. In Fällen, in denen der Punktzahlvergleicher eine höhere Punktzahl empfängt, wartet die Computervorrichtung möglicherweise nicht für eine bestimmte Zeitspanne, bevor sie den Vorrichtungsstatus auf „in Ruhe“ setzt. Zum Beispiel berechnet der Hotworder 126 der Computervorrichtung 108 eine Aktivierungswort-Konfidenzpunktzahl von 0,6 und empfängt Aktivierungswort-Konfidenzpunktzahlen von 0,85 und 0,45. Sobald die Computervorrichtung 108 die Aktivierungswort-Konfidenzpunktzahl von 0,85 empfängt, kann die Computervorrichtung 108 den Vorrichtungsstatus 144 auf „in Ruhe“ setzen. Dies setzt voraus, dass die Computervorrichtung 108 die Aktivierungswort-Konfidenzpunktzahl von 0,85 innerhalb der bestimmten Zeitspanne empfängt, nachdem der Hotworder 126 die Aktivierungswort-Konfidenzpunktzahl von 0,6 berechnet hat.
  • In einigen Implementierungen kann eine Computervorrichtung, wenn sie die höchste Aktivierungswort-Konfidenzpunktzahl hat, für eine bestimmte Zeitspanne fortfahren, das Konfidenzpunktzahl-Datenpaket rundzusenden, um sicherzustellen, dass andere Computervorrichtungen das Konfidenzpunktzahl-Datenpaket empfangen. Diese Strategie wäre am ehesten in Fällen anwendbar, in denen eine Computervorrichtung eine Bestätigung zurücksendet, sobald sie ein Konfidenzpunktzahl-Datenpaket von einer anderen Computervorrichtung empfängt. Wenn also die Computervorrichtung 106 das Konfidenzpunktzahl-Datenpaket 130 zu Computervorrichtungen in der Datengruppe 118 überträgt und eine Bestätigung vor einer bestimmten Zeitspanne, wie etwa fünfhundert Millisekunden, empfängt, kann die Computervorrichtung 106 damit beginnen, eine Spracherkennung an auf das Aktivierungswort folgender Sprache durchzuführen. In Fällen, in denen Computervorrichtungen ihre Konfidenzpunktzahl-Datenpakete rundsenden und keine Bestätigung erwarten, kann die Computervorrichtung damit fortfahren, ihre Aktivierungswort-Konfidenzpunktzahlen rundzusenden, und zwar für eine bestimmte Zeitspanne, wie etwa fünfhundert Millisekunden, oder bis die Computervorrichtung eine höhere Aktivierungswort-Konfidenzpunktzahl empfängt - je nachdem, was zuerst eintritt. Zum Beispiel berechnet die Computervorrichtung 110 eine Aktivierungswort-Konfidenzpunktzahl von 0,45 und beginnt, das Konfidenzpunktzahl-Datenpaket 134 rundzusenden. Nach dreihundert Millisekunden empfängt die Computervorrichtung 110 das Aktivierungswort-Datenpaket 130 und hört auf, das Aktivierungswort-Datenpaket 134 rundzusenden, weil die Aktivierungswort-Konfidenzpunktzahl von 0,85 aus dem Aktivierungswort-Datenpaket 130 höher ist als die Aktivierungswort-Konfidenzpunktzahl von 0,45. Als weiteres Beispiel zum Rundsenden berechnet die Computervorrichtung 106 eine Aktivierungswort-Konfidenzpunktzahl von 0,45 und beginnt, das Konfidenzpunktzahl-Datenpaket 130 rundzusenden. Nach fünfhundert Millisekunden hört die Computervorrichtung 106 auf, das Konfidenzpunktzahl-Datenpaket 130 rundzusenden, und beginnt, Spracherkennung an auf das Aktivierungswort folgender Sprache durchzuführen. Die Computervorrichtung 106 kann die Konfidenzpunktzahl-Datenpakete 132 und 134 empfangen, bevor fünfhundert Millisekunden verstrichen sind, aber weil die Aktivierungswort-Konfidenzpunktzahlen in den Konfidenzpunktzahl-Datenpaketen 132 und 134 niedriger als 0,85 sind, wartet die Computervorrichtung weiter, bis die fünfhundert Millisekunden verstrichen sind.
  • In einigen Implementierungen kann die Computervorrichtung damit beginnen, Spracherkennung an auf das Aktivierungswort folgender Sprache durchzuführen, bis die Computervorrichtung eine höhere Aktivierungswort-Konfidenzpunktzahl empfängt. Der Hotworder berechnet eine Aktivierungswort-Konfidenzpunktzahl, und wenn die Aktivierungswort-Konfidenzpunktzahl einen Schwellenwert erfüllt, führt die Computervorrichtung die Spracherkennung an auf das Aktivierungswort folgender Sprache durch. Die Computervorrichtung kann die Spracherkennung durchführen, ohne dem Benutzer einen Hinweis auf die Spracherkennung zu geben. Dies kann erwünscht sein, da es dem Benutzer den Eindruck vermittelt, dass die Computervorrichtung nicht aktiv ist, während es der Computervorrichtung auch ermöglicht, dem Benutzer die auf der Spracherkennung beruhenden Ergebnisse schneller anzuzeigen, als wenn die Computervorrichtung gewartet hätte, bis die Computervorrichtung bestätigt hat, dass sie den höchsten Aktivierungswortwert berechnet hat. Zum Beispiel berechnet die Computervorrichtung 106 eine Aktivierungswort-Konfidenzpunktzahl von 0,85 und beginnt, die Spracherkennung an auf das Aktivierungswort folgender Sprache durchzuführen. Die Computervorrichtung 106 empfängt die Konfidenzpunktzahl-Datenpakete 132 und 134 und bestimmt, dass die Aktivierungswort-Konfidenzpunktzahl von 0,85 die höchste ist. Die Computervorrichtung 106 fährt fort, Spracherkennung an auf das Aktivierungswort folgender Sprache durchzuführen, und präsentiert die Ergebnisse dem Benutzer. Für die Computervorrichtung 108 berechnet der Hotworder 126 eine Aktivierungswort-Konfidenzpunktzahl von 0,6, und die Computervorrichtung 108 beginnt, Spracherkennung an auf das Aktivierungswort folgender Sprache durchzuführen, ohne dem Benutzer Daten anzuzeigen. Sobald die Computervorrichtung 108 das Konfidenzpunktzahl-Datenpaket 130 empfängt, das die Aktivierungswort-Konfidenzpunktzahl von 0,85 einschließt, hört die Computervorrichtung auf, Spracherkennung durchzuführen. Dem Benutzer werden keine Daten angezeigt, und der Benutzer hat wahrscheinlich den Eindruck, dass die Computervorrichtung 108 in einem Zustand „in Ruhe“ verblieben ist.
  • Um jegliche Latenz zu vermeiden, nachdem ein Aktivierungswort gesprochen wurde, könnten in einigen Implementierungen Punktzahlen vor dem Ende des Aktivierungsworts vom Hotworder gemeldet werden, z.B. für ein Teilaktivierungswort. Zum Beispiel könnte eine Computervorrichtung, während ein Benutzer „OK Computer“ spricht, eine Teilaktivierungswort-Konfidenzpunktzahl berechnen, sobald der Benutzer „OK Comp“ zu Ende gesprochen hat. Die Computervorrichtung kann dann die Teilaktivierungswort-Konfidenzpunktzahl mit anderen Computervorrichtungen teilen. Die Computervorrichtung mit der höchsten Teilaktivierungswort-Konfidenzpunktzahl kann fortfahren, die Sprache des Benutzers zu verarbeiten.
  • In einigen Implementierungen kann eine Computervorrichtung einen hörbaren oder unhörbaren Ton aussenden, z.B. mit einer bestimmten Frequenz oder einem bestimmten Frequenzmuster, wenn die Computervorrichtung bestimmt, dass eine Aktivierungswort-Konfidenzpunktzahl einen Schwellenwert erfüllt. Der Ton würde anderen Computervorrichtungen signalisieren, dass die Computervorrichtung fortfahren wird, die dem Aktivierungswort folgenden Audiodaten zu verarbeiten. Andere Computervorrichtungen würden diesen Ton empfangen und die Verarbeitung der Audiodaten einstellen. Zum Beispiel sagt ein Benutzer „OK Computer“. Eine der Computervorrichtungen berechnet eine Aktivierungswort-Konfidenzpunktzahl, die größer oder gleich einem Schwellenwert ist. Sobald die Computervorrichtung bestimmt, dass die Aktivierungswort-Konfidenzpunktzahl größer oder gleich einem Schwellenwert ist, sendet die Computervorrichtung einen Ton mit einer Frequenz von achtzehn Kilohertz aus. Die anderen Computervorrichtungen in der Nähe des Benutzers berechnen möglicherweise ebenfalls eine Aktivierungswort-Konfidenzpunktzahl und sind möglicherweise gerade dabei, eine Aktivierungswort-Konfidenzpunktzahl zu berechnen, wenn die anderen Computervorrichtungen den Ton empfangen. Wenn die anderen Computervorrichtungen den Ton empfangen, stellen die anderen Computervorrichtungen die Verarbeitung der Sprache des Benutzers ein. In einigen Implementierungen kann die Computervorrichtung die Aktivierungswort-Konfidenzpunktzahl in den hörbaren oder unhörbaren Ton codieren. Wenn die Aktivierungswort-Konfidenzpunktzahl zum Beispiel 0,5 ist, dann kann die Computervorrichtung einen hörbaren oder unhörbaren Ton erzeugen, der ein Frequenzmuster einschließt, das die Punktzahl 0,5 codiert.
  • In einigen Implementierungen können die Computervorrichtungen unterschiedliche Audiometriken verwenden, um eine Computervorrichtung auszuwählen, die fortfahren soll, die Sprache des Benutzers zu verarbeiten. Zum Beispiel können die Computervorrichtungen die Lautstärke verwenden, um zu bestimmen, welche Computervorrichtung die Sprache des Benutzers weiterverarbeiten soll. Die Computervorrichtung, welche die lauteste Sprache ermittelt, kann fortfahren, die Sprache des Benutzers zu verarbeiten. Als weiteres Beispiel kann die Computervorrichtung, die gerade in Gebrauch ist oder deren Anzeige aktiv ist, die anderen Computervorrichtungen benachrichtigen, dass sie fortfahren wird, die Sprache des Benutzers zu verarbeiten, sobald sie ein Aktivierungswort ermittelt hat.
  • In einigen Implementierungen empfängt jede Computervorrichtung, die sich in der Nähe des Benutzers befindet, während der Benutzer spricht, die Audiodaten und sendet die Audiodaten an einen Server, um die Spracherkennung zu verbessern. Jede Computervorrichtung kann die Audiodaten empfangen, die der Sprache des Benutzers entsprechen. Während dem Benutzer scheint, dass nur eine Computervorrichtung die Sprache des Benutzers verarbeitet, kann jede Computervorrichtung die Audiodaten zu einem Server übertragen. Der Server kann dann die von jeder Computervorrichtung empfangenen Audiodaten verwenden, um die Spracherkennung zu verbessern, da der Server unterschiedliche Audiosamples vergleichen kann, die der gleichen Äußerung entsprechen. Zum Beispiel sagt ein Benutzer: „OK Computer, erinnere mich daran, Milch zu kaufen.“ Sobald der Benutzer „OK Computer“ gesagt hat, haben die Computervorrichtungen in der Nähe wahrscheinlich bestimmt, welche Computervorrichtung die höchste Aktivierungswort-Konfidenzpunktzahl hat, und diese Computervorrichtung verarbeitet „Erinnere mich daran, Milch zu kaufen“ und reagiert darauf, während der Benutzer diese Wörter spricht. Die anderen Computervorrichtungen werden ebenfalls „Erinnere mich daran, Milch zu kaufen“ empfangen. Während die anderen Computervorrichtungen nicht auf die Äußerung „Erinnere mich daran, Milch zu kaufen“ reagieren, können die anderen Computervorrichtungen Audiodaten, die „Erinnere mich daran, Milch zu kaufen“ entsprechen, an einen Server senden. Die Computervorrichtung, die auf die Äußerung „Erinnere mich daran, Milch zu kaufen“ reagiert, kann ebenfalls ihre Audiodaten an den Server senden. Der Server kann die Audiodaten verarbeiten, um die Spracherkennung zu verbessern, weil der Server unterschiedliche Audiosamples von unterschiedlichen Computervorrichtungen hat, die der gleichen Äußerung „Erinnere mich daran, Milch zu kaufen“ entsprechen.
  • 2 ist eine grafische Darstellung eines beispielhaften Prozesses 200 zur Aktivierungswort-Ermittlung. Der Prozess 200 kann durch eine Computervorrichtung wie etwa die Computervorrichtung 108 aus 1 durchgeführt werden. Der Prozess 200 berechnet einen Wert, der einer Wahrscheinlichkeit entspricht, dass eine Äußerung ein Aktivierungswort einschließt, und vergleicht den Wert mit anderen Werten, die durch andere Computervorrichtungen berechnet wurden, um zu bestimmen, ob auf dem Abschnitt der Äußerung nach dem Aktivierungswort Spracherkennung durchgeführt werden soll oder nicht.
  • Die Computervorrichtung empfängt Audiodaten, die einer Äußerung entsprechen (210). Ein Benutzer spricht die Äußerung und ein Mikrofon der Computervorrichtung empfängt die Audiodaten der Äußerung. Die Computervorrichtung verarbeitet die Audiodaten durch Puffern, Filtern, Endpunktbestimmen und Digitalisieren der Audiodaten. Zum Beispiel kann der Benutzer „OK Computer“ sagen, und das Mikrofon der Computervorrichtung empfängt die Audiodaten, die „OK Computer“ entsprechen. Ein Audio-Subsystem der Computervorrichtung tastet die Audiodaten ab, puffert und filtert sie, führt die Endpunktbestimmung durch und stellt die Audiodaten zur weiteren Verarbeitung durch die Computervorrichtung bereit.
  • Die Computervorrichtung bestimmt einen ersten Wert, der einer Wahrscheinlichkeit entspricht, dass die Äußerung ein Aktivierungswort einschließt (220). Die Computervorrichtung bestimmt den ersten Wert, der als Aktivierungswort-Konfidenzpunktzahl bezeichnet werden kann, indem sie die Audiodaten der Äußerung mit einer Gruppe von Audiosamples vergleicht, die das Aktivierungswort einschließen, oder indem sie die Audiomerkmale der Audiodaten der Äußerung analysiert. Der erste Wert kann auf eine Skala von null bis eins normiert werden, wobei eins die höchste Wahrscheinlichkeit angibt, dass die Äußerung ein Aktivierungswort einschließt. In einigen Implementierungen identifiziert die Computervorrichtung eine zweite Computervorrichtung und bestimmt, dass die zweite Computervorrichtung dafür konfiguriert ist, auf Äußerungen zu reagieren, die das Aktivierungswort einschließen, und durch den Benutzer dafür konfiguriert ist, auf das Aktivierungswort zu reagieren. Der Benutzer kann sowohl bei der Computervorrichtung als auch bei der zweiten Computervorrichtung angemeldet sein. Sowohl die Computervorrichtung als auch die zweite Computervorrichtung können dafür konfiguriert sein, auf die Stimme des Benutzers zu reagieren. Die Computervorrichtung und die zweite Computervorrichtung können mit dem gleichen lokalen Netzwerk verbunden sein. Die Computervorrichtung und die zweite Computervorrichtung können sich innerhalb einer bestimmten Entfernung voneinander befinden, wie etwa zehn Meter, bestimmt durch GPS oder Signalstärke. Zum Beispiel können die Computervorrichtungen über Kurzstreckenfunk kommunizieren. Die Computervorrichtung kann eine Stärke eines durch die zweite Vorrichtung gesendeten Signals als fünf dBm ermitteln und diese in eine entsprechende Entfernung wie etwa fünf Meter übersetzen.
  • Die Computervorrichtung empfängt einen zweiten Wert, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der zweite Wert durch eine zweite Computervorrichtung (230) bestimmt wird. Die zweite Computervorrichtung empfängt die Äußerung über ein Mikrofon der zweiten Computervorrichtung. Die zweite Computervorrichtung verarbeitet die empfangenen Audiodaten, die der Äußerung entsprechen, und bestimmt einen zweiten Wert oder eine zweite Aktivierungswort-Konfidenzpunktzahl. Die zweite Aktivierungswort-Konfidenzpunktzahl widerspiegelt die durch die zweite Computervorrichtung berechnete Wahrscheinlichkeit, dass die Äußerung ein Aktivierungswort einschließt. In einigen Implementierungen überträgt die Computervorrichtung den ersten Wert zur zweiten Computervorrichtung unter Verwendung einer oder mehrerer der folgenden Methoden. Die Computervorrichtung kann den ersten Wert zur zweiten Computervorrichtung über einen Server, der über das Internet zugänglich ist, über einen Server, der sich im lokalen Netzwerk befindet, oder direkt über das lokale Netzwerk oder Kurzstreckenfunk übertragen. Die Computervorrichtung kann den ersten Wert nur zur zweiten Computervorrichtung übertragen oder die Computervorrichtung kann den ersten Wert rundsenden, sodass auch andere Computervorrichtungen den ersten Wert empfangen können. Die Computervorrichtung kann den zweiten Wert von der zweiten Computervorrichtung mit der gleichen oder einer anderen Methode empfangen, mit der die Computervorrichtung den ersten Wert übertragen hat.
  • In einigen Implementierungen kann die Computervorrichtung eine Lautstärkepunktzahl für die Äußerung oder ein Signal-Rausch-Verhältnis für die Äußerung berechnen. Die Computervorrichtung kann die Lautstärkepunktzahl, das Signal-Rausch-Verhältnis und die Aktivierungswort-Konfidenzpunktzahl kombinieren, um einen neuen Wert zum Vergleichen mit ähnlichen Werten von anderen Computervorrichtungen zu bestimmen. Zum Beispiel kann die Computervorrichtung eine Aktivierungswort-Konfidenzpunktzahl und ein Signal-Rausch-Verhältnis berechnen. Die Computervorrichtung kann dann diese beiden Punktzahlen kombinieren und mit ähnlich berechneten Punktzahlen von anderen Computervorrichtungen vergleichen. In einigen Implementierungen kann die Computervorrichtung unterschiedliche Punktzahlen berechnen und zum Vergleich jede Punktzahl zu anderen Computervorrichtungen übertragen. Zum Beispiel kann die Computervorrichtung eine Lautstärkepunktzahl für die Äußerung und eine Aktivierungswort-Konfidenzpunktzahl berechnen. Die Computervorrichtung kann zum Vergleich dann diese Punktzahlen zu anderen Computervorrichtungen übertragen.
  • In einigen Implementierungen kann die Computervorrichtung eine erste Kennung mit dem ersten Wert übertragen. Die Kennung kann auf einem oder mehr von Folgendem beruhen: eine Adresse der Computervorrichtung, ein vom Benutzer angegebener Name der Computervorrichtung oder ein Standort der Computervorrichtung. Zum Beispiel kann eine Kennung „69.123.132.43“ oder „Telefon“ lauten. In ähnlicher Weise kann die zweite Computervorrichtung eine zweite Kennung mit dem zweiten Wert übertragen. In einigen Implementierungen kann die Computervorrichtung die erste Kennung zu bestimmten Computervorrichtungen übertragen, von denen die Computervorrichtung zuvor festgestellt hatte, dass sie dafür konfiguriert sind, auf das Aktivierungswort zu reagieren. Zum Beispiel kann die Computervorrichtung zuvor festgestellt haben, dass die zweite Computervorrichtung dafür konfiguriert ist, auf das Aktivierungswort zu reagieren, weil zusätzlich zu der Fähigkeit, auf ein Aktivierungswort zu reagieren, der gleiche Benutzer wie bei der Computervorrichtung auch bei der zweiten Computervorrichtung angemeldet war.
  • Die Computervorrichtung vergleicht den ersten Wert und den zweiten Wert (240). Die Computervorrichtung initiiert dann auf der Grundlage des Vergleichsergebnisses eine Spracherkennungsverarbeitung an den Audiodaten (250). In einigen Implementierungen initiiert die Computervorrichtung beispielsweise die Spracherkennung, wenn der erste Wert größer oder gleich dem zweiten Wert ist. Wenn der Benutzer gesagt hat „OK Computer, ruf Carol an“, dann würde die Computervorrichtung beginnen, „Ruf Carol an“ zu verarbeiten, indem sie die Spracherkennung an „Ruf Carol an“ durchführt, weil der erste Wert größer oder gleich dem zweiten Wert ist. In einigen Implementierungen setzt die Computervorrichtung einen Aktivierungszustand. In Fällen, in denen der erste Wert größer oder gleich dem zweiten Wert ist, setzt die Computervorrichtung den Aktivierungszustand als aktiv oder „wach“. Im „wachen“ Zustand zeigt die Computervorrichtung Ergebnisse aus der Spracherkennung an.
  • In einigen Implementierungen vergleicht die Computervorrichtung den ersten Wert und den zweiten Wert und bestimmt, dass der erste Wert kleiner als der zweite Wert ist. Beruhend auf dem Bestimmen, dass der erste Wert kleiner als der zweite Wert ist, setzt die Computervorrichtung den Aktivierungszustand als inaktiv oder „in Ruhe“. Im Zustand „in Ruhe“ scheint die Computervorrichtung für den Benutzer nicht aktiv zu sein oder die Audiodaten zu verarbeiten.
  • In einigen Implementierungen kann die Computervorrichtung, wenn sie bestimmt, dass der erste Wert größer oder gleich dem zweiten Wert ist, eine bestimmte Zeitspanne warten, bevor sie den Aktivierungszustand auf aktiv setzt. Die Computervorrichtung kann die bestimmte Zeitspanne abwarten, um die Wahrscheinlichkeit zu erhöhen, dass die Computervorrichtung keinen höheren Wert von einer anderen Computervorrichtung empfängt. Die bestimmte Zeitspanne kann festgelegt sein oder variieren, abhängig von der Methode, mit der die Computervorrichtungen Werte senden und empfangen. In einigen Implementierungen kann die Computervorrichtung, wenn sie bestimmt, dass der erste Wert größer oder gleich dem zweiten Wert ist, für eine bestimmte Zeitspanne fortfahren, den ersten Wert zu übertragen. Indem sie für eine bestimmte Zeitspanne fortfährt, den ersten Wert zu übertragen, erhöht die Computervorrichtung die Wahrscheinlichkeit, dass der erste Wert durch die anderen Computervorrichtungen empfangen wird. In Fällen, in denen die Computervorrichtung bestimmt, dass der erste Wert kleiner als der zweite Wert ist, kann die Computervorrichtung aufhören, den ersten Wert zu übertragen.
  • In einigen Implementierungen kann die Computervorrichtung zusätzliche Informationen berücksichtigen, um zu bestimmen, ob der auf das Aktivierungswort folgende Befehl ausgeführt werden soll. Ein Beispiel für die zusätzlichen Informationen kann der Abschnitt der Äußerung sein, der auf das Aktivierungswort folgt. Normalerweise entsprechen die Audiodaten, die auf das Aktivierungswort folgen, einem Befehl für die Computervorrichtung wie etwa „Ruf Sally an“, „Spiel den Halloween-Film ab“ oder „Stell die Heizung auf 70 Grad“. Die Computervorrichtung kann eine typische Vorrichtung identifizieren, welche die Art der Anfrage bearbeitet oder imstande ist, die Anfrage zu bearbeiten. Eine Anforderung, eine Person anzurufen, würde normalerweise durch ein Telefon bearbeitet, und zwar auf der Grundlage vorprogrammierter typischer Nutzungen oder auf der Grundlage von Nutzungsmustern eines Benutzers der Vorrichtung. Wenn der Benutzer Filme normalerweise auf einem Tablet anschaut, kann das Tablet eine Anfrage zum Abspielen eines Films bearbeiten. Wenn der Thermostat zum Regulieren der Temperatur imstande ist, dann kann der Thermostat die Temperaturregulierung vornehmen.
  • Damit die Computervorrichtung den Abschnitt der Äußerung berücksichtigen kann, der auf das Aktivierungswort folgt, müsste die Computervorrichtung Spracherkennung an den Audiodaten initiieren, sobald sie wahrscheinlich ein Aktivierungswort identifiziert hat. Die Computervorrichtung kann den Befehlsabschnitt der Äußerung kategorisieren und eine Häufigkeit der Befehle in dieser Kategorie berechnen. Die Computervorrichtung kann die Häufigkeit zusammen mit der Aktivierungswort-Konfidenzpunktzahl zu anderen Computervorrichtungen übertragen. Jede Computervorrichtung kann die Häufigkeiten und die Aktivierungswort-Konfidenzpunktzahlen verwenden, um zu bestimmen, ob der auf das Aktivierungswort folgende Befehl ausgeführt werden soll.
  • Wenn der Benutzer zum Beispiel sagt: „OK Computer, spiele Michael Jackson“, und die Computervorrichtung ein Telefon ist, das der Benutzer zwanzig Prozent der Zeit benutzt, um Musik zu hören, dann kann die Computervorrichtung diese Information zusammen mit der Aktivierungswort-Konfidenzpunktzahl übertragen. Eine Computervorrichtung wie etwa ein Tablet, das der Benutzer zu fünf Prozent der Zeit zum Musikhören verwendet, kann diese Information zusammen mit der Aktivierungswort-Konfidenzpunktzahl an andere Computervorrichtungen weitergeben. Die Computervorrichtungen können eine Kombination aus der Aktivierungswort-Konfidenzpunktzahl und dem Prozentsatz der Zeit, in der Musik gespielt wird, verwenden, um zu bestimmen, ob der Befehl ausgeführt werden soll.
  • 3 zeigt ein Beispiel für eine Computervorrichtung 300 und eine Mobilvorrichtung 350, die verwendet werden können, um die hier beschriebenen Methoden zu implementieren. Die Computervorrichtung 300 soll verschiedene Formen von digitalen Computern darstellen, wie etwa Laptops, Desktops, Workstations, persönliche digitale Assistenten, Server, Blade-Server, Mainframes und andere geeignete Computer. Die mobile Computervorrichtung 350 soll verschiedene Arten von Mobilvorrichtungen darstellen, wie etwa persönliche digitale Assistenten, Mobiltelefone, Smartphones und andere ähnliche Computervorrichtungen. Die hier gezeigten Komponenten, ihre Verbindungen und Beziehungen sowie ihre Funktionen sind lediglich als Beispiele zu verstehen und nicht als Einschränkung.
  • Die Computervorrichtung 300 schließt einen Prozessor 302, einen Arbeitsspeicher 304, eine Speichervorrichtung 306, eine schnelle Schnittstelle 308, die mit dem Arbeitsspeicher 304 und mehreren schnellen Erweiterungsanschlüssen 310 verbunden ist, und eine langsame Schnittstelle 312, die mit einem langsamen Erweiterungsanschluss 314 und der Speichervorrichtung 306 verbunden ist, ein. Der Prozessor 302, der Arbeitsspeicher 304, die Speichervorrichtung 306, die schnelle Schnittstelle 308, die schnellen Erweiterungsanschlüsse 310 und die langsame Schnittstelle 312 sind alle über verschiedene Busse miteinander verbunden und können auf einer gemeinsamen Hauptplatine oder auf andere geeignete Weise montiert sein. Der Prozessor 302 kann Anweisungen zur Ausführung innerhalb der Computervorrichtung 300 verarbeiten, einschließlich Anweisungen, die im Arbeitsspeicher 304 oder auf der Speichervorrichtung 306 gespeichert sind, um Grafikinformationen für eine grafische Benutzeroberfläche auf einer externen Eingabe-/Ausgabevorrichtung, wie etwa einer mit der schnellen Schnittstelle 308 gekoppelten Anzeige 316, anzuzeigen. In anderen Implementierungen können je nach Bedarf mehrere Prozessoren und/oder mehrere Busse zusammen mit mehreren Arbeitsspeichern und Arbeitsspeichertypen verwendet werden. Auch können mehrere Computervorrichtungen angeschlossen werden, wobei jede Vorrichtung Abschnitte der erforderlichen Operationen bereitstellt (z.B. als eine Serverbank, eine Gruppe von Blade-Servern oder ein Multiprozessorsystem).
  • Der Arbeitsspeicher 304 speichert Informationen innerhalb der Computervorrichtung 300. In einigen Implementierungen ist der Arbeitsspeicher 304 eine flüchtige Speichereinheit oder -einheiten. In einigen Implementierungen ist der Arbeitsspeicher 304 eine nichtflüchtige Speichereinheit oder -einheiten. Der Arbeitsspeicher 304 kann auch eine andere Form eines computerlesbaren Mediums sein, wie etwa ein magnetisches oder optisches Laufwerk.
  • Die Speichervorrichtung 306 ist imstande, einen Massenspeicher für die Computervorrichtung 300 bereitzustellen. In einigen Ausführungsformen kann die Speichervorrichtung 306 ein computerlesbares Medium sein oder enthalten, wie etwa eine Diskettenlaufwerksvorrichtung, eine Festplattenlaufwerksvorrichtung, eine optische Laufwerksvorrichtung oder eine Bandvorrichtung, ein Flash-Speicher oder eine ähnliche Festkörperspeichervorrichtung oder eine Anordnung von Vorrichtungen, einschließlich Vorrichtungen in einem Speichernetzwerk oder anderen Konfigurationen. Anweisungen können in einem Informationsträger gespeichert werden. Wenn sie durch eine oder mehrere Vorrichtungen (zum Beispiel Prozessor 302) ausgeführt werden, führen die Anweisungen ein oder mehrere Verfahren durch, wie etwa die oben beschriebenen. Die Anweisungen können auch durch eine oder mehrere Speichervorrichtungen wie etwa computer- oder maschinenlesbare Medien (zum Beispiel den Arbeitsspeicher 304, die Speichervorrichtung 306 oder Speicher auf dem Prozessor 302) gespeichert werden.
  • Die schnelle Schnittstelle 308 wickelt bandbreitenintensive Operationen für die Computervorrichtung 300 ab, während die langsame Schnittstelle 312 weniger bandbreitenintensive Operationen abwickelt. Eine solche Zuteilung von Funktionen ist nur ein Beispiel. In einigen Implementierungen ist die schnelle Schnittstelle 308 mit dem Arbeitsspeicher 304, der Anzeige 316 (z.B. über einen Grafikprozessor oder -beschleuniger) und mit den schnellen Erweiterungsanschlüssen 310 gekoppelt, die verschiedene Erweiterungskarten (nicht gezeigt) aufnehmen können. In der Implementierung ist die langsame Schnittstelle 312 mit der Speichervorrichtung 306 und dem langsamen Erweiterungsanschluss 314 gekoppelt. Der langsame Erweiterungsanschluss 314, der verschiedene Kommunikationsanschlüsse (z.B. USB, Bluetooth, Ethernet, drahtloses Ethernet) einschließen kann, kann mit einer oder mehreren Eingabe-/Ausgabevorrichtungen gekoppelt werden, wie etwa einer Tastatur, einem Zeigegerät, einem Scanner oder einer Netzwerkvorrichtung, wie etwa einem Switch oder Router, z.B. über einen Netzwerkadapter.
  • Die Computervorrichtung 300 kann in einer Reihe unterschiedlicher Formen implementiert werden, wie in der Abbildung gezeigt. Zum Beispiel kann sie als ein Standard-Server 320 oder mehrfach in einer Gruppe solcher Server implementiert sein. Darüber hinaus kann sie in einem Personal Computer wie etwa einem Laptop 322 implementiert sein. Sie kann auch als Teil eines Rackserver-Systems 324 implementiert werden. Alternativ können Komponenten aus der Computervorrichtung 300 mit anderen Komponenten in einer Mobilvorrichtung (nicht dargestellt) kombiniert werden, wie etwa einer mobilen Computervorrichtung 350. Jede solcher Vorrichtungen kann eine oder mehrere der Computervorrichtung 300 und der mobilen Computervorrichtung 350 enthalten, und ein ganzes System kann aus mehreren Computervorrichtungen bestehen, die miteinander kommunizieren.
  • Die Mobilkommunikationsvorrichtung 350 schließt neben anderen Komponenten einen Prozessor 352, einen Arbeitsspeicher 364, eine Eingabe-/Ausgabevorrichtung wie etwa eine Anzeige 354, eine Kommunikationsschnittstelle 366 und einen Sendeempfänger 368 ein. Die mobile Computervorrichtung 350 kann auch mit einer Speichervorrichtung, wie etwa einem Mikro-Laufwerk oder einer anderen Vorrichtung, versehen sein, um zusätzlichen Speicherplatz bereitzustellen. Der Prozessor 352, der Arbeitsspeicher 364, die Anzeige 354, die Kommunikationsschnittstelle 366 und der Sendeempfänger 368 sind alle durch verschiedene Busse miteinander verbunden, und mehrere der Komponenten können auf einer gemeinsamen Hauptplatine oder auf andere geeignete Weise montiert sein.
  • Der Prozessor 352 kann Anweisungen innerhalb der mobilen Computervorrichtung 350 ausführen, einschließlich Anweisungen, die im Arbeitsspeicher 364 gespeichert sind. Der Prozessor 352 kann als ein Chipsatz von Chips implementiert sein, die separate und mannigfaltige analoge und digitale Prozessoren einschließen. Der Prozessor 352 kann beispielsweise für die Koordination der anderen Komponenten der mobilen Computervorrichtung 350 sorgen, wie etwa die Steuerung von Benutzerschnittstellen, von Anwendungen, die durch die mobile Computervorrichtung 350 ausgeführt werden, und von drahtloser Kommunikation durch die mobile Computervorrichtung 350.
  • Der Prozessor 352 kann mit einem Benutzer über eine Steuerungsschnittstelle 358 und eine mit der Anzeige 354 gekoppelte Anzeigeschnittstelle 356 kommunizieren. Die Anzeige 354 kann zum Beispiel eine TFT-Anzeige (Dünnschichttransistor-Flüssigkristallanzeige) oder eine OLED-(organische Leuchtdioden-)Anzeige oder andere geeignete Anzeigetechnologie sein. Die Anzeigeschnittstelle 356 kann eine geeignete Schaltung zur Ansteuerung der Anzeige 354 umfassen, um dem Benutzer grafische und andere Informationen zu präsentieren. Die Steuerungsschnittstelle 358 kann Befehle von einem Benutzer empfangen und sie zur Übergabe an den Prozessor 352 konvertieren. Darüber hinaus kann eine externe Schnittstelle 362 Kommunikation mit dem Prozessor 352 bereitstellen, um dadurch Nahbereichskommunikation der mobilen Computervorrichtung 350 mit anderen Vorrichtungen zu ermöglichen. Die externe Schnittstelle 362 kann zum Beispiel in einigen Implementierungen für drahtgebundene Kommunikation oder in anderen Implementierungen für drahtlose Kommunikation sorgen, und es können auch mehrere Schnittstellen verwendet werden.
  • Der Arbeitsspeicher 364 speichert Informationen innerhalb der mobilen Computervorrichtung 350. Der Arbeitsspeicher 364 kann als ein oder mehr von Folgendem implementiert sein: ein computerlesbares Medium oder Medien, eine flüchtige Speichereinheit oder -einheiten oder eine nicht flüchtige Speichereinheit oder -einheiten. Ein Erweiterungsspeicher 374 kann auch bereitgestellt und über eine Erweiterungsschnittstelle 372 mit der mobilen Computervorrichtung 350 verbunden werden, die beispielsweise eine SIMM-Kartenschnittstelle (Single In-Line Memory Module) einschließen kann. Der Erweiterungsspeicher 374 kann zusätzlichen Speicherplatz für die mobile Computervorrichtung 350 bereitstellen oder kann auch Anwendungen oder andere Informationen für die mobile Computervorrichtung 350 speichern. Insbesondere kann der Erweiterungsspeicher 374 Anweisungen einschließen, um die oben beschriebenen Prozesse auszuführen oder zu ergänzen, und er kann auch sichere Informationen einschließen. So kann der Erweiterungsspeicher 374 zum Beispiel als Sicherheitsmodul für die mobile Computervorrichtung 350 bereitgestellt werden und kann mit Anweisungen programmiert werden, die eine sichere Nutzung der mobilen Computervorrichtung 350 ermöglichen. Darüber hinaus können über die SIMM-Karten sichere Anwendungen bereitgestellt werden, zusammen mit zusätzlichen Informationen, wie etwa die Platzierung von Identifizierungsinformationen auf der SIMM-Karte auf nicht hackbare Weise.
  • Der Arbeitsspeicher kann zum Beispiel Flash-Speicher und/oder NVRAM-Speicher (nichtflüchtiger Direktzugriffsspeicher) einschließen, wie nachstehend erörtert. In einigen Implementierungen werden Anweisungen in einem Informationsträger gespeichert, sodass die Anweisungen, wenn sie durch eine oder mehrere Verarbeitungsvorrichtungen (z. B. Prozessor 352) ausgeführt werden, ein oder mehrere Verfahren, wie etwa die oben beschriebenen, durchführen. Die Anweisungen können auch durch eine oder mehrere Speichervorrichtungen gespeichert werden, wie etwa ein oder mehrere computer- oder maschinenlesbare Medien (zum Beispiel der Arbeitsspeicher 364, der Erweiterungsspeicher 374 oder Speicher auf dem Prozessor 352). In einigen Implementierungen können die Anweisungen in einem übertragenen Signal empfangen werden, zum Beispiel über den Sendeempfänger 368 oder die externe Schnittstelle 362.
  • Die mobile Computervorrichtung 350 kann drahtlos über die Kommunikationsschnittstelle 366 kommunizieren, die bei Bedarf eine digitale Signalverarbeitungsschaltung einschließen kann. Die Kommunikationsschnittstelle 366 kann für Kommunikation unter verschiedenen Betriebsarten oder Protokollen sorgen, wie etwa Sprachanrufe im GSM (Globales System für Mobilkommunikation), Nachrichtenübermittlung per SMS (Kurznachrichtendienst), EMS (Verbesserter Nachrichtendienst) oder MMS (Multimedia-Nachrichtendienst), CDMA (Codemultiplex-Mehrfachzugriff), TDMA (Zeitmultiplex-Mehrfachzugriff), PDC (Personen-Digitalmobilfunk), WCDMA (Breitband-Codemultiplex-Mehrfachzugriff), CDMA2000 oder GPRS (Allgemeiner Paketfunkdienst), unter anderem. Solche Kommunikation kann zum Beispiel über den Sendeempfänger 368 unter Verwendung einer Funkfrequenz erfolgen. Darüber hinaus kann Kurzstreckenkommunikation stattfinden, wie etwa unter Verwendung eines Bluetooth-, WiFi- oder anderen derartigen Sendeempfängers (nicht gezeigt). Darüber hinaus kann ein Empfängermodul für GPS (Globales Positionsbestimmungssystem) 370 zusätzliche navigations- und standortbezogene drahtlose Daten für die mobile Computervorrichtung 350 bereitstellen, die gegebenenfalls durch Anwendungen verwendet werden können, die auf der mobilen Computervorrichtung 350 laufen.
  • Die mobile Computervorrichtung 350 kann auch akustisch kommunizieren, und zwar unter Verwendung eines Audiocodecs 360, der gesprochene Informationen von einem Benutzer empfangen und in nutzbare digitale Informationen konvertieren kann. Der Audiocodec 360 kann ebenfalls hörbaren Ton für einen Benutzer erzeugen, wie etwa über einen Lautsprecher, z.B. in einem Handgerät der mobilen Computervorrichtung 350. Solcher Ton kann Ton aus Sprachtelefonaten einschließen, kann aufgezeichneten Ton einschließen (z.B. Sprachnachrichten, Musikdateien usw.) und kann auch Ton einschließen, der durch Anwendungen erzeugt wird, die auf der mobilen Computervorrichtung 350 betrieben werden.
  • Die mobile Computervorrichtung 350 kann in einer Reihe unterschiedlicher Formen implementiert werden, wie in der Abbildung gezeigt. Zum Beispiel kann sie als ein Mobiltelefon 380 implementiert sein. Es kann auch als Teil eines Smartphones 382, eines persönlichen digitalen Assistenten oder einer anderen ähnlichen Mobilvorrichtung implementiert sein.
  • Verschiedene Implementierungen der hier beschriebenen Systeme und Methoden können in digitalen elektronischen Schaltungen, integrierten Schaltkreisen, eigens entwickelten ASICs (anwendungsspezifischen integrierten Schaltkreisen), Computerhardware, Firmware, Software und/oder Kombinationen daraus realisiert werden. Diese verschiedenen Implementierungen können die Implementierung in einem oder mehreren Computerprogrammen einschließen, die auf einem programmierbaren System ausführbar und/oder interpretierbar sind, das mindestens einen programmierbaren Prozessor einschließt, bei dem es sich um einen Spezial- oder Allzweckprozessor handeln kann, der gekoppelt ist, um Daten und Anweisungen von einem Speichersystem, mindestens einer Eingabevorrichtung und mindestens einer Ausgabevorrichtung zu empfangen und Daten und Anweisungen zu diesen zu übertragen.
  • Diese Computerprogramme (auch als Programme, Software, Softwareanwendungen oder Code bekannt) schließen Maschinenanweisungen für einen programmierbaren Prozessor ein und können in einer prozeduralen und/oder objektorientierten Hochsprache und/oder in Assembler-/Maschinensprache implementiert werden. Wie hierin verwendet, beziehen sich die Begriffe maschinenlesbares Medium und computerlesbares Medium auf jedes Computerprogrammprodukt, jede Vorrichtung und/oder jedes Gerät (z.B. Magnetspeicherplatten, optische Speicherplatten, Speicher, programmierbare Logikbausteine (PLDs)), die verwendet werden, um einem programmierbaren Prozessor Maschinenanweisungen und/oder Daten bereitzustellen, einschließlich eines maschinenlesbaren Mediums, das Maschinenanweisungen als maschinenlesbares Signal empfängt. Der Begriff „maschinenlesbares Signal“ bezieht sich auf jedes Signal, das verwendet wird, um Maschinenanweisungen und/oder Daten für einen programmierbaren Prozessor bereitzustellen.
  • Um für Interaktion mit einem Benutzer zu sorgen, können die hier beschriebenen Systeme und Methoden auf einem Computer implementiert werden, der eine Anzeigevorrichtung (z.B. einen CRT-(Kathodenstrahlröhren-) oder LCD-(Flüssigkristallanzeige-)Monitor) zum Anzeigen von Informationen für den Benutzer sowie eine Tastatur und eine Zeigevorrichtung (z.B. eine Maus oder ein Trackball) hat, womit der Benutzer Eingaben für den Computer bereitstellen kann. Ebenso können andere Arten von Vorrichtungen verwendet werden, um für Interaktion mit einem Benutzer zu sorgen; zum Beispiel kann die Rückmeldung an den Benutzer jede Form von sensorischer Rückmeldung sein (z.B. visuelle Rückmeldung, akustische Rückmeldung oder taktile Rückmeldung); und Eingaben vom Benutzer können in jeder Form empfangen werden, einschließlich akustischer, sprachlicher oder taktiler Eingaben.
  • Die hier beschriebenen Systeme und Methoden können in einem Computersystem implementiert werden, das eine Backend-Komponente (z.B. als Datenserver) einschließt, oder das eine Middleware-Komponente (z.B. einen Anwendungsserver) einschließt, oder das eine Frontend-Komponente (z.B. einen Client-Computer mit einer grafischen Benutzeroberfläche oder einem Web-Browser, über den ein Benutzer mit einer Implementierung der hier beschriebenen Systeme und Methoden interagieren kann) einschließt, oder eine beliebige Kombination solcher Backend-, Middleware- oder Frontend-Komponenten. Die Komponenten des Systems können durch jede Form oder jedes Medium von digitaler Datenkommunikation (z.B. ein Kommunikationsnetzwerk) miteinander verbunden sein. Beispiele für Kommunikationsnetzwerke schließen ein lokales Netzwerk (LAN), ein Weitverkehrsnetzwerk (WAN) und das Internet ein.
  • Das Computersystem kann Clients und Server einschließen. Ein Client und ein Server sind grundsätzlich voneinander entfernt und interagieren normalerweise über ein Kommunikationsnetzwerk. Die Beziehung zwischen Client und Server entsteht dadurch, dass Computerprogramme auf den jeweiligen Computern laufen und eine Client-Server-Beziehung zueinander haben.
  • Obwohl oben einige Implementierungen ausführlich beschrieben worden sind, sind andere Modifikationen möglich. Während zum Beispiel eine Client-Anwendung so beschrieben wurde, dass sie auf den/die Delegaten zugreift, kann der/die Delegat(e) in anderen Implementierungen durch andere Anwendungen verwendet werden, die durch einen oder mehrere Prozessoren implementiert werden, wie etwa eine Anwendung, die auf einem oder mehreren Servern läuft. Darüber hinaus erfordern die in den Figuren dargestellten logischen Abläufe nicht die besondere dargestellte Reihenfolge oder eine sequenzielle Reihenfolge, um erwünschte Ergebnisse zu erzielen. Darüber hinaus können in den beschriebenen Abläufen auch andere Aktionen bereitgestellt oder daraus eliminiert werden, und es können andere Komponenten zu den beschriebenen Systemen hinzugefügt oder aus ihnen entfernt werden. Dementsprechend fallen andere Implementierungen in den Schutzbereich der folgenden Ansprüche.
  • Die vorliegende Patentschrift schließt die folgenden Klauseln ein:
    1. 1. Computerimplementiertes Verfahren, umfassend:
      • Empfangen von Audiodaten, die einer Äußerung entsprechen, durch eine erste Computervorrichtung;
      • Bestimmen eines ersten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung ein Aktivierungswort einschließt;
      • Empfangen eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der zweite Wert durch eine zweite Computervorrichtung bestimmt wird;
      • Vergleichen des ersten Werts und des zweiten Werts; und
      • auf dem Vergleichen des ersten Werts mit dem zweiten Wert beruhendes Initiieren von Spracherkennungsverarbeitung an den Audiodaten.
    2. 2. Verfahren nach Klausel 1, umfassend:
      • Bestimmen, dass der erste Wert einen Aktivierungswort-Punktzahlschwellenwert erfüllt.
    3. 3. Verfahren nach Klausel 1, umfassend:
      • Übertragen des ersten Werts zur zweiten Computervorrichtung.
    4. 4. Verfahren nach Klausel 1, umfassend:
      • auf dem Vergleichen des ersten Werts und des zweiten Werts beruhendes Bestimmen eines Aktivierungszustands der ersten Computervorrichtung.
    5. 5. Verfahren nach Klausel 4, worin das auf dem Vergleichen des ersten Werts und des zweiten Werts beruhende Bestimmen eines Aktivierungszustands der ersten Computervorrichtung umfasst:
      • Bestimmen, dass der Aktivierungszustand ein aktiver Zustand ist.
    6. 6. Verfahren nach Klausel 1, umfassend:
      • Empfangen zusätzlicher Audiodaten, die einer zusätzlichen Äußerung entsprechen, durch die erste Computervorrichtung;
      • Bestimmen eines dritten Werts, der einer Wahrscheinlichkeit entspricht, dass die zusätzliche Äußerung das Aktivierungswort einschließt;
      • Empfangen eines vierten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der vierte Wert durch eine dritte Computervorrichtung bestimmt wird;
      • Vergleichen des dritten Werts und des vierten Werts; und
      • auf dem Vergleichen des dritten Werts und des vierten Werts beruhendes Bestimmen, dass der Aktivierungszustand der ersten Computervorrichtung ein inaktiver Zustand ist.
    7. 7. Verfahren von Klausel 3, worin:
      • das Übertragen des ersten Werts zur zweiten Computervorrichtung umfasst:
        • Übertragen des ersten Werts zu einem Server, über ein lokales Netzwerk oder über Kurzstreckenfunk, und
        • das Empfangen eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei das Bestimmen des zweiten Werts durch eine zweite Computervorrichtung umfasst:
      • Empfangen eines zweiten Werts, der durch eine zweite Computervorrichtung bestimmt wurde, vom Server, über das lokale Netzwerk oder über den Kurzstreckenfunk.
    8. 8. Verfahren nach Klausel 1, umfassend:
      • Identifizieren der zweiten Computervorrichtung; und
      • Bestimmen, dass die zweite Computervorrichtung dafür konfiguriert ist, auf Äußerungen zu reagieren, die das Aktivierungswort einschließen.
    9. 9. Verfahren nach Klausel 3, worin:
      • das Übertragen des ersten Werts zur zweiten Computervorrichtung umfasst:
        • Übertragen einer ersten Kennung für die erste Computervorrichtung, und
        • das Empfangen eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei das Bestimmen des zweiten Werts durch eine zweite Computervorrichtung umfasst:
      • Empfangen einer zweiten Kennung für die zweite Computervorrichtung.
    10. 10. Verfahren nach Klausel 5, worin das Bestimmen, dass der Aktivierungszustand ein aktiver Zustand ist, umfasst:
      • Bestimmen, dass seit dem Empfang der Audiodaten, die der Äußerung entsprechen, eine bestimmte Zeitspanne verstrichen ist.
    11. 11. Verfahren nach Klausel 5, umfassend:
      • auf dem Bestimmen, dass der Aktivierungszustand ein aktiver Zustand ist, beruhendes Fortfahren für eine bestimmte Zeitspanne, den ersten Wert zu übertragen.
    12. 12. Computervorrichtung, umfassend:
      • eine oder mehrere Speichervorrichtungen, die Anweisungen speichern, die, wenn sie durch die Computervorrichtung ausgeführt werden, betreibbar sind, um die Computervorrichtung zu veranlassen, Operationen durchzuführen, welche umfassen:
        • Empfangen von Audiodaten, die einer Äußerung entsprechen, durch eine erste Computervorrichtung;
        • Bestimmen eines ersten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung ein Aktivierungswort einschließt;
        • Empfangen eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der zweite Wert durch eine zweite Computervorrichtung bestimmt wird;
        • Vergleichen des ersten Werts und des zweiten Werts; und
        • auf dem Vergleichen des ersten Werts mit dem zweiten Wert beruhendes Initiieren von Spracherkennungsverarbeitung an den Audiodaten.
    13. 13. System nach Klausel 12, worin die Operationen ferner umfassen:
      • Bestimmen, dass der erste Wert einen Aktivierungswort-Punktzahlschwellenwert erfüllt.
    14. 14. System nach Klausel 12, worin die Operationen ferner umfassen:
      • Übertragen des ersten Werts zur zweiten Computervorrichtung.
    15. 15. System nach Klausel 12, worin die Operationen ferner umfassen:
      • auf dem Vergleichen des ersten Werts und des zweiten Werts beruhendes Bestimmen eines Aktivierungszustands der ersten Computervorrichtung.
    16. 16. System nach Klausel 15, worin das auf dem Vergleichen des ersten Werts und des zweiten Werts beruhende Bestimmen eines Aktivierungszustands der ersten Computervorrichtung umfasst:
      • Bestimmen, dass der Aktivierungszustand ein aktiver Zustand ist.
    17. 17. System nach Klausel 12, worin die Operationen ferner umfassen:
      • Empfangen zusätzlicher Audiodaten, die einer zusätzlichen Äußerung entsprechen, durch die erste Computervorrichtung;
      • Bestimmen eines dritten Werts, der einer Wahrscheinlichkeit entspricht, dass die zusätzliche Äußerung das Aktivierungswort einschließt;
      • Empfangen eines vierten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der vierte Wert durch eine dritte Computervorrichtung bestimmt wird;
      • Vergleichen des dritten Werts und des vierten Werts; und
      • auf dem Vergleichen des dritten Werts und des vierten Werts beruhendes Bestimmen, dass der Aktivierungszustand der ersten Computervorrichtung ein inaktiver Zustand ist.
    18. 18. System nach Abschnitt 14, worin:
      • das Übertragen des ersten Werts zur zweiten Computervorrichtung umfasst:
        • Übertragen des ersten Werts zu einem Server, über ein lokales Netzwerk oder über Kurzstreckenfunk, und
        • das Empfangen eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der zweite Wert durch eine zweite Computervorrichtung bestimmt wird, umfasst:
      • Empfangen eines zweiten Werts, der durch eine zweite Computervorrichtung bestimmt wurde, vom Server, über das lokale Netzwerk oder über den Kurzstreckenfunk.
    19. 19. System nach Klausel 12, worin die Operationen ferner umfassen:
      • Identifizieren der zweiten Computervorrichtung; und
      • Bestimmen, dass die zweite Computervorrichtung dafür konfiguriert ist, auf Äußerungen zu reagieren, die das Aktivierungswort einschließen.
    20. 20. Nichtflüchtiges computerlesbares Medium, das Software speichert, die durch einen oder mehrere Computer ausführbare Anweisungen umfasst, welche bei solcher Ausführung den einen oder die mehreren Computer veranlassen, Operationen durchzuführen, die Folgendes umfassen:
      • Empfangen von Audiodaten, die einer Äußerung entsprechen, durch eine erste Computervorrichtung;
      • Bestimmen eines ersten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung ein Aktivierungswort einschließt;
      • Empfangen eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der zweite Wert durch eine zweite Computervorrichtung bestimmt wird;
      • Vergleichen des ersten Werts und des zweiten Werts; und
      • auf dem Vergleichen des ersten Werts mit dem zweiten Wert beruhendes Initiieren von Spracherkennungsverarbeitung an den Audiodaten.

Claims (18)

  1. Nichtflüchtiges computerlesbares Medium, das Software speichert, die durch einen oder mehrere Computer ausführbare Anweisungen umfasst, die bei solcher Ausführung den einen oder die mehreren Computer veranlassen, Folgendes durchzuführen: Empfangen von Audiodaten durch eine Computervorrichtung; Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen; als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung; als Antwort auf das Übertragen der Daten zu der zusätzlichen Computervorrichtung erfolgendes Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung; und Bestimmen durch die Computervorrichtung auf der Grundlage der zusätzlichen Daten, ob ein Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll.
  2. Nichtflüchtiges computerlesbares Medium, das Software speichert, die durch einen oder mehrere Computer ausführbare Anweisungen umfasst, die bei solcher Ausführung den einen oder die mehreren Computer veranlassen, Folgendes durchzuführen: Empfangen von Audiodaten, die einer Äußerung entsprechen, durch eine Computervorrichtung; Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen; als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten, die eine Aktivierungswort-Punktzahl umfassen, welche eine Qualität der Äußerung angibt, durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung; Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung, wobei die zusätzlichen Daten eine durch die zusätzliche Computervorrichtung bestimmte Aktivierungswort-Punktzahl umfassen, welche eine Qualität der Audiodaten wiedergibt; und mindestens teilweise auf der Grundlage eines Vergleichs der Aktivierungswort-Punktzahl für die Computervorrichtung mit den in den zusätzlichen Daten eingeschlossenen Aktivierungswort-Punktzahlen erfolgendes Bestimmen durch die Computervorrichtung, ob ein Befehl durchgeführt werden soll, der in einer Äußerung nach dem bestimmten vordefinierten Aktivierungswort umfasst ist.
  3. Nichtflüchtiges computerlesbares Medium, das Software speichert, die durch einen oder mehrere Computer ausführbare Anweisungen umfasst, die bei solcher Ausführung den einen oder die mehreren Computer veranlassen, Folgendes durchzuführen: Empfangen von Audiodaten, die einer Äußerung entsprechen, durch eine Computervorrichtung; Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen; als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten, die eine Aktivierungswort-Punktzahl umfassen, die eine Lautstärke der Äußerung angibt, durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung; Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung, wobei die zusätzlichen Daten eine durch die zusätzliche Computervorrichtung bestimmte Aktivierungswort-Punktzahl umfassen, die eine Lautstärke der Äußerung widerspiegelt; und mindestens teilweise auf der Grundlage eines Vergleichs der Aktivierungswort-Punktzahl für die Computervorrichtung mit den in den zusätzlichen Daten umfassten Aktivierungswort-Punktzahlen erfolgendes Bestimmen durch die Computervorrichtung, ob ein Befehl, der in einer Äußerung nach dem bestimmten vordefinierten Aktivierungswort umfasst ist, durchgeführt werden soll.
  4. Nichtflüchtiges computerlesbares Medium nach einem der vorhergehenden Ansprüche, worin die Anweisungen, wenn sie durch den einen oder die mehreren Computer ausgeführt werden, den einen oder die mehreren Computer veranlassen, ferner durchzuführen: Erzeugen der Daten durch die Computervorrichtung auf der Grundlage der Audiodaten.
  5. Nichtflüchtiges computerlesbares Medium nach einem der vorhergehenden Ansprüche, worin das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, umfasst: Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, ohne automatisierte Spracherkennung an den Audiodaten durchzuführen.
  6. Nichtflüchtiges computerlesbares Medium nach einem der vorhergehenden Ansprüche, worin die Anweisungen, wenn sie durch den einen oder die mehreren Computer ausgeführt werden, den einen oder die mehreren Computer veranlassen, ferner durchzuführen: Bestimmen, ob der Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll, indem bestimmt wird, dass der Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll; Durchführen automatisierter Spracherkennung an den Audiodaten durch die Computervorrichtung; auf der Grundlage des Durchführens der automatisierten Spracherkennung an den Audiodaten erfolgendes Identifizieren des Befehls, der in der Äußerung eingeschlossen ist, durch die Computervorrichtung; und Durchführen des Befehls durch die Computervorrichtung.
  7. Nichtflüchtiges computerlesbares Medium nach einem der vorhergehenden Ansprüche, worin die Anweisungen, wenn sie durch den einen oder die mehreren Computer ausgeführt werden, den einen oder die mehreren Computer veranlassen, ferner durchzuführen: Empfangen der Audiodaten durch Empfangen der Audiodaten, während sich die Computervorrichtung in einem Stromsparmodus befindet; Bestimmen, ob der Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll, indem bestimmt wird, das Durchführen des Befehls, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, zu umgehen; und Halten der Computervorrichtung im Stromsparmodus auf der Grundlage des Bestimmens, das Durchführen des Befehls, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, zu umgehen.
  8. Nichtflüchtiges computerlesbares Medium nach einem der vorhergehenden Ansprüche, worin die Anweisungen, wenn sie durch den einen oder die mehreren Computer ausgeführt werden, den einen oder die mehreren Computer veranlassen, ferner durchzuführen: Erzeugen der Daten durch die Computervorrichtung auf der Grundlage eines Abschnitts der Audiodaten, der die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließt.
  9. Nichtflüchtiges computerlesbares Medium nach einem der vorhergehenden Ansprüche, worin die zusätzlichen Daten von der zusätzlichen Computervorrichtung eine Wahrscheinlichkeit angeben, dass die Audiodaten die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen.
  10. System, umfassend: einen oder mehrere Computer; und eine oder mehrere Speichervorrichtungen, die Anweisungen speichern, die, wenn sie durch den einen oder die mehreren Computer ausgeführt werden, dafür betreibbar sind, den einen oder die mehreren Computer zu veranlassen, Operationen durchzuführen, die Folgendes umfassen: Empfangen von Audiodaten durch eine Computervorrichtung; Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen; als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung; als Antwort auf das Übertragen der Daten zu der zusätzlichen Computervorrichtung erfolgendes Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung; und Bestimmen durch die Computervorrichtung auf der Grundlage der zusätzlichen Daten, ob ein Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll.
  11. System, umfassend: einen oder mehrere Computer; und eine oder mehrere Speichervorrichtungen, die Anweisungen speichern, die, wenn sie durch den einen oder die mehreren Computer ausgeführt werden, dafür betreibbar sind, den einen oder die mehreren Computer zu veranlassen, Operationen durchzuführen, die Folgendes umfassen: Empfangen von Audiodaten, durch eine Computervorrichtung; Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen; als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten, die eine Aktivierungswort-Punktzahl umfassen, welche eine Qualität der Äußerung angibt, durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung; Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung, wobei die zusätzlichen Daten eine durch die zusätzliche Computervorrichtung bestimmte Aktivierungswort-Punktzahl umfassen, welche eine Qualität der Audiodaten wiedergibt; und mindestens teilweise auf der Grundlage eines Vergleichs der Aktivierungswort-Punktzahl für die Computervorrichtung mit den in den zusätzlichen Daten umfassten Aktivierungswort-Punktzahlen erfolgendes Bestimmen durch die Computervorrichtung, ob ein Befehl durchgeführt werden soll, der in einer Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist.
  12. System, umfassend: einen oder mehrere Computer; und eine oder mehrere Speichervorrichtungen, die Anweisungen speichern, die, wenn sie durch den einen oder die mehreren Computer ausgeführt werden, dafür betreibbar sind, den einen oder die mehreren Computer zu veranlassen, Operationen durchzuführen, die Folgendes umfassen: Empfangen von Audiodaten, die einer Äußerung entsprechen, durch eine Computervorrichtung; Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen; als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten, die eine Aktivierungswort-Punktzahl umfassen, die eine Lautstärke der Äußerung angibt, durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung; Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung, wobei die zusätzlichen Daten eine durch die zusätzliche Computervorrichtung bestimmte Aktivierungswort-Punktzahl umfassen, die eine Lautstärke der Äußerung widerspiegelt; und mindestens teilweise auf der Grundlage eines Vergleichs der Aktivierungswort-Punktzahl für die Computervorrichtung mit den in den zusätzlichen Daten umfassten Aktivierungswort-Punktzahlen erfolgendes Bestimmen durch die Computervorrichtung, ob ein Befehl, der in einer Äußerung nach dem bestimmten vordefinierten Aktivierungswort umfasst ist, durchgeführt werden soll.
  13. System nach Anspruch 10 bis 12, worin die Operationen umfassen: Erzeugen der Daten durch die Computervorrichtung auf der Grundlage der Audiodaten.
  14. System nach einem der Ansprüche 10 bis 13, worin das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, umfasst: Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, ohne automatisierte Spracherkennung an den Audiodaten durchzuführen.
  15. System nach einem der Ansprüche 10 bis 14, worin die Operationen umfassen: Bestimmen, ob der Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll, indem bestimmt wird, dass der Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll; Durchführen automatisierter Spracherkennung an den Audiodaten durch die Computervorrichtung; auf der Grundlage des Durchführens der automatisierten Spracherkennung an den Audiodaten erfolgendes Identifizieren des Befehls, der in der Äußerung eingeschlossen ist, durch die Computervorrichtung; und Durchführen des Befehls durch die Computervorrichtung.
  16. System nach einem der Ansprüche 10 bis 15, worin die Operationen umfassen: Empfangen der Audiodaten durch Empfangen der Audiodaten, während sich die Computervorrichtung in einem Stromsparmodus befindet; Bestimmen, ob der Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll, indem bestimmt wird, das Durchführen des Befehls, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, zu umgehen; und Halten der Computervorrichtung im Stromsparmodus auf der Grundlage des Bestimmens, das Durchführen des Befehls, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, zu umgehen.
  17. System nach einem der Ansprüche 10 bis 16, worin die Operationen umfassen: Erzeugen der Daten durch die Computervorrichtung auf der Grundlage eines Abschnitts der Audiodaten, der die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließt.
  18. System nach einem der Ansprüche 10 bis 17, worin die zusätzlichen Daten von der zusätzlichen Computervorrichtung eine Wahrscheinlichkeit angeben, dass die Audiodaten die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen.
DE202015010012.0U 2014-10-09 2015-09-29 Aktivierungswort-Ermittlung auf mehreren Vorrichtungen Active DE202015010012U1 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201462061830P 2014-10-09 2014-10-09
US62/061,830 2014-10-09
US14/675,932 US9318107B1 (en) 2014-10-09 2015-04-01 Hotword detection on multiple devices
US14/675,932 2015-04-01

Publications (1)

Publication Number Publication Date
DE202015010012U1 true DE202015010012U1 (de) 2023-03-01

Family

ID=54330874

Family Applications (1)

Application Number Title Priority Date Filing Date
DE202015010012.0U Active DE202015010012U1 (de) 2014-10-09 2015-09-29 Aktivierungswort-Ermittlung auf mehreren Vorrichtungen

Country Status (7)

Country Link
US (8) US9318107B1 (de)
EP (5) EP3084759B1 (de)
JP (7) JP6208376B2 (de)
KR (2) KR101832648B1 (de)
CN (2) CN106030699B (de)
DE (1) DE202015010012U1 (de)
WO (1) WO2016057268A1 (de)

Families Citing this family (354)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032452B1 (en) 2016-12-30 2018-07-24 Google Llc Multimodal transmission of packetized data
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US10013986B1 (en) 2016-12-30 2018-07-03 Google Llc Data structure pooling of voice activated data packets
US11017428B2 (en) 2008-02-21 2021-05-25 Google Llc System and method of data transmission rate adjustment
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10776830B2 (en) 2012-05-23 2020-09-15 Google Llc Methods and systems for identifying new computers and providing matching services
US10152723B2 (en) 2012-05-23 2018-12-11 Google Llc Methods and systems for identifying new computers and providing matching services
US10650066B2 (en) 2013-01-31 2020-05-12 Google Llc Enhancing sitelinks with creative content
US10735552B2 (en) 2013-01-31 2020-08-04 Google Llc Secondary transmissions of packetized data
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (de) 2013-06-09 2016-04-20 Apple Inc. Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitaler assistenten
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9589564B2 (en) 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
KR20160023089A (ko) * 2014-08-21 2016-03-03 엘지전자 주식회사 디지털 디바이스 및 그 제어 방법
US10748539B2 (en) * 2014-09-10 2020-08-18 Crestron Electronics, Inc. Acoustic sensory network
US10204622B2 (en) * 2015-09-10 2019-02-12 Crestron Electronics, Inc. Acoustic sensory network
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9812128B2 (en) 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
KR102505347B1 (ko) * 2015-07-16 2023-03-03 삼성전자주식회사 사용자 관심 음성 알림 장치 및 방법
CN106469040B (zh) * 2015-08-19 2019-06-21 华为终端有限公司 通信方法、服务器及设备
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10783888B2 (en) * 2015-09-10 2020-09-22 Crestron Electronics Inc. System and method for determining recipient of spoken command in a control system
US9542941B1 (en) * 2015-10-01 2017-01-10 Lenovo (Singapore) Pte. Ltd. Situationally suspending wakeup word to enable voice command input
US9691378B1 (en) * 2015-11-05 2017-06-27 Amazon Technologies, Inc. Methods and devices for selectively ignoring captured audio data
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US9653075B1 (en) 2015-11-06 2017-05-16 Google Inc. Voice commands across devices
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10127906B1 (en) 2015-12-28 2018-11-13 Amazon Technologies, Inc. Naming devices via voice commands
US10185544B1 (en) * 2015-12-28 2019-01-22 Amazon Technologies, Inc. Naming devices via voice commands
US10026401B1 (en) 2015-12-28 2018-07-17 Amazon Technologies, Inc. Naming devices via voice commands
US10074364B1 (en) * 2016-02-02 2018-09-11 Amazon Technologies, Inc. Sound profile generation based on speech recognition results exceeding a threshold
JP2017138476A (ja) * 2016-02-03 2017-08-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10142754B2 (en) 2016-02-22 2018-11-27 Sonos, Inc. Sensor on moving component of transducer
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9779735B2 (en) * 2016-02-24 2017-10-03 Google Inc. Methods and systems for detecting and processing speech signals
US10229687B2 (en) * 2016-03-10 2019-03-12 Microsoft Technology Licensing, Llc Scalable endpoint-dependent natural language understanding
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US9948479B2 (en) * 2016-04-05 2018-04-17 Vivint, Inc. Identification graph theory
US20170330564A1 (en) * 2016-05-13 2017-11-16 Bose Corporation Processing Simultaneous Speech from Distributed Microphones
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10438583B2 (en) * 2016-07-20 2019-10-08 Lenovo (Singapore) Pte. Ltd. Natural language voice assistant
US10621992B2 (en) * 2016-07-22 2020-04-14 Lenovo (Singapore) Pte. Ltd. Activating voice assistant based on at least one of user proximity and context
KR102575634B1 (ko) * 2016-07-26 2023-09-06 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법
US10810212B2 (en) * 2016-07-29 2020-10-20 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Validating provided information in a conversation
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9693164B1 (en) 2016-08-05 2017-06-27 Sonos, Inc. Determining direction of networked microphone device relative to audio playback device
US9972320B2 (en) * 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US9824692B1 (en) * 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
US10325601B2 (en) 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
CA3117645C (en) 2016-09-19 2023-01-03 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
TWI606390B (zh) * 2016-09-23 2017-11-21 元鼎音訊股份有限公司 可自動調整聲音輸出之方法及電子裝置
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
WO2018067528A1 (en) * 2016-10-03 2018-04-12 Google Llc Device leadership negotiation among voice interface devices
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10592611B2 (en) * 2016-10-24 2020-03-17 Conduent Business Services, Llc System for automatic extraction of structure from spoken conversation using lexical and acoustic features
US10783883B2 (en) * 2016-11-03 2020-09-22 Google Llc Focus session at a voice interface device
KR102241970B1 (ko) * 2016-11-07 2021-04-20 구글 엘엘씨 기록된 미디어 핫워드 트리거 억제
US10332523B2 (en) 2016-11-18 2019-06-25 Google Llc Virtual assistant identification of nearby computing devices
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10079015B1 (en) * 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
US10311875B2 (en) * 2016-12-22 2019-06-04 Soundhound, Inc. Full-duplex utterance processing in a natural language virtual assistant
US10559309B2 (en) * 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
US10276161B2 (en) 2016-12-27 2019-04-30 Google Llc Contextual hotwords
US10708313B2 (en) 2016-12-30 2020-07-07 Google Llc Multimodal transmission of packetized data
US10593329B2 (en) * 2016-12-30 2020-03-17 Google Llc Multimodal transmission of packetized data
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR20180083587A (ko) * 2017-01-13 2018-07-23 삼성전자주식회사 전자 장치 및 그의 동작 방법
CN110506452B (zh) * 2017-02-07 2021-12-03 路创技术有限责任公司 基于音频的负载控制系统
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US10102868B2 (en) * 2017-02-17 2018-10-16 International Business Machines Corporation Bot-based honeypot poison resilient data collection
US10810510B2 (en) 2017-02-17 2020-10-20 International Business Machines Corporation Conversation and context aware fraud and abuse prevention agent
US10757058B2 (en) 2017-02-17 2020-08-25 International Business Machines Corporation Outgoing communication scam prevention
US9990926B1 (en) * 2017-03-13 2018-06-05 Intel Corporation Passive enrollment method for speaker identification systems
US11183181B2 (en) * 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
CN117577099A (zh) 2017-04-20 2024-02-20 谷歌有限责任公司 设备上的多用户认证的方法、系统和介质
KR20180118470A (ko) * 2017-04-21 2018-10-31 엘지전자 주식회사 음성 인식 장치 및 음성 인식 방법
IL252071A0 (en) 2017-05-03 2017-07-31 Google Inc Contextual language translation
JP6994292B2 (ja) * 2017-05-08 2022-01-14 達闥机器人有限公司 ロボットのウェイクアップ方法、装置及びロボット
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) * 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10665232B2 (en) * 2017-05-24 2020-05-26 Harman International Industries, Inc. Coordination among multiple voice recognition devices
US10664533B2 (en) 2017-05-24 2020-05-26 Lenovo (Singapore) Pte. Ltd. Systems and methods to determine response cue for digital assistant based on context
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10395650B2 (en) * 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
US10283117B2 (en) * 2017-06-19 2019-05-07 Lenovo (Singapore) Pte. Ltd. Systems and methods for identification of response cue at peripheral device
CN109213777A (zh) * 2017-06-29 2019-01-15 杭州九阳小家电有限公司 一种基于语音的食谱处理方法及系统
US10599377B2 (en) 2017-07-11 2020-03-24 Roku, Inc. Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services
KR102052510B1 (ko) * 2017-08-03 2019-12-05 에스케이브로드밴드주식회사 음성브리지장치 및 음성인식처리장치, 그리고 그 동작 방법
US10475449B2 (en) * 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
JP6513749B2 (ja) * 2017-08-09 2019-05-15 レノボ・シンガポール・プライベート・リミテッド 音声アシストシステム、サーバ装置、その音声アシスト方法、及びコンピュータが実行するためのプログラム
KR102486912B1 (ko) * 2017-08-10 2023-01-11 에스케이텔레콤 주식회사 음성 처리 장치의 구동 제어 시스템 및 구동 제어 서버
US11062702B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Media system with multiple digital assistants
US10777197B2 (en) 2017-08-28 2020-09-15 Roku, Inc. Audio responsive device with play/stop and tell me something buttons
US11062710B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Local and cloud speech recognition
US20190065608A1 (en) * 2017-08-29 2019-02-28 Lenovo (Singapore) Pte. Ltd. Query input received at more than one device
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10403288B2 (en) * 2017-10-17 2019-09-03 Google Llc Speaker diarization
US10916252B2 (en) 2017-11-10 2021-02-09 Nvidia Corporation Accelerated data transfer for latency reduction and real-time processing
US10867623B2 (en) * 2017-11-14 2020-12-15 Thomas STACHURA Secure and private processing of gestures via video input
US10999733B2 (en) 2017-11-14 2021-05-04 Thomas STACHURA Information security/privacy via a decoupled security accessory to an always listening device
CN107919119A (zh) * 2017-11-16 2018-04-17 百度在线网络技术(北京)有限公司 多设备交互协同的方法、装置、设备及计算机可读介质
US10276175B1 (en) * 2017-11-28 2019-04-30 Google Llc Key phrase detection with audio watermarking
US10157611B1 (en) * 2017-11-29 2018-12-18 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
US10102858B1 (en) * 2017-11-29 2018-10-16 International Business Machines Corporation Dynamically changing audio keywords
US10482878B2 (en) * 2017-11-29 2019-11-19 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
CN110741338B (zh) * 2017-12-08 2023-06-16 谷歌有限责任公司 使设备与环境中的多个设备隔离以响应口头助理调用
EP4191412A1 (de) * 2017-12-08 2023-06-07 Google LLC Signalverarbeitungskoordination zwischen digitalen sprachassistentrechnervorrichtungen
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US10672380B2 (en) * 2017-12-27 2020-06-02 Intel IP Corporation Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system
CN111512365B (zh) * 2017-12-31 2023-06-13 美的集团股份有限公司 对多个家庭装置进行控制的方法和系统
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11145298B2 (en) * 2018-02-13 2021-10-12 Roku, Inc. Trigger word detection with multiple digital assistants
CN111742091B (zh) * 2018-02-23 2023-07-18 三星电子株式会社 洗衣机及其控制方法
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
EP3596729A1 (de) 2018-03-07 2020-01-22 Google LLC. Systeme und verfahren zur sprachbasierten einleitung von personalisierten vorrichtungsaktionen
US11183182B2 (en) * 2018-03-07 2021-11-23 Google Llc Systems and methods for voice-based initiation of custom device actions
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US11240057B2 (en) * 2018-03-15 2022-02-01 Lenovo (Singapore) Pte. Ltd. Alternative output response based on context
US11163377B2 (en) * 2018-03-22 2021-11-02 Adobe Inc. Remote generation of executable code for a client application based on natural language commands captured at a client device
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10755706B2 (en) * 2018-03-26 2020-08-25 Midea Group Co., Ltd. Voice-based user interface with dynamically switchable endpoints
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11151991B2 (en) * 2018-03-30 2021-10-19 Verizon Media Inc. Electronic message transmission
CN111971647A (zh) * 2018-04-09 2020-11-20 麦克赛尔株式会社 语音识别设备、语音识别设备的协作系统和语音识别设备的协作方法
CN108538291A (zh) * 2018-04-11 2018-09-14 百度在线网络技术(北京)有限公司 语音控制方法、终端设备、云端服务器及系统
EP4254402A3 (de) 2018-04-16 2023-12-20 Google LLC Automatische bestimmung der sprache zur spracherkennung einer gesprochenen äusserung, die über eine automatisierte assistenzschnittstelle empfangen wird
CN116959420A (zh) * 2018-04-16 2023-10-27 谷歌有限责任公司 自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言
EP3564949A1 (de) * 2018-04-23 2019-11-06 Spotify AB Aktivierungsauslöserverarbeitung
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
CN108615526B (zh) * 2018-05-08 2020-07-07 腾讯科技(深圳)有限公司 语音信号中关键词的检测方法、装置、终端及存储介质
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10692496B2 (en) 2018-05-22 2020-06-23 Google Llc Hotword suppression
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
WO2019227370A1 (zh) * 2018-05-31 2019-12-05 Dong Xuezhang 一种多语音助手控制方法、装置、系统及计算机可读存储介质
US10892996B2 (en) * 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11437029B2 (en) 2018-06-05 2022-09-06 Voicify, LLC Voice application platform
US10636425B2 (en) 2018-06-05 2020-04-28 Voicify, LLC Voice application platform
US10803865B2 (en) 2018-06-05 2020-10-13 Voicify, LLC Voice application platform
US10235999B1 (en) 2018-06-05 2019-03-19 Voicify, LLC Voice application platform
GB2574803B (en) * 2018-06-11 2022-12-07 Xmos Ltd Communication between audio devices
US10783886B2 (en) * 2018-06-12 2020-09-22 International Business Machines Corporation Cognitive agent disambiguation
US11348586B2 (en) * 2018-06-21 2022-05-31 Dell Products L.P. Systems and methods for extending and enhancing voice assistant and/or telecommunication software functions to a remote endpoint device
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN108922528B (zh) 2018-06-29 2020-10-23 百度在线网络技术(北京)有限公司 用于处理语音的方法和装置
US11373640B1 (en) * 2018-08-01 2022-06-28 Amazon Technologies, Inc. Intelligent device grouping
KR102570301B1 (ko) * 2018-08-02 2023-08-25 삼성전자주식회사 전자 장치 및 그 제어 방법
KR20230107386A (ko) * 2018-08-09 2023-07-14 구글 엘엘씨 핫워드 인식 및 수동 어시스턴스
JP7018850B2 (ja) * 2018-08-20 2022-02-14 ヤフー株式会社 端末装置、決定方法、決定プログラム及び決定装置
KR102498811B1 (ko) 2018-08-21 2023-02-10 구글 엘엘씨 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드
JP7322076B2 (ja) 2018-08-21 2023-08-07 グーグル エルエルシー 自動アシスタントを起動させるための動的および/またはコンテキスト固有のホットワード
KR20230145521A (ko) 2018-08-23 2023-10-17 구글 엘엘씨 멀티-어시스턴트 환경의 특성에 따른 어시스턴트 응답성 규정하기
KR20200024068A (ko) * 2018-08-27 2020-03-06 삼성전자주식회사 인텔리전트 서비스를 위해, 복수의 음성 데이터 수신 장치들을 선택적으로 이용하는 방법, 장치, 및 시스템
US11514917B2 (en) * 2018-08-27 2022-11-29 Samsung Electronics Co., Ltd. Method, device, and system of selectively using multiple voice data receiving devices for intelligent service
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
CN109391528A (zh) * 2018-08-31 2019-02-26 百度在线网络技术(北京)有限公司 语音智能设备的唤醒方法、装置、设备及存储介质
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
KR102146524B1 (ko) * 2018-09-19 2020-08-20 주식회사 포티투마루 음성 인식 학습 데이터 생성 시스템, 방법 및 컴퓨터 프로그램
US11315553B2 (en) 2018-09-20 2022-04-26 Samsung Electronics Co., Ltd. Electronic device and method for providing or obtaining data for training thereof
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11119725B2 (en) * 2018-09-27 2021-09-14 Abl Ip Holding Llc Customizable embedded vocal command sets for a lighting and/or other environmental controller
US11152003B2 (en) * 2018-09-27 2021-10-19 International Business Machines Corporation Routing voice commands to virtual assistants
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11100923B2 (en) * 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US10777186B1 (en) * 2018-11-13 2020-09-15 Amazon Technolgies, Inc. Streaming real-time automatic speech recognition service
EP3654249A1 (de) 2018-11-15 2020-05-20 Snips Erweiterte konvolutionen und takt zur effizienten schlüsselwortauffindung
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
KR20200074680A (ko) 2018-12-17 2020-06-25 삼성전자주식회사 단말 장치 및 이의 제어 방법
KR20200074690A (ko) * 2018-12-17 2020-06-25 삼성전자주식회사 전자 장치 및 이의 제어 방법
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN111415657A (zh) * 2019-01-07 2020-07-14 成都启英泰伦科技有限公司 一种去中心化设备、多设备系统及其语音控制方法
WO2020163624A1 (en) 2019-02-06 2020-08-13 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
CA3129378A1 (en) 2019-02-07 2020-08-13 Thomas Stachura Privacy device for smart speakers
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11195518B2 (en) 2019-03-27 2021-12-07 Sonova Ag Hearing device user communicating with a wireless communication device
US12015637B2 (en) 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection
WO2020213767A1 (ko) * 2019-04-19 2020-10-22 엘지전자 주식회사 다중 디바이스 제어 시스템과 방법 및 이를 실행하기 위한 컴포넌트가 저장된 비 일시적 컴퓨터 판독 가능 매체
CN110136707B (zh) * 2019-04-22 2021-03-02 云知声智能科技股份有限公司 一种用于进行多设备自主决策的人机交互系统
WO2020218634A1 (ko) * 2019-04-23 2020-10-29 엘지전자 주식회사 응답 기기 결정 방법 및 장치
WO2020222539A1 (en) * 2019-05-02 2020-11-05 Samsung Electronics Co., Ltd. Hub device, multi-device system including the hub device and plurality of devices, and method of operating the same
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11482210B2 (en) 2019-05-29 2022-10-25 Lg Electronics Inc. Artificial intelligence device capable of controlling other devices based on device information
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
CN110148401B (zh) * 2019-07-02 2023-12-15 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN112712803B (zh) * 2019-07-15 2022-02-25 华为技术有限公司 一种语音唤醒的方法和电子设备
US11695809B2 (en) * 2019-07-29 2023-07-04 Samsung Electronics Co., Ltd. System and method for registering device for voice assistant service
EP4004907B1 (de) * 2019-07-30 2023-07-12 Dolby Laboratories Licensing Corporation Aufweckworterkennung mehrerer vorrichtungen
US11659332B2 (en) 2019-07-30 2023-05-23 Dolby Laboratories Licensing Corporation Estimating user location in a system including smart audio devices
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
CN110415705B (zh) * 2019-08-01 2022-03-01 苏州奇梦者网络科技有限公司 一种热词识别方法、系统、装置及存储介质
KR102243325B1 (ko) * 2019-09-11 2021-04-22 넷마블 주식회사 시동어 인식 기술을 제공하기 위한 컴퓨터 프로그램
CN110660390B (zh) * 2019-09-17 2022-05-03 百度在线网络技术(北京)有限公司 智能设备唤醒方法、智能设备及计算机可读存储介质
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
DE102019215099B4 (de) * 2019-10-01 2022-09-29 Audi Ag Verfahren zum Bereitstellen einer aktuellen lokalen Umgebungszustandskarte für ein Kraftfahrzeug sowie Kraftfahrzeug zum Durchführen eines derartigen Verfahrens
KR102629796B1 (ko) * 2019-10-15 2024-01-26 삼성전자 주식회사 음성 인식의 향상을 지원하는 전자 장치
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11315551B2 (en) * 2019-11-07 2022-04-26 Accent Global Solutions Limited System and method for intent discovery from multimedia conversation
CN110890092B (zh) * 2019-11-07 2022-08-05 北京小米移动软件有限公司 唤醒控制方法及装置、计算机存储介质
US11061958B2 (en) 2019-11-14 2021-07-13 Jetblue Airways Corporation Systems and method of generating custom messages based on rule-based database queries in a cloud platform
US11450325B1 (en) 2019-12-12 2022-09-20 Amazon Technologies, Inc. Natural language processing
US11551681B1 (en) * 2019-12-13 2023-01-10 Amazon Technologies, Inc. Natural language processing routing
US11380308B1 (en) 2019-12-13 2022-07-05 Amazon Technologies, Inc. Natural language processing
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN111048086B (zh) * 2019-12-24 2022-10-21 思必驰科技股份有限公司 多设备间的语音唤醒方法、和自协商的语音唤醒方法、装置及系统
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
KR20210098250A (ko) * 2020-01-31 2021-08-10 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
EP3866157B1 (de) * 2020-02-13 2024-04-03 Deutsche Telekom AG Elektronische assistenzvorrichtung und betriebsverfahren
KR20210136463A (ko) 2020-05-07 2021-11-17 삼성전자주식회사 전자 장치 및 그 제어 방법
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11887589B1 (en) * 2020-06-17 2024-01-30 Amazon Technologies, Inc. Voice-based interactions with a graphical user interface
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11670293B2 (en) 2020-09-02 2023-06-06 Google Llc Arbitrating between multiple potentially-responsive electronic devices
US11727925B2 (en) * 2020-10-13 2023-08-15 Google Llc Cross-device data synchronization based on simultaneous hotword triggers
US11798530B2 (en) 2020-10-30 2023-10-24 Google Llc Simultaneous acoustic event detection across multiple assistant devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
US20220284883A1 (en) * 2021-03-05 2022-09-08 Comcast Cable Communications, Llc Keyword Detection
US12014734B2 (en) * 2021-07-22 2024-06-18 International Business Machines Corporation Dynamic boundary creation for voice command authentication
US20230098522A1 (en) * 2021-09-30 2023-03-30 Intuit Inc. Automated categorization of data by generating unity and reliability metrics
CN115547337B (zh) * 2022-11-25 2023-03-03 深圳市人马互动科技有限公司 语音识别方法及相关产品
WO2024128824A1 (ko) * 2022-12-14 2024-06-20 삼성전자 주식회사 전자 장치 및 이의 동작 방법

Family Cites Families (123)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4363102A (en) 1981-03-27 1982-12-07 Bell Telephone Laboratories, Incorporated Speaker identification system using word recognition templates
JPS59180599A (ja) * 1983-03-31 1984-10-13 日本電気ホームエレクトロニクス株式会社 車載用音声認識制御装置
US5659665A (en) * 1994-12-08 1997-08-19 Lucent Technologies Inc. Method and apparatus for including speech recognition capabilities in a computer system
JP3674990B2 (ja) 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JP3522421B2 (ja) 1995-10-31 2004-04-26 株式会社リコー 話者認識システムおよび話者認識方法
US5895448A (en) 1996-02-29 1999-04-20 Nynex Science And Technology, Inc. Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose
US6023676A (en) * 1996-12-12 2000-02-08 Dspc Israel, Ltd. Keyword recognition system and method
SE511418C2 (sv) 1997-03-13 1999-09-27 Telia Ab Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper.
US6076055A (en) 1997-05-27 2000-06-13 Ameritech Speaker verification method
US5897616A (en) 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
JPH1152976A (ja) * 1997-07-29 1999-02-26 Nec Home Electron Ltd 音声認識装置
JP3524370B2 (ja) * 1998-02-19 2004-05-10 富士通テン株式会社 音声起動システム
JP2000075954A (ja) 1998-09-02 2000-03-14 Sony Corp 電子機器制御装置
US6141644A (en) 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US6744860B1 (en) * 1998-12-31 2004-06-01 Bell Atlantic Network Services Methods and apparatus for initiating a voice-dialing operation
US6671672B1 (en) * 1999-03-30 2003-12-30 Nuance Communications Voice authentication system having cognitive recall mechanism for password verification
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
JP3357629B2 (ja) * 1999-04-26 2002-12-16 旭化成株式会社 設備制御システム
US6438524B1 (en) * 1999-11-23 2002-08-20 Qualcomm, Incorporated Method and apparatus for a voice controlled foreign language translation device
DE10015960C2 (de) * 2000-03-30 2003-01-16 Micronas Munich Gmbh Spracherkennungsverfahren und Spracherkennungsvorrichtung
US6567775B1 (en) 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
US6826159B1 (en) 2000-05-24 2004-11-30 Cisco Technology, Inc. System and method for providing speaker identification in a conference call
EP1168736A1 (de) * 2000-06-30 2002-01-02 Alcatel Telekommunikationseinrichtung und -Verfahren mit einer Spracherkennungseinrichtung
US7016833B2 (en) 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US6973426B1 (en) 2000-12-29 2005-12-06 Cisco Technology, Inc. Method and apparatus for performing speaker verification based on speaker independent recognition of commands
US6701293B2 (en) * 2001-06-13 2004-03-02 Intel Corporation Combining N-best lists from multiple speech recognizers
JP4086280B2 (ja) * 2002-01-29 2008-05-14 株式会社東芝 音声入力システム、音声入力方法及び音声入力プログラム
JP4224250B2 (ja) * 2002-04-17 2009-02-12 パイオニア株式会社 音声認識装置、音声認識方法および音声認識プログラム
JP2003345391A (ja) 2002-05-23 2003-12-03 Denso Corp 端末、音声認識サーバ、音声認識システムおよびコンピュータプログラム
US20030231746A1 (en) 2002-06-14 2003-12-18 Hunter Karla Rae Teleconference speaker identification
TW200409525A (en) * 2002-11-26 2004-06-01 Lite On Technology Corp Voice identification method for cellular phone and cellular phone with voiceprint password
EP1429314A1 (de) 2002-12-13 2004-06-16 Sony International (Europe) GmbH Korrektion der Energie als Eingangsparameter für die Sprachverarbeitung
US7222072B2 (en) * 2003-02-13 2007-05-22 Sbc Properties, L.P. Bio-phonetic multi-phrase speaker identity verification
US7571014B1 (en) 2004-04-01 2009-08-04 Sonos, Inc. Method and apparatus for controlling multimedia players in a multi-zone system
US8290603B1 (en) 2004-06-05 2012-10-16 Sonos, Inc. User interfaces for controlling and manipulating groupings in a multi-zone media system
US20070198262A1 (en) 2003-08-20 2007-08-23 Mindlin Bernardo G Topological voiceprints for speaker identification
US20050165607A1 (en) * 2004-01-22 2005-07-28 At&T Corp. System and method to disambiguate and clarify user intention in a spoken dialog system
US8214447B2 (en) 2004-06-08 2012-07-03 Bose Corporation Managing an audio network
US7720012B1 (en) 2004-07-09 2010-05-18 Arrowhead Center, Inc. Speaker identification in the presence of packet losses
US8412521B2 (en) * 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US8521529B2 (en) 2004-10-18 2013-08-27 Creative Technology Ltd Method for segmenting audio signals
KR100679043B1 (ko) * 2005-02-15 2007-02-05 삼성전자주식회사 음성 대화 인터페이스 장치 및 방법
US8041570B2 (en) * 2005-05-31 2011-10-18 Robert Bosch Corporation Dialogue management using scripts
US7603275B2 (en) * 2005-10-31 2009-10-13 Hitachi, Ltd. System, method and computer program product for verifying an identity using voiced to unvoiced classifiers
JP2006227634A (ja) * 2006-03-29 2006-08-31 Seiko Epson Corp 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体
CN1996847B (zh) 2006-12-27 2010-05-19 中国科学院上海技术物理研究所 基于协作网格的图像及多媒体数据通信与存储系统
US8099288B2 (en) 2007-02-12 2012-01-17 Microsoft Corp. Text-dependent speaker verification
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8352264B2 (en) 2008-03-19 2013-01-08 Canyon IP Holdings, LLC Corrective feedback loop for automated speech recognition
US8503686B2 (en) * 2007-05-25 2013-08-06 Aliphcom Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
US8385233B2 (en) 2007-06-12 2013-02-26 Microsoft Corporation Active speaker identification
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
JP2009104020A (ja) 2007-10-25 2009-05-14 Panasonic Electric Works Co Ltd 音声認識装置
GB2458461A (en) * 2008-03-17 2009-09-23 Kai Yu Spoken language learning system
US8504365B2 (en) * 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
CA2665014C (en) * 2008-05-23 2020-05-26 Accenture Global Services Gmbh Recognition processing of a plurality of streaming voice signals for determination of responsive action thereto
US8145482B2 (en) * 2008-05-25 2012-03-27 Ezra Daya Enhancing analysis of test key phrases from acoustic sources with key phrase training models
KR101056511B1 (ko) * 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
US8676586B2 (en) * 2008-09-16 2014-03-18 Nice Systems Ltd Method and apparatus for interaction or discourse analytics
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9922640B2 (en) * 2008-10-17 2018-03-20 Ashwin P Rao System and method for multimodal utterance detection
KR101519104B1 (ko) * 2008-10-30 2015-05-11 삼성전자 주식회사 목적음 검출 장치 및 방법
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8209174B2 (en) 2009-04-17 2012-06-26 Saudi Arabian Oil Company Speaker verification system
US9858925B2 (en) * 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
CN101923853B (zh) 2009-06-12 2013-01-23 华为技术有限公司 说话人识别方法、设备和系统
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8626511B2 (en) 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
JP2011232521A (ja) * 2010-04-27 2011-11-17 On Semiconductor Trading Ltd 音声認識装置
KR101672212B1 (ko) 2010-06-15 2016-11-04 엘지전자 주식회사 휴대 단말기 및 그 동작 방법
US8719018B2 (en) 2010-10-25 2014-05-06 Lockheed Martin Corporation Biometric speaker identification
US8874773B2 (en) 2010-11-30 2014-10-28 Gary W. Grube Obtaining group and individual emergency preparedness communication information
WO2012083552A1 (en) * 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. Method and apparatus for voice activity detection
US8296142B2 (en) * 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9159324B2 (en) 2011-07-01 2015-10-13 Qualcomm Incorporated Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context
US8660847B2 (en) * 2011-09-02 2014-02-25 Microsoft Corporation Integrated local and cloud based speech recognition
US8340975B1 (en) * 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
ES2409530B1 (es) * 2011-10-14 2014-05-14 Telefónica, S.A. Método para gestionar el reconocimiento del habla de llamadas de audio
US9031847B2 (en) 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
EP2783365B1 (de) * 2011-11-21 2018-02-21 Robert Bosch GmbH Verfahren und system zur adaption von grammatiken in hybriden spracherkennungs-engines zur verbesserung einer lokalen spracherkennungs-leistung
US8825020B2 (en) * 2012-01-12 2014-09-02 Sensory, Incorporated Information access and device control using mobile phones and audio in the home environment
US9117449B2 (en) 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
US9093076B2 (en) * 2012-04-30 2015-07-28 2236008 Ontario Inc. Multipass ASR controlling multiple applications
US20140006825A1 (en) 2012-06-30 2014-01-02 David Shenhav Systems and methods to wake up a device from a power conservation state
US9536528B2 (en) * 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
JP6131537B2 (ja) 2012-07-04 2017-05-24 セイコーエプソン株式会社 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法
TWI474317B (zh) * 2012-07-06 2015-02-21 Realtek Semiconductor Corp 訊號處理裝置以及訊號處理方法
US8983836B2 (en) * 2012-09-26 2015-03-17 International Business Machines Corporation Captioning using socially derived acoustic profiles
CN103729388A (zh) * 2012-10-16 2014-04-16 北京千橡网景科技发展有限公司 用于网络用户发表状态的实时热点检测方法
US20150228274A1 (en) 2012-10-26 2015-08-13 Nokia Technologies Oy Multi-Device Speech Recognition
US8996372B1 (en) * 2012-10-30 2015-03-31 Amazon Technologies, Inc. Using adaptation data with cloud-based speech recognition
JP2014092777A (ja) 2012-11-06 2014-05-19 Magic Hand:Kk モバイル通信機器の音声による起動
US20140156281A1 (en) * 2012-12-03 2014-06-05 Qualcomm Incorporated Voice-controlled configuration of an automation system
US9704486B2 (en) 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
JP2014130445A (ja) * 2012-12-28 2014-07-10 Toshiba Corp 情報抽出サーバ、情報抽出クライアント、情報抽出方法、及び、情報抽出プログラム
CN103971685B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 语音命令识别方法和系统
US9842489B2 (en) * 2013-02-14 2017-12-12 Google Llc Waking other devices for additional data
US9256269B2 (en) 2013-02-20 2016-02-09 Sony Computer Entertainment Inc. Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state
US9349386B2 (en) * 2013-03-07 2016-05-24 Analog Device Global System and method for processor wake-up based on sensor data
US9361885B2 (en) * 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9257952B2 (en) * 2013-03-13 2016-02-09 Kopin Corporation Apparatuses and methods for multi-channel signal compression during desired voice activity detection
US8768687B1 (en) * 2013-04-29 2014-07-01 Google Inc. Machine translation of indirect speech
US9380654B2 (en) 2013-07-11 2016-06-28 General Electric Company Light emitting diode (LED) lamp replacement driver for linear fluorescent lamps
US20150032238A1 (en) * 2013-07-23 2015-01-29 Motorola Mobility Llc Method and Device for Audio Input Routing
WO2015025330A1 (en) 2013-08-21 2015-02-26 Kale Aaditya Kishore A system to enable user to interact with an electronic processing device using voice of the user
WO2015029304A1 (ja) * 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声認識方法及び音声認識装置
US9343068B2 (en) 2013-09-16 2016-05-17 Qualcomm Incorporated Method and apparatus for controlling access to applications having different security levels
US8775191B1 (en) 2013-11-13 2014-07-08 Google Inc. Efficient utterance-specific endpointer triggering for always-on hotwording
US9373321B2 (en) * 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
CN103745731B (zh) * 2013-12-31 2016-10-19 科大讯飞股份有限公司 一种语音识别效果自动化测试系统及测试方法
US8938394B1 (en) 2014-01-09 2015-01-20 Google Inc. Audio triggers based on context
US9639854B2 (en) 2014-06-26 2017-05-02 Nuance Communications, Inc. Voice-controlled information exchange platform, such as for providing information to supplement advertising
US9424841B2 (en) 2014-10-09 2016-08-23 Google Inc. Hotword detection on multiple devices
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9812126B2 (en) 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
JP6754184B2 (ja) 2014-12-26 2020-09-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識装置及び音声認識方法
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10506068B2 (en) 2015-04-06 2019-12-10 Microsoft Technology Licensing, Llc Cloud-based cross-device digital pen pairing
US9875081B2 (en) 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
JP6943656B2 (ja) 2017-07-12 2021-10-06 日立造船株式会社 コイン形電池およびその製造方法
JP2021184030A (ja) 2020-05-21 2021-12-02 キヤノン株式会社 単焦点レンズおよび撮像装置

Also Published As

Publication number Publication date
JP2020034952A (ja) 2020-03-05
JP2017227912A (ja) 2017-12-28
US11557299B2 (en) 2023-01-17
JP6208376B2 (ja) 2017-10-04
US20160104480A1 (en) 2016-04-14
CN111028826B (zh) 2024-02-06
US11915706B2 (en) 2024-02-27
US20210118448A1 (en) 2021-04-22
CN106030699B (zh) 2019-12-10
US20170084277A1 (en) 2017-03-23
US10134398B2 (en) 2018-11-20
US10593330B2 (en) 2020-03-17
EP3171359B1 (de) 2020-07-01
CN111028826A (zh) 2020-04-17
KR101752119B1 (ko) 2017-06-28
EP3084759B1 (de) 2019-08-14
JP6427549B2 (ja) 2018-11-21
EP3171359A1 (de) 2017-05-24
CN106030699A (zh) 2016-10-12
EP3627503B1 (de) 2024-01-10
WO2016057268A1 (en) 2016-04-14
JP2017520008A (ja) 2017-07-20
US9318107B1 (en) 2016-04-19
KR20160101198A (ko) 2016-08-24
US20230147222A1 (en) 2023-05-11
JP6530023B2 (ja) 2019-06-12
US20200058306A1 (en) 2020-02-20
JP2017072857A (ja) 2017-04-13
KR20170004956A (ko) 2017-01-11
US20190130914A1 (en) 2019-05-02
EP3627503A1 (de) 2020-03-25
US10909987B2 (en) 2021-02-02
JP2019133198A (ja) 2019-08-08
EP4280210A2 (de) 2023-11-22
US20240169992A1 (en) 2024-05-23
EP3139378A1 (de) 2017-03-08
US20160217790A1 (en) 2016-07-28
EP3084759A1 (de) 2016-10-26
EP4280210A3 (de) 2024-01-10
KR101832648B1 (ko) 2018-02-26
JP2023174674A (ja) 2023-12-08
JP7354210B2 (ja) 2023-10-02
JP7022733B2 (ja) 2022-02-18
US9514752B2 (en) 2016-12-06
JP2022017569A (ja) 2022-01-25
JP6893951B2 (ja) 2021-06-23
EP3139378B1 (de) 2019-12-04

Similar Documents

Publication Publication Date Title
DE202015010012U1 (de) Aktivierungswort-Ermittlung auf mehreren Vorrichtungen
DE202017104895U1 (de) Hotword-Detektion bei mehreren Vorrichtungen
DE102017012415B4 (de) Identifikation eines virtuellen Assistenten von nahgelegenen Rechenvorrichtungen
DE202017105942U1 (de) Verarbeiten von Sprachbefehlen basierend auf der Vorrichtungstopologie
DE202017105741U1 (de) Automatisierte Sprachaussprachezuteilung
DE102016125494A1 (de) Das sichere Ausführen von Sprachfunktionen unter der Verwendung kontextabhängiger Signale
DE102017125396A1 (de) Abfrage-Endpunktbestimmung auf Basis der Lippenerkennung
DE202015009298U1 (de) Dynamische Anpassung von Shard-Zuweisungen
DE102014117344A1 (de) Gerät und Verfahren zum Empfangen einer Eingabe und Darstellen als Antwort eine Ausgabe auf einem von dem ersten Gerät unterschiedlichen zweiten Gerät
DE212015000185U1 (de) Soziale Erinnerungen
DE112016005207T5 (de) Leistungsüberwachung in einem verteilten Speichersystem
DE102017114145A1 (de) Verfahren und Vorrichtung zur Informationsverarbeitung
DE112016007250B4 (de) Verfahren und System zum Optimieren von Spracherkennung und Informationssuche basierend auf Gesprächsgruppenaktivitäten
DE202016008204U1 (de) Suchergebnis unter vorherigem Abrufen von Sprachanfragen
DE102018114453A1 (de) Interaktive Sessions
DE102018114658A1 (de) Eingabe während einer Unterhaltungssitzung
DE102017111569A1 (de) Responsive, visuelle Darstellung von Kurzinformationen für vom Benutzer angefragte Themen
DE202017105979U1 (de) Systeme und Computerprogrammprodukte zur Handhabung von Formalität in Übersetzungen von Text
DE102022104709A1 (de) Ultrabreitband zum Identifizieren und Steuern eines weiteren Geräts
DE102018119104A1 (de) Übertragen von audio an einen identifizierten empfänger
DE102021131463A1 (de) Entsperr- und/oder Aufweckeinrichtung basierend auf einer Ultrabreitband-Standortverfolgung
DE202017104587U1 (de) Gestenaktivierte Fernsteuerung
DE202017105719U1 (de) Kontext-Hotwords
DE102018210437A1 (de) Natürliches Maschinengesprächsverfahren und -vorrichtung

Legal Events

Date Code Title Description
R151 Utility model maintained after payment of second maintenance fee after six years
R207 Utility model specification
R152 Utility model maintained after payment of third maintenance fee after eight years