DE202015010012U1 - Aktivierungswort-Ermittlung auf mehreren Vorrichtungen - Google Patents
Aktivierungswort-Ermittlung auf mehreren Vorrichtungen Download PDFInfo
- Publication number
- DE202015010012U1 DE202015010012U1 DE202015010012.0U DE202015010012U DE202015010012U1 DE 202015010012 U1 DE202015010012 U1 DE 202015010012U1 DE 202015010012 U DE202015010012 U DE 202015010012U DE 202015010012 U1 DE202015010012 U1 DE 202015010012U1
- Authority
- DE
- Germany
- Prior art keywords
- computing device
- utterance
- activation word
- audio data
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title description 5
- 230000004913 activation Effects 0.000 claims abstract description 210
- 230000004044 response Effects 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 description 50
- 230000015654 memory Effects 0.000 description 30
- 230000008569 process Effects 0.000 description 23
- 238000004891 communication Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 16
- 239000008267 milk Substances 0.000 description 7
- 210000004080 milk Anatomy 0.000 description 7
- 235000013336 milk Nutrition 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 230000000977 initiatory effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 239000000872 buffer Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- HEFNNWSXXWATRW-UHFFFAOYSA-N Ibuprofen Chemical compound CC(C)CC1=CC=C(C(C)C(O)=O)C=C1 HEFNNWSXXWATRW-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
Abstract
Nichtflüchtiges computerlesbares Medium, das Software speichert, die durch einen oder mehrere Computer ausführbare Anweisungen umfasst, die bei solcher Ausführung den einen oder die mehreren Computer veranlassen, Folgendes durchzuführen:
Empfangen von Audiodaten durch eine Computervorrichtung;
Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen;
als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung;
als Antwort auf das Übertragen der Daten zu der zusätzlichen Computervorrichtung erfolgendes Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung; und
Bestimmen durch die Computervorrichtung auf der Grundlage der zusätzlichen Daten, ob ein Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll.
Empfangen von Audiodaten durch eine Computervorrichtung;
Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen;
als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung;
als Antwort auf das Übertragen der Daten zu der zusätzlichen Computervorrichtung erfolgendes Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung; und
Bestimmen durch die Computervorrichtung auf der Grundlage der zusätzlichen Daten, ob ein Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll.
Description
- FACHGEBIET
- Die vorliegende Patentschrift betrifft allgemein Systeme und Methoden zur Erkennung von Wörtern, die eine Person spricht, was auch als Spracherkennung bezeichnet wird.
- HINTERGRUND
- Die Realität eines sprachgesteuerten Hauses oder einer anderen Umgebung - d.h. einer Umgebung, in der ein Benutzer nur eine Anfrage oder einen Befehl laut auszusprechen braucht und ein computergestütztes System die Anfrage aufnimmt und beantwortet und/oder die Durchführung des Befehls veranlasst - ist in greifbare Nähe gerückt. Eine sprachgesteuerte Umgebung (z.B. Wohnung, Arbeitsplatz, Schule usw.) kann unter Verwendung eines Netzwerks von angeschlossenen Mikrofonvorrichtungen realisiert werden, die über die verschiedenen Räume oder Bereiche der Umgebung verteilt sind. Über ein solches Netzwerk von Mikrofonen hat ein Benutzer die Fähigkeit, das System von praktisch überallher in der Umgebung mündlich anzufragen, ohne einen Computer oder eine andere Vorrichtung vor ihm/ihr oder auch nur in der Nähe haben zu müssen. Zum Beispiel könnte ein Benutzer beim Kochen in der Küche das System fragen: „Wie viele Milliliter sind in drei Tassen?“, und als Reaktion eine Antwort vom System empfangen, z.B. in Form einer synthetischen Sprachausgabe.
- Alternativ könnte ein Benutzer dem System Fragen stellen wie etwa: „Wann schließt meine nächste Tankstelle?“, oder, wenn er sich darauf vorbereitet, das Haus zu verlassen: „Sollte ich heute einen Mantel tragen?“
- Ferner kann ein Benutzer dem System eine Frage stellen und/oder einen Befehl erteilen, der sich auf die persönlichen Informationen des Benutzers bezieht. Zum Beispiel könnte ein Benutzer das System fragen: „Wann ist mein Treffen mit John?“, oder dem System befehlen: „Erinnere mich daran, John anzurufen, wenn ich nach Hause komme.“
- ZUSAMMENFASSUNG
- Bei einem sprachgesteuerten System ist die Art und Weise, wie die Benutzer mit dem System interagieren, vorrangig, wenn nicht ausschließlich, mittels Spracheingabe vorgesehen. Folglich muss das System, das potenziell alle Äußerungen in der Umgebung aufnimmt, einschließlich derjenigen, die nicht an das System gerichtet sind, über eine Möglichkeit verfügen, zu erkennen, wann eine bestimmte Äußerung an das System gerichtet ist, statt z.B. an eine in der Umgebung anwesende Person gerichtet zu sein. Eine Möglichkeit, dies zu erreichen, ist die Verwendung eines Aktivierungsworts, das nach Absprache zwischen den Benutzern in der Umgebung als ein vorbestimmtes Wort reserviert wird, das gesprochen wird, um die Aufmerksamkeit des Systems zu wecken. In einer beispielhaften Umgebung werden als Aktivierungswort die Wörter „OK Computer“ verwendet, um die Aufmerksamkeit des Systems zu wecken. Folglich werden jedes Mal, wenn die Wörter „OK Computer“ gesprochen werden, diese durch ein Mikrofon aufgenommen und an das System weitergeleitet, das Spracherkennungsmethoden durchführt, um zu bestimmen, ob das Aktivierungswort gesprochen wurde, und, falls ja, einen darauf folgenden Befehl oder eine Anfrage erwartet. Dementsprechend nehmen an das System gerichtete Äußerungen die allgemeine Form [HOTWORD] [QUERY] an, wobei „HOTWORD“ in diesem Beispiel „OK Computer“ ist und „QUERY“ eine beliebige Frage, ein Befehl, eine Erklärung oder eine andere Anfrage sein kann, die durch das System sprachlich erkannt, analysiert und befolgt werden kann, entweder allein oder in Verbindung mit dem Server über das Netzwerk.
- Gemäß einem innovativen Aspekt des in der vorliegenden Patentschrift beschriebenen Gegenstands empfängt eine Benutzervorrichtung eine Äußerung, die durch einen Benutzer gesprochen wird. Die Benutzervorrichtung bestimmt, ob die Äußerung ein Aktivierungswort einschließt, und berechnet eine Aktivierungswort-Konfidenzpunktzahl, die eine Wahrscheinlichkeit angibt, dass die Äußerung das Aktivierungswort einschließt. Die Benutzervorrichtung überträgt diese Punktzahl zu anderen Benutzervorrichtungen in der näheren Umgebung. Die anderen Benutzervorrichtungen haben wahrscheinlich die gleiche Äußerung empfangen. Die anderen Benutzervorrichtungen berechnen eine Aktivierungswort-Konfidenzpunktzahl und übertragen ihre Punktzahlen zu der Benutzervorrichtung. Die Benutzervorrichtung vergleicht die Aktivierungswort-Konfidenzpunktzahlen. Wenn die Benutzervorrichtung die höchste Aktivierungswort-Konfidenzpunktzahl hat, bleibt sie aktiv und bereitet sich darauf vor, weitere Audiodaten zu verarbeiten. Wenn die Benutzervorrichtung nicht die höchste Aktivierungswort-Konfidenzpunktzahl hat, dann verarbeitet die Benutzervorrichtung die zusätzlichen Audiodaten nicht.
- Grundsätzlich kann ein weiterer innovativer Aspekt des in der vorliegenden Patentschrift beschriebenen Gegenstands in Verfahren verkörpert werden, welche die folgenden Aktionen einschließen: Empfangen von Audiodaten, die einer Äußerung entsprechen, durch eine erste Computervorrichtung; Bestimmen eines ersten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung ein Aktivierungswort enthält; Empfangen eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der zweite Wert durch eine zweite Computervorrichtung bestimmt wird; Vergleichen des ersten Werts und des zweiten Werts; und auf dem Vergleichen des ersten Werts mit dem zweiten Wert beruhendes Initiieren einer Spracherkennungsverarbeitung an den Audiodaten.
- Diese und andere Ausführungsformen können jeweils optional eines oder mehrere der folgenden Merkmale einschließen. Die Aktionen schließen ferner ein: Bestimmen, dass der erste Wert einen Aktivierungswort-Punktzahlschwellenwert erfüllt. Die Aktionen schließen ferner ein: Übertragen des ersten Werts zur zweiten Computervorrichtung. Die Aktionen schließen ferner ein: auf dem Vergleichen des ersten Werts und des zweiten Werts beruhendes Bestimmen eines Aktivierungszustands der ersten Computervorrichtung. Die Aktion des auf dem Vergleichen des ersten Werts und des zweiten Werts beruhenden Bestimmens eines Aktivierungszustands der ersten Computervorrichtung schließt ferner ein: Bestimmen, dass der Aktivierungszustand ein aktiver Zustand ist. Die Aktionen schließen ferner ein: Empfangen zusätzlicher Audiodaten, die einer zusätzlichen Äußerung entsprechen, durch die erste Computervorrichtung; Bestimmen eines dritten Werts, der einer Wahrscheinlichkeit entspricht, dass die zusätzliche Äußerung das Aktivierungswort einschließt; Empfangen eines vierten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der vierte Wert durch eine dritte Computervorrichtung bestimmt wird; Vergleichen des ersten Werts und des zweiten Werts; und auf dem Vergleichen des ersten Werts und des zweiten Werts beruhendes Bestimmen, dass der Aktivierungszustand der ersten Computervorrichtung ein inaktiver Zustand ist.
- Die Aktion des Übertragens des ersten Werts zur zweiten Computervorrichtung schließt ferner ein: Übertragen des ersten Werts über ein lokales Netzwerk oder über Kurzstreckenfunk zu einem Server. Die Aktion des Empfangens eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort enthält, wobei der zweite Wert durch eine zweite Computervorrichtung bestimmt wird, schließt ferner ein: Empfangen eines zweiten Werts, der durch eine zweite Computervorrichtung bestimmt wurde, vom Server, über das lokale Netzwerk oder über den Kurzstreckenfunk. Die Aktionen schließen ferner ein: Identifizieren der zweiten Computervorrichtung; und Bestimmen, dass die zweite Computervorrichtung dafür konfiguriert ist, auf Äußerungen zu reagieren, die das Aktivierungswort einschließen. Die Aktion des Übertragens des ersten Werts zur zweiten Computervorrichtung schließt ferner ein: Übertragen einer ersten Kennung für die erste Computervorrichtung. Die Aktion des Empfangens eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der zweite Wert durch eine zweite Computervorrichtung bestimmt wird, schließt ferner ein: Empfangen einer zweiten Kennung für die zweite Computervorrichtung. Die Aktion des Bestimmens, dass der Aktivierungszustand ein aktiver Zustand ist, schließt ferner ein: Bestimmen, dass seit dem Empfangen der Audiodaten, die der Äußerung entsprechen, eine bestimmte Zeitspanne verstrichen ist. Die Aktionen schließen ferner ein: auf dem Bestimmen, dass der Aktivierungszustand ein aktiver Zustand ist, beruhendes Fortfahren für eine bestimmte Zeitspanne, den ersten Wert zu übertragen.
- Andere Ausführungsformen dieses Aspekts schließen entsprechende Systeme, Vorrichtungen und auf Computerspeichervorrichtungen aufgezeichnete Computerprogramme ein, die jeweils dafür konfiguriert sind, die Operationen der Verfahren durchzuführen.
- Bestimmte Ausführungsformen des in der vorliegenden Patentschrift beschriebenen Gegenstands können so implementiert werden, dass dadurch einer oder mehrere der folgenden Vorteile verwirklicht werden. Mehrere Vorrichtungen können ein Aktivierungswort ermitteln und nur eine Vorrichtung wird auf das Aktivierungswort reagieren.
- Die Einzelheiten von einer oder mehreren Ausführungsformen des in der vorliegenden Patentschrift beschriebenen Gegenstands sind in den beigefügten Zeichnungen und in der nachstehenden Beschreibung dargelegt. Andere Merkmale, Aspekte und Vorteile des Gegenstandes werden aus der Beschreibung, den Zeichnungen und den Ansprüchen ersichtlich.
- Figurenliste
-
-
1 ist eine grafische Darstellung eines beispielhaften Systems zur Aktivierungswort-Ermittlung. -
2 ist eine grafische Darstellung eines beispielhaften Prozesses für die Aktivierungswort-Ermittlung. -
3 zeigt ein Beispiel für eine Computervorrichtung und eine mobile Computervorrichtung. - Gleiche Bezugszeichen und Bezeichnungen in den verschiedenen Zeichnungen geben gleiche Elemente an.
- AUSFÜHRLICHE BESCHREIBUNG
- In nicht allzu ferner Zukunft ist es möglich, dass viele Vorrichtungen kontinuierlich nach Aktivierungswörtern lauschen. Wenn ein einzelner Benutzer mehrere Vorrichtungen hat, die darauf trainiert sind, auf seine Stimme zu reagieren (z.B. ein Telefon, ein Tablet, ein Fernseher usw.), kann es erwünscht sein, das Reagieren auf Aktivierungswörter auf Vorrichtungen zu unterdrücken, die wahrscheinlich nicht diejenigen sind, die ein Benutzer ansprechen will. Wenn ein Benutzer zum Beispiel das Aktivierungswort in Richtung einer Vorrichtung spricht, ist es wahrscheinlich, wenn andere Vorrichtungen in der Nähe sind, dass auch sie eine Sprachsuche auslösen. In vielen Fällen ist dies nicht die Absicht des Nutzers. Daher kann es von Vorteil sein, dass nur eine einzige Vorrichtung ausgelöst wird, nämlich die Vorrichtung, mit welcher der Benutzer spricht. Die vorliegende Patentschrift befasst sich mit dem Problem, die richtige Vorrichtung zum Reagieren auf ein Aktivierungswort auszuwählen und auf anderen Vorrichtungen die Reaktion auf das Aktivierungswort zu unterdrücken.
-
1 ist eine grafische Darstellung eines beispielhaften Systems 100 zur Aktivierungswort-Ermittlung. Grundsätzlich zeigt das System 100 einen Benutzer 102, der eine Äußerung 104 spricht, die durch Mikrofone der Computervorrichtungen 106, 108 und 110 ermittelt wird. Die Computervorrichtungen 106, 108 und 110 verarbeiten die Äußerung 104, um die Wahrscheinlichkeit zu bestimmen, dass die Äußerung 104 ein Aktivierungswort einschließt. Die Computervorrichtungen 106, 108 und 110 übertragen jeweils Daten zueinander, welche die Wahrscheinlichkeit angeben, dass die Äußerung 104 ein Aktivierungswort einschließt. Die Computervorrichtungen 106, 108 und 110 vergleichen jeweils die Daten, und die Computervorrichtung, welche die höchste Wahrscheinlichkeit berechnet hat, dass die Äußerung 104 ein Aktivierungswort einschloss, initiiert die Spracherkennung an der Äußerung 104. Die Computervorrichtungen, die nicht die höchste Wahrscheinlichkeit berechnet haben, dass die Äußerung 104 ein Aktivierungswort einschließt, initiieren keine Spracherkennung an der auf die Äußerung 104 folgenden Sprache. - Bevor Daten, die eine Wahrscheinlichkeit angeben, dass die Äußerung 104 einem Aktivierungswort entspricht, zu einer anderen Computervorrichtung übertragen werden, identifizieren die Computervorrichtungen einander, die sich nahe beieinander befinden. In einigen Implementierungen identifizieren die Computervorrichtungen einander, indem sie das lokale Netzwerk nach anderen Vorrichtungen durchsuchen, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren. Zum Beispiel kann die Computervorrichtung 106 das lokale Netzwerk nach anderen Vorrichtungen durchsuchen, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren, und die Computervorrichtung 108 und die Computervorrichtung 110 identifizieren.
- In einigen Implementierungen identifizieren die Computervorrichtungen andere Computervorrichtungen in der Nähe, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren, indem sie den Benutzer identifizieren, der bei jeder Vorrichtung angemeldet ist. Zum Beispiel ist der Benutzer 102 bei den Computervorrichtungen 106, 108 und 110 angemeldet. Der Benutzer 102 hat die Computervorrichtung 106 in der Hand. Die Computervorrichtung 108 liegt auf dem Tisch, und die Vorrichtung 110 befindet sich an einer Wand in der Nähe. Die Computervorrichtung 106 ermittelt die Computervorrichtungen 108 und 110, und jede Computervorrichtung teilt Informationen, die sich auf den an der Computervorrichtung angemeldeten Benutzer beziehen, wie etwa eine Benutzerkennung. In einigen Implementierungen können die Computervorrichtungen andere Computervorrichtungen in der Nähe identifizieren, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren, indem sie Computervorrichtungen identifizieren, die dafür konfiguriert sind, durch Sprecheridentifizierung zu reagieren, wenn das Aktivierungswort durch den gleichen Benutzer gesprochen wird. Zum Beispiel hat der Benutzer 102 die Computervorrichtungen 106, 108 und 110 jeweils dafür konfiguriert, auf die Stimme des Benutzers 102 zu reagieren, wenn Benutzer 102 das Aktivierungswort spricht. Die Computervorrichtungen teilen die Informationen zur Sprecheridentifizierung, indem sie jeder anderen Computervorrichtung eine Benutzerkennung für Benutzer 102 bereitstellen. In einigen Implementierungen können die Computervorrichtungen andere Computervorrichtungen identifizieren, die dafür konfiguriert sind, auf das Aktivierungswort über Kurzstreckenfunk zu reagieren. Zum Beispiel kann die Computervorrichtung 106 ein Signal über Kurzstreckenfunk übertragen, um nach anderen Computervorrichtungen zu suchen, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren. Die Computervorrichtungen können eine dieser Methoden oder eine Kombination daraus verwenden, um andere Computervorrichtungen zu identifizieren, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren.
- Sobald die Computervorrichtungen 106, 108 und 110 andere Computervorrichtungen identifiziert haben, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren, teilen und speichern die Computervorrichtungen 106, 108 und 110 Vorrichtungskennungen für die identifizierten Computervorrichtungen. Die Kennungen können auf einem Vorrichtungstyp, einer IP-Adresse der Vorrichtung, einer MAC-Adresse, einem Namen, welcher der Vorrichtung durch einen Benutzer gegeben wurde, oder einer ähnlichen eindeutigen Kennung beruhen. Zum Beispiel kann die Kennung 112 für die Computervorrichtung 106 „Telefon“ lauten. Die Kennung 114 für die Computervorrichtung 108 kann „Tablet“ lauten. Die Kennung 116 für die Computervorrichtung 110 kann „Thermostat“ lauten. Die Computervorrichtungen 106, 108 und 110 speichern die Vorrichtungskennung für die anderen Computervorrichtungen, die dafür konfiguriert sind, auf das Aktivierungswort zu reagieren. Jede Computervorrichtung hat eine Vorrichtungsgruppe, in der die Computervorrichtung die Vorrichtungskennungen speichert. Zum Beispiel hat die Computervorrichtung 106 die Vorrichtungsgruppe 118, die „Tablet“ und „Thermostat“ als die beiden Vorrichtungen auflistet, welche die Wahrscheinlichkeit empfangen, dass die Audiodaten das Aktivierungswort einschließen, wie sie durch die Computervorrichtung 106 berechnet wurde. Die Computervorrichtung 108 hat die Vorrichtungsgruppe 120, die „Telefon“ und „Thermostat“ als die beiden Vorrichtungen auflistet, welche die Wahrscheinlichkeit empfangen, dass die Audiodaten das Aktivierungswort einschließen, wie sie durch die Computervorrichtung 108 berechnet wurde. Die Computervorrichtung 110 hat die Vorrichtungsgruppe 122, die „Telefon“ und „Tablet“ als die beiden Vorrichtungen auflistet, welche die Wahrscheinlichkeit empfangen, dass die Audiodaten das Aktivierungswort einschließen, wie sie durch die Computervorrichtung 110 berechnet wurde.
- Wenn der Benutzer 102 die Äußerung 104, „OK Computer“, spricht, ermittelt und verarbeitet jede Computervorrichtung in der Nähe des Benutzers 102, die ein Mikrofon hat, die Äußerung 104. Jede Computervorrichtung ermittelt die Äußerung 104 über eine Audioeingabevorrichtung wie etwa ein Mikrofon. Jedes Mikrofon stellt Audiodaten für ein jeweiliges Audio-Subsystem bereit. Das jeweilige Audio-Subsystem puffert, filtert und digitalisiert die Audiodaten. In einigen Implementierungen kann auch jede Computervorrichtung an den Audiodaten eine Endpunktbestimmung und Sprecheridentifizierung durchführen. Das Audio-Subsystem übergibt die verarbeiteten Audiodaten an einen Hotworder, auch Aktivierungswort-Erkennungsvorrichtung genannt. Der Hotworder vergleicht die verarbeiteten Audiodaten mit bekannten Aktivierungswortdaten und berechnet eine Konfidenzpunktzahl, welche die Wahrscheinlichkeit angibt, dass die Äußerung 104 einem Aktivierungswort entspricht. Der Hotworder kann Audiomerkmale aus den verarbeiteten Audiodaten extrahieren, wie etwa Filterbank-Energien oder Mel-Frequenz-Cepstrum-Koeffizienten. Der Hotworder kann Klassifizierungsfenster verwenden, um diese Audiomerkmale zu verarbeiten, wie etwa durch Verwendung einer Support-Vektor-Maschine, auch Stützvektormethode genannt, oder eines neuronalen Netzes. Auf der Grundlage der Verarbeitung der Audiomerkmale berechnet der Hotworder 124 eine Konfidenzpunktzahl von 0,85, der Hotworder 126 berechnet eine Konfidenzpunktzahl von 0,6 und der Hotworder 128 berechnet eine Konfidenzpunktzahl von 0,45. In einigen Implementierungen kann die Konfidenzpunktzahl auf eine Skala von null bis eins normiert werden, wobei eine höhere Zahl eine größere Konfidenz angibt, dass die Äußerung 104 ein Aktivierungswort einschließt.
- Jede Computervorrichtung überträgt ein entsprechendes Konfidenzpunktzahl-Datenpaket zu den anderen Computervorrichtungen in der Vorrichtungsgruppe. Jedes Konfidenzpunktzahl-Datenpaket schließt eine jeweilige Konfidenzpunktzahl und die jeweilige Vorrichtungskennung für die Computervorrichtung ein. Zum Beispiel überträgt die Computervorrichtung 106 das Konfidenzpunktzahl-Datenpaket 130, das die Konfidenzpunktzahl von 0,85 und die Kennung „Telefon“ einschließt, zu den Computervorrichtungen der Vorrichtungsgruppe 118, nämlich den Computervorrichtungen 108 und 110. Die Computervorrichtung 108 überträgt das Konfidenzpunktzahl-Datenpaket 132, das die Konfidenzpunktzahl von 0,6 und die Kennung „Tablet“ einschließt, zu Computervorrichtungen der Vorrichtungsgruppe 120, also zu den Computervorrichtungen 106 und 110. Die Computervorrichtung 110 überträgt das Konfidenzpunktzahl-Datenpaket 134, das die Konfidenzpunktzahl von 0,45 und die Kennung „Thermostat“ einschließt, zu Computervorrichtungen in der Vorrichtungsgruppe 118, also zu den Computervorrichtungen 106 und 108.
- In einigen Implementierungen kann eine Computervorrichtung das Konfidenzpunktzahl-Datenpaket übertragen, wenn die Konfidenzpunktzahl einen Aktivierungswort-Punktzahlschwellenwert erfüllt. Wenn der Aktivierungswort-Punktzahlschwellenwert zum Beispiel 0,5 ist, würde die Computervorrichtung 110 das Konfidenzpunktzahl-Datenpaket 134 nicht zu den anderen Computervorrichtungen in der Vorrichtungsgruppe 122 übertragen. Die Computervorrichtungen 106 und 108 würden dennoch die Konfidenzpunktzahl-Datenpakete 130 und 132 zu den Computervorrichtungen in den Vorrichtungsgruppen 118 bzw. 120 übertragen.
- In einigen Implementierungen kann die Computervorrichtung, die ein Konfidenzpunktzahl-Datenpaket überträgt, das Konfidenzpunktzahl-Datenpaket direkt zu anderen Computervorrichtungen übertragen. Zum Beispiel kann die Computervorrichtung 106 das Konfidenzpunktzahl-Datenpaket 130 über Kurzstreckenfunk zu den Computervorrichtungen 108 und 110 übertragen. Das zwischen zwei Computervorrichtungen verwendete Kommunikationsprotokoll kann universelles Plug-and-Play sein. In einigen Implementierungen kann eine Computervorrichtung, die ein Konfidenzpunktzahl-Datenpaket überträgt, das Konfidenzpunktzahl-Datenpaket rundsenden. In diesem Fall kann das Konfidenzpunktzahl-Datenpaket durch die Computervorrichtungen in der Vorrichtungsgruppe und durch andere Computervorrichtungen empfangen werden. In einigen Implementierungen kann eine Computervorrichtung, die ein Konfidenzpunktzahl-Datenpaket überträgt, das Konfidenzpunktzahl-Datenpaket zu einem Server übertragen, und der Server überträgt dann das Konfidenzpunktzahl-Datenpaket zu den Computervorrichtungen in der Datengruppe. Der Server kann sich innerhalb des lokalen Netzwerks der Computervorrichtungen befinden oder über das Internet zugänglich sein. Zum Beispiel sendet die Computervorrichtung 108 das Konfidenzpunktzahl-Datenpaket 132 und die Liste der Computervorrichtungen in der Vorrichtungsgruppe 120 an einen Server. Der Server überträgt das Konfidenzpunktzahl-Datenpaket 132 zu den Computervorrichtungen 106 und 110. In Fällen, in denen eine Computervorrichtung, die das Konfidenzpunktzahl-Datenpaket zu einer anderen Computervorrichtung überträgt, kann die empfangende Computervorrichtung eine Bestätigung zurücksenden, dass die empfangende Computervorrichtung das Konfidenzpunktzahl-Datenpaket empfangen hat.
- Jede Computervorrichtung verwendet einen Punktzahlvergleicher, um die Aktivierungswort-Konfidenzpunktzahlen zu vergleichen, welche die Computervorrichtung empfangen hat. Zum Beispiel hat die Computervorrichtung 106 eine Aktivierungswort-Konfidenzpunktzahl von 0,85 berechnet und Aktivierungswort-Konfidenzpunktzahlen von 0,6 und 0,45 empfangen. In diesem Fall vergleicht der Punktzahlvergleicher 136 die drei Werte und identifiziert den Wert von 0,85 als den höchsten. Für die Computervorrichtungen 108 und 110 kommen die Punktzahlvergleicher 138 und 140 zu ähnlichen Ergebnissen, indem sie den Wert von 0,85, welcher der Computervorrichtung 106 entspricht, als den höchsten identifizieren.
- Diejenige Computervorrichtung, die bestimmt, dass ihre eigene Aktivierungswort-Konfidenzpunktzahl die höchste ist, initiiert die Spracherkennung an den Sprachdaten, die auf die Äußerung des Aktivierungsworts folgen. Zum Beispiel kann der Benutzer „OK Computer“ sprechen und die Computervorrichtung 106 kann bestimmen, dass sie die höchste Aktivierungswort-Konfidenzpunktzahl hat. Die Computervorrichtung 106 initiiert die Spracherkennung an den nach dem Aktivierungswort empfangenen Audiodaten. Wenn der Benutzer „Ruf Alice an“ sagt, wird die Computervorrichtung 106 die Äußerung verarbeiten und den entsprechenden Befehl ausführen. In einigen Implementierungen kann der Empfang eines Aktivierungsworts bewirken, dass die Computervorrichtungen, die das Aktivierungswort empfangen, aus einem Ruhezustand aktiviert werden. In diesem Fall bleibt die Computervorrichtung mit der höchsten Aktivierungswort-Konfidenzpunktzahl in einem Wachzustand, während die anderen Computervorrichtungen, die nicht die höchste Aktivierungswort-Konfidenzpunktzahl haben, keine Sprachdaten verarbeiten, die auf die Äußerung des Aktivierungsworts folgen, und in einen Ruhezustand übergehen.
- Wie in
1 dargestellt, hat der Punktzahlvergleicher 136 die der Vorrichtung 106 entsprechende Aktivierungswort-Konfidenzpunktzahl als die höchste identifiziert. Daher ist der Status der Vorrichtung 142 „wach“. Die Punktzahlvergleicher 138 und 140 haben ebenfalls das Aktivierungswort mit der höchsten Konfidenzpunktzahl für die Vorrichtung 106 identifiziert. Daher sind die Vorrichtungsstatus 138 und 140 „in Ruhe“. In einigen Implementierungen kann der Aktivierungszustand der Computervorrichtung unbeeinflusst bleiben. Zum Beispiel kann der Benutzer 102 gerade einen Film auf der Computervorrichtung 108 ansehen und die Computervorrichtung 106 in der Hand haben. Wenn der Benutzer 102 „OK Computer“ sagt, initiiert die Computervorrichtung 106, da sie die höchste Aktivierungswort-Konfidenzpunktzahl hat, die Spracherkennung an den auf das Aktivierungswort folgenden Audiodaten. Die Computervorrichtung 108 initiiert keine Spracherkennung an den auf das Aktivierungswort folgenden Audiodaten und fährt fort, den Film abzuspielen. - In einigen Implementierungen wartet die Computervorrichtung, die bestimmt, dass sie die höchste Aktivierungswort-Konfidenzpunktzahl hat, für eine bestimmte Zeitspanne, bevor sie beginnt, die Spracherkennung an der auf das Aktivierungswort folgende Sprache durchzuführen. Das ermöglicht einer Computervorrichtung, welche die höchste Aktivierungswort-Konfidenzpunktzahl berechnet hat, mit der Durchführung der Spracherkennung an der Sprache zu beginnen, die auf das Aktivierungswort folgt, ohne auf eine höhere Aktivierungswort-Konfidenzpunktzahl zu warten. Zur Veranschaulichung: Der Punktzahlvergleicher 136 der Computervorrichtung 106 hat Aktivierungswort-Konfidenzpunktzahlen von 0,6 und 0,45 von den Computervorrichtungen 108 bzw. 110 sowie die Aktivierungswort-Konfidenzpunktzahl von 0,85 vom Hotworder 124 empfangen. Ab dem Zeitpunkt, an dem der Hotworder 124 eine Aktivierungswort-Konfidenzpunktzahl an den Audiodaten „OK Computer“ berechnet, wartet die Computervorrichtung 106 fünfhundert Millisekunden, bevor sie Spracherkennung an der Sprache durchführt, die auf das Aktivierungswort folgt. In Fällen, in denen der Punktzahlvergleicher eine höhere Punktzahl empfängt, wartet die Computervorrichtung möglicherweise nicht für eine bestimmte Zeitspanne, bevor sie den Vorrichtungsstatus auf „in Ruhe“ setzt. Zum Beispiel berechnet der Hotworder 126 der Computervorrichtung 108 eine Aktivierungswort-Konfidenzpunktzahl von 0,6 und empfängt Aktivierungswort-Konfidenzpunktzahlen von 0,85 und 0,45. Sobald die Computervorrichtung 108 die Aktivierungswort-Konfidenzpunktzahl von 0,85 empfängt, kann die Computervorrichtung 108 den Vorrichtungsstatus 144 auf „in Ruhe“ setzen. Dies setzt voraus, dass die Computervorrichtung 108 die Aktivierungswort-Konfidenzpunktzahl von 0,85 innerhalb der bestimmten Zeitspanne empfängt, nachdem der Hotworder 126 die Aktivierungswort-Konfidenzpunktzahl von 0,6 berechnet hat.
- In einigen Implementierungen kann eine Computervorrichtung, wenn sie die höchste Aktivierungswort-Konfidenzpunktzahl hat, für eine bestimmte Zeitspanne fortfahren, das Konfidenzpunktzahl-Datenpaket rundzusenden, um sicherzustellen, dass andere Computervorrichtungen das Konfidenzpunktzahl-Datenpaket empfangen. Diese Strategie wäre am ehesten in Fällen anwendbar, in denen eine Computervorrichtung eine Bestätigung zurücksendet, sobald sie ein Konfidenzpunktzahl-Datenpaket von einer anderen Computervorrichtung empfängt. Wenn also die Computervorrichtung 106 das Konfidenzpunktzahl-Datenpaket 130 zu Computervorrichtungen in der Datengruppe 118 überträgt und eine Bestätigung vor einer bestimmten Zeitspanne, wie etwa fünfhundert Millisekunden, empfängt, kann die Computervorrichtung 106 damit beginnen, eine Spracherkennung an auf das Aktivierungswort folgender Sprache durchzuführen. In Fällen, in denen Computervorrichtungen ihre Konfidenzpunktzahl-Datenpakete rundsenden und keine Bestätigung erwarten, kann die Computervorrichtung damit fortfahren, ihre Aktivierungswort-Konfidenzpunktzahlen rundzusenden, und zwar für eine bestimmte Zeitspanne, wie etwa fünfhundert Millisekunden, oder bis die Computervorrichtung eine höhere Aktivierungswort-Konfidenzpunktzahl empfängt - je nachdem, was zuerst eintritt. Zum Beispiel berechnet die Computervorrichtung 110 eine Aktivierungswort-Konfidenzpunktzahl von 0,45 und beginnt, das Konfidenzpunktzahl-Datenpaket 134 rundzusenden. Nach dreihundert Millisekunden empfängt die Computervorrichtung 110 das Aktivierungswort-Datenpaket 130 und hört auf, das Aktivierungswort-Datenpaket 134 rundzusenden, weil die Aktivierungswort-Konfidenzpunktzahl von 0,85 aus dem Aktivierungswort-Datenpaket 130 höher ist als die Aktivierungswort-Konfidenzpunktzahl von 0,45. Als weiteres Beispiel zum Rundsenden berechnet die Computervorrichtung 106 eine Aktivierungswort-Konfidenzpunktzahl von 0,45 und beginnt, das Konfidenzpunktzahl-Datenpaket 130 rundzusenden. Nach fünfhundert Millisekunden hört die Computervorrichtung 106 auf, das Konfidenzpunktzahl-Datenpaket 130 rundzusenden, und beginnt, Spracherkennung an auf das Aktivierungswort folgender Sprache durchzuführen. Die Computervorrichtung 106 kann die Konfidenzpunktzahl-Datenpakete 132 und 134 empfangen, bevor fünfhundert Millisekunden verstrichen sind, aber weil die Aktivierungswort-Konfidenzpunktzahlen in den Konfidenzpunktzahl-Datenpaketen 132 und 134 niedriger als 0,85 sind, wartet die Computervorrichtung weiter, bis die fünfhundert Millisekunden verstrichen sind.
- In einigen Implementierungen kann die Computervorrichtung damit beginnen, Spracherkennung an auf das Aktivierungswort folgender Sprache durchzuführen, bis die Computervorrichtung eine höhere Aktivierungswort-Konfidenzpunktzahl empfängt. Der Hotworder berechnet eine Aktivierungswort-Konfidenzpunktzahl, und wenn die Aktivierungswort-Konfidenzpunktzahl einen Schwellenwert erfüllt, führt die Computervorrichtung die Spracherkennung an auf das Aktivierungswort folgender Sprache durch. Die Computervorrichtung kann die Spracherkennung durchführen, ohne dem Benutzer einen Hinweis auf die Spracherkennung zu geben. Dies kann erwünscht sein, da es dem Benutzer den Eindruck vermittelt, dass die Computervorrichtung nicht aktiv ist, während es der Computervorrichtung auch ermöglicht, dem Benutzer die auf der Spracherkennung beruhenden Ergebnisse schneller anzuzeigen, als wenn die Computervorrichtung gewartet hätte, bis die Computervorrichtung bestätigt hat, dass sie den höchsten Aktivierungswortwert berechnet hat. Zum Beispiel berechnet die Computervorrichtung 106 eine Aktivierungswort-Konfidenzpunktzahl von 0,85 und beginnt, die Spracherkennung an auf das Aktivierungswort folgender Sprache durchzuführen. Die Computervorrichtung 106 empfängt die Konfidenzpunktzahl-Datenpakete 132 und 134 und bestimmt, dass die Aktivierungswort-Konfidenzpunktzahl von 0,85 die höchste ist. Die Computervorrichtung 106 fährt fort, Spracherkennung an auf das Aktivierungswort folgender Sprache durchzuführen, und präsentiert die Ergebnisse dem Benutzer. Für die Computervorrichtung 108 berechnet der Hotworder 126 eine Aktivierungswort-Konfidenzpunktzahl von 0,6, und die Computervorrichtung 108 beginnt, Spracherkennung an auf das Aktivierungswort folgender Sprache durchzuführen, ohne dem Benutzer Daten anzuzeigen. Sobald die Computervorrichtung 108 das Konfidenzpunktzahl-Datenpaket 130 empfängt, das die Aktivierungswort-Konfidenzpunktzahl von 0,85 einschließt, hört die Computervorrichtung auf, Spracherkennung durchzuführen. Dem Benutzer werden keine Daten angezeigt, und der Benutzer hat wahrscheinlich den Eindruck, dass die Computervorrichtung 108 in einem Zustand „in Ruhe“ verblieben ist.
- Um jegliche Latenz zu vermeiden, nachdem ein Aktivierungswort gesprochen wurde, könnten in einigen Implementierungen Punktzahlen vor dem Ende des Aktivierungsworts vom Hotworder gemeldet werden, z.B. für ein Teilaktivierungswort. Zum Beispiel könnte eine Computervorrichtung, während ein Benutzer „OK Computer“ spricht, eine Teilaktivierungswort-Konfidenzpunktzahl berechnen, sobald der Benutzer „OK Comp“ zu Ende gesprochen hat. Die Computervorrichtung kann dann die Teilaktivierungswort-Konfidenzpunktzahl mit anderen Computervorrichtungen teilen. Die Computervorrichtung mit der höchsten Teilaktivierungswort-Konfidenzpunktzahl kann fortfahren, die Sprache des Benutzers zu verarbeiten.
- In einigen Implementierungen kann eine Computervorrichtung einen hörbaren oder unhörbaren Ton aussenden, z.B. mit einer bestimmten Frequenz oder einem bestimmten Frequenzmuster, wenn die Computervorrichtung bestimmt, dass eine Aktivierungswort-Konfidenzpunktzahl einen Schwellenwert erfüllt. Der Ton würde anderen Computervorrichtungen signalisieren, dass die Computervorrichtung fortfahren wird, die dem Aktivierungswort folgenden Audiodaten zu verarbeiten. Andere Computervorrichtungen würden diesen Ton empfangen und die Verarbeitung der Audiodaten einstellen. Zum Beispiel sagt ein Benutzer „OK Computer“. Eine der Computervorrichtungen berechnet eine Aktivierungswort-Konfidenzpunktzahl, die größer oder gleich einem Schwellenwert ist. Sobald die Computervorrichtung bestimmt, dass die Aktivierungswort-Konfidenzpunktzahl größer oder gleich einem Schwellenwert ist, sendet die Computervorrichtung einen Ton mit einer Frequenz von achtzehn Kilohertz aus. Die anderen Computervorrichtungen in der Nähe des Benutzers berechnen möglicherweise ebenfalls eine Aktivierungswort-Konfidenzpunktzahl und sind möglicherweise gerade dabei, eine Aktivierungswort-Konfidenzpunktzahl zu berechnen, wenn die anderen Computervorrichtungen den Ton empfangen. Wenn die anderen Computervorrichtungen den Ton empfangen, stellen die anderen Computervorrichtungen die Verarbeitung der Sprache des Benutzers ein. In einigen Implementierungen kann die Computervorrichtung die Aktivierungswort-Konfidenzpunktzahl in den hörbaren oder unhörbaren Ton codieren. Wenn die Aktivierungswort-Konfidenzpunktzahl zum Beispiel 0,5 ist, dann kann die Computervorrichtung einen hörbaren oder unhörbaren Ton erzeugen, der ein Frequenzmuster einschließt, das die Punktzahl 0,5 codiert.
- In einigen Implementierungen können die Computervorrichtungen unterschiedliche Audiometriken verwenden, um eine Computervorrichtung auszuwählen, die fortfahren soll, die Sprache des Benutzers zu verarbeiten. Zum Beispiel können die Computervorrichtungen die Lautstärke verwenden, um zu bestimmen, welche Computervorrichtung die Sprache des Benutzers weiterverarbeiten soll. Die Computervorrichtung, welche die lauteste Sprache ermittelt, kann fortfahren, die Sprache des Benutzers zu verarbeiten. Als weiteres Beispiel kann die Computervorrichtung, die gerade in Gebrauch ist oder deren Anzeige aktiv ist, die anderen Computervorrichtungen benachrichtigen, dass sie fortfahren wird, die Sprache des Benutzers zu verarbeiten, sobald sie ein Aktivierungswort ermittelt hat.
- In einigen Implementierungen empfängt jede Computervorrichtung, die sich in der Nähe des Benutzers befindet, während der Benutzer spricht, die Audiodaten und sendet die Audiodaten an einen Server, um die Spracherkennung zu verbessern. Jede Computervorrichtung kann die Audiodaten empfangen, die der Sprache des Benutzers entsprechen. Während dem Benutzer scheint, dass nur eine Computervorrichtung die Sprache des Benutzers verarbeitet, kann jede Computervorrichtung die Audiodaten zu einem Server übertragen. Der Server kann dann die von jeder Computervorrichtung empfangenen Audiodaten verwenden, um die Spracherkennung zu verbessern, da der Server unterschiedliche Audiosamples vergleichen kann, die der gleichen Äußerung entsprechen. Zum Beispiel sagt ein Benutzer: „OK Computer, erinnere mich daran, Milch zu kaufen.“ Sobald der Benutzer „OK Computer“ gesagt hat, haben die Computervorrichtungen in der Nähe wahrscheinlich bestimmt, welche Computervorrichtung die höchste Aktivierungswort-Konfidenzpunktzahl hat, und diese Computervorrichtung verarbeitet „Erinnere mich daran, Milch zu kaufen“ und reagiert darauf, während der Benutzer diese Wörter spricht. Die anderen Computervorrichtungen werden ebenfalls „Erinnere mich daran, Milch zu kaufen“ empfangen. Während die anderen Computervorrichtungen nicht auf die Äußerung „Erinnere mich daran, Milch zu kaufen“ reagieren, können die anderen Computervorrichtungen Audiodaten, die „Erinnere mich daran, Milch zu kaufen“ entsprechen, an einen Server senden. Die Computervorrichtung, die auf die Äußerung „Erinnere mich daran, Milch zu kaufen“ reagiert, kann ebenfalls ihre Audiodaten an den Server senden. Der Server kann die Audiodaten verarbeiten, um die Spracherkennung zu verbessern, weil der Server unterschiedliche Audiosamples von unterschiedlichen Computervorrichtungen hat, die der gleichen Äußerung „Erinnere mich daran, Milch zu kaufen“ entsprechen.
-
2 ist eine grafische Darstellung eines beispielhaften Prozesses 200 zur Aktivierungswort-Ermittlung. Der Prozess 200 kann durch eine Computervorrichtung wie etwa die Computervorrichtung 108 aus1 durchgeführt werden. Der Prozess 200 berechnet einen Wert, der einer Wahrscheinlichkeit entspricht, dass eine Äußerung ein Aktivierungswort einschließt, und vergleicht den Wert mit anderen Werten, die durch andere Computervorrichtungen berechnet wurden, um zu bestimmen, ob auf dem Abschnitt der Äußerung nach dem Aktivierungswort Spracherkennung durchgeführt werden soll oder nicht. - Die Computervorrichtung empfängt Audiodaten, die einer Äußerung entsprechen (210). Ein Benutzer spricht die Äußerung und ein Mikrofon der Computervorrichtung empfängt die Audiodaten der Äußerung. Die Computervorrichtung verarbeitet die Audiodaten durch Puffern, Filtern, Endpunktbestimmen und Digitalisieren der Audiodaten. Zum Beispiel kann der Benutzer „OK Computer“ sagen, und das Mikrofon der Computervorrichtung empfängt die Audiodaten, die „OK Computer“ entsprechen. Ein Audio-Subsystem der Computervorrichtung tastet die Audiodaten ab, puffert und filtert sie, führt die Endpunktbestimmung durch und stellt die Audiodaten zur weiteren Verarbeitung durch die Computervorrichtung bereit.
- Die Computervorrichtung bestimmt einen ersten Wert, der einer Wahrscheinlichkeit entspricht, dass die Äußerung ein Aktivierungswort einschließt (220). Die Computervorrichtung bestimmt den ersten Wert, der als Aktivierungswort-Konfidenzpunktzahl bezeichnet werden kann, indem sie die Audiodaten der Äußerung mit einer Gruppe von Audiosamples vergleicht, die das Aktivierungswort einschließen, oder indem sie die Audiomerkmale der Audiodaten der Äußerung analysiert. Der erste Wert kann auf eine Skala von null bis eins normiert werden, wobei eins die höchste Wahrscheinlichkeit angibt, dass die Äußerung ein Aktivierungswort einschließt. In einigen Implementierungen identifiziert die Computervorrichtung eine zweite Computervorrichtung und bestimmt, dass die zweite Computervorrichtung dafür konfiguriert ist, auf Äußerungen zu reagieren, die das Aktivierungswort einschließen, und durch den Benutzer dafür konfiguriert ist, auf das Aktivierungswort zu reagieren. Der Benutzer kann sowohl bei der Computervorrichtung als auch bei der zweiten Computervorrichtung angemeldet sein. Sowohl die Computervorrichtung als auch die zweite Computervorrichtung können dafür konfiguriert sein, auf die Stimme des Benutzers zu reagieren. Die Computervorrichtung und die zweite Computervorrichtung können mit dem gleichen lokalen Netzwerk verbunden sein. Die Computervorrichtung und die zweite Computervorrichtung können sich innerhalb einer bestimmten Entfernung voneinander befinden, wie etwa zehn Meter, bestimmt durch GPS oder Signalstärke. Zum Beispiel können die Computervorrichtungen über Kurzstreckenfunk kommunizieren. Die Computervorrichtung kann eine Stärke eines durch die zweite Vorrichtung gesendeten Signals als fünf dBm ermitteln und diese in eine entsprechende Entfernung wie etwa fünf Meter übersetzen.
- Die Computervorrichtung empfängt einen zweiten Wert, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der zweite Wert durch eine zweite Computervorrichtung (230) bestimmt wird. Die zweite Computervorrichtung empfängt die Äußerung über ein Mikrofon der zweiten Computervorrichtung. Die zweite Computervorrichtung verarbeitet die empfangenen Audiodaten, die der Äußerung entsprechen, und bestimmt einen zweiten Wert oder eine zweite Aktivierungswort-Konfidenzpunktzahl. Die zweite Aktivierungswort-Konfidenzpunktzahl widerspiegelt die durch die zweite Computervorrichtung berechnete Wahrscheinlichkeit, dass die Äußerung ein Aktivierungswort einschließt. In einigen Implementierungen überträgt die Computervorrichtung den ersten Wert zur zweiten Computervorrichtung unter Verwendung einer oder mehrerer der folgenden Methoden. Die Computervorrichtung kann den ersten Wert zur zweiten Computervorrichtung über einen Server, der über das Internet zugänglich ist, über einen Server, der sich im lokalen Netzwerk befindet, oder direkt über das lokale Netzwerk oder Kurzstreckenfunk übertragen. Die Computervorrichtung kann den ersten Wert nur zur zweiten Computervorrichtung übertragen oder die Computervorrichtung kann den ersten Wert rundsenden, sodass auch andere Computervorrichtungen den ersten Wert empfangen können. Die Computervorrichtung kann den zweiten Wert von der zweiten Computervorrichtung mit der gleichen oder einer anderen Methode empfangen, mit der die Computervorrichtung den ersten Wert übertragen hat.
- In einigen Implementierungen kann die Computervorrichtung eine Lautstärkepunktzahl für die Äußerung oder ein Signal-Rausch-Verhältnis für die Äußerung berechnen. Die Computervorrichtung kann die Lautstärkepunktzahl, das Signal-Rausch-Verhältnis und die Aktivierungswort-Konfidenzpunktzahl kombinieren, um einen neuen Wert zum Vergleichen mit ähnlichen Werten von anderen Computervorrichtungen zu bestimmen. Zum Beispiel kann die Computervorrichtung eine Aktivierungswort-Konfidenzpunktzahl und ein Signal-Rausch-Verhältnis berechnen. Die Computervorrichtung kann dann diese beiden Punktzahlen kombinieren und mit ähnlich berechneten Punktzahlen von anderen Computervorrichtungen vergleichen. In einigen Implementierungen kann die Computervorrichtung unterschiedliche Punktzahlen berechnen und zum Vergleich jede Punktzahl zu anderen Computervorrichtungen übertragen. Zum Beispiel kann die Computervorrichtung eine Lautstärkepunktzahl für die Äußerung und eine Aktivierungswort-Konfidenzpunktzahl berechnen. Die Computervorrichtung kann zum Vergleich dann diese Punktzahlen zu anderen Computervorrichtungen übertragen.
- In einigen Implementierungen kann die Computervorrichtung eine erste Kennung mit dem ersten Wert übertragen. Die Kennung kann auf einem oder mehr von Folgendem beruhen: eine Adresse der Computervorrichtung, ein vom Benutzer angegebener Name der Computervorrichtung oder ein Standort der Computervorrichtung. Zum Beispiel kann eine Kennung „69.123.132.43“ oder „Telefon“ lauten. In ähnlicher Weise kann die zweite Computervorrichtung eine zweite Kennung mit dem zweiten Wert übertragen. In einigen Implementierungen kann die Computervorrichtung die erste Kennung zu bestimmten Computervorrichtungen übertragen, von denen die Computervorrichtung zuvor festgestellt hatte, dass sie dafür konfiguriert sind, auf das Aktivierungswort zu reagieren. Zum Beispiel kann die Computervorrichtung zuvor festgestellt haben, dass die zweite Computervorrichtung dafür konfiguriert ist, auf das Aktivierungswort zu reagieren, weil zusätzlich zu der Fähigkeit, auf ein Aktivierungswort zu reagieren, der gleiche Benutzer wie bei der Computervorrichtung auch bei der zweiten Computervorrichtung angemeldet war.
- Die Computervorrichtung vergleicht den ersten Wert und den zweiten Wert (240). Die Computervorrichtung initiiert dann auf der Grundlage des Vergleichsergebnisses eine Spracherkennungsverarbeitung an den Audiodaten (250). In einigen Implementierungen initiiert die Computervorrichtung beispielsweise die Spracherkennung, wenn der erste Wert größer oder gleich dem zweiten Wert ist. Wenn der Benutzer gesagt hat „OK Computer, ruf Carol an“, dann würde die Computervorrichtung beginnen, „Ruf Carol an“ zu verarbeiten, indem sie die Spracherkennung an „Ruf Carol an“ durchführt, weil der erste Wert größer oder gleich dem zweiten Wert ist. In einigen Implementierungen setzt die Computervorrichtung einen Aktivierungszustand. In Fällen, in denen der erste Wert größer oder gleich dem zweiten Wert ist, setzt die Computervorrichtung den Aktivierungszustand als aktiv oder „wach“. Im „wachen“ Zustand zeigt die Computervorrichtung Ergebnisse aus der Spracherkennung an.
- In einigen Implementierungen vergleicht die Computervorrichtung den ersten Wert und den zweiten Wert und bestimmt, dass der erste Wert kleiner als der zweite Wert ist. Beruhend auf dem Bestimmen, dass der erste Wert kleiner als der zweite Wert ist, setzt die Computervorrichtung den Aktivierungszustand als inaktiv oder „in Ruhe“. Im Zustand „in Ruhe“ scheint die Computervorrichtung für den Benutzer nicht aktiv zu sein oder die Audiodaten zu verarbeiten.
- In einigen Implementierungen kann die Computervorrichtung, wenn sie bestimmt, dass der erste Wert größer oder gleich dem zweiten Wert ist, eine bestimmte Zeitspanne warten, bevor sie den Aktivierungszustand auf aktiv setzt. Die Computervorrichtung kann die bestimmte Zeitspanne abwarten, um die Wahrscheinlichkeit zu erhöhen, dass die Computervorrichtung keinen höheren Wert von einer anderen Computervorrichtung empfängt. Die bestimmte Zeitspanne kann festgelegt sein oder variieren, abhängig von der Methode, mit der die Computervorrichtungen Werte senden und empfangen. In einigen Implementierungen kann die Computervorrichtung, wenn sie bestimmt, dass der erste Wert größer oder gleich dem zweiten Wert ist, für eine bestimmte Zeitspanne fortfahren, den ersten Wert zu übertragen. Indem sie für eine bestimmte Zeitspanne fortfährt, den ersten Wert zu übertragen, erhöht die Computervorrichtung die Wahrscheinlichkeit, dass der erste Wert durch die anderen Computervorrichtungen empfangen wird. In Fällen, in denen die Computervorrichtung bestimmt, dass der erste Wert kleiner als der zweite Wert ist, kann die Computervorrichtung aufhören, den ersten Wert zu übertragen.
- In einigen Implementierungen kann die Computervorrichtung zusätzliche Informationen berücksichtigen, um zu bestimmen, ob der auf das Aktivierungswort folgende Befehl ausgeführt werden soll. Ein Beispiel für die zusätzlichen Informationen kann der Abschnitt der Äußerung sein, der auf das Aktivierungswort folgt. Normalerweise entsprechen die Audiodaten, die auf das Aktivierungswort folgen, einem Befehl für die Computervorrichtung wie etwa „Ruf Sally an“, „Spiel den Halloween-Film ab“ oder „Stell die Heizung auf 70 Grad“. Die Computervorrichtung kann eine typische Vorrichtung identifizieren, welche die Art der Anfrage bearbeitet oder imstande ist, die Anfrage zu bearbeiten. Eine Anforderung, eine Person anzurufen, würde normalerweise durch ein Telefon bearbeitet, und zwar auf der Grundlage vorprogrammierter typischer Nutzungen oder auf der Grundlage von Nutzungsmustern eines Benutzers der Vorrichtung. Wenn der Benutzer Filme normalerweise auf einem Tablet anschaut, kann das Tablet eine Anfrage zum Abspielen eines Films bearbeiten. Wenn der Thermostat zum Regulieren der Temperatur imstande ist, dann kann der Thermostat die Temperaturregulierung vornehmen.
- Damit die Computervorrichtung den Abschnitt der Äußerung berücksichtigen kann, der auf das Aktivierungswort folgt, müsste die Computervorrichtung Spracherkennung an den Audiodaten initiieren, sobald sie wahrscheinlich ein Aktivierungswort identifiziert hat. Die Computervorrichtung kann den Befehlsabschnitt der Äußerung kategorisieren und eine Häufigkeit der Befehle in dieser Kategorie berechnen. Die Computervorrichtung kann die Häufigkeit zusammen mit der Aktivierungswort-Konfidenzpunktzahl zu anderen Computervorrichtungen übertragen. Jede Computervorrichtung kann die Häufigkeiten und die Aktivierungswort-Konfidenzpunktzahlen verwenden, um zu bestimmen, ob der auf das Aktivierungswort folgende Befehl ausgeführt werden soll.
- Wenn der Benutzer zum Beispiel sagt: „OK Computer, spiele Michael Jackson“, und die Computervorrichtung ein Telefon ist, das der Benutzer zwanzig Prozent der Zeit benutzt, um Musik zu hören, dann kann die Computervorrichtung diese Information zusammen mit der Aktivierungswort-Konfidenzpunktzahl übertragen. Eine Computervorrichtung wie etwa ein Tablet, das der Benutzer zu fünf Prozent der Zeit zum Musikhören verwendet, kann diese Information zusammen mit der Aktivierungswort-Konfidenzpunktzahl an andere Computervorrichtungen weitergeben. Die Computervorrichtungen können eine Kombination aus der Aktivierungswort-Konfidenzpunktzahl und dem Prozentsatz der Zeit, in der Musik gespielt wird, verwenden, um zu bestimmen, ob der Befehl ausgeführt werden soll.
-
3 zeigt ein Beispiel für eine Computervorrichtung 300 und eine Mobilvorrichtung 350, die verwendet werden können, um die hier beschriebenen Methoden zu implementieren. Die Computervorrichtung 300 soll verschiedene Formen von digitalen Computern darstellen, wie etwa Laptops, Desktops, Workstations, persönliche digitale Assistenten, Server, Blade-Server, Mainframes und andere geeignete Computer. Die mobile Computervorrichtung 350 soll verschiedene Arten von Mobilvorrichtungen darstellen, wie etwa persönliche digitale Assistenten, Mobiltelefone, Smartphones und andere ähnliche Computervorrichtungen. Die hier gezeigten Komponenten, ihre Verbindungen und Beziehungen sowie ihre Funktionen sind lediglich als Beispiele zu verstehen und nicht als Einschränkung. - Die Computervorrichtung 300 schließt einen Prozessor 302, einen Arbeitsspeicher 304, eine Speichervorrichtung 306, eine schnelle Schnittstelle 308, die mit dem Arbeitsspeicher 304 und mehreren schnellen Erweiterungsanschlüssen 310 verbunden ist, und eine langsame Schnittstelle 312, die mit einem langsamen Erweiterungsanschluss 314 und der Speichervorrichtung 306 verbunden ist, ein. Der Prozessor 302, der Arbeitsspeicher 304, die Speichervorrichtung 306, die schnelle Schnittstelle 308, die schnellen Erweiterungsanschlüsse 310 und die langsame Schnittstelle 312 sind alle über verschiedene Busse miteinander verbunden und können auf einer gemeinsamen Hauptplatine oder auf andere geeignete Weise montiert sein. Der Prozessor 302 kann Anweisungen zur Ausführung innerhalb der Computervorrichtung 300 verarbeiten, einschließlich Anweisungen, die im Arbeitsspeicher 304 oder auf der Speichervorrichtung 306 gespeichert sind, um Grafikinformationen für eine grafische Benutzeroberfläche auf einer externen Eingabe-/Ausgabevorrichtung, wie etwa einer mit der schnellen Schnittstelle 308 gekoppelten Anzeige 316, anzuzeigen. In anderen Implementierungen können je nach Bedarf mehrere Prozessoren und/oder mehrere Busse zusammen mit mehreren Arbeitsspeichern und Arbeitsspeichertypen verwendet werden. Auch können mehrere Computervorrichtungen angeschlossen werden, wobei jede Vorrichtung Abschnitte der erforderlichen Operationen bereitstellt (z.B. als eine Serverbank, eine Gruppe von Blade-Servern oder ein Multiprozessorsystem).
- Der Arbeitsspeicher 304 speichert Informationen innerhalb der Computervorrichtung 300. In einigen Implementierungen ist der Arbeitsspeicher 304 eine flüchtige Speichereinheit oder -einheiten. In einigen Implementierungen ist der Arbeitsspeicher 304 eine nichtflüchtige Speichereinheit oder -einheiten. Der Arbeitsspeicher 304 kann auch eine andere Form eines computerlesbaren Mediums sein, wie etwa ein magnetisches oder optisches Laufwerk.
- Die Speichervorrichtung 306 ist imstande, einen Massenspeicher für die Computervorrichtung 300 bereitzustellen. In einigen Ausführungsformen kann die Speichervorrichtung 306 ein computerlesbares Medium sein oder enthalten, wie etwa eine Diskettenlaufwerksvorrichtung, eine Festplattenlaufwerksvorrichtung, eine optische Laufwerksvorrichtung oder eine Bandvorrichtung, ein Flash-Speicher oder eine ähnliche Festkörperspeichervorrichtung oder eine Anordnung von Vorrichtungen, einschließlich Vorrichtungen in einem Speichernetzwerk oder anderen Konfigurationen. Anweisungen können in einem Informationsträger gespeichert werden. Wenn sie durch eine oder mehrere Vorrichtungen (zum Beispiel Prozessor 302) ausgeführt werden, führen die Anweisungen ein oder mehrere Verfahren durch, wie etwa die oben beschriebenen. Die Anweisungen können auch durch eine oder mehrere Speichervorrichtungen wie etwa computer- oder maschinenlesbare Medien (zum Beispiel den Arbeitsspeicher 304, die Speichervorrichtung 306 oder Speicher auf dem Prozessor 302) gespeichert werden.
- Die schnelle Schnittstelle 308 wickelt bandbreitenintensive Operationen für die Computervorrichtung 300 ab, während die langsame Schnittstelle 312 weniger bandbreitenintensive Operationen abwickelt. Eine solche Zuteilung von Funktionen ist nur ein Beispiel. In einigen Implementierungen ist die schnelle Schnittstelle 308 mit dem Arbeitsspeicher 304, der Anzeige 316 (z.B. über einen Grafikprozessor oder -beschleuniger) und mit den schnellen Erweiterungsanschlüssen 310 gekoppelt, die verschiedene Erweiterungskarten (nicht gezeigt) aufnehmen können. In der Implementierung ist die langsame Schnittstelle 312 mit der Speichervorrichtung 306 und dem langsamen Erweiterungsanschluss 314 gekoppelt. Der langsame Erweiterungsanschluss 314, der verschiedene Kommunikationsanschlüsse (z.B. USB, Bluetooth, Ethernet, drahtloses Ethernet) einschließen kann, kann mit einer oder mehreren Eingabe-/Ausgabevorrichtungen gekoppelt werden, wie etwa einer Tastatur, einem Zeigegerät, einem Scanner oder einer Netzwerkvorrichtung, wie etwa einem Switch oder Router, z.B. über einen Netzwerkadapter.
- Die Computervorrichtung 300 kann in einer Reihe unterschiedlicher Formen implementiert werden, wie in der Abbildung gezeigt. Zum Beispiel kann sie als ein Standard-Server 320 oder mehrfach in einer Gruppe solcher Server implementiert sein. Darüber hinaus kann sie in einem Personal Computer wie etwa einem Laptop 322 implementiert sein. Sie kann auch als Teil eines Rackserver-Systems 324 implementiert werden. Alternativ können Komponenten aus der Computervorrichtung 300 mit anderen Komponenten in einer Mobilvorrichtung (nicht dargestellt) kombiniert werden, wie etwa einer mobilen Computervorrichtung 350. Jede solcher Vorrichtungen kann eine oder mehrere der Computervorrichtung 300 und der mobilen Computervorrichtung 350 enthalten, und ein ganzes System kann aus mehreren Computervorrichtungen bestehen, die miteinander kommunizieren.
- Die Mobilkommunikationsvorrichtung 350 schließt neben anderen Komponenten einen Prozessor 352, einen Arbeitsspeicher 364, eine Eingabe-/Ausgabevorrichtung wie etwa eine Anzeige 354, eine Kommunikationsschnittstelle 366 und einen Sendeempfänger 368 ein. Die mobile Computervorrichtung 350 kann auch mit einer Speichervorrichtung, wie etwa einem Mikro-Laufwerk oder einer anderen Vorrichtung, versehen sein, um zusätzlichen Speicherplatz bereitzustellen. Der Prozessor 352, der Arbeitsspeicher 364, die Anzeige 354, die Kommunikationsschnittstelle 366 und der Sendeempfänger 368 sind alle durch verschiedene Busse miteinander verbunden, und mehrere der Komponenten können auf einer gemeinsamen Hauptplatine oder auf andere geeignete Weise montiert sein.
- Der Prozessor 352 kann Anweisungen innerhalb der mobilen Computervorrichtung 350 ausführen, einschließlich Anweisungen, die im Arbeitsspeicher 364 gespeichert sind. Der Prozessor 352 kann als ein Chipsatz von Chips implementiert sein, die separate und mannigfaltige analoge und digitale Prozessoren einschließen. Der Prozessor 352 kann beispielsweise für die Koordination der anderen Komponenten der mobilen Computervorrichtung 350 sorgen, wie etwa die Steuerung von Benutzerschnittstellen, von Anwendungen, die durch die mobile Computervorrichtung 350 ausgeführt werden, und von drahtloser Kommunikation durch die mobile Computervorrichtung 350.
- Der Prozessor 352 kann mit einem Benutzer über eine Steuerungsschnittstelle 358 und eine mit der Anzeige 354 gekoppelte Anzeigeschnittstelle 356 kommunizieren. Die Anzeige 354 kann zum Beispiel eine TFT-Anzeige (Dünnschichttransistor-Flüssigkristallanzeige) oder eine OLED-(organische Leuchtdioden-)Anzeige oder andere geeignete Anzeigetechnologie sein. Die Anzeigeschnittstelle 356 kann eine geeignete Schaltung zur Ansteuerung der Anzeige 354 umfassen, um dem Benutzer grafische und andere Informationen zu präsentieren. Die Steuerungsschnittstelle 358 kann Befehle von einem Benutzer empfangen und sie zur Übergabe an den Prozessor 352 konvertieren. Darüber hinaus kann eine externe Schnittstelle 362 Kommunikation mit dem Prozessor 352 bereitstellen, um dadurch Nahbereichskommunikation der mobilen Computervorrichtung 350 mit anderen Vorrichtungen zu ermöglichen. Die externe Schnittstelle 362 kann zum Beispiel in einigen Implementierungen für drahtgebundene Kommunikation oder in anderen Implementierungen für drahtlose Kommunikation sorgen, und es können auch mehrere Schnittstellen verwendet werden.
- Der Arbeitsspeicher 364 speichert Informationen innerhalb der mobilen Computervorrichtung 350. Der Arbeitsspeicher 364 kann als ein oder mehr von Folgendem implementiert sein: ein computerlesbares Medium oder Medien, eine flüchtige Speichereinheit oder -einheiten oder eine nicht flüchtige Speichereinheit oder -einheiten. Ein Erweiterungsspeicher 374 kann auch bereitgestellt und über eine Erweiterungsschnittstelle 372 mit der mobilen Computervorrichtung 350 verbunden werden, die beispielsweise eine SIMM-Kartenschnittstelle (Single In-Line Memory Module) einschließen kann. Der Erweiterungsspeicher 374 kann zusätzlichen Speicherplatz für die mobile Computervorrichtung 350 bereitstellen oder kann auch Anwendungen oder andere Informationen für die mobile Computervorrichtung 350 speichern. Insbesondere kann der Erweiterungsspeicher 374 Anweisungen einschließen, um die oben beschriebenen Prozesse auszuführen oder zu ergänzen, und er kann auch sichere Informationen einschließen. So kann der Erweiterungsspeicher 374 zum Beispiel als Sicherheitsmodul für die mobile Computervorrichtung 350 bereitgestellt werden und kann mit Anweisungen programmiert werden, die eine sichere Nutzung der mobilen Computervorrichtung 350 ermöglichen. Darüber hinaus können über die SIMM-Karten sichere Anwendungen bereitgestellt werden, zusammen mit zusätzlichen Informationen, wie etwa die Platzierung von Identifizierungsinformationen auf der SIMM-Karte auf nicht hackbare Weise.
- Der Arbeitsspeicher kann zum Beispiel Flash-Speicher und/oder NVRAM-Speicher (nichtflüchtiger Direktzugriffsspeicher) einschließen, wie nachstehend erörtert. In einigen Implementierungen werden Anweisungen in einem Informationsträger gespeichert, sodass die Anweisungen, wenn sie durch eine oder mehrere Verarbeitungsvorrichtungen (z. B. Prozessor 352) ausgeführt werden, ein oder mehrere Verfahren, wie etwa die oben beschriebenen, durchführen. Die Anweisungen können auch durch eine oder mehrere Speichervorrichtungen gespeichert werden, wie etwa ein oder mehrere computer- oder maschinenlesbare Medien (zum Beispiel der Arbeitsspeicher 364, der Erweiterungsspeicher 374 oder Speicher auf dem Prozessor 352). In einigen Implementierungen können die Anweisungen in einem übertragenen Signal empfangen werden, zum Beispiel über den Sendeempfänger 368 oder die externe Schnittstelle 362.
- Die mobile Computervorrichtung 350 kann drahtlos über die Kommunikationsschnittstelle 366 kommunizieren, die bei Bedarf eine digitale Signalverarbeitungsschaltung einschließen kann. Die Kommunikationsschnittstelle 366 kann für Kommunikation unter verschiedenen Betriebsarten oder Protokollen sorgen, wie etwa Sprachanrufe im GSM (Globales System für Mobilkommunikation), Nachrichtenübermittlung per SMS (Kurznachrichtendienst), EMS (Verbesserter Nachrichtendienst) oder MMS (Multimedia-Nachrichtendienst), CDMA (Codemultiplex-Mehrfachzugriff), TDMA (Zeitmultiplex-Mehrfachzugriff), PDC (Personen-Digitalmobilfunk), WCDMA (Breitband-Codemultiplex-Mehrfachzugriff), CDMA2000 oder GPRS (Allgemeiner Paketfunkdienst), unter anderem. Solche Kommunikation kann zum Beispiel über den Sendeempfänger 368 unter Verwendung einer Funkfrequenz erfolgen. Darüber hinaus kann Kurzstreckenkommunikation stattfinden, wie etwa unter Verwendung eines Bluetooth-, WiFi- oder anderen derartigen Sendeempfängers (nicht gezeigt). Darüber hinaus kann ein Empfängermodul für GPS (Globales Positionsbestimmungssystem) 370 zusätzliche navigations- und standortbezogene drahtlose Daten für die mobile Computervorrichtung 350 bereitstellen, die gegebenenfalls durch Anwendungen verwendet werden können, die auf der mobilen Computervorrichtung 350 laufen.
- Die mobile Computervorrichtung 350 kann auch akustisch kommunizieren, und zwar unter Verwendung eines Audiocodecs 360, der gesprochene Informationen von einem Benutzer empfangen und in nutzbare digitale Informationen konvertieren kann. Der Audiocodec 360 kann ebenfalls hörbaren Ton für einen Benutzer erzeugen, wie etwa über einen Lautsprecher, z.B. in einem Handgerät der mobilen Computervorrichtung 350. Solcher Ton kann Ton aus Sprachtelefonaten einschließen, kann aufgezeichneten Ton einschließen (z.B. Sprachnachrichten, Musikdateien usw.) und kann auch Ton einschließen, der durch Anwendungen erzeugt wird, die auf der mobilen Computervorrichtung 350 betrieben werden.
- Die mobile Computervorrichtung 350 kann in einer Reihe unterschiedlicher Formen implementiert werden, wie in der Abbildung gezeigt. Zum Beispiel kann sie als ein Mobiltelefon 380 implementiert sein. Es kann auch als Teil eines Smartphones 382, eines persönlichen digitalen Assistenten oder einer anderen ähnlichen Mobilvorrichtung implementiert sein.
- Verschiedene Implementierungen der hier beschriebenen Systeme und Methoden können in digitalen elektronischen Schaltungen, integrierten Schaltkreisen, eigens entwickelten ASICs (anwendungsspezifischen integrierten Schaltkreisen), Computerhardware, Firmware, Software und/oder Kombinationen daraus realisiert werden. Diese verschiedenen Implementierungen können die Implementierung in einem oder mehreren Computerprogrammen einschließen, die auf einem programmierbaren System ausführbar und/oder interpretierbar sind, das mindestens einen programmierbaren Prozessor einschließt, bei dem es sich um einen Spezial- oder Allzweckprozessor handeln kann, der gekoppelt ist, um Daten und Anweisungen von einem Speichersystem, mindestens einer Eingabevorrichtung und mindestens einer Ausgabevorrichtung zu empfangen und Daten und Anweisungen zu diesen zu übertragen.
- Diese Computerprogramme (auch als Programme, Software, Softwareanwendungen oder Code bekannt) schließen Maschinenanweisungen für einen programmierbaren Prozessor ein und können in einer prozeduralen und/oder objektorientierten Hochsprache und/oder in Assembler-/Maschinensprache implementiert werden. Wie hierin verwendet, beziehen sich die Begriffe maschinenlesbares Medium und computerlesbares Medium auf jedes Computerprogrammprodukt, jede Vorrichtung und/oder jedes Gerät (z.B. Magnetspeicherplatten, optische Speicherplatten, Speicher, programmierbare Logikbausteine (PLDs)), die verwendet werden, um einem programmierbaren Prozessor Maschinenanweisungen und/oder Daten bereitzustellen, einschließlich eines maschinenlesbaren Mediums, das Maschinenanweisungen als maschinenlesbares Signal empfängt. Der Begriff „maschinenlesbares Signal“ bezieht sich auf jedes Signal, das verwendet wird, um Maschinenanweisungen und/oder Daten für einen programmierbaren Prozessor bereitzustellen.
- Um für Interaktion mit einem Benutzer zu sorgen, können die hier beschriebenen Systeme und Methoden auf einem Computer implementiert werden, der eine Anzeigevorrichtung (z.B. einen CRT-(Kathodenstrahlröhren-) oder LCD-(Flüssigkristallanzeige-)Monitor) zum Anzeigen von Informationen für den Benutzer sowie eine Tastatur und eine Zeigevorrichtung (z.B. eine Maus oder ein Trackball) hat, womit der Benutzer Eingaben für den Computer bereitstellen kann. Ebenso können andere Arten von Vorrichtungen verwendet werden, um für Interaktion mit einem Benutzer zu sorgen; zum Beispiel kann die Rückmeldung an den Benutzer jede Form von sensorischer Rückmeldung sein (z.B. visuelle Rückmeldung, akustische Rückmeldung oder taktile Rückmeldung); und Eingaben vom Benutzer können in jeder Form empfangen werden, einschließlich akustischer, sprachlicher oder taktiler Eingaben.
- Die hier beschriebenen Systeme und Methoden können in einem Computersystem implementiert werden, das eine Backend-Komponente (z.B. als Datenserver) einschließt, oder das eine Middleware-Komponente (z.B. einen Anwendungsserver) einschließt, oder das eine Frontend-Komponente (z.B. einen Client-Computer mit einer grafischen Benutzeroberfläche oder einem Web-Browser, über den ein Benutzer mit einer Implementierung der hier beschriebenen Systeme und Methoden interagieren kann) einschließt, oder eine beliebige Kombination solcher Backend-, Middleware- oder Frontend-Komponenten. Die Komponenten des Systems können durch jede Form oder jedes Medium von digitaler Datenkommunikation (z.B. ein Kommunikationsnetzwerk) miteinander verbunden sein. Beispiele für Kommunikationsnetzwerke schließen ein lokales Netzwerk (LAN), ein Weitverkehrsnetzwerk (WAN) und das Internet ein.
- Das Computersystem kann Clients und Server einschließen. Ein Client und ein Server sind grundsätzlich voneinander entfernt und interagieren normalerweise über ein Kommunikationsnetzwerk. Die Beziehung zwischen Client und Server entsteht dadurch, dass Computerprogramme auf den jeweiligen Computern laufen und eine Client-Server-Beziehung zueinander haben.
- Obwohl oben einige Implementierungen ausführlich beschrieben worden sind, sind andere Modifikationen möglich. Während zum Beispiel eine Client-Anwendung so beschrieben wurde, dass sie auf den/die Delegaten zugreift, kann der/die Delegat(e) in anderen Implementierungen durch andere Anwendungen verwendet werden, die durch einen oder mehrere Prozessoren implementiert werden, wie etwa eine Anwendung, die auf einem oder mehreren Servern läuft. Darüber hinaus erfordern die in den Figuren dargestellten logischen Abläufe nicht die besondere dargestellte Reihenfolge oder eine sequenzielle Reihenfolge, um erwünschte Ergebnisse zu erzielen. Darüber hinaus können in den beschriebenen Abläufen auch andere Aktionen bereitgestellt oder daraus eliminiert werden, und es können andere Komponenten zu den beschriebenen Systemen hinzugefügt oder aus ihnen entfernt werden. Dementsprechend fallen andere Implementierungen in den Schutzbereich der folgenden Ansprüche.
- Die vorliegende Patentschrift schließt die folgenden Klauseln ein:
- 1. Computerimplementiertes Verfahren, umfassend:
- Empfangen von Audiodaten, die einer Äußerung entsprechen, durch eine erste Computervorrichtung;
- Bestimmen eines ersten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung ein Aktivierungswort einschließt;
- Empfangen eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der zweite Wert durch eine zweite Computervorrichtung bestimmt wird;
- Vergleichen des ersten Werts und des zweiten Werts; und
- auf dem Vergleichen des ersten Werts mit dem zweiten Wert beruhendes Initiieren von Spracherkennungsverarbeitung an den Audiodaten.
- 2. Verfahren nach Klausel 1, umfassend:
- Bestimmen, dass der erste Wert einen Aktivierungswort-Punktzahlschwellenwert erfüllt.
- 3. Verfahren nach Klausel 1, umfassend:
- Übertragen des ersten Werts zur zweiten Computervorrichtung.
- 4. Verfahren nach Klausel 1, umfassend:
- auf dem Vergleichen des ersten Werts und des zweiten Werts beruhendes Bestimmen eines Aktivierungszustands der ersten Computervorrichtung.
- 5. Verfahren nach Klausel 4, worin das auf dem Vergleichen des ersten Werts und des zweiten Werts beruhende Bestimmen eines Aktivierungszustands der ersten Computervorrichtung umfasst:
- Bestimmen, dass der Aktivierungszustand ein aktiver Zustand ist.
- 6. Verfahren nach Klausel 1, umfassend:
- Empfangen zusätzlicher Audiodaten, die einer zusätzlichen Äußerung entsprechen, durch die erste Computervorrichtung;
- Bestimmen eines dritten Werts, der einer Wahrscheinlichkeit entspricht, dass die zusätzliche Äußerung das Aktivierungswort einschließt;
- Empfangen eines vierten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der vierte Wert durch eine dritte Computervorrichtung bestimmt wird;
- Vergleichen des dritten Werts und des vierten Werts; und
- auf dem Vergleichen des dritten Werts und des vierten Werts beruhendes Bestimmen, dass der Aktivierungszustand der ersten Computervorrichtung ein inaktiver Zustand ist.
- 7. Verfahren von Klausel 3, worin:
- das Übertragen des ersten Werts zur zweiten Computervorrichtung umfasst:
- Übertragen des ersten Werts zu einem Server, über ein lokales Netzwerk oder über Kurzstreckenfunk, und
- das Empfangen eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei das Bestimmen des zweiten Werts durch eine zweite Computervorrichtung umfasst:
- Empfangen eines zweiten Werts, der durch eine zweite Computervorrichtung bestimmt wurde, vom Server, über das lokale Netzwerk oder über den Kurzstreckenfunk.
- das Übertragen des ersten Werts zur zweiten Computervorrichtung umfasst:
- 8. Verfahren nach Klausel 1, umfassend:
- Identifizieren der zweiten Computervorrichtung; und
- Bestimmen, dass die zweite Computervorrichtung dafür konfiguriert ist, auf Äußerungen zu reagieren, die das Aktivierungswort einschließen.
- 9. Verfahren nach Klausel 3, worin:
- das Übertragen des ersten Werts zur zweiten Computervorrichtung umfasst:
- Übertragen einer ersten Kennung für die erste Computervorrichtung, und
- das Empfangen eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei das Bestimmen des zweiten Werts durch eine zweite Computervorrichtung umfasst:
- Empfangen einer zweiten Kennung für die zweite Computervorrichtung.
- das Übertragen des ersten Werts zur zweiten Computervorrichtung umfasst:
- 10. Verfahren nach Klausel 5, worin das Bestimmen, dass der Aktivierungszustand ein aktiver Zustand ist, umfasst:
- Bestimmen, dass seit dem Empfang der Audiodaten, die der Äußerung entsprechen, eine bestimmte Zeitspanne verstrichen ist.
- 11. Verfahren nach Klausel 5, umfassend:
- auf dem Bestimmen, dass der Aktivierungszustand ein aktiver Zustand ist, beruhendes Fortfahren für eine bestimmte Zeitspanne, den ersten Wert zu übertragen.
- 12. Computervorrichtung, umfassend:
- eine oder mehrere Speichervorrichtungen, die Anweisungen speichern, die, wenn sie durch die Computervorrichtung ausgeführt werden, betreibbar sind, um die Computervorrichtung zu veranlassen, Operationen durchzuführen, welche umfassen:
- Empfangen von Audiodaten, die einer Äußerung entsprechen, durch eine erste Computervorrichtung;
- Bestimmen eines ersten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung ein Aktivierungswort einschließt;
- Empfangen eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der zweite Wert durch eine zweite Computervorrichtung bestimmt wird;
- Vergleichen des ersten Werts und des zweiten Werts; und
- auf dem Vergleichen des ersten Werts mit dem zweiten Wert beruhendes Initiieren von Spracherkennungsverarbeitung an den Audiodaten.
- eine oder mehrere Speichervorrichtungen, die Anweisungen speichern, die, wenn sie durch die Computervorrichtung ausgeführt werden, betreibbar sind, um die Computervorrichtung zu veranlassen, Operationen durchzuführen, welche umfassen:
- 13. System nach Klausel 12, worin die Operationen ferner umfassen:
- Bestimmen, dass der erste Wert einen Aktivierungswort-Punktzahlschwellenwert erfüllt.
- 14. System nach Klausel 12, worin die Operationen ferner umfassen:
- Übertragen des ersten Werts zur zweiten Computervorrichtung.
- 15. System nach Klausel 12, worin die Operationen ferner umfassen:
- auf dem Vergleichen des ersten Werts und des zweiten Werts beruhendes Bestimmen eines Aktivierungszustands der ersten Computervorrichtung.
- 16. System nach Klausel 15, worin das auf dem Vergleichen des ersten Werts und des zweiten Werts beruhende Bestimmen eines Aktivierungszustands der ersten Computervorrichtung umfasst:
- Bestimmen, dass der Aktivierungszustand ein aktiver Zustand ist.
- 17. System nach Klausel 12, worin die Operationen ferner umfassen:
- Empfangen zusätzlicher Audiodaten, die einer zusätzlichen Äußerung entsprechen, durch die erste Computervorrichtung;
- Bestimmen eines dritten Werts, der einer Wahrscheinlichkeit entspricht, dass die zusätzliche Äußerung das Aktivierungswort einschließt;
- Empfangen eines vierten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der vierte Wert durch eine dritte Computervorrichtung bestimmt wird;
- Vergleichen des dritten Werts und des vierten Werts; und
- auf dem Vergleichen des dritten Werts und des vierten Werts beruhendes Bestimmen, dass der Aktivierungszustand der ersten Computervorrichtung ein inaktiver Zustand ist.
- 18. System nach Abschnitt 14, worin:
- das Übertragen des ersten Werts zur zweiten Computervorrichtung umfasst:
- Übertragen des ersten Werts zu einem Server, über ein lokales Netzwerk oder über Kurzstreckenfunk, und
- das Empfangen eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der zweite Wert durch eine zweite Computervorrichtung bestimmt wird, umfasst:
- Empfangen eines zweiten Werts, der durch eine zweite Computervorrichtung bestimmt wurde, vom Server, über das lokale Netzwerk oder über den Kurzstreckenfunk.
- das Übertragen des ersten Werts zur zweiten Computervorrichtung umfasst:
- 19. System nach Klausel 12, worin die Operationen ferner umfassen:
- Identifizieren der zweiten Computervorrichtung; und
- Bestimmen, dass die zweite Computervorrichtung dafür konfiguriert ist, auf Äußerungen zu reagieren, die das Aktivierungswort einschließen.
- 20. Nichtflüchtiges computerlesbares Medium, das Software speichert, die durch einen oder mehrere Computer ausführbare Anweisungen umfasst, welche bei solcher Ausführung den einen oder die mehreren Computer veranlassen, Operationen durchzuführen, die Folgendes umfassen:
- Empfangen von Audiodaten, die einer Äußerung entsprechen, durch eine erste Computervorrichtung;
- Bestimmen eines ersten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung ein Aktivierungswort einschließt;
- Empfangen eines zweiten Werts, der einer Wahrscheinlichkeit entspricht, dass die Äußerung das Aktivierungswort einschließt, wobei der zweite Wert durch eine zweite Computervorrichtung bestimmt wird;
- Vergleichen des ersten Werts und des zweiten Werts; und
- auf dem Vergleichen des ersten Werts mit dem zweiten Wert beruhendes Initiieren von Spracherkennungsverarbeitung an den Audiodaten.
Claims (18)
- Nichtflüchtiges computerlesbares Medium, das Software speichert, die durch einen oder mehrere Computer ausführbare Anweisungen umfasst, die bei solcher Ausführung den einen oder die mehreren Computer veranlassen, Folgendes durchzuführen: Empfangen von Audiodaten durch eine Computervorrichtung; Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen; als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung; als Antwort auf das Übertragen der Daten zu der zusätzlichen Computervorrichtung erfolgendes Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung; und Bestimmen durch die Computervorrichtung auf der Grundlage der zusätzlichen Daten, ob ein Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll.
- Nichtflüchtiges computerlesbares Medium, das Software speichert, die durch einen oder mehrere Computer ausführbare Anweisungen umfasst, die bei solcher Ausführung den einen oder die mehreren Computer veranlassen, Folgendes durchzuführen: Empfangen von Audiodaten, die einer Äußerung entsprechen, durch eine Computervorrichtung; Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen; als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten, die eine Aktivierungswort-Punktzahl umfassen, welche eine Qualität der Äußerung angibt, durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung; Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung, wobei die zusätzlichen Daten eine durch die zusätzliche Computervorrichtung bestimmte Aktivierungswort-Punktzahl umfassen, welche eine Qualität der Audiodaten wiedergibt; und mindestens teilweise auf der Grundlage eines Vergleichs der Aktivierungswort-Punktzahl für die Computervorrichtung mit den in den zusätzlichen Daten eingeschlossenen Aktivierungswort-Punktzahlen erfolgendes Bestimmen durch die Computervorrichtung, ob ein Befehl durchgeführt werden soll, der in einer Äußerung nach dem bestimmten vordefinierten Aktivierungswort umfasst ist.
- Nichtflüchtiges computerlesbares Medium, das Software speichert, die durch einen oder mehrere Computer ausführbare Anweisungen umfasst, die bei solcher Ausführung den einen oder die mehreren Computer veranlassen, Folgendes durchzuführen: Empfangen von Audiodaten, die einer Äußerung entsprechen, durch eine Computervorrichtung; Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen; als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten, die eine Aktivierungswort-Punktzahl umfassen, die eine Lautstärke der Äußerung angibt, durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung; Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung, wobei die zusätzlichen Daten eine durch die zusätzliche Computervorrichtung bestimmte Aktivierungswort-Punktzahl umfassen, die eine Lautstärke der Äußerung widerspiegelt; und mindestens teilweise auf der Grundlage eines Vergleichs der Aktivierungswort-Punktzahl für die Computervorrichtung mit den in den zusätzlichen Daten umfassten Aktivierungswort-Punktzahlen erfolgendes Bestimmen durch die Computervorrichtung, ob ein Befehl, der in einer Äußerung nach dem bestimmten vordefinierten Aktivierungswort umfasst ist, durchgeführt werden soll.
- Nichtflüchtiges computerlesbares Medium nach einem der vorhergehenden Ansprüche, worin die Anweisungen, wenn sie durch den einen oder die mehreren Computer ausgeführt werden, den einen oder die mehreren Computer veranlassen, ferner durchzuführen: Erzeugen der Daten durch die Computervorrichtung auf der Grundlage der Audiodaten.
- Nichtflüchtiges computerlesbares Medium nach einem der vorhergehenden Ansprüche, worin das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, umfasst: Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, ohne automatisierte Spracherkennung an den Audiodaten durchzuführen.
- Nichtflüchtiges computerlesbares Medium nach einem der vorhergehenden Ansprüche, worin die Anweisungen, wenn sie durch den einen oder die mehreren Computer ausgeführt werden, den einen oder die mehreren Computer veranlassen, ferner durchzuführen: Bestimmen, ob der Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll, indem bestimmt wird, dass der Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll; Durchführen automatisierter Spracherkennung an den Audiodaten durch die Computervorrichtung; auf der Grundlage des Durchführens der automatisierten Spracherkennung an den Audiodaten erfolgendes Identifizieren des Befehls, der in der Äußerung eingeschlossen ist, durch die Computervorrichtung; und Durchführen des Befehls durch die Computervorrichtung.
- Nichtflüchtiges computerlesbares Medium nach einem der vorhergehenden Ansprüche, worin die Anweisungen, wenn sie durch den einen oder die mehreren Computer ausgeführt werden, den einen oder die mehreren Computer veranlassen, ferner durchzuführen: Empfangen der Audiodaten durch Empfangen der Audiodaten, während sich die Computervorrichtung in einem Stromsparmodus befindet; Bestimmen, ob der Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll, indem bestimmt wird, das Durchführen des Befehls, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, zu umgehen; und Halten der Computervorrichtung im Stromsparmodus auf der Grundlage des Bestimmens, das Durchführen des Befehls, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, zu umgehen.
- Nichtflüchtiges computerlesbares Medium nach einem der vorhergehenden Ansprüche, worin die Anweisungen, wenn sie durch den einen oder die mehreren Computer ausgeführt werden, den einen oder die mehreren Computer veranlassen, ferner durchzuführen: Erzeugen der Daten durch die Computervorrichtung auf der Grundlage eines Abschnitts der Audiodaten, der die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließt.
- Nichtflüchtiges computerlesbares Medium nach einem der vorhergehenden Ansprüche, worin die zusätzlichen Daten von der zusätzlichen Computervorrichtung eine Wahrscheinlichkeit angeben, dass die Audiodaten die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen.
- System, umfassend: einen oder mehrere Computer; und eine oder mehrere Speichervorrichtungen, die Anweisungen speichern, die, wenn sie durch den einen oder die mehreren Computer ausgeführt werden, dafür betreibbar sind, den einen oder die mehreren Computer zu veranlassen, Operationen durchzuführen, die Folgendes umfassen: Empfangen von Audiodaten durch eine Computervorrichtung; Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen; als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung; als Antwort auf das Übertragen der Daten zu der zusätzlichen Computervorrichtung erfolgendes Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung; und Bestimmen durch die Computervorrichtung auf der Grundlage der zusätzlichen Daten, ob ein Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll.
- System, umfassend: einen oder mehrere Computer; und eine oder mehrere Speichervorrichtungen, die Anweisungen speichern, die, wenn sie durch den einen oder die mehreren Computer ausgeführt werden, dafür betreibbar sind, den einen oder die mehreren Computer zu veranlassen, Operationen durchzuführen, die Folgendes umfassen: Empfangen von Audiodaten, durch eine Computervorrichtung; Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen; als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten, die eine Aktivierungswort-Punktzahl umfassen, welche eine Qualität der Äußerung angibt, durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung; Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung, wobei die zusätzlichen Daten eine durch die zusätzliche Computervorrichtung bestimmte Aktivierungswort-Punktzahl umfassen, welche eine Qualität der Audiodaten wiedergibt; und mindestens teilweise auf der Grundlage eines Vergleichs der Aktivierungswort-Punktzahl für die Computervorrichtung mit den in den zusätzlichen Daten umfassten Aktivierungswort-Punktzahlen erfolgendes Bestimmen durch die Computervorrichtung, ob ein Befehl durchgeführt werden soll, der in einer Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist.
- System, umfassend: einen oder mehrere Computer; und eine oder mehrere Speichervorrichtungen, die Anweisungen speichern, die, wenn sie durch den einen oder die mehreren Computer ausgeführt werden, dafür betreibbar sind, den einen oder die mehreren Computer zu veranlassen, Operationen durchzuführen, die Folgendes umfassen: Empfangen von Audiodaten, die einer Äußerung entsprechen, durch eine Computervorrichtung; Bestimmen durch die Computervorrichtung, dass die Audiodaten wahrscheinlich eine Äußerung eines bestimmten vordefinierten Aktivierungsworts einschließen; als Antwort auf das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, erfolgendes Übertragen von Daten, die eine Aktivierungswort-Punktzahl umfassen, die eine Lautstärke der Äußerung angibt, durch die Computervorrichtung zu einer zusätzlichen Computervorrichtung; Empfangen zusätzlicher Daten von der zusätzlichen Computervorrichtung durch die Computervorrichtung, wobei die zusätzlichen Daten eine durch die zusätzliche Computervorrichtung bestimmte Aktivierungswort-Punktzahl umfassen, die eine Lautstärke der Äußerung widerspiegelt; und mindestens teilweise auf der Grundlage eines Vergleichs der Aktivierungswort-Punktzahl für die Computervorrichtung mit den in den zusätzlichen Daten umfassten Aktivierungswort-Punktzahlen erfolgendes Bestimmen durch die Computervorrichtung, ob ein Befehl, der in einer Äußerung nach dem bestimmten vordefinierten Aktivierungswort umfasst ist, durchgeführt werden soll.
- System nach
Anspruch 10 bis12 , worin die Operationen umfassen: Erzeugen der Daten durch die Computervorrichtung auf der Grundlage der Audiodaten. - System nach einem der
Ansprüche 10 bis13 , worin das Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, umfasst: Bestimmen, dass die Audiodaten wahrscheinlich die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen, ohne automatisierte Spracherkennung an den Audiodaten durchzuführen. - System nach einem der
Ansprüche 10 bis14 , worin die Operationen umfassen: Bestimmen, ob der Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll, indem bestimmt wird, dass der Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll; Durchführen automatisierter Spracherkennung an den Audiodaten durch die Computervorrichtung; auf der Grundlage des Durchführens der automatisierten Spracherkennung an den Audiodaten erfolgendes Identifizieren des Befehls, der in der Äußerung eingeschlossen ist, durch die Computervorrichtung; und Durchführen des Befehls durch die Computervorrichtung. - System nach einem der
Ansprüche 10 bis15 , worin die Operationen umfassen: Empfangen der Audiodaten durch Empfangen der Audiodaten, während sich die Computervorrichtung in einem Stromsparmodus befindet; Bestimmen, ob der Befehl, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, durchgeführt werden soll, indem bestimmt wird, das Durchführen des Befehls, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, zu umgehen; und Halten der Computervorrichtung im Stromsparmodus auf der Grundlage des Bestimmens, das Durchführen des Befehls, der in der Äußerung nach dem bestimmten vordefinierten Aktivierungswort eingeschlossen ist, zu umgehen. - System nach einem der
Ansprüche 10 bis16 , worin die Operationen umfassen: Erzeugen der Daten durch die Computervorrichtung auf der Grundlage eines Abschnitts der Audiodaten, der die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließt. - System nach einem der
Ansprüche 10 bis17 , worin die zusätzlichen Daten von der zusätzlichen Computervorrichtung eine Wahrscheinlichkeit angeben, dass die Audiodaten die Äußerung des bestimmten vordefinierten Aktivierungsworts einschließen.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462061830P | 2014-10-09 | 2014-10-09 | |
US62/061,830 | 2014-10-09 | ||
US14/675,932 US9318107B1 (en) | 2014-10-09 | 2015-04-01 | Hotword detection on multiple devices |
US14/675,932 | 2015-04-01 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE202015010012U1 true DE202015010012U1 (de) | 2023-03-01 |
Family
ID=54330874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE202015010012.0U Active DE202015010012U1 (de) | 2014-10-09 | 2015-09-29 | Aktivierungswort-Ermittlung auf mehreren Vorrichtungen |
Country Status (7)
Country | Link |
---|---|
US (8) | US9318107B1 (de) |
EP (5) | EP3084759B1 (de) |
JP (7) | JP6208376B2 (de) |
KR (2) | KR101832648B1 (de) |
CN (2) | CN106030699B (de) |
DE (1) | DE202015010012U1 (de) |
WO (1) | WO2016057268A1 (de) |
Families Citing this family (354)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10032452B1 (en) | 2016-12-30 | 2018-07-24 | Google Llc | Multimodal transmission of packetized data |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US10013986B1 (en) | 2016-12-30 | 2018-07-03 | Google Llc | Data structure pooling of voice activated data packets |
US11017428B2 (en) | 2008-02-21 | 2021-05-25 | Google Llc | System and method of data transmission rate adjustment |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US10776830B2 (en) | 2012-05-23 | 2020-09-15 | Google Llc | Methods and systems for identifying new computers and providing matching services |
US10152723B2 (en) | 2012-05-23 | 2018-12-11 | Google Llc | Methods and systems for identifying new computers and providing matching services |
US10650066B2 (en) | 2013-01-31 | 2020-05-12 | Google Llc | Enhancing sitelinks with creative content |
US10735552B2 (en) | 2013-01-31 | 2020-08-04 | Google Llc | Secondary transmissions of packetized data |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3008641A1 (de) | 2013-06-09 | 2016-04-20 | Apple Inc. | Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitaler assistenten |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9589564B2 (en) | 2014-02-05 | 2017-03-07 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9257120B1 (en) | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US11942095B2 (en) | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
KR20160023089A (ko) * | 2014-08-21 | 2016-03-03 | 엘지전자 주식회사 | 디지털 디바이스 및 그 제어 방법 |
US10748539B2 (en) * | 2014-09-10 | 2020-08-18 | Crestron Electronics, Inc. | Acoustic sensory network |
US10204622B2 (en) * | 2015-09-10 | 2019-02-12 | Crestron Electronics, Inc. | Acoustic sensory network |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9812128B2 (en) | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
US9318107B1 (en) | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
KR102505347B1 (ko) * | 2015-07-16 | 2023-03-03 | 삼성전자주식회사 | 사용자 관심 음성 알림 장치 및 방법 |
CN106469040B (zh) * | 2015-08-19 | 2019-06-21 | 华为终端有限公司 | 通信方法、服务器及设备 |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10783888B2 (en) * | 2015-09-10 | 2020-09-22 | Crestron Electronics Inc. | System and method for determining recipient of spoken command in a control system |
US9542941B1 (en) * | 2015-10-01 | 2017-01-10 | Lenovo (Singapore) Pte. Ltd. | Situationally suspending wakeup word to enable voice command input |
US9691378B1 (en) * | 2015-11-05 | 2017-06-27 | Amazon Technologies, Inc. | Methods and devices for selectively ignoring captured audio data |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US9653075B1 (en) | 2015-11-06 | 2017-05-16 | Google Inc. | Voice commands across devices |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10127906B1 (en) | 2015-12-28 | 2018-11-13 | Amazon Technologies, Inc. | Naming devices via voice commands |
US10185544B1 (en) * | 2015-12-28 | 2019-01-22 | Amazon Technologies, Inc. | Naming devices via voice commands |
US10026401B1 (en) | 2015-12-28 | 2018-07-17 | Amazon Technologies, Inc. | Naming devices via voice commands |
US10074364B1 (en) * | 2016-02-02 | 2018-09-11 | Amazon Technologies, Inc. | Sound profile generation based on speech recognition results exceeding a threshold |
JP2017138476A (ja) * | 2016-02-03 | 2017-08-10 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10142754B2 (en) | 2016-02-22 | 2018-11-27 | Sonos, Inc. | Sensor on moving component of transducer |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US9779735B2 (en) * | 2016-02-24 | 2017-10-03 | Google Inc. | Methods and systems for detecting and processing speech signals |
US10229687B2 (en) * | 2016-03-10 | 2019-03-12 | Microsoft Technology Licensing, Llc | Scalable endpoint-dependent natural language understanding |
US10373612B2 (en) * | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
US9948479B2 (en) * | 2016-04-05 | 2018-04-17 | Vivint, Inc. | Identification graph theory |
US20170330564A1 (en) * | 2016-05-13 | 2017-11-16 | Bose Corporation | Processing Simultaneous Speech from Distributed Microphones |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10438583B2 (en) * | 2016-07-20 | 2019-10-08 | Lenovo (Singapore) Pte. Ltd. | Natural language voice assistant |
US10621992B2 (en) * | 2016-07-22 | 2020-04-14 | Lenovo (Singapore) Pte. Ltd. | Activating voice assistant based on at least one of user proximity and context |
KR102575634B1 (ko) * | 2016-07-26 | 2023-09-06 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 동작 방법 |
US10810212B2 (en) * | 2016-07-29 | 2020-10-20 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Validating provided information in a conversation |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9693164B1 (en) | 2016-08-05 | 2017-06-27 | Sonos, Inc. | Determining direction of networked microphone device relative to audio playback device |
US9972320B2 (en) * | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US9824692B1 (en) * | 2016-09-12 | 2017-11-21 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
US10325601B2 (en) | 2016-09-19 | 2019-06-18 | Pindrop Security, Inc. | Speaker recognition in the call center |
CA3117645C (en) | 2016-09-19 | 2023-01-03 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
US9794720B1 (en) | 2016-09-22 | 2017-10-17 | Sonos, Inc. | Acoustic position measurement |
TWI606390B (zh) * | 2016-09-23 | 2017-11-21 | 元鼎音訊股份有限公司 | 可自動調整聲音輸出之方法及電子裝置 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
WO2018067528A1 (en) * | 2016-10-03 | 2018-04-12 | Google Llc | Device leadership negotiation among voice interface devices |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10592611B2 (en) * | 2016-10-24 | 2020-03-17 | Conduent Business Services, Llc | System for automatic extraction of structure from spoken conversation using lexical and acoustic features |
US10783883B2 (en) * | 2016-11-03 | 2020-09-22 | Google Llc | Focus session at a voice interface device |
KR102241970B1 (ko) * | 2016-11-07 | 2021-04-20 | 구글 엘엘씨 | 기록된 미디어 핫워드 트리거 억제 |
US10332523B2 (en) | 2016-11-18 | 2019-06-25 | Google Llc | Virtual assistant identification of nearby computing devices |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10079015B1 (en) * | 2016-12-06 | 2018-09-18 | Amazon Technologies, Inc. | Multi-layer keyword detection |
US10311875B2 (en) * | 2016-12-22 | 2019-06-04 | Soundhound, Inc. | Full-duplex utterance processing in a natural language virtual assistant |
US10559309B2 (en) * | 2016-12-22 | 2020-02-11 | Google Llc | Collaborative voice controlled devices |
US10276161B2 (en) | 2016-12-27 | 2019-04-30 | Google Llc | Contextual hotwords |
US10708313B2 (en) | 2016-12-30 | 2020-07-07 | Google Llc | Multimodal transmission of packetized data |
US10593329B2 (en) * | 2016-12-30 | 2020-03-17 | Google Llc | Multimodal transmission of packetized data |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
KR20180083587A (ko) * | 2017-01-13 | 2018-07-23 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
CN110506452B (zh) * | 2017-02-07 | 2021-12-03 | 路创技术有限责任公司 | 基于音频的负载控制系统 |
US10467509B2 (en) * | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Computationally-efficient human-identifying smart assistant computer |
US10102868B2 (en) * | 2017-02-17 | 2018-10-16 | International Business Machines Corporation | Bot-based honeypot poison resilient data collection |
US10810510B2 (en) | 2017-02-17 | 2020-10-20 | International Business Machines Corporation | Conversation and context aware fraud and abuse prevention agent |
US10757058B2 (en) | 2017-02-17 | 2020-08-25 | International Business Machines Corporation | Outgoing communication scam prevention |
US9990926B1 (en) * | 2017-03-13 | 2018-06-05 | Intel Corporation | Passive enrollment method for speaker identification systems |
US11183181B2 (en) * | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10748531B2 (en) * | 2017-04-13 | 2020-08-18 | Harman International Industries, Incorporated | Management layer for multiple intelligent personal assistant services |
CN117577099A (zh) | 2017-04-20 | 2024-02-20 | 谷歌有限责任公司 | 设备上的多用户认证的方法、系统和介质 |
KR20180118470A (ko) * | 2017-04-21 | 2018-10-31 | 엘지전자 주식회사 | 음성 인식 장치 및 음성 인식 방법 |
IL252071A0 (en) | 2017-05-03 | 2017-07-31 | Google Inc | Contextual language translation |
JP6994292B2 (ja) * | 2017-05-08 | 2022-01-14 | 達闥机器人有限公司 | ロボットのウェイクアップ方法、装置及びロボット |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336892A1 (en) * | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10665232B2 (en) * | 2017-05-24 | 2020-05-26 | Harman International Industries, Inc. | Coordination among multiple voice recognition devices |
US10664533B2 (en) | 2017-05-24 | 2020-05-26 | Lenovo (Singapore) Pte. Ltd. | Systems and methods to determine response cue for digital assistant based on context |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10395650B2 (en) * | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
US10283117B2 (en) * | 2017-06-19 | 2019-05-07 | Lenovo (Singapore) Pte. Ltd. | Systems and methods for identification of response cue at peripheral device |
CN109213777A (zh) * | 2017-06-29 | 2019-01-15 | 杭州九阳小家电有限公司 | 一种基于语音的食谱处理方法及系统 |
US10599377B2 (en) | 2017-07-11 | 2020-03-24 | Roku, Inc. | Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services |
KR102052510B1 (ko) * | 2017-08-03 | 2019-12-05 | 에스케이브로드밴드주식회사 | 음성브리지장치 및 음성인식처리장치, 그리고 그 동작 방법 |
US10475449B2 (en) * | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
JP6513749B2 (ja) * | 2017-08-09 | 2019-05-15 | レノボ・シンガポール・プライベート・リミテッド | 音声アシストシステム、サーバ装置、その音声アシスト方法、及びコンピュータが実行するためのプログラム |
KR102486912B1 (ko) * | 2017-08-10 | 2023-01-11 | 에스케이텔레콤 주식회사 | 음성 처리 장치의 구동 제어 시스템 및 구동 제어 서버 |
US11062702B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Media system with multiple digital assistants |
US10777197B2 (en) | 2017-08-28 | 2020-09-15 | Roku, Inc. | Audio responsive device with play/stop and tell me something buttons |
US11062710B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Local and cloud speech recognition |
US20190065608A1 (en) * | 2017-08-29 | 2019-02-28 | Lenovo (Singapore) Pte. Ltd. | Query input received at more than one device |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10403288B2 (en) * | 2017-10-17 | 2019-09-03 | Google Llc | Speaker diarization |
US10916252B2 (en) | 2017-11-10 | 2021-02-09 | Nvidia Corporation | Accelerated data transfer for latency reduction and real-time processing |
US10867623B2 (en) * | 2017-11-14 | 2020-12-15 | Thomas STACHURA | Secure and private processing of gestures via video input |
US10999733B2 (en) | 2017-11-14 | 2021-05-04 | Thomas STACHURA | Information security/privacy via a decoupled security accessory to an always listening device |
CN107919119A (zh) * | 2017-11-16 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 多设备交互协同的方法、装置、设备及计算机可读介质 |
US10276175B1 (en) * | 2017-11-28 | 2019-04-30 | Google Llc | Key phrase detection with audio watermarking |
US10157611B1 (en) * | 2017-11-29 | 2018-12-18 | Nuance Communications, Inc. | System and method for speech enhancement in multisource environments |
US10102858B1 (en) * | 2017-11-29 | 2018-10-16 | International Business Machines Corporation | Dynamically changing audio keywords |
US10482878B2 (en) * | 2017-11-29 | 2019-11-19 | Nuance Communications, Inc. | System and method for speech enhancement in multisource environments |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
CN110741338B (zh) * | 2017-12-08 | 2023-06-16 | 谷歌有限责任公司 | 使设备与环境中的多个设备隔离以响应口头助理调用 |
EP4191412A1 (de) * | 2017-12-08 | 2023-06-07 | Google LLC | Signalverarbeitungskoordination zwischen digitalen sprachassistentrechnervorrichtungen |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
US10672380B2 (en) * | 2017-12-27 | 2020-06-02 | Intel IP Corporation | Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system |
CN111512365B (zh) * | 2017-12-31 | 2023-06-13 | 美的集团股份有限公司 | 对多个家庭装置进行控制的方法和系统 |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
WO2019152722A1 (en) | 2018-01-31 | 2019-08-08 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11145298B2 (en) * | 2018-02-13 | 2021-10-12 | Roku, Inc. | Trigger word detection with multiple digital assistants |
CN111742091B (zh) * | 2018-02-23 | 2023-07-18 | 三星电子株式会社 | 洗衣机及其控制方法 |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
EP3596729A1 (de) | 2018-03-07 | 2020-01-22 | Google LLC. | Systeme und verfahren zur sprachbasierten einleitung von personalisierten vorrichtungsaktionen |
US11183182B2 (en) * | 2018-03-07 | 2021-11-23 | Google Llc | Systems and methods for voice-based initiation of custom device actions |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US11240057B2 (en) * | 2018-03-15 | 2022-02-01 | Lenovo (Singapore) Pte. Ltd. | Alternative output response based on context |
US11163377B2 (en) * | 2018-03-22 | 2021-11-02 | Adobe Inc. | Remote generation of executable code for a client application based on natural language commands captured at a client device |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10755706B2 (en) * | 2018-03-26 | 2020-08-25 | Midea Group Co., Ltd. | Voice-based user interface with dynamically switchable endpoints |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11151991B2 (en) * | 2018-03-30 | 2021-10-19 | Verizon Media Inc. | Electronic message transmission |
CN111971647A (zh) * | 2018-04-09 | 2020-11-20 | 麦克赛尔株式会社 | 语音识别设备、语音识别设备的协作系统和语音识别设备的协作方法 |
CN108538291A (zh) * | 2018-04-11 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 语音控制方法、终端设备、云端服务器及系统 |
EP4254402A3 (de) | 2018-04-16 | 2023-12-20 | Google LLC | Automatische bestimmung der sprache zur spracherkennung einer gesprochenen äusserung, die über eine automatisierte assistenzschnittstelle empfangen wird |
CN116959420A (zh) * | 2018-04-16 | 2023-10-27 | 谷歌有限责任公司 | 自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言 |
EP3564949A1 (de) * | 2018-04-23 | 2019-11-06 | Spotify AB | Aktivierungsauslöserverarbeitung |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
CN108615526B (zh) * | 2018-05-08 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 语音信号中关键词的检测方法、装置、终端及存储介质 |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10692496B2 (en) | 2018-05-22 | 2020-06-23 | Google Llc | Hotword suppression |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
WO2019227370A1 (zh) * | 2018-05-31 | 2019-12-05 | Dong Xuezhang | 一种多语音助手控制方法、装置、系统及计算机可读存储介质 |
US10892996B2 (en) * | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US11437029B2 (en) | 2018-06-05 | 2022-09-06 | Voicify, LLC | Voice application platform |
US10636425B2 (en) | 2018-06-05 | 2020-04-28 | Voicify, LLC | Voice application platform |
US10803865B2 (en) | 2018-06-05 | 2020-10-13 | Voicify, LLC | Voice application platform |
US10235999B1 (en) | 2018-06-05 | 2019-03-19 | Voicify, LLC | Voice application platform |
GB2574803B (en) * | 2018-06-11 | 2022-12-07 | Xmos Ltd | Communication between audio devices |
US10783886B2 (en) * | 2018-06-12 | 2020-09-22 | International Business Machines Corporation | Cognitive agent disambiguation |
US11348586B2 (en) * | 2018-06-21 | 2022-05-31 | Dell Products L.P. | Systems and methods for extending and enhancing voice assistant and/or telecommunication software functions to a remote endpoint device |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
CN108922528B (zh) | 2018-06-29 | 2020-10-23 | 百度在线网络技术(北京)有限公司 | 用于处理语音的方法和装置 |
US11373640B1 (en) * | 2018-08-01 | 2022-06-28 | Amazon Technologies, Inc. | Intelligent device grouping |
KR102570301B1 (ko) * | 2018-08-02 | 2023-08-25 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
KR20230107386A (ko) * | 2018-08-09 | 2023-07-14 | 구글 엘엘씨 | 핫워드 인식 및 수동 어시스턴스 |
JP7018850B2 (ja) * | 2018-08-20 | 2022-02-14 | ヤフー株式会社 | 端末装置、決定方法、決定プログラム及び決定装置 |
KR102498811B1 (ko) | 2018-08-21 | 2023-02-10 | 구글 엘엘씨 | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드 |
JP7322076B2 (ja) | 2018-08-21 | 2023-08-07 | グーグル エルエルシー | 自動アシスタントを起動させるための動的および/またはコンテキスト固有のホットワード |
KR20230145521A (ko) | 2018-08-23 | 2023-10-17 | 구글 엘엘씨 | 멀티-어시스턴트 환경의 특성에 따른 어시스턴트 응답성 규정하기 |
KR20200024068A (ko) * | 2018-08-27 | 2020-03-06 | 삼성전자주식회사 | 인텔리전트 서비스를 위해, 복수의 음성 데이터 수신 장치들을 선택적으로 이용하는 방법, 장치, 및 시스템 |
US11514917B2 (en) * | 2018-08-27 | 2022-11-29 | Samsung Electronics Co., Ltd. | Method, device, and system of selectively using multiple voice data receiving devices for intelligent service |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
CN109391528A (zh) * | 2018-08-31 | 2019-02-26 | 百度在线网络技术(北京)有限公司 | 语音智能设备的唤醒方法、装置、设备及存储介质 |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
KR102146524B1 (ko) * | 2018-09-19 | 2020-08-20 | 주식회사 포티투마루 | 음성 인식 학습 데이터 생성 시스템, 방법 및 컴퓨터 프로그램 |
US11315553B2 (en) | 2018-09-20 | 2022-04-26 | Samsung Electronics Co., Ltd. | Electronic device and method for providing or obtaining data for training thereof |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11119725B2 (en) * | 2018-09-27 | 2021-09-14 | Abl Ip Holding Llc | Customizable embedded vocal command sets for a lighting and/or other environmental controller |
US11152003B2 (en) * | 2018-09-27 | 2021-10-19 | International Business Machines Corporation | Routing voice commands to virtual assistants |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11100923B2 (en) * | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US10777186B1 (en) * | 2018-11-13 | 2020-09-15 | Amazon Technolgies, Inc. | Streaming real-time automatic speech recognition service |
EP3654249A1 (de) | 2018-11-15 | 2020-05-20 | Snips | Erweiterte konvolutionen und takt zur effizienten schlüsselwortauffindung |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
KR20200074680A (ko) | 2018-12-17 | 2020-06-25 | 삼성전자주식회사 | 단말 장치 및 이의 제어 방법 |
KR20200074690A (ko) * | 2018-12-17 | 2020-06-25 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
CN111415657A (zh) * | 2019-01-07 | 2020-07-14 | 成都启英泰伦科技有限公司 | 一种去中心化设备、多设备系统及其语音控制方法 |
WO2020163624A1 (en) | 2019-02-06 | 2020-08-13 | Pindrop Security, Inc. | Systems and methods of gateway detection in a telephone network |
CA3129378A1 (en) | 2019-02-07 | 2020-08-13 | Thomas Stachura | Privacy device for smart speakers |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11195518B2 (en) | 2019-03-27 | 2021-12-07 | Sonova Ag | Hearing device user communicating with a wireless communication device |
US12015637B2 (en) | 2019-04-08 | 2024-06-18 | Pindrop Security, Inc. | Systems and methods for end-to-end architectures for voice spoofing detection |
WO2020213767A1 (ko) * | 2019-04-19 | 2020-10-22 | 엘지전자 주식회사 | 다중 디바이스 제어 시스템과 방법 및 이를 실행하기 위한 컴포넌트가 저장된 비 일시적 컴퓨터 판독 가능 매체 |
CN110136707B (zh) * | 2019-04-22 | 2021-03-02 | 云知声智能科技股份有限公司 | 一种用于进行多设备自主决策的人机交互系统 |
WO2020218634A1 (ko) * | 2019-04-23 | 2020-10-29 | 엘지전자 주식회사 | 응답 기기 결정 방법 및 장치 |
WO2020222539A1 (en) * | 2019-05-02 | 2020-11-05 | Samsung Electronics Co., Ltd. | Hub device, multi-device system including the hub device and plurality of devices, and method of operating the same |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11482210B2 (en) | 2019-05-29 | 2022-10-25 | Lg Electronics Inc. | Artificial intelligence device capable of controlling other devices based on device information |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
CN110148401B (zh) * | 2019-07-02 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN112712803B (zh) * | 2019-07-15 | 2022-02-25 | 华为技术有限公司 | 一种语音唤醒的方法和电子设备 |
US11695809B2 (en) * | 2019-07-29 | 2023-07-04 | Samsung Electronics Co., Ltd. | System and method for registering device for voice assistant service |
EP4004907B1 (de) * | 2019-07-30 | 2023-07-12 | Dolby Laboratories Licensing Corporation | Aufweckworterkennung mehrerer vorrichtungen |
US11659332B2 (en) | 2019-07-30 | 2023-05-23 | Dolby Laboratories Licensing Corporation | Estimating user location in a system including smart audio devices |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
CN110415705B (zh) * | 2019-08-01 | 2022-03-01 | 苏州奇梦者网络科技有限公司 | 一种热词识别方法、系统、装置及存储介质 |
KR102243325B1 (ko) * | 2019-09-11 | 2021-04-22 | 넷마블 주식회사 | 시동어 인식 기술을 제공하기 위한 컴퓨터 프로그램 |
CN110660390B (zh) * | 2019-09-17 | 2022-05-03 | 百度在线网络技术(北京)有限公司 | 智能设备唤醒方法、智能设备及计算机可读存储介质 |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
DE102019215099B4 (de) * | 2019-10-01 | 2022-09-29 | Audi Ag | Verfahren zum Bereitstellen einer aktuellen lokalen Umgebungszustandskarte für ein Kraftfahrzeug sowie Kraftfahrzeug zum Durchführen eines derartigen Verfahrens |
KR102629796B1 (ko) * | 2019-10-15 | 2024-01-26 | 삼성전자 주식회사 | 음성 인식의 향상을 지원하는 전자 장치 |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11315551B2 (en) * | 2019-11-07 | 2022-04-26 | Accent Global Solutions Limited | System and method for intent discovery from multimedia conversation |
CN110890092B (zh) * | 2019-11-07 | 2022-08-05 | 北京小米移动软件有限公司 | 唤醒控制方法及装置、计算机存储介质 |
US11061958B2 (en) | 2019-11-14 | 2021-07-13 | Jetblue Airways Corporation | Systems and method of generating custom messages based on rule-based database queries in a cloud platform |
US11450325B1 (en) | 2019-12-12 | 2022-09-20 | Amazon Technologies, Inc. | Natural language processing |
US11551681B1 (en) * | 2019-12-13 | 2023-01-10 | Amazon Technologies, Inc. | Natural language processing routing |
US11380308B1 (en) | 2019-12-13 | 2022-07-05 | Amazon Technologies, Inc. | Natural language processing |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
CN111048086B (zh) * | 2019-12-24 | 2022-10-21 | 思必驰科技股份有限公司 | 多设备间的语音唤醒方法、和自协商的语音唤醒方法、装置及系统 |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
KR20210098250A (ko) * | 2020-01-31 | 2021-08-10 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
EP3866157B1 (de) * | 2020-02-13 | 2024-04-03 | Deutsche Telekom AG | Elektronische assistenzvorrichtung und betriebsverfahren |
KR20210136463A (ko) | 2020-05-07 | 2021-11-17 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11887589B1 (en) * | 2020-06-17 | 2024-01-30 | Amazon Technologies, Inc. | Voice-based interactions with a graphical user interface |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11670293B2 (en) | 2020-09-02 | 2023-06-06 | Google Llc | Arbitrating between multiple potentially-responsive electronic devices |
US11727925B2 (en) * | 2020-10-13 | 2023-08-15 | Google Llc | Cross-device data synchronization based on simultaneous hotword triggers |
US11798530B2 (en) | 2020-10-30 | 2023-10-24 | Google Llc | Simultaneous acoustic event detection across multiple assistant devices |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
US20220284883A1 (en) * | 2021-03-05 | 2022-09-08 | Comcast Cable Communications, Llc | Keyword Detection |
US12014734B2 (en) * | 2021-07-22 | 2024-06-18 | International Business Machines Corporation | Dynamic boundary creation for voice command authentication |
US20230098522A1 (en) * | 2021-09-30 | 2023-03-30 | Intuit Inc. | Automated categorization of data by generating unity and reliability metrics |
CN115547337B (zh) * | 2022-11-25 | 2023-03-03 | 深圳市人马互动科技有限公司 | 语音识别方法及相关产品 |
WO2024128824A1 (ko) * | 2022-12-14 | 2024-06-20 | 삼성전자 주식회사 | 전자 장치 및 이의 동작 방법 |
Family Cites Families (123)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4363102A (en) | 1981-03-27 | 1982-12-07 | Bell Telephone Laboratories, Incorporated | Speaker identification system using word recognition templates |
JPS59180599A (ja) * | 1983-03-31 | 1984-10-13 | 日本電気ホームエレクトロニクス株式会社 | 車載用音声認識制御装置 |
US5659665A (en) * | 1994-12-08 | 1997-08-19 | Lucent Technologies Inc. | Method and apparatus for including speech recognition capabilities in a computer system |
JP3674990B2 (ja) | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
JP3522421B2 (ja) | 1995-10-31 | 2004-04-26 | 株式会社リコー | 話者認識システムおよび話者認識方法 |
US5895448A (en) | 1996-02-29 | 1999-04-20 | Nynex Science And Technology, Inc. | Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose |
US6023676A (en) * | 1996-12-12 | 2000-02-08 | Dspc Israel, Ltd. | Keyword recognition system and method |
SE511418C2 (sv) | 1997-03-13 | 1999-09-27 | Telia Ab | Metod för talarverifiering/identifiering via modellering av typiska icke-typiska egenskaper. |
US6076055A (en) | 1997-05-27 | 2000-06-13 | Ameritech | Speaker verification method |
US5897616A (en) | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
JPH1152976A (ja) * | 1997-07-29 | 1999-02-26 | Nec Home Electron Ltd | 音声認識装置 |
JP3524370B2 (ja) * | 1998-02-19 | 2004-05-10 | 富士通テン株式会社 | 音声起動システム |
JP2000075954A (ja) | 1998-09-02 | 2000-03-14 | Sony Corp | 電子機器制御装置 |
US6141644A (en) | 1998-09-04 | 2000-10-31 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and speaker identification based on eigenvoices |
US6744860B1 (en) * | 1998-12-31 | 2004-06-01 | Bell Atlantic Network Services | Methods and apparatus for initiating a voice-dialing operation |
US6671672B1 (en) * | 1999-03-30 | 2003-12-30 | Nuance Communications | Voice authentication system having cognitive recall mechanism for password verification |
US6408272B1 (en) * | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
JP3357629B2 (ja) * | 1999-04-26 | 2002-12-16 | 旭化成株式会社 | 設備制御システム |
US6438524B1 (en) * | 1999-11-23 | 2002-08-20 | Qualcomm, Incorporated | Method and apparatus for a voice controlled foreign language translation device |
DE10015960C2 (de) * | 2000-03-30 | 2003-01-16 | Micronas Munich Gmbh | Spracherkennungsverfahren und Spracherkennungsvorrichtung |
US6567775B1 (en) | 2000-04-26 | 2003-05-20 | International Business Machines Corporation | Fusion of audio and video based speaker identification for multimedia information access |
US6826159B1 (en) | 2000-05-24 | 2004-11-30 | Cisco Technology, Inc. | System and method for providing speaker identification in a conference call |
EP1168736A1 (de) * | 2000-06-30 | 2002-01-02 | Alcatel | Telekommunikationseinrichtung und -Verfahren mit einer Spracherkennungseinrichtung |
US7016833B2 (en) | 2000-11-21 | 2006-03-21 | The Regents Of The University Of California | Speaker verification system using acoustic data and non-acoustic data |
US6973426B1 (en) | 2000-12-29 | 2005-12-06 | Cisco Technology, Inc. | Method and apparatus for performing speaker verification based on speaker independent recognition of commands |
US6701293B2 (en) * | 2001-06-13 | 2004-03-02 | Intel Corporation | Combining N-best lists from multiple speech recognizers |
JP4086280B2 (ja) * | 2002-01-29 | 2008-05-14 | 株式会社東芝 | 音声入力システム、音声入力方法及び音声入力プログラム |
JP4224250B2 (ja) * | 2002-04-17 | 2009-02-12 | パイオニア株式会社 | 音声認識装置、音声認識方法および音声認識プログラム |
JP2003345391A (ja) | 2002-05-23 | 2003-12-03 | Denso Corp | 端末、音声認識サーバ、音声認識システムおよびコンピュータプログラム |
US20030231746A1 (en) | 2002-06-14 | 2003-12-18 | Hunter Karla Rae | Teleconference speaker identification |
TW200409525A (en) * | 2002-11-26 | 2004-06-01 | Lite On Technology Corp | Voice identification method for cellular phone and cellular phone with voiceprint password |
EP1429314A1 (de) | 2002-12-13 | 2004-06-16 | Sony International (Europe) GmbH | Korrektion der Energie als Eingangsparameter für die Sprachverarbeitung |
US7222072B2 (en) * | 2003-02-13 | 2007-05-22 | Sbc Properties, L.P. | Bio-phonetic multi-phrase speaker identity verification |
US7571014B1 (en) | 2004-04-01 | 2009-08-04 | Sonos, Inc. | Method and apparatus for controlling multimedia players in a multi-zone system |
US8290603B1 (en) | 2004-06-05 | 2012-10-16 | Sonos, Inc. | User interfaces for controlling and manipulating groupings in a multi-zone media system |
US20070198262A1 (en) | 2003-08-20 | 2007-08-23 | Mindlin Bernardo G | Topological voiceprints for speaker identification |
US20050165607A1 (en) * | 2004-01-22 | 2005-07-28 | At&T Corp. | System and method to disambiguate and clarify user intention in a spoken dialog system |
US8214447B2 (en) | 2004-06-08 | 2012-07-03 | Bose Corporation | Managing an audio network |
US7720012B1 (en) | 2004-07-09 | 2010-05-18 | Arrowhead Center, Inc. | Speaker identification in the presence of packet losses |
US8412521B2 (en) * | 2004-08-20 | 2013-04-02 | Multimodal Technologies, Llc | Discriminative training of document transcription system |
US8521529B2 (en) | 2004-10-18 | 2013-08-27 | Creative Technology Ltd | Method for segmenting audio signals |
KR100679043B1 (ko) * | 2005-02-15 | 2007-02-05 | 삼성전자주식회사 | 음성 대화 인터페이스 장치 및 방법 |
US8041570B2 (en) * | 2005-05-31 | 2011-10-18 | Robert Bosch Corporation | Dialogue management using scripts |
US7603275B2 (en) * | 2005-10-31 | 2009-10-13 | Hitachi, Ltd. | System, method and computer program product for verifying an identity using voiced to unvoiced classifiers |
JP2006227634A (ja) * | 2006-03-29 | 2006-08-31 | Seiko Epson Corp | 音声認識を用いた機器制御方法および音声認識を用いた機器制御システムならびに音声認識を用いた機器制御プログラムを記録した記録媒体 |
CN1996847B (zh) | 2006-12-27 | 2010-05-19 | 中国科学院上海技术物理研究所 | 基于协作网格的图像及多媒体数据通信与存储系统 |
US8099288B2 (en) | 2007-02-12 | 2012-01-17 | Microsoft Corp. | Text-dependent speaker verification |
US20110060587A1 (en) * | 2007-03-07 | 2011-03-10 | Phillips Michael S | Command and control utilizing ancillary information in a mobile voice-to-speech application |
US8838457B2 (en) | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US8352264B2 (en) | 2008-03-19 | 2013-01-08 | Canyon IP Holdings, LLC | Corrective feedback loop for automated speech recognition |
US8503686B2 (en) * | 2007-05-25 | 2013-08-06 | Aliphcom | Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems |
US8385233B2 (en) | 2007-06-12 | 2013-02-26 | Microsoft Corporation | Active speaker identification |
GB2450886B (en) * | 2007-07-10 | 2009-12-16 | Motorola Inc | Voice activity detector and a method of operation |
JP2009104020A (ja) | 2007-10-25 | 2009-05-14 | Panasonic Electric Works Co Ltd | 音声認識装置 |
GB2458461A (en) * | 2008-03-17 | 2009-09-23 | Kai Yu | Spoken language learning system |
US8504365B2 (en) * | 2008-04-11 | 2013-08-06 | At&T Intellectual Property I, L.P. | System and method for detecting synthetic speaker verification |
CA2665014C (en) * | 2008-05-23 | 2020-05-26 | Accenture Global Services Gmbh | Recognition processing of a plurality of streaming voice signals for determination of responsive action thereto |
US8145482B2 (en) * | 2008-05-25 | 2012-03-27 | Ezra Daya | Enhancing analysis of test key phrases from acoustic sources with key phrase training models |
KR101056511B1 (ko) * | 2008-05-28 | 2011-08-11 | (주)파워보이스 | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 |
US8676586B2 (en) * | 2008-09-16 | 2014-03-18 | Nice Systems Ltd | Method and apparatus for interaction or discourse analytics |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9922640B2 (en) * | 2008-10-17 | 2018-03-20 | Ashwin P Rao | System and method for multimodal utterance detection |
KR101519104B1 (ko) * | 2008-10-30 | 2015-05-11 | 삼성전자 주식회사 | 목적음 검출 장치 및 방법 |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US8209174B2 (en) | 2009-04-17 | 2012-06-26 | Saudi Arabian Oil Company | Speaker verification system |
US9858925B2 (en) * | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
CN101923853B (zh) | 2009-06-12 | 2013-01-23 | 华为技术有限公司 | 说话人识别方法、设备和系统 |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8626511B2 (en) | 2010-01-22 | 2014-01-07 | Google Inc. | Multi-dimensional disambiguation of voice commands |
JP2011232521A (ja) * | 2010-04-27 | 2011-11-17 | On Semiconductor Trading Ltd | 音声認識装置 |
KR101672212B1 (ko) | 2010-06-15 | 2016-11-04 | 엘지전자 주식회사 | 휴대 단말기 및 그 동작 방법 |
US8719018B2 (en) | 2010-10-25 | 2014-05-06 | Lockheed Martin Corporation | Biometric speaker identification |
US8874773B2 (en) | 2010-11-30 | 2014-10-28 | Gary W. Grube | Obtaining group and individual emergency preparedness communication information |
WO2012083552A1 (en) * | 2010-12-24 | 2012-06-28 | Huawei Technologies Co., Ltd. | Method and apparatus for voice activity detection |
US8296142B2 (en) * | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9159324B2 (en) | 2011-07-01 | 2015-10-13 | Qualcomm Incorporated | Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context |
US8660847B2 (en) * | 2011-09-02 | 2014-02-25 | Microsoft Corporation | Integrated local and cloud based speech recognition |
US8340975B1 (en) * | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
ES2409530B1 (es) * | 2011-10-14 | 2014-05-14 | Telefónica, S.A. | Método para gestionar el reconocimiento del habla de llamadas de audio |
US9031847B2 (en) | 2011-11-15 | 2015-05-12 | Microsoft Technology Licensing, Llc | Voice-controlled camera operations |
EP2783365B1 (de) * | 2011-11-21 | 2018-02-21 | Robert Bosch GmbH | Verfahren und system zur adaption von grammatiken in hybriden spracherkennungs-engines zur verbesserung einer lokalen spracherkennungs-leistung |
US8825020B2 (en) * | 2012-01-12 | 2014-09-02 | Sensory, Incorporated | Information access and device control using mobile phones and audio in the home environment |
US9117449B2 (en) | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
US9093076B2 (en) * | 2012-04-30 | 2015-07-28 | 2236008 Ontario Inc. | Multipass ASR controlling multiple applications |
US20140006825A1 (en) | 2012-06-30 | 2014-01-02 | David Shenhav | Systems and methods to wake up a device from a power conservation state |
US9536528B2 (en) * | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
JP6131537B2 (ja) | 2012-07-04 | 2017-05-24 | セイコーエプソン株式会社 | 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法 |
TWI474317B (zh) * | 2012-07-06 | 2015-02-21 | Realtek Semiconductor Corp | 訊號處理裝置以及訊號處理方法 |
US8983836B2 (en) * | 2012-09-26 | 2015-03-17 | International Business Machines Corporation | Captioning using socially derived acoustic profiles |
CN103729388A (zh) * | 2012-10-16 | 2014-04-16 | 北京千橡网景科技发展有限公司 | 用于网络用户发表状态的实时热点检测方法 |
US20150228274A1 (en) | 2012-10-26 | 2015-08-13 | Nokia Technologies Oy | Multi-Device Speech Recognition |
US8996372B1 (en) * | 2012-10-30 | 2015-03-31 | Amazon Technologies, Inc. | Using adaptation data with cloud-based speech recognition |
JP2014092777A (ja) | 2012-11-06 | 2014-05-19 | Magic Hand:Kk | モバイル通信機器の音声による起動 |
US20140156281A1 (en) * | 2012-12-03 | 2014-06-05 | Qualcomm Incorporated | Voice-controlled configuration of an automation system |
US9704486B2 (en) | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
JP2014130445A (ja) * | 2012-12-28 | 2014-07-10 | Toshiba Corp | 情報抽出サーバ、情報抽出クライアント、情報抽出方法、及び、情報抽出プログラム |
CN103971685B (zh) * | 2013-01-30 | 2015-06-10 | 腾讯科技(深圳)有限公司 | 语音命令识别方法和系统 |
US9842489B2 (en) * | 2013-02-14 | 2017-12-12 | Google Llc | Waking other devices for additional data |
US9256269B2 (en) | 2013-02-20 | 2016-02-09 | Sony Computer Entertainment Inc. | Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state |
US9349386B2 (en) * | 2013-03-07 | 2016-05-24 | Analog Device Global | System and method for processor wake-up based on sensor data |
US9361885B2 (en) * | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9257952B2 (en) * | 2013-03-13 | 2016-02-09 | Kopin Corporation | Apparatuses and methods for multi-channel signal compression during desired voice activity detection |
US8768687B1 (en) * | 2013-04-29 | 2014-07-01 | Google Inc. | Machine translation of indirect speech |
US9380654B2 (en) | 2013-07-11 | 2016-06-28 | General Electric Company | Light emitting diode (LED) lamp replacement driver for linear fluorescent lamps |
US20150032238A1 (en) * | 2013-07-23 | 2015-01-29 | Motorola Mobility Llc | Method and Device for Audio Input Routing |
WO2015025330A1 (en) | 2013-08-21 | 2015-02-26 | Kale Aaditya Kishore | A system to enable user to interact with an electronic processing device using voice of the user |
WO2015029304A1 (ja) * | 2013-08-29 | 2015-03-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声認識方法及び音声認識装置 |
US9343068B2 (en) | 2013-09-16 | 2016-05-17 | Qualcomm Incorporated | Method and apparatus for controlling access to applications having different security levels |
US8775191B1 (en) | 2013-11-13 | 2014-07-08 | Google Inc. | Efficient utterance-specific endpointer triggering for always-on hotwording |
US9373321B2 (en) * | 2013-12-02 | 2016-06-21 | Cypress Semiconductor Corporation | Generation of wake-up words |
CN103745731B (zh) * | 2013-12-31 | 2016-10-19 | 科大讯飞股份有限公司 | 一种语音识别效果自动化测试系统及测试方法 |
US8938394B1 (en) | 2014-01-09 | 2015-01-20 | Google Inc. | Audio triggers based on context |
US9639854B2 (en) | 2014-06-26 | 2017-05-02 | Nuance Communications, Inc. | Voice-controlled information exchange platform, such as for providing information to supplement advertising |
US9424841B2 (en) | 2014-10-09 | 2016-08-23 | Google Inc. | Hotword detection on multiple devices |
US9318107B1 (en) | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US9812126B2 (en) | 2014-11-28 | 2017-11-07 | Microsoft Technology Licensing, Llc | Device arbitration for listening devices |
JP6754184B2 (ja) | 2014-12-26 | 2020-09-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声認識装置及び音声認識方法 |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10506068B2 (en) | 2015-04-06 | 2019-12-10 | Microsoft Technology Licensing, Llc | Cloud-based cross-device digital pen pairing |
US9875081B2 (en) | 2015-09-21 | 2018-01-23 | Amazon Technologies, Inc. | Device selection for providing a response |
JP6943656B2 (ja) | 2017-07-12 | 2021-10-06 | 日立造船株式会社 | コイン形電池およびその製造方法 |
JP2021184030A (ja) | 2020-05-21 | 2021-12-02 | キヤノン株式会社 | 単焦点レンズおよび撮像装置 |
-
2015
- 2015-04-01 US US14/675,932 patent/US9318107B1/en active Active
- 2015-09-29 JP JP2016551250A patent/JP6208376B2/ja active Active
- 2015-09-29 KR KR1020167022701A patent/KR101832648B1/ko active IP Right Grant
- 2015-09-29 EP EP15781811.3A patent/EP3084759B1/de active Active
- 2015-09-29 DE DE202015010012.0U patent/DE202015010012U1/de active Active
- 2015-09-29 EP EP16207288.8A patent/EP3171359B1/de active Active
- 2015-09-29 EP EP19201158.3A patent/EP3627503B1/de active Active
- 2015-09-29 KR KR1020167021778A patent/KR101752119B1/ko active IP Right Grant
- 2015-09-29 EP EP23199925.1A patent/EP4280210A3/de active Pending
- 2015-09-29 EP EP16195834.3A patent/EP3139378B1/de active Active
- 2015-09-29 CN CN201580008549.8A patent/CN106030699B/zh active Active
- 2015-09-29 CN CN201911100052.5A patent/CN111028826B/zh active Active
- 2015-09-29 WO PCT/US2015/052860 patent/WO2016057268A1/en active Application Filing
-
2016
- 2016-04-01 US US15/088,477 patent/US9514752B2/en active Active
- 2016-11-09 US US15/346,914 patent/US10134398B2/en active Active
- 2016-12-26 JP JP2016250670A patent/JP6427549B2/ja active Active
-
2017
- 2017-09-05 JP JP2017170185A patent/JP6530023B2/ja active Active
-
2018
- 2018-10-26 US US16/171,495 patent/US10593330B2/en active Active
-
2019
- 2019-05-14 JP JP2019091428A patent/JP6893951B2/ja active Active
- 2019-08-28 US US16/553,883 patent/US10909987B2/en active Active
- 2019-11-29 JP JP2019216761A patent/JP7022733B2/ja active Active
-
2020
- 2020-12-29 US US17/137,157 patent/US11557299B2/en active Active
-
2021
- 2021-11-11 JP JP2021184030A patent/JP7354210B2/ja active Active
-
2023
- 2023-01-05 US US18/150,561 patent/US11915706B2/en active Active
- 2023-09-20 JP JP2023153929A patent/JP2023174674A/ja active Pending
-
2024
- 2024-01-24 US US18/421,254 patent/US20240169992A1/en active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE202015010012U1 (de) | Aktivierungswort-Ermittlung auf mehreren Vorrichtungen | |
DE202017104895U1 (de) | Hotword-Detektion bei mehreren Vorrichtungen | |
DE102017012415B4 (de) | Identifikation eines virtuellen Assistenten von nahgelegenen Rechenvorrichtungen | |
DE202017105942U1 (de) | Verarbeiten von Sprachbefehlen basierend auf der Vorrichtungstopologie | |
DE202017105741U1 (de) | Automatisierte Sprachaussprachezuteilung | |
DE102016125494A1 (de) | Das sichere Ausführen von Sprachfunktionen unter der Verwendung kontextabhängiger Signale | |
DE102017125396A1 (de) | Abfrage-Endpunktbestimmung auf Basis der Lippenerkennung | |
DE202015009298U1 (de) | Dynamische Anpassung von Shard-Zuweisungen | |
DE102014117344A1 (de) | Gerät und Verfahren zum Empfangen einer Eingabe und Darstellen als Antwort eine Ausgabe auf einem von dem ersten Gerät unterschiedlichen zweiten Gerät | |
DE212015000185U1 (de) | Soziale Erinnerungen | |
DE112016005207T5 (de) | Leistungsüberwachung in einem verteilten Speichersystem | |
DE102017114145A1 (de) | Verfahren und Vorrichtung zur Informationsverarbeitung | |
DE112016007250B4 (de) | Verfahren und System zum Optimieren von Spracherkennung und Informationssuche basierend auf Gesprächsgruppenaktivitäten | |
DE202016008204U1 (de) | Suchergebnis unter vorherigem Abrufen von Sprachanfragen | |
DE102018114453A1 (de) | Interaktive Sessions | |
DE102018114658A1 (de) | Eingabe während einer Unterhaltungssitzung | |
DE102017111569A1 (de) | Responsive, visuelle Darstellung von Kurzinformationen für vom Benutzer angefragte Themen | |
DE202017105979U1 (de) | Systeme und Computerprogrammprodukte zur Handhabung von Formalität in Übersetzungen von Text | |
DE102022104709A1 (de) | Ultrabreitband zum Identifizieren und Steuern eines weiteren Geräts | |
DE102018119104A1 (de) | Übertragen von audio an einen identifizierten empfänger | |
DE102021131463A1 (de) | Entsperr- und/oder Aufweckeinrichtung basierend auf einer Ultrabreitband-Standortverfolgung | |
DE202017104587U1 (de) | Gestenaktivierte Fernsteuerung | |
DE202017105719U1 (de) | Kontext-Hotwords | |
DE102018210437A1 (de) | Natürliches Maschinengesprächsverfahren und -vorrichtung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R151 | Utility model maintained after payment of second maintenance fee after six years | ||
R207 | Utility model specification | ||
R152 | Utility model maintained after payment of third maintenance fee after eight years |