DE102016118680A1 - Situationsabhängiges Aufheben eines Weckwortes zum Aktivieren einer Sprachbefehlseingabe - Google Patents

Situationsabhängiges Aufheben eines Weckwortes zum Aktivieren einer Sprachbefehlseingabe Download PDF

Info

Publication number
DE102016118680A1
DE102016118680A1 DE102016118680.5A DE102016118680A DE102016118680A1 DE 102016118680 A1 DE102016118680 A1 DE 102016118680A1 DE 102016118680 A DE102016118680 A DE 102016118680A DE 102016118680 A1 DE102016118680 A1 DE 102016118680A1
Authority
DE
Germany
Prior art keywords
signal
wake
word
voice command
sensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102016118680.5A
Other languages
English (en)
Other versions
DE102016118680B4 (de
Inventor
Arnold S. Weksler
John Carl Mese
Nathan J. Peterson
Russell Speight VanBlon
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo PC International Ltd
Original Assignee
Lenovo Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Singapore Pte Ltd filed Critical Lenovo Singapore Pte Ltd
Publication of DE102016118680A1 publication Critical patent/DE102016118680A1/de
Application granted granted Critical
Publication of DE102016118680B4 publication Critical patent/DE102016118680B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Bei einem Aspekt werden Geräte und Verfahren zum Empfangen mindestens eines Signals von mindestens einem Sensor, und basierend auf dem Analysieren des mindestens einen Signals, zum situationsabhängigen Aufheben der Notwendigkeit des Empfangens eines Weckwortes, um eine Sprachbefehlseingabe für einen Computer zu aktivieren, offenbart.

Description

  • GEBIET
  • Die vorliegende Anmeldung betrifft im Allgemeinen das situationsabhängige Aufheben der Weckwortaktivierung einer Sprachbefehlseingabe in einen Computer.
  • HINTERGRUND
  • Zusätzlich zu der Verwendung von bedienbaren Tasten können Weckwörter notwendig sein, um eine Spracheingabe in Computern zu aktivieren. Die Notwendigkeit, dass der Benutzer das Weckwort ausspricht, kann jedoch unpraktisch sein.
  • KURZDARSTELLUNG
  • Wie es hierin verstanden wird, können Weckwörter in manchen Situationen hilfreich jedoch in anderen nicht hilfreich sein.
  • Entsprechend umfasst bei einem Aspekt ein Gerät einen Prozessor, ein Mikrofon, auf das der Prozessor zugreifen kann, und ein Speichergerät, auf das der Prozessor zugreifen kann. Das Speichergerät enthält Anweisungen, die durch den Prozessor ausführbar sind, um in Reaktion auf eine erste Sensoreingabe, die eine erste Situation angibt, den Empfang eines vorbestimmten Weckwortes zu benötigen, das über das Mikrofon empfangen wird, um die Sprachbefehlseingabe zu aktivieren. Die Anweisungen sind auch ausführbar, um in Reaktion auf eine zweite Sensoreingabe, die eine zweite Situation angibt, die Notwendigkeit, ein vorbestimmtes Weckwort über das Mikrofon zu empfangen, um eine Sprachbefehlseingabe zu aktivieren, aufzuheben und stattdessen Befehle, die über das mindestens eine Mikrofon empfangen werden, sofort zu verarbeiten, ohne zuerst das Weckwort zu empfangen.
  • Bei einigen Beispielen stammt die Sensoreingabe von mindestens einer Kamera. Bei einigen Beispielen stammt die Sensoreingabe von mindestens einem Mikrofon. Bei anderen Beispielen stammt die Sensoreingabe von mindestens einem Bluetooth-Empfänger. Bei noch anderen Beispielen stammt die Sensoreingabe von mindestens einem Bewegungssensor. Bei noch anderen Ausführungsformen stammt die Sensoreingabe von mindestens einem Fahrzeugbelegungssensor. Die Sensoreingabe kann von einer Kombination von zwei beliebigen oder mehreren der obigen Sensoren stammen.
  • Bei einem anderen Aspekt umfasst ein computerlesbares Speichermedium, das kein transitorisches Signal ist, Anweisungen, die durch einen Prozessor ausführbar sind, um ein Signal von mindestens einem Sensor zu empfangen, um zu bestimmen, ob das Signal die Anwesenheit von mehreren Personen angibt, um eine Weckwortaktivierung der Sprachbefehlseingabe in Reaktion auf eine Bestimmung, dass das Signal die Anwesenheit von mehreren Personen angibt, zu ermöglichen, und um eine Weckwortaktivierung der Sprachbefehlseingabe in Reaktion auf eine Bestimmung, dass das Signal keine Anwesenheit von mehreren Personen angibt, zu deaktivieren.
  • Bei noch einem anderen Aspekt umfasst ein Verfahren das Empfangen mindestens eines Signals von mindestens einem Sensor und basierend auf der Analyse des mindestens einen Signals das situationsabhängige Aufheben der Notwendigkeit des Empfangens eines Weckwortes, um eine Sprachbefehlseingabe für einen Computer zu aktivieren.
  • Die Einzelheiten der vorliegenden Grundsätze, sowohl bezüglich ihres Aufbaus als auch ihrer Funktionsweise, sind am besten mit Bezug auf die beiliegenden Zeichnungen zu verstehen, in denen sich die gleichen Bezugszeichen auf die gleichen Teile beziehen.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Es zeigen:
  • 1 ein Blockdiagramm eines beispielhaften Systems gemäß den vorliegenden Grundsätzen;
  • 2 ein Blockdiagramm eines Netzwerks von Geräten gemäß den vorliegenden Grundsätzen;
  • 3 bis 7 Ablaufschemata einer beispielhaften Logik, die mit den vorliegenden Grundsätzen übereinstimmt; und
  • 8 eine beispielhafte Benutzerschnittstelle, die in Übereinstimmung mit den vorliegenden Grundsätzen verwendet werden kann.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Mit Bezug auf beliebige hier besprochene Computersysteme kann ein System Server- und Client-Bestandteile umfassen, die über ein Netzwerk verbunden sind, so dass Daten zwischen den Client- und Server-Bestandteilen ausgetauscht werden können. Die Client-Bestandteile können eine oder mehrere Computergeräte umfassen, wozu Fernseher (z.B. Smart-TVs, internetaktivierte TVs), Computer, wie etwa Desktop-, Laptop- und Tablet-Computer, so genannte konvertierbare Geräte (die z.B. eine Tablet-Konfiguration und eine Laptop-Konfiguration aufweisen) und andere mobile Geräte, einschließlich Smartphones, gehören. Diese Client-Geräte können als nicht einschränkende Beispiele Betriebssysteme von Apple, Google oder Microsoft verwenden. Es kann ein Unix- oder ähnliches Betriebssystem, wie etwa Linux, verwendet werden. Diese Betriebssysteme können einen oder mehrere Browser ausführen, wie etwa einen Browser, der von Microsoft oder Google oder Mozilla hergestellt wird, oder ein anderes Browser-Programm, das auf Web-Anwendungen zugreifen kann, die von den Internet-Servern über ein Netzwerk, wie etwa das Internet, ein lokales Intranet oder ein virtuelles privates Netzwerk, gehostet werden.
  • Wie sie hierin verwendet werden, beziehen sich die Anweisungen auf computerumgesetzte Schritte zum Verarbeiten von Informationen in dem System. Die Anweisungen können als Software, Firmware oder Hardware umgesetzt werden; daher werden erläuternde Bauteile, Blöcke, Module, Schaltungen und Schritte im Hinblick auf ihre Funktionalität dargelegt.
  • Ein Prozessor kann ein beliebiger herkömmlicher universeller Einzel- oder Mehr-Chip-Prozessor sein, der eine Logik anhand von diversen Leitungen, wie etwa Adressleitungen, Datenleitungen und Steuerleitungen, und Registern und Schieberegistern ausführen kann. Des Weiteren können beliebige hierin beschriebene logische Blöcke, Module und Schaltungen zusätzlich zu einem universellen Prozessor, in oder durch einen digitalen Signalprozessor (DSP), einem Field Programmable Gate-Array (FPGA) oder einer anderen logischen Geräten, wie etwa einer anwendungsspezifischen integrierten Schaltung (ASIC), einer diskreten Gatter- oder Transistorlogik, diskreten Hardware-Bauteilen oder einer beliebigen Kombination davon, die ausgelegt ist, um die hier beschriebenen Funktionen auszuführen, umgesetzt oder ausgeführt werden. Ein Prozessor kann durch einen Controller oder eine Zustandsmaschine oder eine Kombination von Computergeräten umgesetzt werden.
  • Jede Software und/oder alle Anwendungen, die hierin anhand von Ablaufschemata und/oder Benutzerschnittstellen beschrieben werden, kann bzw. können diverse Teilroutinen, Prozeduren usw. umfassen. Es versteht sich, dass die Logik, die offenbart wird, wie sie z.B. von einem Modul ausgeführt wird, auf andere Software-Module umverteilt und/oder zu einem einzigen Modul kombiniert und/oder als gemeinsam nutzbare Bibliothek zur Verfügung gestellt werden kann.
  • Wenn sie als Software umgesetzt wird, kann eine Logik in einer geeigneten Sprache verfasst sein, wie etwa ohne Einschränkung in C+ oder C++, und kann in einem computerlesbaren Speichermedium (das beispielsweise vielleicht kein vorübergehendes Signal ist), wie etwa einem Arbeitsspeicher (RAM), einem Festwertspeicher (ROM), einem elektrisch löschbaren programmierbaren Festwertspeicher (EEPROM), einem Compact-Disk Festwertspeicher (CD-ROM) oder einer anderen optischen Plattenspeichergeräten, wie etwa einer Digital Versatile Disk (DVD), einem Magnetplattenspeichergerät oder anderen magnetischen Speichergeräten, wozu auswechselbare USB-Sticks usw. gehören, gespeichert sein oder darüber übertragen werden. Eine Verbindung kann ein computerlesbares Medium herstellen. Diese Verbindungen können zum Beispiel fest verdrahtete Kabel umfassen, zu denen Glasfaserkabel und Koaxialdrähte und Kabel mit verdrillten Aderpaaren gehören. Diese Verbindungen können drahtlose Kommunikationsverbindungen umfassen, wozu Infrarot und Funk gehören.
  • Bei einem Beispiel kann ein Prozessor über seine Eingangsleitungen auf Informationen von einem Datenspeichergerät, wie etwa von dem computerlesbaren Speichermedium, zugreifen, und/oder kann der Prozessor drahtlos auf Informationen von einem Internet-Server aus zugreifen, indem er einen drahtlosen Transceiver aktiviert, um Daten zu senden und zu empfangen. Die Daten werden typischerweise durch Schaltungen zwischen der Antenne und den Registern des Prozessors, wenn sie empfangen werden, von analogen zu digitalen Signalen, und wenn sie gesendet werden, von digitalen zu analogen Signalen umgewandelt. Der Prozessor verarbeitet dann die Daten durch seine Schieberegister, um berechnete Daten auf Ausgangsleitungen auszugeben, um die berechneten Daten an dem Gerät vorzulegen.
  • Die Bauteile, die in einer Ausführungsform enthalten sind, können in anderen Ausführungsformen in einer beliebigen geeigneten Kombination verwendet werden. Beispielsweise können beliebige der diversen hier beschriebenen und/oder in den Figuren abgebildeten Bauteile kombiniert, ausgetauscht werden oder von anderen Ausführungsformen ausgeschlossen sein.
  • „Ein System, das mindestens eines von A, B und C aufweist” (ebenso „ein System, das mindestens eines von A, B oder C aufweist” und „ein System, das mindestens eines von A, B, C aufweist”) umfasst Systeme, die A alleine, B alleine, C alleine, A und B zusammen, A und C zusammen, B und C zusammen und/oder A, B und C zusammen aufweisen, usw.
  • „Ein System, das eines oder mehrere von A, B und C aufweist” (ebenso „ein System, das eines oder mehrere von A, B oder C aufweist” und „ein System, das eines oder mehrere von A, B, C aufweist”) umfasst Systeme, die A alleine, B alleine, C alleine, A und B zusammen, A und C zusammen, B und C zusammen und/oder A, B und C zusammen aufweisen, usw.
  • Der Begriff „Schaltung” oder „Schaltungen” kann in der Kurzdarstellung, der Beschreibung und/oder den Ansprüchen verwendet werden. Wie es in der Technik wohlbekannt ist, umfasst der Begriff „Schaltungen” alle Ebenen der verfügbaren Integration, z.B. von diskreten logischen Schaltungen bis hin zur höchsten Ebene der Schaltungsintegration, wie etwa VLSI, und umfasst programmierbare logische Komponenten, die programmiert sind, um die Funktionen einer Ausführungsform auszuführen, sowie universelle oder spezifische Prozessoren, die mit Anweisungen programmiert sind, um diese Funktionen auszuführen.
  • Nun insbesondere mit Bezug auf 1 zeigt diese ein beispielhaftes Blockdiagramm eines Informationshandhabungssystems und/oder eines Computersystems 100. Es sei zu beachten, dass bei einigen Ausführungsformen das System 100 ein Desktop-Computersystem, wie etwa eines der PC-Reihe ThinkCentre® oder ThinkPad®, die von Lenovo (US) Inc. aus Morrisville, NC, verkauft wird, oder ein Arbeitsstationscomputer, wie etwa die Reihe von konvertierbaren Computern YogaTM oder eine ThinkStation®, die von Lenovo (US) Inc. aus Morrisville, NC, verkauft wird, sein kann; wie es jedoch aus der vorliegenden Beschreibung hervorgeht, kann ein Client-Gerät, ein Server oder eine andere Maschine gemäß den vorliegenden Grundsätzen andere Merkmale oder nur einige der Merkmale des Systems 100 umfassen. Auch kann das System 100 z.B. eine Spielkonsole, wie etwa eine XBOX® oder Playstation®, sein. Oder das System 100 kann ein Funktelefon, einen Notebook-Computer oder ein anderes tragbares Computergerät umfassen.
  • Wie in 1 gezeigt, umfasst das System 100 einen so genannten Chipsatz 110. Ein Chipsatz bezieht sich auf eine Gruppe von integrierten Schaltungen bzw. Chips, die ausgelegt sind, um zusammen zu arbeiten. Die Chipsätze werden gewöhnlich als Einzelprodukt vermarktet (siehe z.B. die Chipsätze, die unter den Markennamen INTEL®, AMD® usw. vermarktet werden).
  • Bei dem Beispiel aus 1 weist der Chipsatz 110 eine bestimmte Architektur auf, die je nach Marke oder Hersteller einigermaßen variieren kann. Die Architektur des Chipsatzes 110 umfasst eine Kern- und Speichersteuerungsgruppe 120 und einen E/A-Steuerknoten 150, die Informationen (beispielsweise Daten, Signale, Befehle usw.) über eine Direct Management Interface oder Direct Media Interface (DMI) 142 oder einen Link-Controller 144 austauschen. Bei dem Beispiel aus 1 ist die DMI 142 eine Chip-zu-Chip-Schnittstelle (gelegentlich auch als Verknüpfung zwischen einer „Northbridge” und einer „Southbridge” bezeichnet).
  • Die Kern- und Speichersteuerungsgruppe 120 umfasst einen oder mehrere Prozessoren 122 (beispielsweise Einzel- oder Mehrkern usw.) und einen Speicher-Steuerknoten 126, die Informationen über einen Front Side Bus (FSB) 124 austauschen. Wie hier beschrieben, können diverse Komponenten der Kern- und Speichersteuerungsgruppe 120 zu einem einzigen Prozessorchip integriert sein, um beispielsweise einen Chip zu erstellen, der die herkömmliche Architektur nach Art einer „Northbridge” ersetzt.
  • Der Speicher-Steuerknoten 126 bildet eine Schnittstelle mit dem Speicher 140. Beispielsweise kann der Speicher-Steuerknoten 126 Unterstützung für einen DDR-SDRAM-Speicher (z.B. DDR, DDR2, DDR3 usw.) bereitstellen. Im Allgemeinen ist der Speicher 140 eine Art von Arbeitsspeicher (RAM). Er wird häufig als „Systemspeicher” bezeichnet.
  • Der Speicher-Steuerknoten 126 umfasst ferner eine Niederspannungs-Differenzialsignalisierungs-(LVDS)Schnittstelle 132. Die LVDS 132 kann eine so genannte LVDS-Anzeigeschnittstelle (LDI) zur Unterstützung eines Anzeigegerätes 192 (z.B. einer CRT, eines Flachbildschirms, eines Projektors, einer berührungsaktivierten Anzeige usw.) sein. Ein Block 138 umfasst einige Beispiele von Techniken, die über die LVDS-Schnittstelle 132 unterstützt werden können (z.B. serielles digitales Video, HDMI/DVI, DisplayPort). Der Speicher-Steuerknoten 126 umfasst auch eine oder mehrere PCI-Express-Schnittstellen (PCI-E) 134, beispielsweise zur Unterstützung der diskreten Grafik 136. Die diskrete Grafik, die eine PCI-E-Schnittstelle verwendet, hat sich zu einem alternativen Lösungsansatz für einen beschleunigten Grafikanschluss (AGP) entwickelt. Beispielsweise kann der Speicher-Steuerknoten 126 einen 16-spurigen (x16) PCI-E-Anschluss für eine externe Grafikkarte auf PCI-E-Basis umfassen (einschließlich z.B. einer oder mehrerer GPUs). Ein beispielhaftes System kann AGP oder PCI-E zur Unterstützung der Grafik umfassen.
  • Bei den Beispielen, bei denen er verwendet wird, kann der E/A-Steuerknoten 150 diverse Schnittstellen umfassen. Das Beispiel aus 1 umfasst eine SATA-Schnittstelle 151, eine oder mehrere PCI-E-Schnittstellen 152 (wahlweise eine oder mehrere ältere PCI-Schnittstellen), eine oder mehrere USB-Schnittstellen 153, eine LAN-Schnittstelle 154 (ganz allgemein eine Netzwerkschnittstelle zur Kommunikation über mindestens ein Netzwerk, wie etwa das Internet, ein WAN, ein LAM usw. unter der Leitung des oder der Prozessoren 122), eine universelle E/A-Schnittstelle (GPIO) 155, eine Schnittstelle 170 mit geringer Stiftanzahl (LPC), eine Energieverwaltungsschnittstelle 161, eine Taktgeberschnittstelle 162, eine Audioschnittstelle 163 (z.B. für Lautsprecher 194, um Audiomaterial auszugeben), eine Gesamtbetriebskosten-(TCO)Schnittstelle 164, eine Systemverwaltungsbus-Schnittstelle (z.B. eine serielle Multimaster-Computerbusschnittstelle) 165 und eine serielle periphere Flash-Speicher-/Controller-Schnittstelle (SPI-Flash) 166, die bei dem Beispiel aus 1 das BIOS 168 und den Boot-Code 190 umfasst. Mit Bezug auf die Netzwerkverbindungen kann der E/A-Steuerknoten 150 integrierte Gigabit-Ethernet-Controller-Leitungen umfassen, die mit einem PCI-E-Schnittstellenanschluss gemultiplext sind. Andere Netzwerkmerkmale können unabhängig von einer PCI-E-Schnittstelle funktionieren.
  • Die Schnittstellen des E/A-Steuerknotens 150 können die Kommunikation mit diversen Geräten, Netzwerken usw. bereitstellen. Beispielsweise stellt die SATA-Schnittstelle 151, wenn sie verwendet wird, das Lesen, das Schreiben oder das Lesen und Schreiben von Informationen auf einem oder mehreren Laufwerken 180 bereit, wie etwa auf HDDs, SDDs oder einer Kombination davon, doch auf jeden Fall versteht es sich, dass die Laufwerke 180 z.B. greifbare computerlesbare Speichermedien sind, die keine vorübergehenden Signale sein können. Der E/A-Steuerknoten 150 kann auch eine weiterentwickelte Host-Controller-Schnittstelle (AHCI) umfassen, um ein oder mehrere Laufwerke 180 zu unterstützen. Die PCI-E-Schnittstelle 152 ermöglicht drahtlose Verbindungen 182 zu den Geräten, Netzwerken usw. Die USB-Schnittstelle 153 stellt Eingabegeräte 184, wie etwa Tastaturen (KB), Mäuse, und diverse andere Geräte (z.B. Kameras, Telefone, Speichergeräte, Medienwiedergabegeräte usw.) bereit. Andere Eingabegeräte können Fahrzeugbelegungssensoren umfassen, wie etwa Sitzsensoren, die auf das erfasste Gewicht reagieren, ein Signal erzeugen, das angibt, dass eine Person auf dem Sitz Platz genommen hat. In diesem Fall kann das Signal an ein Motorsteuermodul (ECM) eines Fahrzeugs gesendet werden und von dem ECM gemäß der nachstehenden Diskussion verwendet werden, um eine Weckwort-Spracheingabe zu aktivieren und zu deaktivieren, oder kann das ECM das Signal beispielsweise über Bluetooth an den Prozessor eines CE-Gerätes senden, um es dem CE-Geräteprozessor zu ermöglichen die Weckwortsteuerung gemäß den nachstehenden Grundsätzen zu aktivieren und zu deaktivieren.
  • Das Eingabegerät 184 kann beispielsweise auch ein Mikrofon zum Empfangen einer Spracheingabe, ein Infrarot-(IR)Sensor, der bei einigen Beispielen als Bewegungssensorsystem ausgebildet sein kann, und/oder eine Wärmebildkamera zur Verwendung gemäß den vorliegenden Grundsätzen sein.
  • Bei dem Beispiel aus 1 stellt die LPC-Schnittstelle 170 die Verwendung einer oder mehrerer ASICs 171, eines Trusted Platform Modules (TPM) 172, eines Super-E/A 173, eines Firmware-Hubs 174, einer BIOS-Unterstützung 175 sowie diverse Arten von Speicher 176 bereit, wie etwa ROM 177, Flash 178 und nichtflüchtigen RAM (NVRAM) 179. Mit Bezug auf das TPM 172 kann dieses Modul in Form eines Chips vorliegen, der verwendet werden kann, um Software- und Hardware-Geräte zu authentifizieren. Beispielsweise kann ein TPM in der Lage sein, eine Plattformauthentifizierung auszuführen, und kann verwendet werden, um zu überprüfen, dass ein System, das Zugang sucht, das erwartete System ist.
  • Beim Einschalten kann das System 100 konfiguriert sein, um den Boot-Code 190 für das BIOS 168 auszuführen, der in dem SPI-Flash 166 gespeichert ist, und verarbeitet anschließend Daten unter der Kontrolle von einem oder mehreren Betriebssystemen und Anwendungs-Software (wie beispielsweise im Systemspeicher 140 gespeichert). Ein Betriebssystem kann an einer beliebigen von diversen Stellen gespeichert sein und kann beispielsweise gemäß den Anweisungen des BIOS 168 zugänglich sein.
  • Ferner kann das System 100 auch mindestens einen Batteriesatz 191 umfassen, der mindestens eine Batterie umfasst. Der Batteriesatz 191 kann in zylindrischer Form oder in Beutelform vorliegen und kann eine Lithium-Ionen-Batterie sein. Der Batteriesatz 191 ist elektrisch mit dem System 100 gekoppelt und versorgt dieses mit Energie und kann auch mit mindestens einem drahtlosen Ladungsempfänger 193 elektrisch gekoppelt sein, der konfiguriert ist, um eine drahtlose Ladung über ein Magnetfeld von einem drahtlosen Ladungssender (nicht gezeigt) unter Verwendung beispielsweise von induktiven drahtlosen Ladeprinzipien und/oder resonant induktiven Kopplungsprinzipien zu empfangen. Somit kann der Empfänger 193 mehrere Spulen 195 umfassen. Die Spulen 195 können jeweils mindestens einen Draht umfassen, der um einen Magneten herum angeordnet ist, und können konfiguriert sein, um Energie von dem drahtlosen Ladungssender über das magnetische/ elektromagnetische Feld zu empfangen, das durch den Sender erstellt wird, wenn er aktiviert ist. Der Empfänger 193 kann auch mindestens eine Schaltung 197 umfassen (bei einigen Ausführungsformen kann nur eine Schaltung enthalten sein, während bei anderen Ausführungsformen mehrere Schaltungen enthalten sein können), die konfiguriert ist, um von den Spulen 195 Strom zu empfangen und mindestens eines auszuführen von: Bereitstellen von Strom für das System 100, um es mit Energie zu versorgen, und Bereitstellen von Strom für den Batteriesatz 191, um mindestens eine Batterie in dem Satz 191 aufzuladen. Die Schaltung 197 kann eine Rx-Schaltung sein, und/oder die Schaltung 197 kann einen oder mehrere von Wandlern, Reglern und/oder Kommunikationsgeräte umfassen.
  • Zudem kann das System 100 ein Gyroskop 192, um die Ausrichtung des Systems 100 zu erfassen und/oder zu messen und dem Prozessor 122 eine diesbezügliche Eingabe bereitzustellen, einen Beschleunigungsmesser 196, um eine Beschleunigung und/oder Bewegung des Systems 100 zu erfassen und dem Prozessor 122 eine diesbezügliche Eingabe bereitzustellen, und eine Kamera 198, um ein oder mehrere Bilder zu sammeln und dem Prozessor 122 eine diesbezügliche Eingabe bereitzustellen, umfassen. Die Kamera kann eine Wärmebildkamera, eine digitale Kamera, wie etwa eine Webcam, eine dreidimensionale (3D) Kamera und/oder eine Kamera, die anderweitig in das System 100 integriert ist und durch den Prozessor 122 steuerbar ist, um Fotos/Bilder und/oder Videomaterial aufzunehmen, sein. Ferner kann das System 100 noch einen GPS-Transceiver 199 umfassen, der konfiguriert ist, um geografische Positionsinformationen von mindestens einem Satelliten zu empfangen und die Informationen dem Prozessor 122 bereitzustellen. Es versteht sich jedoch, dass ein anderer geeigneter Positionsempfänger als ein GPS-Empfänger gemäß den vorliegenden Grundsätzen verwendet werden kann, um den Standort des Systems 100 zu bestimmen.
  • Es versteht sich, dass ein beispielhaftes Client-Gerät oder eine andere Maschine/ ein anderer Computer eine kleinere oder größere Anzahl von Merkmalen als in dem System 100 aus 1 gezeigt umfassen kann. Auf jeden Fall versteht es sich, dass mindestens basierend auf dem Vorstehenden das System 100 konfiguriert ist, um die vorliegenden Grundsätze umzusetzen.
  • Nun werden mit Bezug auf 2 beispielhafte Geräte gezeigt, die über ein Netzwerk 200, wie etwa das Internet, gemäß den vorliegenden Grundsätzen kommunizieren. Es versteht sich, dass jede der mit Bezug auf 2 beschriebenen Geräte mindestens einige der Merkmale, Bauteile und/oder Elemente des zuvor beschriebenen Systems 100 umfassen kann.
  • 2 zeigt einen Notebook-Computer und/oder einen konvertierbaren Computer 202, einen Desktop-Computer 204, ein tragbares Gerät 206, wie etwa eine intelligente Armbanduhr, ein Smart-TV (TV) 208, ein Smartphone 210, einen Tablet-Computer 212 und einen Server 214, wie etwa einen Internet-Server, der eine schwarmausgelagerte Speicherung bereitstellen kann, die für die Geräte 202 bis 212 zugänglich ist.
  • Wie ebenfalls in 2 gezeigt, ist ein drahtloser Ladungssender 216 konfiguriert, um einem drahtlosen Ladungsempfänger eine drahtlose Ladung über ein Magnetfeld bereitzustellen, beispielsweise unter Verwendung von induktiven drahtlosen Ladungsprinzipien und/oder resonant induktiven Kopplungsprinzipien. Somit kann der drahtlose Ladungssender 216 mindestens eine Spule umfassen und kann in eine Wandsteckdose oder eine andere Energiequelle eingesteckt (z.B. damit leitend gekoppelt) werden. Es versteht sich, dass die Geräte 202 bis 216 konfiguriert sind, um über das Netzwerk 200 miteinander zu kommunizieren.
  • 3 bis 7 bilden eine beispielhafte Logik ab, die als Anweisungen in einem Computerspeicher zur Ausführung derselben durch einen der zuvor beschriebenen Prozessoren umgesetzt werden kann.
  • Nun mit Bezug auf 3 wird in Block 300 ein Sensorsignal von einer Kamera, wie etwa der zuvor beschriebenen Kamera, empfangen. Das Sensorsignal kann ein oder mehrere Bilder von Gesichtern umfassen. An der Entscheidungsraute 302 wird bestimmt, ob das Signal angibt, dass mehrere Personen anwesend sind. Dies kann dadurch erfolgen, dass eine Bilderkennungs-Engine an dem Signal ausgeführt wird, um zu bestimmen, wie viele Gesichter sich in dem Bild befinden. Das Vorliegen von mehreren Gesichtern kann zu einem „Ja-”Ergebnis führen. Bei einigen Ausführungsformen kann der Test ferner das Bestimmen unter Verwendung eines Bildes eines spezifischen Benutzers des Gerätes, das während einer Initialisierungsphase in den Gerätespeicher geladen wird, ob andere Personen als der spezifische Benutzer anwesend sind, umfassen. Bei einer derartigen Ausführungsform kann der Test ferner das Ableiten umfassen, ob sich eines der anderen Gesichter in einer vorbestimmten Reichweite von dem spezifischen Benutzer befindet, beispielsweise indem eine absolute Größe der anderen Gesichter mit Bezug auf die Größe des Gesichts des Benutzers, wie sie von der Kamera abgebildet werden, bestimmt wird. Nur wenn abgeleitet wird, dass sich eine andere Person in der vorbestimmten Reichweite von dem spezifischen Benutzer befindet, wird ein „Ja-”Ergebnis zurückgegeben.
  • Falls die Entscheidung an der Raute 302 ein „Nein-”Ergebnis zurückgibt, kann die Logik mit Block 304 fortfahren, um eventuelle Sprachbefehle auszuführen, die über das Mikrofon des Gerätes empfangen werden, ohne zuerst den Empfang des Weckwortes zu benötigen. Es versteht sich, dass Sprachsignale unter Verwendung einer Spracherkennungs-Engine zu Befehlen verarbeitet werden.
  • Falls dagegen ein „Ja-”Ergebnis an der Raute 302 zurückgegeben wird, kann sich die Logik zu Block 306 begeben, um die Ausführung von Sprachsignalen, die über das Mikrofon empfangen werden, als Befehle zu deaktivieren, wenn nicht ein vorbestimmtes Weckwort, das von dem Hersteller eingestellt oder von dem Benutzer während der Initialisierung eingerichtet werden kann, zuerst empfangen wird, und zwar typischerweise innerhalb eines vorbestimmten Prologzeitraums von beispielsweise mehreren Sekunden, bevor anschließende Sprachbefehle empfangen werden. Diese Sprachsignale können trotzdem aufgezeichnet werden, werden jedoch nicht als Befehle ausgeführt, wenn das Weckwort nicht innerhalb des Prologzeitraums empfangen wird.
  • Nun wird mit Bezug auf 4 in Block 400 ein Sensorsignal von einem Mikrofon, wie etwa dem zuvor beschriebenen Mikrofon, empfangen. Das Sensorsignal kann ein oder mehrere Stimmen umfassen. An der Entscheidungsraute 402 wird bestimmt, ob das Signal angibt, dass mehrere Personen anwesend sind. Dies kann dadurch erfolgen, dass eine Spracherkennungs-Engine an dem Signal ausgeführt wird, um zu bestimmen, wie viele Stimmen sich in dem Bild befinden. Das Vorliegen von mehreren Stimmen kann zu einem „Ja-”Ergebnis führen. Bei einigen Ausführungsformen kann der Test ferner das Bestimmen unter Verwendung eines Stimmenfingerabdrucks eines spezifischen Benutzers des Gerätes, der während einer Initialisierungsphase in den Gerätespeicher geladen wird, ob andere Personen als der spezifische Benutzer anwesend sind, umfassen. Bei einer derartigen Ausführungsform kann der Test ferner das Ableiten umfassen, ob sich eine der anderen Stimmen in einer vorbestimmten Reichweite von dem spezifischen Benutzer befindet, beispielsweise indem eine absolute Amplitude der Lautstärke der anderen Stimmen oder eine relative Amplitude der anderen Stimmen mit Bezug auf die Amplitude der Stimme des Benutzers bestimmt wird. Nur wenn abgeleitet wird, dass sich eine andere Person in der vorbestimmten Reichweite von dem spezifischen Benutzer befindet, wird ein „Ja-”Ergebnis zurückgegeben.
  • Falls die Entscheidung an der Raute 402 ein „Nein-”Ergebnis zurückgibt, kann die Logik mit Block 404 fortfahren, um eventuelle Sprachbefehle auszuführen, die über das Mikrofon des Gerätes empfangen werden, ohne zuerst den Empfang des Weckwortes zu benötigen. Falls dagegen ein „Ja-”Ergebnis an der Raute 402 zurückgegeben wird, kann sich die Logik zu Block 406 begeben, um die Ausführung von Sprachsignalen, die über das Mikrofon empfangen werden, als Befehle zu deaktivieren, wenn nicht ein vorbestimmtes Weckwort, das von dem Hersteller eingestellt oder von dem Benutzer während der Initialisierung eingerichtet werden kann, zuerst empfangen wird, und zwar typischerweise innerhalb eines vorbestimmten Prologzeitraums von beispielsweise mehreren Sekunden, bevor anschließende Sprachbefehle empfangen werden. Diese Sprachsignale können trotzdem aufgezeichnet werden, werden jedoch nicht als Befehle ausgeführt, wenn das Weckwort nicht innerhalb des Prologzeitraums empfangen wird.
  • Nun wird mit Bezug auf 5 in Block 500 ein Sensorsignal von einem Bluetooth-Empfänger empfangen, der mit dem Gerät verknüpft ist. Das Sensorsignal kann ein oder mehrere Bluetooth-Kopplungssignale umfassen. An der Entscheidungsraute 502 wird bestimmt, ob das Signal angibt, dass mehrere Personen anwesend sind. Dies kann dadurch erfolgen, dass bestimmt wird, ob das Gerät mit einem anderen Gerät gekoppelt ist. Das Vorliegen eines anderen gekoppelten Gerätes kann zu einem „Ja-”Ergebnis führen. Bei einigen Ausführungsformen kann der Test ferner das Ableiten umfassen, ob sich eine der anderen Personen in einer vorbestimmten Reichweite von dem spezifischen Benutzer befindet, indem beispielsweise eine Bluetooth-Signalstärke von einem Gerät bestimmt wird, das mit dem Gerät gekoppelt ist, welches die Logik in 5 ausführt. Nur wenn abgeleitet wird, dass sich eine andere Person (die ihr gekoppeltes Gerät als Proxy verwendet) in der vorbestimmten Reichweite von dem spezifischen Benutzer befindet, wird ein „Ja-”Ergebnis zurückgegeben.
  • Falls die Entscheidung an der Raute 502 ein „Nein-”Ergebnis zurückgibt, kann die Logik mit Block 504 fortfahren, um eventuelle Sprachbefehle auszuführen, die über das Mikrofon des Gerätes empfangen werden, ohne zuerst den Empfang des Weckwortes zu benötigen. Falls dagegen ein „Ja-”Ergebnis an der Raute 502 zurückgegeben wird, kann sich die Logik zu Block 506 begeben, um die Ausführung von Sprachsignalen, die über das Mikrofon empfangen werden, als Befehle zu deaktivieren, wenn nicht ein vorbestimmtes Weckwort, das von dem Hersteller eingestellt oder von dem Benutzer während der Initialisierung eingerichtet werden kann, zuerst empfangen wird, und zwar typischerweise innerhalb eines vorbestimmten Prologzeitraums von beispielsweise mehreren Sekunden, bevor anschließende Sprachbefehle empfangen werden. Diese Sprachsignale können trotzdem aufgezeichnet werden, werden jedoch nicht als Befehle ausgeführt, wenn das Weckwort nicht innerhalb des Prologzeitraums empfangen wird.
  • Nun wird mit Bezug auf 6 in Block 600 ein Sensorsignal von einem Fahrzeugbelegungssensor empfangen, das entweder über beispielsweise ein ECM, mit dem der Prozessor des Gerätes, welches die Logik ausführt, gekoppelt ist, oder wenn das ECM selber die Logik ausführt, von dem Belegungssensor, der typischerweise an einem Sitz des Fahrzeugs montiert ist, weitergeleitet wird. An der Entscheidungsraute 504 wird bestimmt, ob das Signal angibt, dass mehrere Personen anwesend sind. Dies kann dadurch erfolgen, dass bestimmt wird, ob mehrere Belegungssensoren angeben, dass Personen anwesend sind. Die Anwesenheit einer anderen Person kann zu einem „Ja-”Ergebnis führen.
  • Bei einigen Ausführungsformen kann der Test ferner das Ableiten umfassen, ob sich eine der anderen Personen in einer vorbestimmten Reichweite von dem spezifischen Benutzer befindet, indem z.B. die Position des Sitzes, auf dem der Benutzer des Gerätes, welches die Anweisungen ausführt, sitzt und die Position der Sitze, die mit Belegungssensoren verknüpft sind, die angeben, dass Personen darauf sitzen, bestimmt werden. Falls der Benutzer beispielsweise fährt und die anderen Belegungssensoren nur Personen auf den Rücksitzen angeben, kann ein „Nein-”Ergebnis zurückgegeben werden, wohingegen falls der Beifahrerbelegungssensor angibt, dass eine Person darauf sitzt, ein „Ja-”Ergebnis zurückgegeben werden kann. Nur wenn abgeleitet wird, dass sich eine andere Person (wobei ihr Belegungssensor als Proxy verwendet wird) in der vorbestimmten Reichweite von dem spezifischen Benutzer befindet, wird ein „Ja-”Ergebnis zurückgegeben.
  • Falls die Entscheidung an der Raute 602 ein „Nein-”Ergebnis zurückgibt, kann die Logik mit Block 604 fortfahren, um eventuelle Sprachbefehle auszuführen, die über das Mikrofon des Gerätes empfangen werden, ohne zuerst den Empfang des Weckwortes zu benötigen. Falls dagegen ein „Ja-”Ergebnis an der Raute 602 zurückgegeben wird, kann sich die Logik zu Block 606 begeben, um die Ausführung von Sprachsignalen, die über das Mikrofon empfangen werden, als Befehle zu deaktivieren, wenn nicht ein vorbestimmtes Weckwort, das von dem Hersteller eingestellt oder von dem Benutzer während der Initialisierung eingerichtet werden kann, zuerst empfangen wird, und zwar typischerweise innerhalb eines vorbestimmten Prologzeitraums von beispielsweise mehreren Sekunden, bevor anschließende Sprachbefehle empfangen werden. Diese Sprachsignale können trotzdem aufgezeichnet werden, werden jedoch nicht als Befehle ausgeführt, wenn das Weckwort nicht innerhalb des Prologzeitraums empfangen wird.
  • Nun wird mit Bezug auf 7 in Block 700 ein Sensorsignal von einem Bewegungssensor, wie etwa dem zuvor beschriebenen Bewegungssensor, empfangen. Das Signal kann Informationen umfassen, dass sich ein oder mehrere Objekte in der Nähe des Sensors bewegt bzw. bewegen. An der Entscheidungsraute 702 wird bestimmt, ob das Signal angibt, dass mehrere Personen anwesend sind. Dies kann dadurch erfolgen, dass bestimmt wird, wie viele Objekte in Bewegung erfasst werden. Das Vorliegen von mehreren Objekten kann zu einem „Ja-”Ergebnis führen.
  • Bei einigen Ausführungsformen kann der Test ferner das Bestimmen, ob andere Objekte als der spezifische Benutzer vorhanden sind, umfassen. Bei einer derartigen Ausführungsform kann der Test ferner das Ableiten umfassen, ob sich eines der anderen Objekte in einer vorbestimmten Reichweite von dem spezifischen Benutzer befindet, beispielsweise indem eine absolute Größe der anderen Objekte oder eine relative Größe der anderen Objekte mit Bezug auf die Größe des Objekts des Benutzers bestimmt wird. Nur wenn abgeleitet wird, dass sich eine andere Person in der vorbestimmten Reichweite von dem spezifischen Benutzer befindet, wird ein „Ja-”Ergebnis zurückgegeben.
  • Falls die Entscheidung an der Raute 702 ein „Nein-”Ergebnis zurückgibt, kann die Logik mit Block 704 fortfahren, um eventuelle Sprachbefehle auszuführen, die über das Mikrofon des Gerätes empfangen werden, ohne zuerst den Empfang des Weckwortes zu benötigen. Falls dagegen ein „Ja-”Ergebnis an der Raute 702 zurückgegeben wird, kann sich die Logik zu Block 706 begeben, um die Ausführung von Sprachsignalen, die über das Mikrofon empfangen werden, als Befehle zu deaktivieren, wenn nicht ein vorbestimmtes Weckwort, das von dem Hersteller eingestellt oder von dem Benutzer während der Initialisierung eingerichtet werden kann, zuerst empfangen wird, und zwar typischerweise innerhalb eines vorbestimmten Prologzeitraums von beispielsweise mehreren Sekunden, bevor anschließende Sprachbefehle empfangen werden. Diese Sprachsignale können trotzdem aufgezeichnet werden, werden jedoch nicht als Befehle ausgeführt, wenn das Weckwort nicht innerhalb des Prologzeitraums empfangen wird.
  • Es sei zu beachten, dass andere Situationen als die zuvor beschriebenen verwendet werden können, um automatisch die Weckwort-Initialisierung der Sprachbefehlseingabe zu aktivieren und zu deaktivieren. Beispielsweise kann man an gewissen Tageszeiten (beispielsweise um Mitternacht) davon ausgehen, dass der Benutzer alleine anzufinden ist, wobei die Weckwort-Initialisierung deaktiviert wird und alle Sprachsignale, die von dem Gerät empfangen werden, als Sprachbefehle behandelt werden, ohne zuerst das Weckwort empfangen zu müssen. An anderen Tageszeiten (beispielsweise mittags) kann man davon ausgehen, dass der Benutzer in Begleitung anzufinden ist, wobei die Weckwort-Initialisierung für eine Sprachbefehlseingabe aktiviert wird.
  • Oder die Positionen, wie sie von dem GPS-Empfänger des Gerätes bestimmt werden, können verwendet werden, um automatisch die Weckwort-Initialisierung der Sprachbefehlseingabe zu aktivieren und zu deaktivieren. Beispielsweise können bestimmte Positionen, wie etwa Bürogebäude, bedeuten, dass der spezifische Benutzer nicht allein ist, wodurch die Weckwort-Initialisierung der Sprachbefehlseingabe aktiviert wird, wohingegen andere Positionen, wie etwa die Wohnung des spezifischen Benutzers, zu einem automatischen Deaktivieren der Weckwort-Initialisierung führen können, wobei alle Sprachsignale, die von dem Gerät empfangen werden, als Sprachbefehle behandelt werden, ohne zuerst das Weckwort empfangen zu müssen.
  • 8 zeigt, dass der Benutzer die Wahl haben kann, die zuvor beschriebene situationsabhängige Weckwortaktivierung unter Verwendung einer Benutzerschnittstelle (UI) 800 anzunehmen oder nicht. Wie gezeigt, kann die UI 800 einen Nein-Auswahlschalter 802 umfassen, um die Verwendung der automatischen Weckwortaktivierung basierend auf der Situation abzulehnen. Die UI 800 kann auch einen Ja-Auswahlschalter 804 umfassen, um die Verwendung der automatischen Weckwortaktivierung basierend auf einer Situation, wie etwa einer der zuvor besprochenen Situationen, anzunehmen. Falls Ja ausgewählt wird, kann ein Indikator 806 den Benutzer auffordern, einen Initialisierungsparameter, wie etwa die Stimme oder ein Bild des Benutzers, für die zuvor beschriebenen Zwecke einzugeben.
  • Bevor zum Schluss gekommen wird, versteht es sich, dass obwohl eine Software-Anwendung zum Umsetzen der vorliegenden Grundsätze mit einem Gerät, wie etwa dem System 100, verkauft werden kann, die vorliegenden Grundsätze in Fällen anwendbar sind, bei denen eine derartige Anwendung von einem Server auf ein Gerät über ein Netzwerk, wie etwa das Internet, heruntergeladen wird. Ferner sind die vorliegenden Grundsätze in Fällen anwendbar, bei denen eine derartige Anwendung auf einem computerlesbaren Speichermedium enthalten ist, das verkauft und/oder bereitgestellt wird, wobei das computerlesbare Speichermedium kein transitorisches Signal und/oder ein Signal an sich ist.
  • Obwohl das spezielle SITUATIONSABHÄNGIGE AUFHEBEN EINES WECKWORTES ZUM AKTIVIEREN EINER SPRACHBEFEHLSEINGABE hierin ausführlich gezeigt und beschrieben wird, versteht es sich, dass der Gegenstand, der in der vorliegenden Anmeldung enthalten ist, nur durch die Ansprüche eingeschränkt ist.

Claims (20)

  1. Gerät, umfassend: – einen Prozessor; – ein Mikrofon, auf das der Prozessor zugreifen kann; und – ein Speichergerät, auf das der Prozessor zugreifen kann und das Anweisungen enthält, die durch den Prozessor ausführbar sind zum: – in Reaktion darauf, dass eine erste Sensoreingabe eine erste Situation angibt, Erfordern des Empfangs eines vorbestimmten Weckwortes, das über das Mikrofon empfangen wird, um die Sprachbefehlseingabe zu aktivieren; und – in Reaktion darauf, dass eine zweite Sensoreingabe eine zweite Situation angibt, Aufheben der Notwendigkeit, ein vorbestimmtes Weckwort über das Mikrofon zu empfangen, um eine Sprachbefehlseingabe zu aktivieren, und stattdessen sofortiges Verarbeiten von Befehlen, die über das mindestens eine Mikrofon empfangen werden, ohne zuerst das Weckwort zu empfangen.
  2. Gerät nach Anspruch 1, wobei die Sensoreingabe von mindestens einer Kamera stammt.
  3. Gerät nach Anspruch 1, wobei die Sensoreingabe von mindestens einem Mikrofon stammt.
  4. Gerät nach Anspruch 1, wobei die Sensoreingabe von mindestens einem Bluetooth-Empfänger stammt.
  5. Gerät nach Anspruch 1, wobei die Sensoreingabe von mindestens einem Bewegungssensor stammt.
  6. Gerät nach Anspruch 1, wobei die Sensoreingabe von mindestens einem Fahrzeugbelegungssensor stammt.
  7. Gerät nach Anspruch 1, umfassend den Sensor, von dem mindestens eine von der ersten Sensoreingabe und der zweiten Sensoreingabe empfangen wird.
  8. Computerlesbares Speichermedium, welches kein transitorischen Signal ist, wobei das computerlesbare Speichermedium Anweisungen umfasst, die durch einen Prozessor ausführbar sind zum: – Empfangen eines Signals von mindestens einem Sensor; Bestimmen, ob das Signal die Anwesenheit von mehreren Personen angibt; – in Reaktion auf eine Bestimmung, dass das Signal die Anwesenheit von mehreren Personen angibt, Aktivieren einer Weckwortaktivierung der Sprachbefehlseingabe; und – in Reaktion auf eine Bestimmung, dass das Signal keine Anwesenheit von mehreren Personen angibt, Deaktivieren einer Weckwortaktivierung der Sprachbefehlseingabe.
  9. Computerlesbares Speichermedium nach Anspruch 8, wobei die Weckwortaktivierung einer Sprachbefehlseingabe durch den Prozessor basierend auf einer hörbaren Eingabe identifizierbar ist, um dann eine Sprachbefehlseingabe unter Verwendung des Prozessors zu aktivieren.
  10. Computerlesbares Speichermedium nach Anspruch 8, wobei das Signal ein Bild von mindestens einer Kamera umfasst, und wobei die Anweisungen ausführbar sind zum: – Ausführen einer Gesichtserkennung unter Verwendung des mindestens einen Bildes, um zu bestimmen, ob mehrere Personen in dem mindestens einen Bild vorhanden sind.
  11. Computerlesbares Speichermedium nach Anspruch 8, wobei das Signal von mindestens einem Mikrofon stammt, und wobei die Anweisungen ausführbar sind zum: – Ausführen einer Spracherkennung unter Verwendung des Signals, um zu bestimmen, ob mehrere Personen anwesend sind.
  12. Computerlesbares Speichermedium nach Anspruch 8, wobei das Signal von mindestens einem Bluetooth-Empfänger stammt, und wobei die Anweisungen ausführbar sind zum: – Bestimmen, basierend mindestens teilweise auf mindestens einem Bluetooth-Parameter, der aus dem Signal identifiziert wird, ob mehrere Personen anwesend sind.
  13. Computerlesbares Speichermedium nach Anspruch 8, wobei das Signal von mindestens einem Bewegungssensor stammt, und wobei die Anweisungen ausführbar sind zum: – Bestimmen, basierend mindestens teilweise auf dem Signal, ob mehrere Personen anwesend sind.
  14. Computerlesbares Speichermedium nach Anspruch 8, wobei das Signal von mindestens einem Fahrzeugbelegungssensor stammt, und wobei die Anweisungen ausführbar sind zum: – Bestimmen, basierend mindestens teilweise auf dem Signal, ob mehrere Personen anwesend sind.
  15. Verfahren, umfassend folgende Schritte: – Empfangen mindestens eines Signals von mindestens einem Sensor; – basierend auf dem Analysieren des mindestens einen Signals, situationsabhängiges Aufheben der Notwendigkeit, ein Weckwort zu empfangen, um eine Sprachbefehlseingabe in einen Computer zu aktivieren.
  16. Verfahren nach Anspruch 15, umfassend folgende Schritte: – Bestimmen aus dem mindestens einen Signal, dass ein Benutzer allein ist; und – in Reaktion auf das Bestimmen, dass der Benutzer allein ist, Aufheben der Notwendigkeit, das Weckwort zu empfangen, um eine Sprachbefehlseingabe zu aktivieren, und Aktivieren der Sprachbefehlseingabe ohne Empfangen des Weckwortes.
  17. Verfahren nach Anspruch 15, umfassend folgende Schritte: – Bestimmen aus dem mindestens einen Signal, dass ein Benutzer nicht allein ist; und – in Reaktion auf das Bestimmen, dass der Benutzer nicht allein ist, Aktivieren der Sprachbefehlseingabe nur in Reaktion auf den Empfang des Weckwortes.
  18. Verfahren nach Anspruch 16, umfassend folgende Schritte: – Bestimmen aus dem mindestens einen Signal, dass ein Benutzer nicht allein ist; und – in Reaktion auf das Bestimmen, dass der Benutzer nicht allein ist, Aktivieren der Sprachbefehlseingabe nur in Reaktion auf den Empfang des Weckwortes.
  19. Verfahren nach Anspruch 15, wobei das Analysieren Folgendes umfasst: – Bestimmen, ob das Signal die Anwesenheit von mehreren Personen angibt; – in Reaktion auf eine Bestimmung, dass das Signal die Anwesenheit von mehreren Personen angibt, Aktivieren einer Weckwortaktivierung der Sprachbefehlseingabe; und – in Reaktion auf eine Bestimmung, dass das Signal keine Anwesenheit von mehreren Personen angibt, Deaktivieren einer Weckwortaktivierung der Sprachbefehlseingabe.
  20. Verfahren nach Anspruch 15, umfassend folgenden Schritt: – Empfangen des mindestens einen Signals von mindestens einem von: einem Mikrofon, einer Digitalkamera und einer Wärmebildkamera.
DE102016118680.5A 2015-10-01 2016-09-30 Situationsabhängiges Aufheben eines Weckwortes zum Aktivieren einer Sprachbefehlseingabe Active DE102016118680B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/872,587 US9542941B1 (en) 2015-10-01 2015-10-01 Situationally suspending wakeup word to enable voice command input
US14/872,587 2015-10-01

Publications (2)

Publication Number Publication Date
DE102016118680A1 true DE102016118680A1 (de) 2017-04-06
DE102016118680B4 DE102016118680B4 (de) 2021-11-04

Family

ID=57571140

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102016118680.5A Active DE102016118680B4 (de) 2015-10-01 2016-09-30 Situationsabhängiges Aufheben eines Weckwortes zum Aktivieren einer Sprachbefehlseingabe

Country Status (4)

Country Link
US (1) US9542941B1 (de)
CN (1) CN107085510B (de)
DE (1) DE102016118680B4 (de)
GB (1) GB2544865B (de)

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032452B1 (en) * 2016-12-30 2018-07-24 Google Llc Multimodal transmission of packetized data
US11017428B2 (en) 2008-02-21 2021-05-25 Google Llc System and method of data transmission rate adjustment
US10013986B1 (en) * 2016-12-30 2018-07-03 Google Llc Data structure pooling of voice activated data packets
US10152723B2 (en) 2012-05-23 2018-12-11 Google Llc Methods and systems for identifying new computers and providing matching services
US10776830B2 (en) 2012-05-23 2020-09-15 Google Llc Methods and systems for identifying new computers and providing matching services
US10735552B2 (en) 2013-01-31 2020-08-04 Google Llc Secondary transmissions of packetized data
US10650066B2 (en) 2013-01-31 2020-05-12 Google Llc Enhancing sitelinks with creative content
US10453460B1 (en) * 2016-02-02 2019-10-22 Amazon Technologies, Inc. Post-speech recognition request surplus detection and prevention
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10438583B2 (en) * 2016-07-20 2019-10-08 Lenovo (Singapore) Pte. Ltd. Natural language voice assistant
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
JP2018074366A (ja) * 2016-10-28 2018-05-10 京セラ株式会社 電子機器、制御方法およびプログラム
US10079015B1 (en) * 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
US11003417B2 (en) * 2016-12-15 2021-05-11 Samsung Electronics Co., Ltd. Speech recognition method and apparatus with activation word based on operating environment of the apparatus
US10708313B2 (en) 2016-12-30 2020-07-07 Google Llc Multimodal transmission of packetized data
US10593329B2 (en) * 2016-12-30 2020-03-17 Google Llc Multimodal transmission of packetized data
US10102856B2 (en) * 2017-01-20 2018-10-16 Essential Products, Inc. Assistant device with active and passive experience modes
DE102017207038A1 (de) * 2017-04-26 2018-10-31 Bayerische Motoren Werke Aktiengesellschaft Spracheingabe bei einem Kraftfahrzeug
US10664533B2 (en) 2017-05-24 2020-05-26 Lenovo (Singapore) Pte. Ltd. Systems and methods to determine response cue for digital assistant based on context
US10789949B2 (en) * 2017-06-20 2020-09-29 Bose Corporation Audio device with wakeup word detection
KR102411766B1 (ko) * 2017-08-25 2022-06-22 삼성전자주식회사 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치
US10847149B1 (en) * 2017-09-01 2020-11-24 Amazon Technologies, Inc. Speech-based attention span for voice user interface
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
KR102421255B1 (ko) * 2017-10-17 2022-07-18 삼성전자주식회사 음성 신호를 제어하기 위한 전자 장치 및 방법
CN108182939A (zh) * 2017-12-13 2018-06-19 苏州车萝卜汽车电子科技有限公司 用于自助服务的语音处理方法及装置
US10777195B2 (en) 2018-05-31 2020-09-15 International Business Machines Corporation Wake command nullification for digital assistance and voice recognition technologies
KR102523982B1 (ko) 2018-08-21 2023-04-20 구글 엘엘씨 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드
WO2020040745A1 (en) 2018-08-21 2020-02-27 Google Llc Dynamic and/or context-specific hot words to invoke automated assistant
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US10777186B1 (en) * 2018-11-13 2020-09-15 Amazon Technolgies, Inc. Streaming real-time automatic speech recognition service
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
CN112669831B (zh) * 2019-09-29 2022-10-21 百度在线网络技术(北京)有限公司 语音识别控制方法、装置、电子设备和可读存储介质
CN112581969A (zh) * 2019-09-29 2021-03-30 百度在线网络技术(北京)有限公司 语音控制方法、装置、电子设备和可读存储介质
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
JP7482640B2 (ja) * 2020-02-05 2024-05-14 キヤノン株式会社 音声入力装置およびその制御方法ならびにプログラム
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
CN111681655A (zh) * 2020-05-21 2020-09-18 北京声智科技有限公司 语音控制方法、装置、电子设备及存储介质
US11769501B2 (en) * 2021-06-02 2023-09-26 International Business Machines Corporation Curiosity based activation and search depth
US11804018B2 (en) 2021-09-02 2023-10-31 International Business Machines Corporation Management of devices in a smart environment
US20230099144A1 (en) * 2021-09-30 2023-03-30 Sonos, Inc. Enabling and Disabling Microphones and Voice Assistants

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
CN102582523A (zh) * 2012-03-09 2012-07-18 深圳市领华卫通数码科技有限公司 具备语音识别功能的车内后视镜及语音识别的方法
US9142215B2 (en) * 2012-06-15 2015-09-22 Cypress Semiconductor Corporation Power-efficient voice activation
US9307490B2 (en) * 2012-11-30 2016-04-05 Mediatek Inc. Method for controlling bluetooth device for power conservation
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US9842489B2 (en) * 2013-02-14 2017-12-12 Google Llc Waking other devices for additional data
US9256269B2 (en) * 2013-02-20 2016-02-09 Sony Computer Entertainment Inc. Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state
US9112984B2 (en) * 2013-03-12 2015-08-18 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9361885B2 (en) * 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9100694B1 (en) * 2013-03-14 2015-08-04 Google Inc. TV mode change in accordance with number of viewers present
JP6502249B2 (ja) * 2013-08-29 2019-04-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識方法及び音声認識装置
US9245527B2 (en) * 2013-10-11 2016-01-26 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
US9373321B2 (en) * 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
US8768712B1 (en) * 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
US8719039B1 (en) * 2013-12-05 2014-05-06 Google Inc. Promoting voice actions to hotwords
US9589564B2 (en) * 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
US10102848B2 (en) * 2014-02-28 2018-10-16 Google Llc Hotwords presentation framework
US9286892B2 (en) * 2014-04-01 2016-03-15 Google Inc. Language modeling in speech recognition
US9384738B2 (en) * 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
US9257120B1 (en) * 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US9263042B1 (en) * 2014-07-25 2016-02-16 Google Inc. Providing pre-computed hotword models
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9424841B2 (en) * 2014-10-09 2016-08-23 Google Inc. Hotword detection on multiple devices
US9418656B2 (en) * 2014-10-29 2016-08-16 Google Inc. Multi-stage hotword detection

Also Published As

Publication number Publication date
CN107085510B (zh) 2020-06-23
GB2544865B (en) 2020-04-15
GB201616703D0 (en) 2016-11-16
US9542941B1 (en) 2017-01-10
GB2544865A (en) 2017-05-31
DE102016118680B4 (de) 2021-11-04
CN107085510A (zh) 2017-08-22

Similar Documents

Publication Publication Date Title
DE102016118680B4 (de) Situationsabhängiges Aufheben eines Weckwortes zum Aktivieren einer Sprachbefehlseingabe
DE102017122427A1 (de) Automatische Anpassung einer Lautstärke eines Lautsprechers eines Gerätes basierend auf einer Amplitude einer Spracheingabe in das Gerät
DE102016109561A1 (de) Bestimmung eines Geräts, an dem das Audiomaterial einer Telefonkommunikation vorzulegen ist
DE102017119793A1 (de) Systeme und Verfahren zum Zulassen eines Authentifizierungsversuchs unter Verwendung einer oder mehrerer Authentifizierungsformen
DE102015120188A1 (de) Darstellung von Daten auf einer zumindest teilweise transparenten Anzeige basierend auf einem Nutzerfokus
DE102014117344A1 (de) Gerät und Verfahren zum Empfangen einer Eingabe und Darstellen als Antwort eine Ausgabe auf einem von dem ersten Gerät unterschiedlichen zweiten Gerät
DE102014106579A1 (de) Besondere Gesten für Kamerasteuerungs- und Bildverarbeitungsverfahren
DE102017116687A1 (de) Systeme und Verfahren zum Aufladen einer Batterie mit verschiedenen Ladegeschwindigkeiten und angeben, wann ein Ladevorgang mit schnellerer Geschwindigkeit verfügbar ist
DE102017115936A1 (de) Systeme und Verfahren zum Aktivieren eines Sprachassistenten und Bereitstellen eines Indikators, dass der Sprachassistent Hilfe zu leisten hat
DE102015108004A1 (de) Darstellen einer Nutzerschnittstelle auf einem ersten Gerät basierend auf der Erfassung eines zweiten Gerätes in einer Umgebung des ersten Geräts
DE102015100900A1 (de) Einstellen einer Spracherkennung unter Verwendung einer Kontextinformation
DE102018116315A1 (de) Systeme und Verfahren zum Erhöhen der Lautstärke einer Audio-Ausgabe durch ein Gerät
DE102014117343B4 (de) Erfassen einer Pause in einer akustischen Eingabe in ein Gerät
DE102015110708A1 (de) Kontextbasierte Auswahl eines Kameramodus
DE112016006873T5 (de) Erfassung von Menschen in Bildern unter Verwendung von Tiefeninformationen
DE102016122733A1 (de) Bestimmen ob ein Inhalt zu drehen ist basierend auf einer Identifizierung einer Winkelgeschwindigkeit und/oder einer Beschleunigung eines Gerätes
DE102021117005A1 (de) Verfahren und Einrichtung für föderales Lernen
DE112013004312T5 (de) Drahtloses Paaren und Kommunikation zwischen Vorrichtungen unter Verwendung biometrischer Daten
DE112019007677T5 (de) Posenvorhersageverfahren, Modelltrainingsverfahren und Vorrichtung
DE102018114533A1 (de) Systeme und Verfahren zur Identifikation von Antwortanfragen an einer Peripherievorrichtung
DE102018213549A1 (de) Verfahren und vorrichtungen zum breitstellen von zugriffsautorisierung auf benutzerebene für cloud-basierte feldprogrammierbare gate-arrays
DE102017115933B4 (de) Koordinieren einer Eingabe an mehreren lokalen Geräten
DE102018114453A1 (de) Interaktive Sessions
DE102018209785A1 (de) Vorrichtung und Verfahren zum Detektieren einer Position
DE102017117903A1 (de) Zugriffserlaubnis auf falsche Daten

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R081 Change of applicant/patentee

Owner name: LENOVO PC INTERNATIONAL LIMITED, HK

Free format text: FORMER OWNER: LENOVO (SINGAPORE) PTE. LTD., SINGAPUR, SG

R020 Patent grant now final
R082 Change of representative

Representative=s name: SCHWEIGER, MARTIN, DIPL.-ING. UNIV., DE