DE102014117343B4

DE102014117343B4 - Erfassen einer Pause in einer akustischen Eingabe in ein Gerät

Info

Publication number: DE102014117343B4
Application number: DE102014117343.0A
Authority: DE
Inventors: Russell Speight VanBlon; Suzanne Marion Beaumont; Rod D. Waltermann
Original assignee: Lenovo Singapore Pte Ltd
Current assignee: Lenovo Singapore Pte Ltd
Priority date: 2013-12-03
Filing date: 2014-11-26
Publication date: 2020-03-26
Anticipated expiration: 2034-11-27
Also published as: GB2522748A; CN104679471A; DE102014117343A1; CN104679471B; US10163455B2; US20150154983A1; US10269377B2; US20180374501A1; GB201420978D0; GB2522748B

Abstract

Gerät, aufweisend:einen Prozessor (122);einen Speicher (140), der dem Prozessor zugänglich ist und Anweisungen aufweist, die vom Prozessor ausführbar sind, zum:Verarbeiten einer akustischen Eingabesequenz, wobei die akustische Eingabesequenz von einem Benutzer des Geräts bereitgestellt wird;Bestimmen, dass eine Pause während der Bereitstellung der akustischen Eingabesequenz aufgetreten ist, wenigstens teilweise basierend auf ein erstes Signal von wenigstens einer Kamera, die in Kommunikation mit dem Gerät steht;in Antwort auf die Bestimmung, dass die Pause aufgetreten ist, Aufhören, die akustische Eingabesequenz zu verarbeiten;Bestimmen, dass die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen wurde, wenigstens teilweise basierend auf ein zweites Signal von der Kamera; undin Antwort auf eine Bestimmung, dass die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen wurde, Wiederaufnehmen der Verarbeitung der akustischen Eingabesequenz, wobei die Pause ein akustisches Sequenztrennzeichen aufweist, das für das Gerät unverständlich ist, wobei die Anweisungen ferner durch den Prozessor ausführbar sind, um zu bestimmen, mit der Verarbeitung der akustischen Eingabesequenz aufzuhören, in Antwort auf eine Verarbeitung eines Signals von einem Beschleunigungsmesser am Gerät, außer wenn ebenfalls wenigstens im Wesentlichen gleichzeitig das akustische Sequenztrennzeichen empfangen wird.

Description

Technisches Gebiet
Die vorliegende Erfindung betrifft im Allgemeinen das Erfassen einer Pause in einer akustischen Eingabe in ein Gerät.
Hintergrund
Bei der Eingabe einer akustischen Eingabesequenz, wie zum Beispiel einem Befehl, in ein Gerät, wie zum Beispiel einem Computer, kann eine Pause in der akustischen Eingabesequenz den Computer dazu veranlassen, damit aufzuhören, der akustischen Eingabesequenz „zuzuhören“, indem zum Beispiel das Gerät aufhört, die Sequenz zu bearbeiten und/oder sich ausschaltet und somit den Befehl nicht vollständig verarbeitet.
In manchen Fällen kann, was das Gerät als eine Pause in der akustischen Eingabesequenz bestimmen kann, tatsächlich nur eine Stille sein, nachdem der Benutzer die Bereitstellung der akustischen Eingabesequenz fertiggestellt hat und darauf wartet, dass das Gerät mit der Verarbeitung der akustischen Eingabesequenz beginnt. In einem solchen Fall kann dies das Gerät dazu veranlassen, Audio zu verarbeiten, das nicht zur Eingabe in das Gerät bestimmt war und kann beispielsweise sogar die Batterie des Geräts unnötigerweise entleeren.
US 2013 / 0 021 459 A1 offenbart Systeme, Verfahren und nichtflüchtige computerlesbare Speichermedien zum Verarbeiten von Audio. US 2009 / 0 138 507 A1 offenbart eine Lösung zur automatisierten Wiedergabesteuerung für tragbare Audiogeräte unter Verwendung von Umgebungshinweisen. US 2007 / 0 124 507 A1 offenbart ein Eingabeverfahren für eine multimodale Eingabefähigkeit.
Zusammenfassung
Es ist deshalb eine Aufgabe, ein verbessertes Gerät, ein verbessertes Verfahren sowie eine verbesserte Vorrichtung bereitzustellen.
Dementsprechend stellt ein erster Aspekt ein Gerät gemäß Anspruch 1 bereit.
Dabei kann das akustische Sequenztrennzeichen basierend auf der Ausführung einer Lippenlesesoftware wenigstens am ersten Signal als wenigstens teilweise unverständlich festgestellt werden, wobei das erste Signal von der Kamera in Antwort auf das Erfassen der Kamera wenigstens eines Bilds wenigstens eines Teils des Gesichts des Benutzers generiert werden kann.
Zusätzlich können, falls gewünscht, die ersten und zweiten Signale jeweils durch die Kamera in Antwort darauf generiert werden, dass die Kamera wenigstens ein Bild wenigstens eines Teils des Gesichts des Benutzers erfasst.
Ferner kann die Pause, falls gewünscht, eine Pause während der Bereitstellung des Benutzers einer akustischen Eingabe in das Gerät aufweisen. Daher kann die Bestimmung, dass die Pause wenigstens teilweise basierend auf dem ersten Signal aufgetreten ist, eine Bestimmung aufweisen, dass der momentane Gesichtsausdruck des Benutzers ein Hinweis darauf ist, dass dieser keine akustische Eingabe bereitstellen möchte. Bei manchen Ausführungsformen kann die Bestimmung, dass der momentane Gesichtsausdruck des Benutzers ein Hinweis darauf ist, dass dieser keine akustische Eingabe bereitstellen möchte, eine Bestimmung sein, dass der Mund des Benutzers zumindest weitgehend geschlossen oder vollständig geschlossen ist.
Falls gewünscht, kann die Bestimmung, dass die Bereitstellung der akustischen Eingabesequenz zumindest teilweise wieder aufgenommen worden ist, basierend auf dem zweiten Signal, eine Bestimmung aufweisen, dass der Mund des Benutzers geöffnet ist.
Die Bestimmung, die zumindest teilweise auf dem ersten Signal basiert, dass die Pause aufgetreten ist, kann eine Bestimmung aufweisen, dass der Mund des Benutzers geöffnet ist und sich zumindest im Wesentlichen nicht bewegt, und/oder kann eine Bestimmung aufweisen, dass die Augen des Benutzers das Gerät nicht ansehen oder auf das Gerät gerichtet sind.
Ein weiterer Aspekt stellt ein Verfahren gemäß Anspruch 11 bereit.
Ein weiterer Aspekt stellt eine Vorrichtung gemäß Anspruch 17 bereit.
Die Einzelheiten der vorliegenden Prinzipien bezüglich ihrer Struktur und ihrem Betrieb können am besten im Zusammenhang mit den beigefügten Zeichnungen verstanden werden, in denen sich ähnliche Referenzziffern auf ähnliche Teile beziehen und bei denen:
Figurenliste

1 ein Blockdiagramm eines beispielhaften Geräts gemäß den vorliegenden Prinzipien ist;
2 ein beispielhaftes Ablaufdiagramm der von einem Gerät gemäß den vorliegenden Prinzipien auszuführenden Logik ist; und
3 - 6 beispielhafte Benutzeroberflächen (UIs) sind, die an einem Gerät gemäß den vorliegenden Prinzipien dargestellt sein können.

Ausführliche Beschreibung
Diese Offenbarung betrifft im Allgemeinen Benutzerinformationen, die auf Geräte (zum Beispiel Unterhaltungselektronik- (CE)) basieren. In Bezug auf beliebige, hierin erörtere Computersysteme, kann ein System Server- und Clientkomponenten aufweisen, die über einem Netzwerk angeschlossen sind, sodass Daten zwischen den Client- und Serverkomponenten ausgetauscht werden können. Die Clientkomponenten können dabei ein oder mehrere Computergeräte aufweisen, einschließlich Fernsehgeräten (zum BeispielSmart-TVs, internetgesteuerte TVs), Computer, wie zum Beispiel Laptops und Tablet-Computer, sowie andere mobile Geräte, einschließlich Smartphones. Diese Clientgeräte können, als nichteinschränkende Beispiele, Betriebssysteme von Apple, Google, oder Microsoft einsetzen. Es kann auch ein Unix-Betriebssystem eingesetzt werden. Diese Betriebssysteme können einen oder mehrere Browser ausführen, wie zum Beispiel einen Browser von Microsoft oder Google oder Mozilla, oder ein anderes Browserprogramm, das Zugang zu Webanwendungen hat, die von Internetservern über ein Netzwerk zur Verfügung gestellt werden, wie zum Beispiel dem Internet, einem lokalen Intranet, oder einem virtuell privaten Netzwerk.
Wie hierin verwendet, beziehen sich die Anweisungen auf computerimplementierte Schritte zur Verarbeitung von Informationen im System. Die Anweisungen können dabei in Software, Firmware, oder Hardware implementiert werden; weshalb illustrative Komponenten, Sperren, Module, Schaltkreise und Schritte in Bezug auf ihre Funktionalitäten dargelegt werden.
Bei einem Prozessor kann es sich um einen beliebigen, herkömmlichen Allzweck-Einzel- oder Multi-Chip-Prozessor handeln, der Logik durch verschiedene Leitungen ausführen kann, wie zum Beispiel Adressenleitungen, Datenleitungen und Steuerleitungen sowie Registern und Schieberegister. Desweiteren können beliebige hierin beschriebene Logiksperren, Module und Schaltkreise zusätzlich zu einem Allzweck-Prozessor in einem oder durch einen digitalen Signalprozessor (DSP), einer feldprogrammierbaren Gatter-Anordnung (FPGA) oder einem anderen programmierbaren Logikgerät, wie zum Beispiel einem anwendungsspezifischen integrierten Schaltkreis (ASIC), einer diskreten Gatter- oder Transistorlogik, diskreten Hardware-Komponenten oder einer Kombination davon, die derart ausgelegt sind, um die hierin beschriebenen Funktionen durchzuführen, implementiert oder durchgeführt werden. Ein Prozessor kann durch eine Steuerung oder eine Zustandsmaschine oder eine Kombination aus Computergeräten implementiert werden.
Jegliche Software und/oder Anwendungen, die hierin durch Ablaufdiagramme und/oder Benutzeroberflächen beschrieben sind, können verschiedene Unterprogramme, Abläufe, etc. aufweisen. Es versteht sich, dass eine als durch zum Beispiel ein Modul ausgeführte erkenntlich gemachte Logik an andere Softwaremodule weiterverteilt und/oder zusammen in einem einzelnen Modul kombiniert und/oder in einer mitbenutzbaren Bibliothek zur Verfügung gestellt werden kann.
Wenn in Software implementiert, kann Logik in einer entsprechenden Sprache geschrieben werden, wie zum Beispiel, jedoch nicht beschränkt auf, C# oder C++, und kann dann in einem maschinenlesbaren Speichermedium (zum Beispiel das eventuell keine Trägerwelle ist) gespeichert werden, wie zum Beispiel einem Arbeitsspeicher (RAM), Festspeicher (ROM), elektrisch löschbarem, programmierbaremFestspeicher (EEPROM), CD-Festspeicher (CD-ROM), oder einem anderen optischen Plattenspeicher, wie zum Beispiel einer DVD, Magnetplattenspeicher oder anderen Magnetspeichergeräten, einschließlich Wechsel-USB-Stick-Speichern, etc. Eine Verbindung kann ein maschinenlesbares Medium einrichten. Zu solchen Verbindungen können zum Beispiel festverdrahtete Kabel zählen, einschließlich Faseroptik- und Koaxialleitungen und verdrillte Leitungen. Solche Verbindungen können drahtlose Kommunikationsleitungen, einschließlich Infrarot- und Funkleitungen, aufweisen.
In einem Beispiel kann ein Prozessor Informationen über seine Eingangsleitungen aus einem Datenspeicher abrufen, wie zum Beispiel dem maschinenlesbaren Speichermedium, und/oder der Prozessor kann Informationen drahtlos von einem Internet-Server durch Aktivieren eines drahtlosen Sende-/Empfangsgeräts abrufen, um Daten zu senden und zu empfangen. Die Daten werden dabei typischerweise bei Empfang von analogen Signalen zu digitalen umgewandelt durch die Schaltkreise zwischen der Antenne und den Registern des Prozessors, und bei Übertragung von digital zu analog. Der Prozessor verarbeitet die Daten dann durch seine Schieberegister, um errechnete Daten zur Präsentation der errechneten Daten am Gerät an Ausgabeleitungen auszugeben.
Die in einer Ausführung enthaltenden Komponenten können auch in anderen Ausführungsformen in entsprechender Kombination verwendet werden. Es können zum Beispiel jegliche der hierin beschriebenen und/oder in den Figuren dargestellten, verschiedenen Komponenten kombiniert, ausgetauscht, oder aus anderen Ausführungsformen ausgeschlossen werden.
„Ein System mit wenigstens einem A, B und C“ (gleichermaßen „ein System mit wenigstens einem A, B oder C“ sowie „ein System mit wenigstens einem A, B, C“) zählt zu Systemen, die A allein, B allein, C allein, A und B zusammen, A und C zusammen, B und C zusammen und/oder A, B und C zusammen, etc., aufweisen können.
Der Begriff „Schaltkreis“ oder „Schaltkreise“ wird in der Zusammenfassung, Beschreibung und/oder in den Ansprüchen verwendet. Wie gemäß dem Stand der Technik bekannt, umfasst der Begriff „Schaltkreise“ sämtliche Ebenen der verfügbaren Integration, zum Beispiel von diskreten Logikschaltkreisen zur höchsten Ebene der Schaltkreisintegration, wie zum Beispiel VLSI, und umfasst auch programmierbare Logikkomponenten, die programmiert sind, um die Funktionen einer Ausführungsform durchzuführen, sowohl als auch Allzweck-Prozessoren, die mit Anweisungen zur Durchführung dieser Funktionen programmiert sind.
Speziell in Bezug auf 1 zeigt diese ein Blockdiagramm eines Computersystems 100, wie zum Beispiel einem internetbefähigtem, computergesteuertem Telefon (zum Beispiel ein Smartphone), einem Tablet-Computer, einem tragbaren Computer oder PC, einem internetbefähigtem, computergesteuertem tragbarem Gerät, wie zum Beispiel einer Smartwatch, einem computergesteuerten Fernseher (TV), wie zum Beispiel einem Smart-TV, etc. Daher kann das System 100 in manchen Ausführungsformen ein PC-System sein, wie zum Beispiel eines der ThinkCentre®- oder ThinkPad®-Serie von PCs, erhältlich von Lenovo (US) Inc. in Morrisville, NC, USA, oder ein Arbeitsplatzrechner, wie zum Beispiel der ThinkStation®, erhältlich von Lenovo (US) Inc. in Morrisville, NC, USA; wobei jedoch, wie aus dieser Beschreibung ersichtlich ist, ein Clientgerät, ein Server, oder eine Maschine gemäß den vorliegenden Prinzipien auch andere Merkmale oder nur einige der Merkmale des Systems 100 aufweisen kann.
Wie in 1 ersichtlich, weist das System 100 einen sogenannten Chipsatz 110 auf. Ein Chipsatz bezieht sich auf eine Gruppe von integrierten Schaltkreisen oder Chips, die dazu ausgelegt sind, miteinander zu arbeiten. Chipsätze werden gewöhnlich als ein einzelnes Produkt vermarktet (zum Beispiel Chipsätze, die unter den Markennamen INTEL®, AMD®, etc., vermarktet werden).
Im Beispiel von 1 weist der Chipsatz 110 eine bestimmte Architektur auf, die je nach Herstellermarke zu einem gewissen Ausmaß variieren kann. Die Architektur des Chipsatzes 110 weist eine Kern- und Speichersteuerungsgruppe 120 sowie einen E/A-Steuerungsknoten 150 auf, der Informationen (zum Beispiel Daten, Signale, Befehle, etc.) über zum Beispiel eine direkte Verwaltungsschnittstelle oder eine direkte Medienschnittstelle (DMI) 142 oder eine Verbindungssteuerung 144 austauscht. Im Beispiel von 1 ist die DMI 142 eine Chip-an-Chip-Schnittstelle (die manchmal auch als Verbindung zwischen einer „Nordbrücke“ und einer „Südbrücke“ bezeichnet wird).
Die Kern- und Speichersteuerungsgruppe 120 umfasst einen oder mehrere Prozessoren 122 (zum Beispiel Einzelkern oder Multikern, etc.) sowie einen Speichersteuerungsknoten 126, der Informationen über den Vorderseitenbus (FSB) 124 austauscht. Wie hierin beschrieben, können verschiedene Komponenten der Kern- und Speichersteuerungsgruppe 120 in einem einzelnen Prozessorchip integriert sein, um zum Beispiel einen Chip herzustellen, der die herkömmliche Architektur in der Art einer „Nordbrücke“ ersetzt.
Der Speichersteuerungsknoten 126 koppelt den Speicher 140 an. Der Speichersteuerungsknoten 126 kann zum Beispiel eine Unterstützung für einen DDR SDRAM-Speicher (zum Beispiel, DDR, DDR2, DDR3, etc.) bereitstellen. Im Allgemeinen ist der Speicher 140 eine Art Arbeitsspeicher (RAM). Er wird oftmals als „Systemspeicher“ bezeichnet.
Der Speichersteuerungsknoten 126 weist ferner eine Niedrigspannungs-Differenzialsignalisierungsschnittstelle (LVDS) 132 auf. Die LVDS 132 kann eine sogenannte LVDS-Anzeigeschnittstelle (LDI) zur Unterstützung des Anzeigegeräts 192 sein (zum Beispiel ein CRT, ein Flachbildschirm, ein Projektor, eine berührungsgesteuerte Anzeige, etc.). Ein Block 138 weist einige Beispiele von Techniken auf, die über die LVDS-Schnittstelle 132 unterstützt werden können (zum Beispiel serielles digitales Video, HDMI/DVI, Anzeigeanschluss). Der Speichersteuerungsknoten 126 weist ebenfalls eine oder mehrere PCI-Express-Schnittstellen (PCI-E) 134 auf, zum Beispiel zur Unterstützung von diskreten Grafiken 136. Diskrete Grafiken, die eine PCI-E-Schnittstelle einsetzen, sind zu einem alternativen Ansatz eines beschleunigten Grafikanschlusses (AGP) geworden. Der Speichersteuerungsknoten 126 kann zum Beispiel einen 16-spurigen (x16) PCI-E-Anschluss für eine externe Grafikkarte auf PCI-E-Basis aufweisen (einschließlich, zum Beispiel einen von mehreren GPUs). Ein beispielhaftes System kann AGP oder PCI-E zur Unterstützung von Grafiken aufweisen.
Die E/A-Knotensteuerung 150 weist eine Vielzahl von Schnittstellen auf. Das Beispiel von 1 umfasst eine SATA-Schnittstelle 151, eine oder mehrere PCI-E-Schnittstellen 152 (optional eine oder mehrere Legacy-PCI-Schnittstellen), eine oder mehrere USB-Schnittstellen 153, eine LAN-Schnittstelle 154 (eher allgemein eine Netzwerkschnittstelle zur Kommunikation über wenigstens einem Netzwerk, wie zum Beispiel dem Internet, einem WAN, einem LAN, etc. unter der Anweisung des/der Prozessors/Prozessoren 122), eine Allzweck-E/A-Schnittstelle (GPIO) 155, eine Schnittstelle mit niedriger Stiftzahl (LPC) 170, eine Stromverwaltungsschnittstelle 161, eine Taktgeberschnittstelle 162, eine Audioschnittstelle 163 (zum Beispiel für Lautsprecher 194, um ein Audiosignal auszugeben), eine Gesamtbetriebskosten-Schnittstelle (TCO) 164, eine Systemverwaltungs-Busschnittstelle (zum Beispiel eine serielle Multimaster-Computerbusschnittstelle) 165 sowie eine serielle, periphere Flash-Speicher/-Steuerungsschnittstelle (SPI Flash) 166, die im Beispiel von 1 BIOS 168 und den Start-Code 190 aufweist. In Bezug auf Netzwerkverbindungen kann die E/A-Knotensteuerung 150 integrierte Gigabit-Ethernet-Steuerleitungen aufweisen, die mit einem PCI-E-Schnittstellenanschluss gebündelt sind.
Die Schnittstellen der der E/A-Knotensteuerung 150 stellen eine Kommunikation mit verschiedenen Geräten, Netzwerken, etc. bereit. Die SATA-Schnittstelle 151 stellt zum Beispiel Lese-, Schreibe- oder Lese- und Schreibe-Informationen an einem oder mehreren Laufwerken 180 bereit, wie zum Beispiel HDDs, SDDs oder eine Kombination davon, in jedem Fall sind die Laufwerke 180 jedoch als zum Beispiel greifbare maschinenlesbare Speichermedien zu verstehen, die nicht unbedingt Trägerwellen sein müssen. Die E/A-Knotensteuerung 150 kann ebenfalls eine fortgeschrittene Wirtsteuerungsschnittstelle (AHCI) zur Unterstützung eines oder mehrerer Laufwerke 180 sein. Die PCI-E-Schnittstelle 152 erlaubt drahtlose Verbindungen 182 an Geräte, Netzwerke, etc. Die USB-Schnittstelle 153 stellt Eingabegeräte 184 bereit, wie zum Beispiel Tastaturen (KB), Mäuse und verschiedene andere Geräte (zum Beispiel Kameras, Telefone, Speicher, Media-Players, etc.) .
Im Beispiel von 1, stellt die LPC-Schnittstelle 170 die Verwendung eines oder mehrerer ASICs 171, ein zuverlässiges Plattformmodul (TPM) 172, eine Super-E/A 173, einen Firmware-Knoten 174, BIOS-Unterstützung 175 sowohl als auch verschiedene Speicherarten 176, wie zum Beispiel einen ROM 177, einen Flash 178 und einen nicht löschbaren RAM (NVRAM) 179 bereit. In Bezug auf den TPM 172 kann dieses Modul in Form eines Chips bestehen, der verwendet werden kann, um Software- und Hardwaregeräte zu authentisieren. Ein TPM kann zum Beispiel in der Lage sein, eine Plattform-Authentisierung durchzuführen und kann verwendet werden, um zu bestätigen, dass ein System, das Zugang sucht, auch das erwartete System ist.
Das System 100, nachdem es eingeschaltet worden ist, kann dazu konfiguriert werden, den Start-Code 190 für das BIOS 168, wie dieser innerhalb des SPI Flash 166 gespeichert ist, auszuführen und somit Daten unter der Kontrolle eines oder mehrerer Betriebssysteme und Anwendungs-Software (die zum Beispiel im Systemspeicher 140 gespeichert sind) auszuführen. Ein Betriebssystem kann in einer beliebigen Vielfalt von Stellen gespeichert sein und gemäß den Anweisungen des BIOS 168 abgerufen werden.
Zusätzlich dazu kann das System 100 auch wenigstens einen Berührungssensor 195 aufweisen, der eine Eingabe an den Prozessor 122 bereitstellt und gemäß den vorliegenden Prinzipien zum Erfassen einer Berührung eines Benutzers bereitstellen, wenn der Benutzer zum Beispiel das System 100 berührt. Bei manchen Ausführungsformen, bei denen zum Beispiel das Gerät ein Smartphone ist, kann der Berührungssensor 195 am System 100 entlang der entsprechenden Seitenwände positioniert sein, welche Ebenen definieren, die sich im rechten Winkel zu einer Vorderseite des Anzeigegeräts 192 befinden. Das System 100 kann ebenfalls einen Näherungs-, Infrarot-, Sonar- und/oder Wärmesensor 196 aufweisen, der dem Prozessor 122 eine Eingabe bereitstellt und gemäß den vorliegenden Prinzipien zum Erfassen zum Beispiel der Körperwärme einer Person und/oder der Nähe wenigstens eines Teils der Person (zum Beispiel der Wange oder des Gesichts der Person) an wenigstens einem Teil des Systems 100, wie zum Beispiel dem Sensor 196 selbst, konfiguriert ist.
Außerdem kann das System 100 bei manchen Ausführungsformen eine oder mehrere Kameras 197 aufweisen, die eine Eingabe an den Prozessor 122 bereitstellen. Bei der Kamera 197 kann es sich dabei um eine Thermografiekamera, eine digitale Kamera, wie zum Beispiel eine Webcam, und/oder eine im System 100 integrierte und vom Prozessor 122 gesteuerte Kamera handeln, um Bilder/Abbildungen und/oder Video gemäß den vorliegenden Prinzipien zu erfassen (zum Beispiel um eine oder mehrere Abbildungen des Gesichts, Munds, der Augen, etc. eines Benutzers zu erfassen). Desweiteren kann das System 100 einen Audioempfänger/ein Mikrofon 198 zum Beispiel zum Eingeben einer akustischen Eingabe, wie zum Beispiel eine akustische Eingabesequenz (zum Beispiel akustische Befehle) in das System 100 zur Steuerung des Systems 100 aufweisen. Zusätzlich kann das System 100 einen oder mehrere Bewegungssensoren 199 aufweisen, (wie zum Beispiel einen Beschleunigungs-, Gyroskop-, Zyklometer-, Magnetsensor, Infrarot-(IR)-Berührungssensoren, wie zum Beispiel passive IR-Sensoren, einen optischen Sensor, einen Geschwindigkeitssensor, und/oder einen Kadenzsensor (zum Beispiel zum Erfassen eines Gestik-Befehls), etc.), die dem Prozessor 122 gemäß den vorliegenden Prinzipien eine Eingabe bereitstellen.
Bevor mit 2 fortgefahren wird, und wie hierin beschrieben, versteht es sich, dass ein beispielhaftes Clientgerät oder eine andere Maschine/ein anderer Computer weniger oder mehr Merkmale, als die am System 100 von 1 dargestellten aufweisen kann. In jedem Fall versteht es sich, dass wenigstens basierend auf dem Vorstehenden das System 100 dazu konfiguriert ist, die vorliegenden Prinzipien durchzuführen (zum Beispiel eine akustische Eingabe von einem Benutzer zu empfangen, die oben beschriebene Logik zu speichern, auszuführen und/oder durchzuführen und/oder beliebige andere Funktionen und/oder hierin beschriebene Betriebe durchzuführen).
In 2 ist ein beispielhaftes Ablaufdiagramm der durch ein Gerät, wie zum Beispiel dem oben gemäß den vorliegenden Prinzipien beschriebenen System 100, auszuführenden Logik dargestellt. Beginnend am Block 200 leitet die Logik eine akustische Eingabeanwendung (zum Beispiel einen elektronischen „persönlichen Assistenten“) zur Verarbeitung der akustischen Eingabe und/oder zur Ausführung einer Funktion ein, die gemäß den vorliegenden Prinzipien auf diese reagiert, wie zum Beispiel einen akustisch bereitgestellten Befehl eines Benutzers. Die akustische Eingabeanwendung kann dabei zum Beispiel automatisch, in Antwort der Eingabe eines Benutzers eingeleitet werden, der ein mit der akustischen Eingabeanwendung assoziiertes Symbol eingibt, und an einer berührungsgesteuerten Anzeige, wie zum Beispiel des oben beschriebenen Anzeigegeräts 192, repräsentiert ist. In jedem Fall fährt die Logik vom Block 200 zur Entscheidungsraute 202 fort, wo die Logik bestimmt, ob eine akustische Eingabe am Gerät empfangen wird und/oder durch den Benutzer des Geräts bereitgestellt wird, welches die Logik von 2 (in der restlichen Beschreibung von 2 als „das Gerät“ bezeichnet) basierend auf zum Beispiel der von einem Mikrofon des Geräts und/oder basierend auf wenigstens einer Abbildung von einer Kamera, die in Kommunikation mit dem Gerät steht (zum Beispiel die verwendet wird, um festzustellen, dass sich die Lippen des Benutzers mit dem Gerät innerhalb eines Grenzwertabstands des Geräts bewegen und somit eine akustische Eingabe in das Gerät bereitgestellt wird), durchführt. Falls die Logik bestimmt, dass keine solche akustische Eingabe vom Benutzer bereitgestellt und/oder vom Gerät empfangen wird, kann die Logik dann mit der Bestimmung der Raute 202 fortfahren, bis eine positive Bestimmung vorgenommen worden ist.
Wenn eine positive Bestimmung von der Raute 202 vorgenommen worden ist, fährt die Logik zur Entscheidungsraute 204 fort, wo die Logik bestimmt (zum Beispiel basierend auf den Signalen von einer Kamera, die in Kommunikation mit dem Gerät steht), ob der Mund und/oder die Augen des Benutzers auf eine Bereitstellung des Benutzers einer akustischen Eingabe in das Gerät hinweisen (zum Beispiel mithilfe einer Lippenlese-Software, Augen-NachverfolgungsSoftware, etc.). Somit können zum Beispiel ein oder mehrere Signale von einer Kamera, die Abbildungen eines Benutzers erfasst und diese an einen Prozessor des Geräts bereitstellt, vom Gerät dahingehend analysiert, untersucht, etc. werden, ob der Mund des Benutzers geöffnet ist, was vom Prozessor des Geräts (zum Beispiel basierend auf Mund-Nachverfolgungs-Software und/oder basierend auf einer Korrelation einer Mundposition unter Verwendung einer Nachschlagetabelle über den Hinweis, den eine Mundposition ergibt) als Hinweis darauf festgestellt werden kann, dass der Benutzer eine akustische Eingabe bereitstellt oder im Begriff ist, diese bereitzustellen. Als weiteres Beispiel können ein oder mehrere Signale von einer Kamera, die Abbildungen eines Benutzers erfasst und diese an einen Prozessor des Geräts bereitstellt, vom Gerät dahingehend analysiert, untersucht, etc. werden, ob die Augen des Benutzers, und insbesondere die Pupillen des Benutzers auf, um oder zum Gerät hin gerichtet sind (was durch Verwendung einer Augen-Nachverfolgungs-Software festgestellt werden kann), was ein Hinweis darauf sein kann, dass der Benutzer eine akustische Eingabe bereitstellt oder im Begriff ist, diese basierend auf der Tatsache bereitzustellen, dass die Augen des Benutzers auf das Gerät gerichtet sind. Umgekehrt kann bei einer Bestimmung, dass die Augen eines Benutzers nicht auf, um oder zum Gerät hin gerichtet sind (zum Beispiel das Richten der Augen in die Ferne und/oder das Gesicht des Benutzers ist vom Gerät abgewendet (zum Beispiel wie vorher bestimmt und/oder mit einer Anzahl von Grad vom Gerät aus relativ zum Beispiel zu einem Vektor, der durch die Blickrichtung des Benutzers beim Wegsehen festgestellt)) die Logik dazu veranlassen festzustellen, dass der Benutzer keine akustische Eingabe an das Gerät bereitstellt, auch wenn Audio vom Benutzer empfangen worden ist, und somit keine Verarbeitung stattfinden sollte.
Trotzdem kann die Logik zur Raute 202 zurückkehren und von dort aus fortfahren, wenn die Logik bei Raute 204 bestimmt, dass der Mund und/oder die Augen des Benutzers keinen Hinweis darauf geben, dass dieser eine akustische Eingabe, oder im Begriff ist eine akustische Eingabe bereitzustellen. Falls jedoch die Logik an Raute 204 bestimmt, dass der Mund und/oder die Augen des Benutzers einen Hinweis darauf geben, dass dieser eine akustische Eingabe, oder im Begriff ist eine akustische Eingabe bereitzustellen, bewegt sich die Logik zu Block 206 hin, wo die Logik damit beginnt, Verarbeiten einer akustischen Eingabesequenz (und/oder auf eine bereitzustellende akustische Eingabesequenz wartet) und/oder eine Funktion in Antwort auf den Empfang der akustischen Eingabesequenz auszuführen. Danach fährt die Logik zur Entscheidungsraute 208 fort, wo die Logik bestimmt, ob ein „Sprachtrennzeichen“ empfangen worden ist, das obwohl die Eingabe durch den Benutzer zum Beispiel keinen Teil der (zum Beispiel vorgesehenen) akustischen Eingabesequenz bildet, eine fehlerhafte Eingabe in das Gerät ist, bedeutungslos und/oder unverständlich für das Gerät ist und/oder keinen Teil eines Befehls an das Gerät bildet.
Ein solches „Sprachtrennzeichen“ kann durch das Gerät selbst identifiziert werden, zum Beispiel in Antwort auf die Bestimmung, dass das „Sprachtrennzeichen“ ein Wort in einer anderen Sprache relativ zu anderen Teilen der akustischen Eingabe ist (zum Beispiel als die Mehrheit der Eingabe und/oder des ersten Wortes oder der Worte, die vom Benutzer als Eingabe gesprochen werden), in Antwort auf die Bestimmung, dass das „Sprachtrennzeichen“, das eingegeben wird, kein tatsächliches Wort in der gesprochenen Sprache ist, wenn andere Teile der Eingabe in der Sprache bereitgestellt werden und/oder in Antwort auf die Bestimmung, dass das „Sprachtrennzeichen“, das vom Benutzer eingegeben wird, mit einem Sprachtrennzeichen in einer Datentabelle von Sprachtrennzeichen , die während der Verarbeitung zum Beispiel einer akustischen Befehlssequenz vom Gerät ignoriert werden sollen, übereinstimmt. Zusätzlich oder anstelle des Vorgenannten kann ein „Sprachtrennzeichen“ vom Gerät als eines identifiziert werden, das auf eine Bestimmung reagiert, dass das „Sprachtrennzeichen“ wenigstens teilweise basierend auf der Anwendung einer Lippenlesesoftware an wenigstens einer Abbildung des Gesichts des Benutzers unverständlich ist, das von einer Kamera des Geräts erfasst worden ist um festzustellen, dass obwohl Audio vom Gerät empfangen worden ist, das Audio ein Laut aus zum Beispiel einem geschlossenen Mund und/oder einem unbeweglichen/stillstehenden Mund stammt, der kein Teil eines tatsächlichen Wortes bildet. In jedem Fall versteht es sich, dass das Gerät zum Beispiel in Antwort auf die „Sprachtrennzeichen“-Eingabe, die als solche identifiziert wird, die „Sprachtrennzeichen“-Eingabe ignoriert, diese davon ausschließt, ein Teil der zu verarbeitenden akustischen Eingabesequenz zu bilden und/oder anderweitig diese nicht als Teil der akustischen Eingabesequenz und/oder des Befehls, in welcher diese bereitgestellt worden ist, zu verarbeiten.
Wenn zum Beispiel die Eingabe in das Gerät „Bitte das näheste ähm Restaurant finden“ lautet, kann jedes Wort in der Eingabe gegen eine Tabelle englischer Wörter verglichen werden, wobei zum Beispiel „nächste“ und „Restaurant“ basierend auf der Übereinstimmung der eingegebenen Wörter in Bezug auf die entsprechenden Einträge in der Tabelle der englischen Wörter verglichen wird (und/oder zum Beispiel festgestellt wird, dass diese Teil des Befehls basierend darauf bilden, dass es sich um Wörter derselben Sprache wie das Anfangswort „bitte“ handelt), während „ähm“ als kein englisches Wort darstellend festgestellt wird und somit nicht als Teil des Befehls verarbeitet wird (und/oder zum Beispiel aus der akustischen Eingabesequenz, wie sie vom Gerät verarbeitet wird, ausgeschieden wird). Zusätzlich oder anstelle des Vorstehenden kann „ähm“ als eine Eingabe identifiziert werden, die vom Gerät basierend darauf ignoriert werden soll, dass „ähm“ in der Tabelle der „Sprachtrennzeichen“ enthalten ist und/oder eine unverständliche Eingabe ist.
Weiterhin in Bezug auf 2, falls eine positive Bestimmung an Raute 208 vorgenommen worden ist, kann die Logik zu Block 206 zurückkehren und damit fortfahren, Verarbeiten einer akustischen Eingabesequenz und/oder als Teil der Sequenz zurückweisen, einschließlich der „Sprachtrennzeichen“, während andere Teile des Audios vom Benutzer als Teil der Sequenz weiterhin verarbeitet werden. In diesem Sinne kann sich das „Sprachtrennzeichen“ auf die (zum Beispiel kontinuierliche und/oder im Wesentlichen kontinuierliche) Verarbeitung eines Audios ohne eine Pause der Anwendung der akustischen Eingabesequenz erstrecken, wie noch nachfolgend erörtert wird. Falls jedoch eine negative Bestimmung an Raute 208 stattfindet, fährt die Logik anstatt dessen mit der Entscheidungsraute 210 fort.
An der Entscheidungsraute 210 stellt die Logik fest, ob ein anderer Betrieb (zum Beispiel eine andere Anwendung) am Gerät vom Benutzer eingesetzt wird. Falls die Logik zum Beispiel bestimmt, dass ein Benutzer eine berührungsgesteuerte Anzeige des Geräts manipuliert, um im Internet unter Verwendung einer Browser-Anwendung zu surfen, kann die Logik mit Block 212 fortfahren, wo die Logik die Verarbeitung der akustischen Eingabesequenz vorübergehend unterbricht, zum Beispiel für einen Zeitraum, während dem der Benutzer die andere Anwendung (zum Beispiel Browser-Anwendung) derart manipuliert, dass Audio, das keinen Teil eines Befehls an das Gerät bildet und/oder nicht dazu vorgesehen war, einen Teil davon zu bilden.
Obwohl nicht aus 2 ersichtlich, versteht es sich jedoch, dass bei manchen Ausführungsformen die Bestimmung, dass ein weiterer Betrieb gemäß oder nicht gemäß den vorliegenden Prinzipien eingesetzt wird, mit der Bestimmung kombiniert werden kann, dass der Benutzer damit aufgehört hat, die akustische Eingabesequenz bereitzustellen (zum Beispiel und/oder insgesamt aufgehört hat, Audio bereitzustellen), um trotzdem die Verarbeitung der akustischen Eingabe nicht anzuhalten oder auszuschalten, wie es anderweitig der Fall wäre, sondern damit fortzufahren, auf eine Eingabe von einer Sequenz zu „hören“, die wenigstens bereits teilweise bereitgestellt worden ist, während der Benutzer zum Beispiel im Internet zwecks für die akustische Eingabesequenz nützlicher Informationen surft.
Wie jedoch bei der beispielhaften Logik von 2 zu sehen ist, kann die Logik, in Antwort auf die Bestimmung, dass der Benutzer einen weiteren Betrieb und/oder eine weitere Anwendung des Geräts einsetzt, zu Block 212 fortfahren, um die Verarbeitung ungeachtet der Tatsache, ob der Benutzer noch spricht und/oder eine akustische Eingabe bereitstellt, anzuhalten oder zu Block 212 fortfahren, basierend auf der positiven Bestimmung an Raute 210, kombiniert mit der Bestimmung, dass der Benutzer damit aufgehört hat, überhaupt Audio bereitzustellen (zum Beispiel basierend auf der Ausführung der Lippenlesesoftware an einer Abbildung des Benutzers mit dem Sprechen aufgehört hat, um festzustellen, dass sich die Lippen des Benutzers nicht mehr bewegen und der Benutzer somit keinerlei Eingabe mehr an das Gerät bereitstellt).
Ungeachtet dessen sei angemerkt, dass eine negative Bestimmung an Raute 210 die Logik dazu veranlasst, zur Entscheidungsraute 214 fortzufahren. An der Raute 214 stellt die Logik fest, ob ein oder mehrere Signale von einem Beschleunigungsmesser des Geräts und/oder von einem Gesichtsnäherungssensor des Geräts einen Hinweis darauf bereitstellt, dass sich das Gerät außerhalb eines Abstandsgrenzwerts befindet und/oder außerhalb eines Abstandsgrenzwerts bewegt wird, wo der Abstand für den Grenzwert zum Abstand zwischen dem Gerät und dem Gesicht des Benutzers relativ ist. Daher kann zum Beispiel eine positive Bestimmung an Raute 214 basierend darauf getroffen werden, dass der Benutzer das Gerät (zum Beispiel zumindest über einen vorbestimmten Abstand hinweg) vom Gesichtsbereich des Benutzers entfernt, weil der Benutzer zum Beispiel beabsichtigt, keine weitere Eingaben mehr an das Gerät bereitzustellen. Trotz des Vorgenannten kann die Logik bei manchen Ausführungsformen an Raute 214 gleichwohl zur Entscheidungsraute 216 (nachfolgend beschrieben) fortfahren, falls ebenfalls an Raute 214 festgestellt wird, trotzdem sich das Gerät außerhalb des Abstandsgrenzwerts zum Benutzer befindet, dass der Benutzer mit dem Sprechen fortfährt, zum Beispiel auch wenn das gesprochene Audio ein „Sprachtrennzeichen“ ist.
In jedem Fall versteht es sich, dass die Logik, in Antwort auf eine positive Bestimmung, zu Block 212 zurückkehrt. Eine negative Bestimmung an Raute 214 veranlasst die Logik jedoch dazu, sich zur Entscheidungsraute 216 zu bewegen, wo die Logik bestimmt, ob eine akustische Pause in der akustischen Eingabesequenz aufgetreten ist. Eine akustische Pause kann zum Beispiel eine Pause während dem Sprechen des Benutzers sein (zum Beispiel vollständig und/oder es wird kein Ton bereitgestellt) und/oder eine, bei der keinerlei akustische Eingaben an das Gerät bereitgestellt werden. Die an Raute 216 vorgenommene Bestimmung kann auf einer Bestimmung basieren, dass der derzeitige Gesichtsausdruck des Benutzers (basierend auf einem Abbild des Benutzers, das von einer Kamera des Geräts erfasst worden ist) ein Hinweis darauf ist, dass keine akustische Eingabe mehr bereitgestellt wird, basierend darauf, dass der Mund des Benutzers zumindest fast vollständig geschlossen ist (und/oder unbeweglich ist oder stillsteht) und/oder basierend darauf, dass der Mund des Benutzers zumindest teilweise geöffnet ist (zum Beispiel aber unbeweglich/stillstehend ist).
Falls bei Raute 216 eine negative Bestimmung getroffen wird, kann die Logik zu Block 206 zurückkehren . Falls jedoch eine positive Bestimmung an Raute 216 getroffen worden ist, fährt die Logik anstatt dessen mit Block 212 weiter und hält die Verarbeitung der akustischen Eingabe wie hierin beschrieben an. Die Logik von 2 fährt dann von Block 212 weiter zur Entscheidungsraute 218 (zum Beispiel ungeachtet der Tatsache, von welcher Entscheidungsraute aus Block 212 angetroffen wird). An der Raute 218 stellt die Logik fest, ob eine Grenzwertzeit abgelaufen ist, während der keine Berührungseingabe an der berührungsgesteuerten Anzeige empfangen worden ist, die ein Hinweis darauf sein kann, dass der Benutzer (zum Beispiel nach Einsetzen eines weiteren Betriebs des Geräts unter Verwendung einer wie hierin dargelegten berührungsgesteuerten Anzeige) zum Beispiel mit der Bereitstellung der akustischen Eingabe an das Gerät fortsetzt, oder im Begriff ist, diese fortzusetzen (zum Beispiel nachdem der Benutzer die zur Bereitstellung der akustischen Eingabe nützlichen Informationen unter Verwendung des Internet-Browsers aufgefunden hat) . Daher kann in den Fällen, in denen ein Benutzer einen weiteren Betrieb des Geräts eingesetzt hat, die Entscheidungsraute 218 erreicht werden, obwohl die Logik bei anderen Ausführungsformen vom Block 212 direkt zur Entscheidungsraute 220, die noch in Kürze beschrieben wird, fortfahren kann. In jedem Fall kann eine negative Bestimmung an Raute 218 die Logik dazu veranlassen, die Bestimmung an Raute 218 solange fortzuführen, bis eine positive Bestimmung getroffen worden ist. Nach einer positiven Bestimmung an Raute 218 fährt die Logik dann zur Entscheidungsraute 220 fort.
An der Entscheidungsraute 220 stellt die Logik fest, ob wiederum basierend auf zum Beispiel einer Erfassung von Audio eine akustische Eingabe an das Gerät bereitgestellt wird, während sich das Gerät innerhalb eines Grenzwertabstands vom Gesicht des Benutzers befindet, während der Benutzer wie hierin dargelegt auf, um oder zum Gerät hin sieht und/oder basierend auf der Erfassung von Audio, während sich der Mund des Benutzers wie hierin dargelegt bewegt, etc. Eine negative Bestimmung an Raute 220 kann die Logik dazu veranlassen, mit dem Treffen der Bestimmung an Raute 220 solange fortzuführen, bis eine positive Bestimmung getroffen wird. Eine positive Bestimmung an Raute 220 veranlasst die Logik dazu, mit Block 222 weiterzufahren, wo die Logik die Verarbeitung der akustischen Eingabesequenz wieder aufnimmt und/oder einen Befehl ausführt, der in der bereitgestellten akustischen Eingabesequenz bereitgestellt ist oder davon abgeleitet ist.
Unter Fortsetzung der detaillierten Beschreibung in Bezug auf 3 zeigt diese eine beispielhafte Benutzeroberfläche (UI) 300, die an einem Gerät dargestellt sein kann, das die vorliegenden Prinzipien einsetzt, wenn zum Beispiel festgestellt wird, dass eine Pause in einer akustischen Eingabe wie hierin dargelegt stattfindet. Wie aus 3 ersichtlich, weist die UI 300 eine Überschrift/einen Titel 302 auf, der ein Hinweis darauf ist, dass zum Beispiel eine Anwendung zum Empfang eines akustischen Befehls und/oder einer akustischen Eingabesequenz gemäß den vorliegenden Prinzipien eingeleitet wird und am Gerät läuft und zum Beispiel, dass die UI 300 damit assoziiert ist. Es ist ebenfalls zu beachten, dass ein Home-Auswahlelement 304 dargestellt ist, das ausgewählt werden kann, um zum Beispiel einen Home-Bildschirm des Geräts (zum Beispiel durch Präsentieren von Symbolen für die Anwendungen des Geräts) ohne weitere Eingabe durch den Benutzer dargestellt wird.
Die UI 300 weist ebenfalls ein Statuskennzeichen 306 und damit assoziierter Text 308 auf, was im beispielhaften Fall darauf hindeutet, dass die Anwendung angehalten wurde und/oder dass sie auf eine akustische Eingabe von einem Benutzer wartet (zum Beispiel in Antwort auf die Bestimmung, dass keine akustische Eingabe gerade vor und/oder während dem Zeitraum bereitgestellt wird, während dem die UI 300 dargestellt wird). Daher deutet der beispielhafte Text 308 darauf hin, dass das Gerät und/oder die Anwendung „auf die Eingabe [des Benutzers] ... wartet“. Eine beispielhafte Abbildung und/oder Illustration 310, wie zum Beispiel ein Mikrofon, weist ebenfalls darauf hin, dass ein Benutzer in das Gerät oder in dessen Nähe sprechen sollte, dass die UI 300 darstellt, um eine akustische Eingabe bereitzustellen und zum Beispiel um eine Illustration einer Handlung (zum Beispiel sprechen) bereitzustellen, die vom Benutzer unternommen werden sollte, um die Anwendung einzusetzen. Es ist zu beachten, dass während dem Empfang einer akustischen Eingabesequenz eine UI mit einigen derselben Auswahlelementen dargestellt sein kann (zum Beispiel die Elemente 314, die nachfolgend noch beschrieben werden) und dass wenigstens ein Teil des Mikrofons 310 die Farbe von einer ersten Farbe, wenn die akustische Eingabe empfangen wird, zu einer zweiten Farbe wechselt, die sich von der ersten Farbe unterscheidet, wenn die akustische Eingabe-Anwendung auf eine Eingabe, wie an der UI 300 gezeigt, „wartet“.
In jedem Fall weist die UI 300 ebenfalls eine beispielhafte des Benutzers auf, die zum Beispiel von einer Kamera erfasst worden ist, die sich am Gerät befindet und/oder mit diesem in Kommunikation steht, das die UI 300 darstellt. Die kann zum Beispiel eine aktuelle Abbildung sein, die in regelmäßigen Abständen (zum Beispiel alle Zehntel einer Sekunde) aktualisiert wird, während von der Kamera neue Abbildungen des Benutzers erfasst werden und somit wenigstens im Wesentlichen eine Abbildung des Benutzers in Echtzeit sein kann. Es ist zu beachten, dass in der der Mund des Benutzers geöffnet ist, es versteht sich jedoch, dass dieser unbeweglich ist und/oder stillsteht, was zum Beispiel zu einer Bestimmung durch das Gerät führt, dass keine akustische Eingabe bereitgestellt wird. Es werden mehrfache Auswahlelemente 314 für Anwendungen, Funktionen und/oder Betriebe des Geräts, das die UI 300 darstellt, zusätzlich zur akustischen Eingabe-Anwendung gezeigt, sodass zum Beispiel ein Benutzer zwischen der akustischen Eingabe-Anwendung und einer anderen Anwendung umschalten kann, während die akustische Eingabe-Anwendung zum Beispiel trotzdem noch geöffnet bleibt und/oder angehalten wird. Daher gelten die nachfolgenden Auswahlelemente als automatisch auswählbar, ohne diese durch weitere Eingabe eines Benutzers zu starten und/oder ohne zu veranlassen, dass die Anwendung, die mit dem bestimmten ausgewählten Auswahlelement assoziiert ist, zum Beispiel gestartet wird und eine assoziierte UI zu haben, die auf einer Anzeige des Geräts dargestellt ist: ein Browser-Auswahlelement 316 zum Beispiel für eine Internet-Browser-Anwendung, ein Landkarten-Auswahlelement 318 zum Beispiel für eine Landkarten-Anwendung und/oder ein Kontakte-Auswahlelement 320 zum Beispiel für eine Kontakte-Anwendung und/oder Kontaktliste. Es ist zu beachten, dass ein Andere-Anwendungen-Sehen-Auswahlelement 322 ebenfalls dargestellt und auswählbar ist, um automatisch, ohne weitere Eingabe des Benutzers, zu veranlassen, dass eine UI dargestellt wird (zum Beispiel eine Home-Bildschirm-UI, eine E-Mail-UI, die mit einer E-Mail-Anwendung assoziiert ist, etc.), welche zum Beispiel Symbole von noch geöffneten Anwendungen darstellt, die auswählbar sind, während die akustische Eingabe-Anwendung „angehalten“ ist.
Zusätzlich zum Vorstehenden weist die UI 300 Anweisungen 324 auf, die darauf hindeuten, dass falls der Benutzer die akustische Eingabe-Anwendung schließen und/oder die bestimmte akustische Eingabesequenz, die durch den Benutzer vor der vom Gerät erfassten Pause eingegeben wurde, beenden möchte, ein entsprechender Befehl (zum Beispiel automatisch) in das Gerät eingegeben werden kann, zum Beispiel durch Entfernen des Geräts aus der Gesichtsnähe des Benutzers (zum Beispiel um einen Grenzwertabstand weg von wenigstens einem Teil des Gesichts des Benutzers) . Es ist jedoch zu beachten, dass die Anweisungen 324 darauf hindeuten können, dass die Anwendung noch auf andere Wege geschlossen ist, wie zum Beispiel der Eingabe eines akustischen Befehls, die Anwendung zu schließen und/oder die Verarbeitung der akustischen Eingabesequenz zu beenden, dem Einsatz einer anderen Anwendung und/oder eines anderen Betriebs des Geräts über einen Grenzwertzeitraum hinweg, um die Anwendung zu schließen und oder die Verarbeitung der akustischen Eingabesequenz zu beenden (zum Beispiel nach Ablauf der Grenzwertzeit), dem Fehlen einer Bereitstellung einer akustischen Eingabe (zum Beispiel dem Bereitstellen einer akustischen Pause und/oder dem Nicht-Sprechen) innerhalb einer Grenzwertzeit, um die Anwendung zu schließen und/oder die Verarbeitung der akustischen Eingabesequenz zu beenden (zum Bei spiel nach Ablauf der Grenzwert zeit), dem Nicht-Bereitstellen einer Berührungseingabe in die Anzeige, welche die UI 300 darstellt, über einen Grenzwertzeitraumhinaus, , um die Anwendung zu schließen und/oder die Verarbeitung der akustischen Eingabesequenz zu beenden, etc. (zum Beispiel nach Ablauf der Grenzwertzeit).
4 zeigt eine beispielhafte UI 400, die an einem Gerät gemäß den vorliegenden Prinzipien dargestellt ist, zum Beispiel automatisch, ohne weitere Eingabe eines Benutzers, in Antwort auf die Auswahl des Elements 316 von der UI 300. Im vorliegenden Fall ist die UI 400 für einen Internet-Browser bestimmt. Es ist zu beachten, dass die UI 400 ein Auswahlelement 402 aufweist, das auswählbar ist, um zum Beispiel die UI 300 oder eine andere UI automatisch zu veranlassen, ohne weitere Eingabe des Benutzers, für die akustische Eingabe-Anwendung gemäß den vorliegenden Prinzipien dargestellt zu sein.
Daher kann ein Benutzer beispielsweise mitten und/oder während der Bereitstellung einer akustischen Eingabesequenz entscheiden, dass Informationen zur Vervollständigung der akustischen Eingabesequenz vom Internet unter Verwendung der Browser-Anwendung abgerufen werden sollten. Der Benutzer kann dafür das Element 316 auswählen, das Internet unter Verwendung der Browser-Anwendung surfen, um zum Beispiel Kontaktinformationen von der Lenovo, Singapur, Ltd. Webseite abzurufen und dann zur akustischen Eingabe-Anwendung zurückkehren, um die Bereitstellung der akustischen Eingabesequenz fertigzustellen, wobei die Eingabe nun die Kontaktinformationen über Lenovo, Singapur, Ltd. aufweist. Eine beispielhafte akustische Eingabesequenz im vorliegenden Fall kann zum Beispiel „Bitte die Telefon-Anwendung verwenden um ... [Pause während der Eingabe, während der Benutzer den Internet-Browser einsetzt] .. die Telefonnummer fünf, fünf, fünf Lenovo eins anzurufen“. In Zahlen ausgedrückt, würde die Nummer zum Beispiel (555) 536-6861 lauten.
Unter Fortsetzung der detaillierten Beschreibung bezüglich 5 zeigt diese eine beispielhafte UI 500, die mit einer akustischen Eingabe-Anwendung gemäß den vorliegenden Prinzipien assoziiert ist. Es ist zu beachten, dass eine Überschrift/ein Titel 502 dargestellt ist, die/der in ihrer/seiner Funktion und Konfiguration der Überschrift 302 ähnelt, es ist auch ein Home-Auswahlelement 504 dargestellt, das in seiner Funktion und Konfiguration im Wesentlichen dem Home-Element 304 ähnlich ist, mehrfache Auswahlelemente 506 sind dargestellt, die in ihrer Funktion und Konfiguration jeweils den Elementen 314 von 3 ähnlich sind und es ist eine dargestellt, die in ihrer Funktion und Konfiguration der im Wesentlichen ähnlich sein kann (zum Beispiel mit der Ausnahme, dass die Abbildung in Echtzeit zeigt, dass der Mund des Benutzers geschlossen ist, wodurch angezeigt ist, dass keine akustische Eingabe vom Benutzer bereitgestellt wird).
Die UI 500 zeigt ebenfalls ein Statuskennzeichen 508 und assoziierten Text 510, was im vorliegenden Fall darauf hindeutet, dass das Gerät und/oder die akustische Eingabe-Anwendung (zum Beispiel aktuell) keine akustische Eingabe empfängt und auch darauf hindeutet, dass die Verarbeitung der akustischen Eingabesequenz beendet wird (zum Beispiel ungeachtet dessen, ob eine vollständige akustische Eingabesequenz empfangen worden ist oder nicht, wie vom Gerät erfasst) . Die UI 500 kann ebenfalls ein oder mehrere der nachfolgenden Auswahlelemente aufweisen:

ein die vorherige Eingabesequenz wiederaufnehmen Element 514, das auswählbar ist, um die akustische Eingabe-Anwendung automatisch, ohne weitere Eingabe des Benutzers, zu veranlassen, die Verarbeitung für eine akustische Eingabesequenz zu öffnen und/oder wieder aufzunehmen, die zum Beispiel teilweise eingegeben wurde, bevor die Verarbeitung der Sequenz beendet wurde, sodass ein Benutzer die Bereitstellung der Sequenz fertigstellen kann, ein neue Eingabesequenz Element 516, das auswählbar ist, um die akustische Eingabe-Anwendung automatisch, ohne weitere Eingabe des Benutzers, zu veranlassen, zum Beispiel mit dem „Horchen“ auf eine neue akustische Eingabesequenz zu beginnen und ein Anwendungselement 518 zu schließen, das auswählbar ist, um die akustische Eingabe-Anwendung automatisch, ohne weitere Eingabe des Benutzers, zu veranlassen, zum Beispiel die akustische Eingabe-Anwendung zu schließen und/oder zum Home-Bildschirm des Geräts zurückzukehren.

6 zeigt eine beispielhafte UI 600, die mit einer akustischen Eingabe-Anwendung gemäß den vorliegenden Prinzipien assoziiert ist. Es ist zu beachten, dass eine Überschrift/ein Titel 602 dargestellt ist, die/der in ihrer/seiner Funktion und Konfiguration der Überschrift 302 ähnelt, es ist auch ein Home-Auswahlelement 604 dargestellt, das in seiner Funktion und Konfiguration im Wesentlichen dem Home-Element 304 ähnlich ist, mehrfache Auswahlelemente 606 sind dargestellt, die in ihrer Funktion und Konfiguration jeweils den Elementen 314 von 3 ähnlich sind und obwohl nicht dargestellt, kann auch eine Abbildung an der UI 600 dargestellt sein, die in ihrer Funktion und Konfiguration der im Wesentlichen ähnlich sein kann.
Die UI 600 zeigt ebenfalls ein Statuskennzeichen 608 und assoziierten Text 610, was im vorliegenden Fall darauf hindeutet, dass sich der Benutzer (zum Beispiel wie vom Gerät gemäß den vorliegenden Prinzipien erfasst) vom Gerät abgewendet hat und/oder sich der Mund des Benutzers nicht mehr bewegt, dass aber der Benutzer das Gerät immer noch zum Beispiel innerhalb eines Abstandsgrenzwerts zum Gesicht des Benutzers positioniert hat, um eine akustische Eingabe bereitzustellen. In einem solchen Fall kann die akustische Eingabe-Anwendung die Verarbeitung einer akustischen Eingabesequenz anhalten und warten, bis der Benutzer wieder damit fortfährt, diese gemäß den vorliegenden Prinzipien bereitzustellen und kann ebenfalls ein Auswahlelement 612 darstellen, das auswählbar ist, um eine Eingabe an das Gerät automatisch, ohne weitere Eingabe vom Benutzer, bereitzustellen, um damit fortzufahren, auf den Empfang der akustischen Eingabesequenz zu warten sowohl als auch ein Auswahlelement 614, das auswählbar ist, um die Verarbeitung durch die akustische Eingabe-Anwendung der akustischen Eingabesequenz, die in das Gerät eingegeben worden ist, automatisch, ohne weitere Eingabe vom Benutzer, zu beenden und/oder die akustische Eingabe-Anwendung selbst zu schließen.
Ohne sich auf eine bestimmte Figur zu beziehen versteht es sich, dass obwohl zum Beispiel eine akustische Eingabe-Anwendung gemäß den vorliegenden Prinzipien mit einem Gerät verkauft werden kann, gelten die vorliegenden Prinzipien ohne Weiteres auch für Fälle, bei denen die akustische Eingabe-Anwendung zum Beispiel von einem Server auf ein Gerät über ein Netzwerk, wie zum Beispiel dem Internet, heruntergeladen werden kann.
Ebenfalls ohne sich auf eine bestimmte Figur zu beziehen, erkennen die vorliegenden Prinzipien auch an, dass eine Bewegung eines Geräts, welches eine akustische Eingabe-Anwendung ausführt und/oder die Position des Geräts relativ zum Benutzer vom Gerät erfasst und verwendet werden kann um festzustellen, ob eine akustische Eingabe gemäß den vorliegenden Prinzipien bereitgestellt wird oder werden soll. Weiterhin kann zum Beispiel festgestellt werden, dass ein Benutzer im Begriff ist, eine akustische Eingabe bereitzustellen, um somit die akustische Eingabe-Anwendung einzuleiten und/oder damit mit dem „Horchen“ auf eine akustische Eingebe zu beginnen, in Antwort auf eine Bestimmung, dass der Benutzer zum Beispiel eine von einer Kamera des Geräts erfasste Geste bereitgestellt hat, die vom Gerät als eine Geste erkannt wird, die darauf hindeutet, dass der Benutzer eine akustische Eingabe an die akustische Eingabe-Anwendung bereitstellt oder im Begriff ist dies zu tun und/oder in Antwort auf eine Bestimmung, dass der Benutzer das Gerät zum Beispiel von vorher außerhalb eines Grenzwertabstands des Gesichts des Benutzers zu einer Position innerhalb des Grenzwertabstands bewegt hat und somit das Gerät in einer vordefinierten Orientierung hält (die zum Beispiel durch die akustische Eingabe-Anwendung erkennbar ist und/oder wobei das Gerät darauf hindeutet, dass der Benutzer im Begriff ist, eine akustische Eingabe bereitzustellen und somit das Gerät und/oder die Anwendung veranlasst wird, auf eine Eingabe zu „horchen“ (zum Beispiel in Antwort auf Signale von zum Beispiel einem Orientierungssensor und/oder Berührungssensoren am Gerät)) und/oder dass der Benutzer das Gerät in einem Abstand (der zum Beispiel konstant oder wenigstens im Wesentlichen konstant bleibt, wie zum Beispiel innerhalb von einem Zoll) positioniert hat, um diesem eine akustische Eingabe bereitzustellen (zum Beispiel wobei das Gerät gemäß den vorliegenden Prinzipien so lange „zuhört“ solange sich das Gerät in diesem Abstand befindet).
Ebenfalls gemäß den vorliegenden Prinzipien versteht es sich, dass die hierin erörterte Nachverfolgung der Augen in einem Fall eingesetzt werden kann, in dem zum Beispiel der Benutzer eine akustische Eingabesequenz bereitstellt, eine SMS at Gerät empfängt, wobei das Gerät bestimmt, dass es eine Verarbeitung der akustischen Eingabesequenz in Antwort auf eine Bestimmung anhalten soll, dass die Augen des Benutzers wenigstens auf einen Teil der SMS gerichtet sind und/oder dass der Benutzer damit aufgehört hat, eine akustische Eingabe bereitzustellen und/oder vollständig aufgehört hat zu sprechen und dann die Verarbeitung der akustischen Eingabesequenz wieder aufzunehmen, in Antwort auf die Bestimmung, dass der Benutzer wieder eine akustische Eingabe an das Gerät bereitstellt und/oder dass der Bildschirm, der die SMS darstellt, geschlossen oder anderweitig verlassen wurde.
In einem weiteren Beispiel geht man davon aus, dass ein Benutzer beginnt, eine akustische Eingabesequenz gemäß der vorliegenden Prinzipien einzugeben, die Bereitstellung der Sequenz anhält, um einen weiteren Betrieb des Geräts einzusetzen und dann bestimmt, dass der Zusammenhang und/oder ein vorheriger Eingabeteil der Sequenz basierend auf der Wiederaufnahme der akustischen Eingabe, die bereitgestellt und verarbeitet wird, verändert werden sollte. In einem solchen Fall kann das Gerät zum Beispiel ein „Schlüsselwort“ erkennen, das vom Benutzer bereitgestellt wurde, um zum Beispiel automatisch, ohne weiter Eingabe vom Benutzer, in Antwort darauf das zuletzt bereitgestellte Wort vor der Pause zu ignorieren und somit die Verarbeitung desselben als Teil der akustischen Eingabesequenz, die nach der Pause fertigzustellen ist, zurückzuweisen. Zusätzlich oder anstelle des Vorgenannten kann das Gerät zum Beispiel zwei Wörter, die durch eine Pause des Benutzers während der Bereitstellung der akustischen Eingabe getrennt wurden, als ähnlich und/oder zwiespältig erkennen, indem beide kompatibel verarbeitet werden können, um einen Befehl auszuführen (zum Beispiel beide Wörter sind Hauptwörter, beide Wörter sind verschiedene Städte aber der Zusammenhang der Sequenz richtet sich auf Informationen über eine einzelne Stadt, etc.). Trotzdem wird der Zusammenhang bei manchen Ausführungsformen, bei denen sich der Zusammenhang der Sequenz nach einer Pause verändert, nach der Pause und/oder den eingegebenen Worten modifiziert, nachdem die Pausen als betriebsbereite verarbeitet werden, zu denen die Sequenz gehört.
Es ist ebenfalls zu beachten, obwohl nicht als Figur bereitgestellt, dass eine Einstellungs-UI, die mit einer akustischen Eingabe-Anwendung assoziiert ist, an einem Gerät dargestellt sein kann, das die akustische Eingabe-Anwendung ausführt, um somit eine oder mehrere Einstellungen des Geräts zu konfigurieren. Es können zum Beispiel bestimmte Auswahlelemente für andere Betriebe und/oder Anwendungen von einem Benutzer zur Darstellung an einer UI, wie zum Beispiel der UI 300, ein oder mehrere Betriebe zur Bestimmung, ob eine Pause in einer akustischen Eingabe aufgetreten ist und wenn eine akustische Eingabe, die wie oben beschrieben weitergeführt wurde, aktiviert oder deaktiviert sein kann (zum Beispiel basierend auf einem Ein-/Aus-Umschaltelement), etc., eingestellt werden.

Claims

Gerät, aufweisend: einen Prozessor (122); einen Speicher (140), der dem Prozessor zugänglich ist und Anweisungen aufweist, die vom Prozessor ausführbar sind, zum: Verarbeiten einer akustischen Eingabesequenz, wobei die akustische Eingabesequenz von einem Benutzer des Geräts bereitgestellt wird; Bestimmen, dass eine Pause während der Bereitstellung der akustischen Eingabesequenz aufgetreten ist, wenigstens teilweise basierend auf ein erstes Signal von wenigstens einer Kamera, die in Kommunikation mit dem Gerät steht; in Antwort auf die Bestimmung, dass die Pause aufgetreten ist, Aufhören, die akustische Eingabesequenz zu verarbeiten; Bestimmen, dass die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen wurde, wenigstens teilweise basierend auf ein zweites Signal von der Kamera; und in Antwort auf eine Bestimmung, dass die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen wurde, Wiederaufnehmen der Verarbeitung der akustischen Eingabesequenz, wobei die Pause ein akustisches Sequenztrennzeichen aufweist, das für das Gerät unverständlich ist, wobei die Anweisungen ferner durch den Prozessor ausführbar sind, um zu bestimmen, mit der Verarbeitung der akustischen Eingabesequenz aufzuhören, in Antwort auf eine Verarbeitung eines Signals von einem Beschleunigungsmesser am Gerät, außer wenn ebenfalls wenigstens im Wesentlichen gleichzeitig das akustische Sequenztrennzeichen empfangen wird.
Gerät nach Anspruch 1, wobei das akustische Sequenztrennzeichen basierend wenigstens teilweise auf eine Ausführung einer Lippenlesesoftware an wenigstens dem ersten Signal als unverständlich festgestellt wird, wobei das erste Signal von der Kamera in Antwort darauf generiert wird, dass die Kamera wenigstens eine Abbildung wenigstens eines Teils des Gesichts des Benutzers erfasst.
Gerät nach Anspruch 1, wobei das erste und das zweite Signal jeweils von der Kamera in Antwort darauf generiert werden, dass die Kamera wenigstens eine Abbildung wenigstens eines Teils des Gesichts des Benutzers erfasst.
Gerät nach Anspruch 1, wobei die Pause eine Pause während der Bereitstellung von akustischer Eingabe von einem Benutzer in das Gerät aufweist.
Gerät nach Anspruch 4, wobei die zumindest teilweise auf dem ersten Signal basierende Bestimmung, dass die Pause aufgetreten ist, eine Bestimmung aufweist, dass der aktuelle Gesichtsausdruck des Benutzers ein Hinweis darauf ist, dass dieser nicht im Begriff ist, eine akustische Eingabe bereitzustellen.
Gerät nach Anspruch 5, wobei die Bestimmung, dass der aktuelle Gesichtsausdruck des Benutzers ein Hinweis darauf ist, dass dieser nicht im Begriff ist, eine akustische Eingabe bereitzustellen, eine Bestimmung aufweist, dass der Mund des Benutzers zumindest weitgehend geschlossen ist.
Gerät nach Anspruch 6, wobei die Bestimmung, dass der aktuelle Gesichtsausdruck des Benutzers ein Hinweis darauf ist, dass dieser nicht im Begriff ist, eine akustische Eingabe bereitzustellen, eine Bestimmung aufweist, dass der Mund des Benutzers geschlossen ist.
Gerät nach Anspruch 1, wobei die wenigstens teilweise auf dem zweiten Signal basierende Bestimmung, dass die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen worden ist, eine Bestimmung aufweist, der der Mund des Benutzers geöffnet ist.
Gerät nach Anspruch 1, wobei die wenigstens teilweise auf dem ersten Signal basierende Bestimmung, dass die Pause aufgetreten ist, eine Bestimmung aufweist, dass der Mund des Benutzers geöffnet ist und zumindest im Wesentlichen stillsteht.
Gerät nach Anspruch 1, wobei die zumindest teilweise auf dem ersten Signal basierende Bestimmung, dass die Pause aufgetreten ist, eine Bestimmung aufweist, dass die Augen des Benutzers nicht auf das oder zum Gerät hin gerichtet sind.
Verfahren, aufweisend: Empfangen einer akustischen Eingabesequenz an einem Gerät (202), wobei die akustische Eingabesequenz von einem Benutzer des Geräts bereitgestellt wird; Bestimmen, dass eine Pause während der Bereitstellung der akustischen Eingabesequenz aufgetreten ist (216), wenigstens teilweise basierend auf ein erstes Signal von wenigstens einer Kamera, die in Kommunikation mit dem Gerät steht; in Antwort auf die Bestimmung, dass die Pause aufgetreten ist, Aufhören, die akustische Eingabesequenz zu verarbeiten (212); Bestimmen, dass die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen wurde, wenigstens teilweise basierend auf ein zweites Signal von der Kamera; und in Antwort auf eine Bestimmung, dass die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen wurde, Wiederaufnehmen der Verarbeitung der akustischen Eingabesequenz (222), wobei die Pause ein akustisches Sequenztrennzeichen aufweist, das für das Gerät unverständlich ist, wobei die Anweisungen ferner durch den Prozessor ausführbar sind, um zu bestimmen, mit der Verarbeitung der akustischen Eingabesequenz aufzuhören, in Antwort auf eine Verarbeitung eines Signals von einem Beschleunigungsmesser am Gerät, außer wenn ebenfalls wenigstens im Wesentlichen gleichzeitig das akustische Sequenztrennzeichen empfangen wird.
Verfahren nach Anspruch 11, wobei die Bestimmung, dass der Benutzer die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen hat, die Bestimmung, dass der Benutzer eine Bereitstellung von akustischer Eingabe wieder aufgenommen hat, in Antwort auf den Empfang der akustischen Eingabe aufweist.
Verfahren nach Anspruch 11, wobei die Bestimmung, dass der Benutzer die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen hat, die Bestimmung, dass der Benutzer die Bereitstellung der akustischen Eingabe wieder aufgenommen hat, in Antwort auf die Bestimmung, dass eine Grenzwertzeit, während welcher keine Berührungseingabe an der berührungsgesteuerten Anzeige empfangen worden ist, abgelaufen ist, aufweist.
Verfahren nach Anspruch 11, wobei das Verfahren ferner in Antwort auf die Bestimmung, dass der Benutzer die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen hat, mit dem Empfang der akustischen Eingabesequenz am Gerät fortfährt.
Verfahren nach Anspruch 11, wobei das Verfahren ferner, in Antwort auf die Bestimmung, dass der Benutzer die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen hat, das Fortfahren der Ausführung einer akustischen Eingabesequenz-Anwendung aufweist, die initiiert wird, um die akustische Eingabesequenz zu empfangen, wobei die akustische Eingabesequenz-Anwendung die akustische Eingabesequenz vor der Bestimmung verarbeitet, dass der Benutzer damit aufgehört hat, die akustische Eingabesequenz bereitzustellen, und wobei die akustische Eingabesequenz-Anwendung damit fortfährt, die akustische Eingabesequenz an dem Gerät zu empfangen, das die akustische Eingabesequenz-Anwendung verwendet.
Verfahren nach Anspruch 15, wobei die Bestimmung, dass der Benutzer damit aufgehört hat, die akustische Eingabesequenz bereitzustellen, die Bestimmung, dass der Benutzer damit aufgehört hat, eine akustische Eingabe bereitzustellen, aufweist basierend auf dem Signal von der Kamera und die auf der Eingabe von der berührungsgesteuerten Anzeige basierenden Bestimmung, dass der Benutzer einen anderen Betrieb des Geräts einsetzt.
Vorrichtung, aufweisend: einen ersten Prozessor; einen Netzwerk-Adapter; einen Speicher mit Anweisungen, die über ein Netzwerk über den Netzwerkadapter übertragen werden, zur Ausführung mittels eines zweiten Prozessors, zum: Empfangen einer akustischen Eingabesequenz an einem Gerät, wobei die akustische Eingabesequenz von einem Benutzer des Geräts bereitgestellt wird; Bestimmen, dass eine Pause während der Bereitstellung der akustischen Eingabesequenz aufgetreten ist, wenigstens teilweise basierend auf ein erstes Signal von wenigstens einer Kamera, die in Kommunikation mit dem Gerät steht; in Antwort auf die Bestimmung, dass die Pause aufgetreten ist, Aufhören, die akustische Eingabesequenz zu verarbeiten; Bestimmen, dass die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen wurde, wenigstens teilweise basierend auf ein zweites Signal von der Kamera; undin Antwort auf eine Bestimmung, dass die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen wurde, Wiederaufnehmen der Verarbeitung der akustischen Eingabesequenz, wobei die Pause ein akustisches Sequenztrennzeichen aufweist, das für das Gerät unverständlich ist, wobei die Anweisungen ferner durch den Prozessor ausführbar sind, um zu bestimmen, mit der Verarbeitung der akustischen Eingabesequenz aufzuhören, in Antwort auf eine Verarbeitung eines Signals von einem Beschleunigungsmesser am Gerät, außer wenn ebenfalls wenigstens im Wesentlichen gleichzeitig das akustische Sequenztrennzeichen empfangen wird.