DE102014117343B4 - Erfassen einer Pause in einer akustischen Eingabe in ein Gerät - Google Patents

Erfassen einer Pause in einer akustischen Eingabe in ein Gerät Download PDF

Info

Publication number
DE102014117343B4
DE102014117343B4 DE102014117343.0A DE102014117343A DE102014117343B4 DE 102014117343 B4 DE102014117343 B4 DE 102014117343B4 DE 102014117343 A DE102014117343 A DE 102014117343A DE 102014117343 B4 DE102014117343 B4 DE 102014117343B4
Authority
DE
Germany
Prior art keywords
acoustic input
user
input sequence
acoustic
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102014117343.0A
Other languages
English (en)
Other versions
DE102014117343A1 (de
Inventor
Russell Speight VanBlon
Suzanne Marion Beaumont
Rod D. Waltermann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Singapore Pte Ltd
Original Assignee
Lenovo Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Singapore Pte Ltd filed Critical Lenovo Singapore Pte Ltd
Publication of DE102014117343A1 publication Critical patent/DE102014117343A1/de
Application granted granted Critical
Publication of DE102014117343B4 publication Critical patent/DE102014117343B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Abstract

Gerät, aufweisend:einen Prozessor (122);einen Speicher (140), der dem Prozessor zugänglich ist und Anweisungen aufweist, die vom Prozessor ausführbar sind, zum:Verarbeiten einer akustischen Eingabesequenz, wobei die akustische Eingabesequenz von einem Benutzer des Geräts bereitgestellt wird;Bestimmen, dass eine Pause während der Bereitstellung der akustischen Eingabesequenz aufgetreten ist, wenigstens teilweise basierend auf ein erstes Signal von wenigstens einer Kamera, die in Kommunikation mit dem Gerät steht;in Antwort auf die Bestimmung, dass die Pause aufgetreten ist, Aufhören, die akustische Eingabesequenz zu verarbeiten;Bestimmen, dass die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen wurde, wenigstens teilweise basierend auf ein zweites Signal von der Kamera; undin Antwort auf eine Bestimmung, dass die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen wurde, Wiederaufnehmen der Verarbeitung der akustischen Eingabesequenz, wobei die Pause ein akustisches Sequenztrennzeichen aufweist, das für das Gerät unverständlich ist, wobei die Anweisungen ferner durch den Prozessor ausführbar sind, um zu bestimmen, mit der Verarbeitung der akustischen Eingabesequenz aufzuhören, in Antwort auf eine Verarbeitung eines Signals von einem Beschleunigungsmesser am Gerät, außer wenn ebenfalls wenigstens im Wesentlichen gleichzeitig das akustische Sequenztrennzeichen empfangen wird.

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft im Allgemeinen das Erfassen einer Pause in einer akustischen Eingabe in ein Gerät.
  • Hintergrund
  • Bei der Eingabe einer akustischen Eingabesequenz, wie zum Beispiel einem Befehl, in ein Gerät, wie zum Beispiel einem Computer, kann eine Pause in der akustischen Eingabesequenz den Computer dazu veranlassen, damit aufzuhören, der akustischen Eingabesequenz „zuzuhören“, indem zum Beispiel das Gerät aufhört, die Sequenz zu bearbeiten und/oder sich ausschaltet und somit den Befehl nicht vollständig verarbeitet.
  • In manchen Fällen kann, was das Gerät als eine Pause in der akustischen Eingabesequenz bestimmen kann, tatsächlich nur eine Stille sein, nachdem der Benutzer die Bereitstellung der akustischen Eingabesequenz fertiggestellt hat und darauf wartet, dass das Gerät mit der Verarbeitung der akustischen Eingabesequenz beginnt. In einem solchen Fall kann dies das Gerät dazu veranlassen, Audio zu verarbeiten, das nicht zur Eingabe in das Gerät bestimmt war und kann beispielsweise sogar die Batterie des Geräts unnötigerweise entleeren.
  • US 2013 / 0 021 459 A1 offenbart Systeme, Verfahren und nichtflüchtige computerlesbare Speichermedien zum Verarbeiten von Audio. US 2009 / 0 138 507 A1 offenbart eine Lösung zur automatisierten Wiedergabesteuerung für tragbare Audiogeräte unter Verwendung von Umgebungshinweisen. US 2007 / 0 124 507 A1 offenbart ein Eingabeverfahren für eine multimodale Eingabefähigkeit.
  • Zusammenfassung
  • Es ist deshalb eine Aufgabe, ein verbessertes Gerät, ein verbessertes Verfahren sowie eine verbesserte Vorrichtung bereitzustellen.
  • Dementsprechend stellt ein erster Aspekt ein Gerät gemäß Anspruch 1 bereit.
  • Dabei kann das akustische Sequenztrennzeichen basierend auf der Ausführung einer Lippenlesesoftware wenigstens am ersten Signal als wenigstens teilweise unverständlich festgestellt werden, wobei das erste Signal von der Kamera in Antwort auf das Erfassen der Kamera wenigstens eines Bilds wenigstens eines Teils des Gesichts des Benutzers generiert werden kann.
  • Zusätzlich können, falls gewünscht, die ersten und zweiten Signale jeweils durch die Kamera in Antwort darauf generiert werden, dass die Kamera wenigstens ein Bild wenigstens eines Teils des Gesichts des Benutzers erfasst.
  • Ferner kann die Pause, falls gewünscht, eine Pause während der Bereitstellung des Benutzers einer akustischen Eingabe in das Gerät aufweisen. Daher kann die Bestimmung, dass die Pause wenigstens teilweise basierend auf dem ersten Signal aufgetreten ist, eine Bestimmung aufweisen, dass der momentane Gesichtsausdruck des Benutzers ein Hinweis darauf ist, dass dieser keine akustische Eingabe bereitstellen möchte. Bei manchen Ausführungsformen kann die Bestimmung, dass der momentane Gesichtsausdruck des Benutzers ein Hinweis darauf ist, dass dieser keine akustische Eingabe bereitstellen möchte, eine Bestimmung sein, dass der Mund des Benutzers zumindest weitgehend geschlossen oder vollständig geschlossen ist.
  • Falls gewünscht, kann die Bestimmung, dass die Bereitstellung der akustischen Eingabesequenz zumindest teilweise wieder aufgenommen worden ist, basierend auf dem zweiten Signal, eine Bestimmung aufweisen, dass der Mund des Benutzers geöffnet ist.
  • Die Bestimmung, die zumindest teilweise auf dem ersten Signal basiert, dass die Pause aufgetreten ist, kann eine Bestimmung aufweisen, dass der Mund des Benutzers geöffnet ist und sich zumindest im Wesentlichen nicht bewegt, und/oder kann eine Bestimmung aufweisen, dass die Augen des Benutzers das Gerät nicht ansehen oder auf das Gerät gerichtet sind.
  • Ein weiterer Aspekt stellt ein Verfahren gemäß Anspruch 11 bereit.
  • Ein weiterer Aspekt stellt eine Vorrichtung gemäß Anspruch 17 bereit.
  • Die Einzelheiten der vorliegenden Prinzipien bezüglich ihrer Struktur und ihrem Betrieb können am besten im Zusammenhang mit den beigefügten Zeichnungen verstanden werden, in denen sich ähnliche Referenzziffern auf ähnliche Teile beziehen und bei denen:
  • Figurenliste
    • 1 ein Blockdiagramm eines beispielhaften Geräts gemäß den vorliegenden Prinzipien ist;
    • 2 ein beispielhaftes Ablaufdiagramm der von einem Gerät gemäß den vorliegenden Prinzipien auszuführenden Logik ist; und
    • 3 - 6 beispielhafte Benutzeroberflächen (UIs) sind, die an einem Gerät gemäß den vorliegenden Prinzipien dargestellt sein können.
  • Ausführliche Beschreibung
  • Diese Offenbarung betrifft im Allgemeinen Benutzerinformationen, die auf Geräte (zum Beispiel Unterhaltungselektronik- (CE)) basieren. In Bezug auf beliebige, hierin erörtere Computersysteme, kann ein System Server- und Clientkomponenten aufweisen, die über einem Netzwerk angeschlossen sind, sodass Daten zwischen den Client- und Serverkomponenten ausgetauscht werden können. Die Clientkomponenten können dabei ein oder mehrere Computergeräte aufweisen, einschließlich Fernsehgeräten (zum BeispielSmart-TVs, internetgesteuerte TVs), Computer, wie zum Beispiel Laptops und Tablet-Computer, sowie andere mobile Geräte, einschließlich Smartphones. Diese Clientgeräte können, als nichteinschränkende Beispiele, Betriebssysteme von Apple, Google, oder Microsoft einsetzen. Es kann auch ein Unix-Betriebssystem eingesetzt werden. Diese Betriebssysteme können einen oder mehrere Browser ausführen, wie zum Beispiel einen Browser von Microsoft oder Google oder Mozilla, oder ein anderes Browserprogramm, das Zugang zu Webanwendungen hat, die von Internetservern über ein Netzwerk zur Verfügung gestellt werden, wie zum Beispiel dem Internet, einem lokalen Intranet, oder einem virtuell privaten Netzwerk.
  • Wie hierin verwendet, beziehen sich die Anweisungen auf computerimplementierte Schritte zur Verarbeitung von Informationen im System. Die Anweisungen können dabei in Software, Firmware, oder Hardware implementiert werden; weshalb illustrative Komponenten, Sperren, Module, Schaltkreise und Schritte in Bezug auf ihre Funktionalitäten dargelegt werden.
  • Bei einem Prozessor kann es sich um einen beliebigen, herkömmlichen Allzweck-Einzel- oder Multi-Chip-Prozessor handeln, der Logik durch verschiedene Leitungen ausführen kann, wie zum Beispiel Adressenleitungen, Datenleitungen und Steuerleitungen sowie Registern und Schieberegister. Desweiteren können beliebige hierin beschriebene Logiksperren, Module und Schaltkreise zusätzlich zu einem Allzweck-Prozessor in einem oder durch einen digitalen Signalprozessor (DSP), einer feldprogrammierbaren Gatter-Anordnung (FPGA) oder einem anderen programmierbaren Logikgerät, wie zum Beispiel einem anwendungsspezifischen integrierten Schaltkreis (ASIC), einer diskreten Gatter- oder Transistorlogik, diskreten Hardware-Komponenten oder einer Kombination davon, die derart ausgelegt sind, um die hierin beschriebenen Funktionen durchzuführen, implementiert oder durchgeführt werden. Ein Prozessor kann durch eine Steuerung oder eine Zustandsmaschine oder eine Kombination aus Computergeräten implementiert werden.
  • Jegliche Software und/oder Anwendungen, die hierin durch Ablaufdiagramme und/oder Benutzeroberflächen beschrieben sind, können verschiedene Unterprogramme, Abläufe, etc. aufweisen. Es versteht sich, dass eine als durch zum Beispiel ein Modul ausgeführte erkenntlich gemachte Logik an andere Softwaremodule weiterverteilt und/oder zusammen in einem einzelnen Modul kombiniert und/oder in einer mitbenutzbaren Bibliothek zur Verfügung gestellt werden kann.
  • Wenn in Software implementiert, kann Logik in einer entsprechenden Sprache geschrieben werden, wie zum Beispiel, jedoch nicht beschränkt auf, C# oder C++, und kann dann in einem maschinenlesbaren Speichermedium (zum Beispiel das eventuell keine Trägerwelle ist) gespeichert werden, wie zum Beispiel einem Arbeitsspeicher (RAM), Festspeicher (ROM), elektrisch löschbarem, programmierbaremFestspeicher (EEPROM), CD-Festspeicher (CD-ROM), oder einem anderen optischen Plattenspeicher, wie zum Beispiel einer DVD, Magnetplattenspeicher oder anderen Magnetspeichergeräten, einschließlich Wechsel-USB-Stick-Speichern, etc. Eine Verbindung kann ein maschinenlesbares Medium einrichten. Zu solchen Verbindungen können zum Beispiel festverdrahtete Kabel zählen, einschließlich Faseroptik- und Koaxialleitungen und verdrillte Leitungen. Solche Verbindungen können drahtlose Kommunikationsleitungen, einschließlich Infrarot- und Funkleitungen, aufweisen.
  • In einem Beispiel kann ein Prozessor Informationen über seine Eingangsleitungen aus einem Datenspeicher abrufen, wie zum Beispiel dem maschinenlesbaren Speichermedium, und/oder der Prozessor kann Informationen drahtlos von einem Internet-Server durch Aktivieren eines drahtlosen Sende-/Empfangsgeräts abrufen, um Daten zu senden und zu empfangen. Die Daten werden dabei typischerweise bei Empfang von analogen Signalen zu digitalen umgewandelt durch die Schaltkreise zwischen der Antenne und den Registern des Prozessors, und bei Übertragung von digital zu analog. Der Prozessor verarbeitet die Daten dann durch seine Schieberegister, um errechnete Daten zur Präsentation der errechneten Daten am Gerät an Ausgabeleitungen auszugeben.
  • Die in einer Ausführung enthaltenden Komponenten können auch in anderen Ausführungsformen in entsprechender Kombination verwendet werden. Es können zum Beispiel jegliche der hierin beschriebenen und/oder in den Figuren dargestellten, verschiedenen Komponenten kombiniert, ausgetauscht, oder aus anderen Ausführungsformen ausgeschlossen werden.
  • „Ein System mit wenigstens einem A, B und C“ (gleichermaßen „ein System mit wenigstens einem A, B oder C“ sowie „ein System mit wenigstens einem A, B, C“) zählt zu Systemen, die A allein, B allein, C allein, A und B zusammen, A und C zusammen, B und C zusammen und/oder A, B und C zusammen, etc., aufweisen können.
  • Der Begriff „Schaltkreis“ oder „Schaltkreise“ wird in der Zusammenfassung, Beschreibung und/oder in den Ansprüchen verwendet. Wie gemäß dem Stand der Technik bekannt, umfasst der Begriff „Schaltkreise“ sämtliche Ebenen der verfügbaren Integration, zum Beispiel von diskreten Logikschaltkreisen zur höchsten Ebene der Schaltkreisintegration, wie zum Beispiel VLSI, und umfasst auch programmierbare Logikkomponenten, die programmiert sind, um die Funktionen einer Ausführungsform durchzuführen, sowohl als auch Allzweck-Prozessoren, die mit Anweisungen zur Durchführung dieser Funktionen programmiert sind.
  • Speziell in Bezug auf 1 zeigt diese ein Blockdiagramm eines Computersystems 100, wie zum Beispiel einem internetbefähigtem, computergesteuertem Telefon (zum Beispiel ein Smartphone), einem Tablet-Computer, einem tragbaren Computer oder PC, einem internetbefähigtem, computergesteuertem tragbarem Gerät, wie zum Beispiel einer Smartwatch, einem computergesteuerten Fernseher (TV), wie zum Beispiel einem Smart-TV, etc. Daher kann das System 100 in manchen Ausführungsformen ein PC-System sein, wie zum Beispiel eines der ThinkCentre®- oder ThinkPad®-Serie von PCs, erhältlich von Lenovo (US) Inc. in Morrisville, NC, USA, oder ein Arbeitsplatzrechner, wie zum Beispiel der ThinkStation®, erhältlich von Lenovo (US) Inc. in Morrisville, NC, USA; wobei jedoch, wie aus dieser Beschreibung ersichtlich ist, ein Clientgerät, ein Server, oder eine Maschine gemäß den vorliegenden Prinzipien auch andere Merkmale oder nur einige der Merkmale des Systems 100 aufweisen kann.
  • Wie in 1 ersichtlich, weist das System 100 einen sogenannten Chipsatz 110 auf. Ein Chipsatz bezieht sich auf eine Gruppe von integrierten Schaltkreisen oder Chips, die dazu ausgelegt sind, miteinander zu arbeiten. Chipsätze werden gewöhnlich als ein einzelnes Produkt vermarktet (zum Beispiel Chipsätze, die unter den Markennamen INTEL®, AMD®, etc., vermarktet werden).
  • Im Beispiel von 1 weist der Chipsatz 110 eine bestimmte Architektur auf, die je nach Herstellermarke zu einem gewissen Ausmaß variieren kann. Die Architektur des Chipsatzes 110 weist eine Kern- und Speichersteuerungsgruppe 120 sowie einen E/A-Steuerungsknoten 150 auf, der Informationen (zum Beispiel Daten, Signale, Befehle, etc.) über zum Beispiel eine direkte Verwaltungsschnittstelle oder eine direkte Medienschnittstelle (DMI) 142 oder eine Verbindungssteuerung 144 austauscht. Im Beispiel von 1 ist die DMI 142 eine Chip-an-Chip-Schnittstelle (die manchmal auch als Verbindung zwischen einer „Nordbrücke“ und einer „Südbrücke“ bezeichnet wird).
  • Die Kern- und Speichersteuerungsgruppe 120 umfasst einen oder mehrere Prozessoren 122 (zum Beispiel Einzelkern oder Multikern, etc.) sowie einen Speichersteuerungsknoten 126, der Informationen über den Vorderseitenbus (FSB) 124 austauscht. Wie hierin beschrieben, können verschiedene Komponenten der Kern- und Speichersteuerungsgruppe 120 in einem einzelnen Prozessorchip integriert sein, um zum Beispiel einen Chip herzustellen, der die herkömmliche Architektur in der Art einer „Nordbrücke“ ersetzt.
  • Der Speichersteuerungsknoten 126 koppelt den Speicher 140 an. Der Speichersteuerungsknoten 126 kann zum Beispiel eine Unterstützung für einen DDR SDRAM-Speicher (zum Beispiel, DDR, DDR2, DDR3, etc.) bereitstellen. Im Allgemeinen ist der Speicher 140 eine Art Arbeitsspeicher (RAM). Er wird oftmals als „Systemspeicher“ bezeichnet.
  • Der Speichersteuerungsknoten 126 weist ferner eine Niedrigspannungs-Differenzialsignalisierungsschnittstelle (LVDS) 132 auf. Die LVDS 132 kann eine sogenannte LVDS-Anzeigeschnittstelle (LDI) zur Unterstützung des Anzeigegeräts 192 sein (zum Beispiel ein CRT, ein Flachbildschirm, ein Projektor, eine berührungsgesteuerte Anzeige, etc.). Ein Block 138 weist einige Beispiele von Techniken auf, die über die LVDS-Schnittstelle 132 unterstützt werden können (zum Beispiel serielles digitales Video, HDMI/DVI, Anzeigeanschluss). Der Speichersteuerungsknoten 126 weist ebenfalls eine oder mehrere PCI-Express-Schnittstellen (PCI-E) 134 auf, zum Beispiel zur Unterstützung von diskreten Grafiken 136. Diskrete Grafiken, die eine PCI-E-Schnittstelle einsetzen, sind zu einem alternativen Ansatz eines beschleunigten Grafikanschlusses (AGP) geworden. Der Speichersteuerungsknoten 126 kann zum Beispiel einen 16-spurigen (x16) PCI-E-Anschluss für eine externe Grafikkarte auf PCI-E-Basis aufweisen (einschließlich, zum Beispiel einen von mehreren GPUs). Ein beispielhaftes System kann AGP oder PCI-E zur Unterstützung von Grafiken aufweisen.
  • Die E/A-Knotensteuerung 150 weist eine Vielzahl von Schnittstellen auf. Das Beispiel von 1 umfasst eine SATA-Schnittstelle 151, eine oder mehrere PCI-E-Schnittstellen 152 (optional eine oder mehrere Legacy-PCI-Schnittstellen), eine oder mehrere USB-Schnittstellen 153, eine LAN-Schnittstelle 154 (eher allgemein eine Netzwerkschnittstelle zur Kommunikation über wenigstens einem Netzwerk, wie zum Beispiel dem Internet, einem WAN, einem LAN, etc. unter der Anweisung des/der Prozessors/Prozessoren 122), eine Allzweck-E/A-Schnittstelle (GPIO) 155, eine Schnittstelle mit niedriger Stiftzahl (LPC) 170, eine Stromverwaltungsschnittstelle 161, eine Taktgeberschnittstelle 162, eine Audioschnittstelle 163 (zum Beispiel für Lautsprecher 194, um ein Audiosignal auszugeben), eine Gesamtbetriebskosten-Schnittstelle (TCO) 164, eine Systemverwaltungs-Busschnittstelle (zum Beispiel eine serielle Multimaster-Computerbusschnittstelle) 165 sowie eine serielle, periphere Flash-Speicher/-Steuerungsschnittstelle (SPI Flash) 166, die im Beispiel von 1 BIOS 168 und den Start-Code 190 aufweist. In Bezug auf Netzwerkverbindungen kann die E/A-Knotensteuerung 150 integrierte Gigabit-Ethernet-Steuerleitungen aufweisen, die mit einem PCI-E-Schnittstellenanschluss gebündelt sind.
  • Die Schnittstellen der der E/A-Knotensteuerung 150 stellen eine Kommunikation mit verschiedenen Geräten, Netzwerken, etc. bereit. Die SATA-Schnittstelle 151 stellt zum Beispiel Lese-, Schreibe- oder Lese- und Schreibe-Informationen an einem oder mehreren Laufwerken 180 bereit, wie zum Beispiel HDDs, SDDs oder eine Kombination davon, in jedem Fall sind die Laufwerke 180 jedoch als zum Beispiel greifbare maschinenlesbare Speichermedien zu verstehen, die nicht unbedingt Trägerwellen sein müssen. Die E/A-Knotensteuerung 150 kann ebenfalls eine fortgeschrittene Wirtsteuerungsschnittstelle (AHCI) zur Unterstützung eines oder mehrerer Laufwerke 180 sein. Die PCI-E-Schnittstelle 152 erlaubt drahtlose Verbindungen 182 an Geräte, Netzwerke, etc. Die USB-Schnittstelle 153 stellt Eingabegeräte 184 bereit, wie zum Beispiel Tastaturen (KB), Mäuse und verschiedene andere Geräte (zum Beispiel Kameras, Telefone, Speicher, Media-Players, etc.) .
  • Im Beispiel von 1, stellt die LPC-Schnittstelle 170 die Verwendung eines oder mehrerer ASICs 171, ein zuverlässiges Plattformmodul (TPM) 172, eine Super-E/A 173, einen Firmware-Knoten 174, BIOS-Unterstützung 175 sowohl als auch verschiedene Speicherarten 176, wie zum Beispiel einen ROM 177, einen Flash 178 und einen nicht löschbaren RAM (NVRAM) 179 bereit. In Bezug auf den TPM 172 kann dieses Modul in Form eines Chips bestehen, der verwendet werden kann, um Software- und Hardwaregeräte zu authentisieren. Ein TPM kann zum Beispiel in der Lage sein, eine Plattform-Authentisierung durchzuführen und kann verwendet werden, um zu bestätigen, dass ein System, das Zugang sucht, auch das erwartete System ist.
  • Das System 100, nachdem es eingeschaltet worden ist, kann dazu konfiguriert werden, den Start-Code 190 für das BIOS 168, wie dieser innerhalb des SPI Flash 166 gespeichert ist, auszuführen und somit Daten unter der Kontrolle eines oder mehrerer Betriebssysteme und Anwendungs-Software (die zum Beispiel im Systemspeicher 140 gespeichert sind) auszuführen. Ein Betriebssystem kann in einer beliebigen Vielfalt von Stellen gespeichert sein und gemäß den Anweisungen des BIOS 168 abgerufen werden.
  • Zusätzlich dazu kann das System 100 auch wenigstens einen Berührungssensor 195 aufweisen, der eine Eingabe an den Prozessor 122 bereitstellt und gemäß den vorliegenden Prinzipien zum Erfassen einer Berührung eines Benutzers bereitstellen, wenn der Benutzer zum Beispiel das System 100 berührt. Bei manchen Ausführungsformen, bei denen zum Beispiel das Gerät ein Smartphone ist, kann der Berührungssensor 195 am System 100 entlang der entsprechenden Seitenwände positioniert sein, welche Ebenen definieren, die sich im rechten Winkel zu einer Vorderseite des Anzeigegeräts 192 befinden. Das System 100 kann ebenfalls einen Näherungs-, Infrarot-, Sonar- und/oder Wärmesensor 196 aufweisen, der dem Prozessor 122 eine Eingabe bereitstellt und gemäß den vorliegenden Prinzipien zum Erfassen zum Beispiel der Körperwärme einer Person und/oder der Nähe wenigstens eines Teils der Person (zum Beispiel der Wange oder des Gesichts der Person) an wenigstens einem Teil des Systems 100, wie zum Beispiel dem Sensor 196 selbst, konfiguriert ist.
  • Außerdem kann das System 100 bei manchen Ausführungsformen eine oder mehrere Kameras 197 aufweisen, die eine Eingabe an den Prozessor 122 bereitstellen. Bei der Kamera 197 kann es sich dabei um eine Thermografiekamera, eine digitale Kamera, wie zum Beispiel eine Webcam, und/oder eine im System 100 integrierte und vom Prozessor 122 gesteuerte Kamera handeln, um Bilder/Abbildungen und/oder Video gemäß den vorliegenden Prinzipien zu erfassen (zum Beispiel um eine oder mehrere Abbildungen des Gesichts, Munds, der Augen, etc. eines Benutzers zu erfassen). Desweiteren kann das System 100 einen Audioempfänger/ein Mikrofon 198 zum Beispiel zum Eingeben einer akustischen Eingabe, wie zum Beispiel eine akustische Eingabesequenz (zum Beispiel akustische Befehle) in das System 100 zur Steuerung des Systems 100 aufweisen. Zusätzlich kann das System 100 einen oder mehrere Bewegungssensoren 199 aufweisen, (wie zum Beispiel einen Beschleunigungs-, Gyroskop-, Zyklometer-, Magnetsensor, Infrarot-(IR)-Berührungssensoren, wie zum Beispiel passive IR-Sensoren, einen optischen Sensor, einen Geschwindigkeitssensor, und/oder einen Kadenzsensor (zum Beispiel zum Erfassen eines Gestik-Befehls), etc.), die dem Prozessor 122 gemäß den vorliegenden Prinzipien eine Eingabe bereitstellen.
  • Bevor mit 2 fortgefahren wird, und wie hierin beschrieben, versteht es sich, dass ein beispielhaftes Clientgerät oder eine andere Maschine/ein anderer Computer weniger oder mehr Merkmale, als die am System 100 von 1 dargestellten aufweisen kann. In jedem Fall versteht es sich, dass wenigstens basierend auf dem Vorstehenden das System 100 dazu konfiguriert ist, die vorliegenden Prinzipien durchzuführen (zum Beispiel eine akustische Eingabe von einem Benutzer zu empfangen, die oben beschriebene Logik zu speichern, auszuführen und/oder durchzuführen und/oder beliebige andere Funktionen und/oder hierin beschriebene Betriebe durchzuführen).
  • In 2 ist ein beispielhaftes Ablaufdiagramm der durch ein Gerät, wie zum Beispiel dem oben gemäß den vorliegenden Prinzipien beschriebenen System 100, auszuführenden Logik dargestellt. Beginnend am Block 200 leitet die Logik eine akustische Eingabeanwendung (zum Beispiel einen elektronischen „persönlichen Assistenten“) zur Verarbeitung der akustischen Eingabe und/oder zur Ausführung einer Funktion ein, die gemäß den vorliegenden Prinzipien auf diese reagiert, wie zum Beispiel einen akustisch bereitgestellten Befehl eines Benutzers. Die akustische Eingabeanwendung kann dabei zum Beispiel automatisch, in Antwort der Eingabe eines Benutzers eingeleitet werden, der ein mit der akustischen Eingabeanwendung assoziiertes Symbol eingibt, und an einer berührungsgesteuerten Anzeige, wie zum Beispiel des oben beschriebenen Anzeigegeräts 192, repräsentiert ist. In jedem Fall fährt die Logik vom Block 200 zur Entscheidungsraute 202 fort, wo die Logik bestimmt, ob eine akustische Eingabe am Gerät empfangen wird und/oder durch den Benutzer des Geräts bereitgestellt wird, welches die Logik von 2 (in der restlichen Beschreibung von 2 als „das Gerät“ bezeichnet) basierend auf zum Beispiel der von einem Mikrofon des Geräts und/oder basierend auf wenigstens einer Abbildung von einer Kamera, die in Kommunikation mit dem Gerät steht (zum Beispiel die verwendet wird, um festzustellen, dass sich die Lippen des Benutzers mit dem Gerät innerhalb eines Grenzwertabstands des Geräts bewegen und somit eine akustische Eingabe in das Gerät bereitgestellt wird), durchführt. Falls die Logik bestimmt, dass keine solche akustische Eingabe vom Benutzer bereitgestellt und/oder vom Gerät empfangen wird, kann die Logik dann mit der Bestimmung der Raute 202 fortfahren, bis eine positive Bestimmung vorgenommen worden ist.
  • Wenn eine positive Bestimmung von der Raute 202 vorgenommen worden ist, fährt die Logik zur Entscheidungsraute 204 fort, wo die Logik bestimmt (zum Beispiel basierend auf den Signalen von einer Kamera, die in Kommunikation mit dem Gerät steht), ob der Mund und/oder die Augen des Benutzers auf eine Bereitstellung des Benutzers einer akustischen Eingabe in das Gerät hinweisen (zum Beispiel mithilfe einer Lippenlese-Software, Augen-NachverfolgungsSoftware, etc.). Somit können zum Beispiel ein oder mehrere Signale von einer Kamera, die Abbildungen eines Benutzers erfasst und diese an einen Prozessor des Geräts bereitstellt, vom Gerät dahingehend analysiert, untersucht, etc. werden, ob der Mund des Benutzers geöffnet ist, was vom Prozessor des Geräts (zum Beispiel basierend auf Mund-Nachverfolgungs-Software und/oder basierend auf einer Korrelation einer Mundposition unter Verwendung einer Nachschlagetabelle über den Hinweis, den eine Mundposition ergibt) als Hinweis darauf festgestellt werden kann, dass der Benutzer eine akustische Eingabe bereitstellt oder im Begriff ist, diese bereitzustellen. Als weiteres Beispiel können ein oder mehrere Signale von einer Kamera, die Abbildungen eines Benutzers erfasst und diese an einen Prozessor des Geräts bereitstellt, vom Gerät dahingehend analysiert, untersucht, etc. werden, ob die Augen des Benutzers, und insbesondere die Pupillen des Benutzers auf, um oder zum Gerät hin gerichtet sind (was durch Verwendung einer Augen-Nachverfolgungs-Software festgestellt werden kann), was ein Hinweis darauf sein kann, dass der Benutzer eine akustische Eingabe bereitstellt oder im Begriff ist, diese basierend auf der Tatsache bereitzustellen, dass die Augen des Benutzers auf das Gerät gerichtet sind. Umgekehrt kann bei einer Bestimmung, dass die Augen eines Benutzers nicht auf, um oder zum Gerät hin gerichtet sind (zum Beispiel das Richten der Augen in die Ferne und/oder das Gesicht des Benutzers ist vom Gerät abgewendet (zum Beispiel wie vorher bestimmt und/oder mit einer Anzahl von Grad vom Gerät aus relativ zum Beispiel zu einem Vektor, der durch die Blickrichtung des Benutzers beim Wegsehen festgestellt)) die Logik dazu veranlassen festzustellen, dass der Benutzer keine akustische Eingabe an das Gerät bereitstellt, auch wenn Audio vom Benutzer empfangen worden ist, und somit keine Verarbeitung stattfinden sollte.
  • Trotzdem kann die Logik zur Raute 202 zurückkehren und von dort aus fortfahren, wenn die Logik bei Raute 204 bestimmt, dass der Mund und/oder die Augen des Benutzers keinen Hinweis darauf geben, dass dieser eine akustische Eingabe, oder im Begriff ist eine akustische Eingabe bereitzustellen. Falls jedoch die Logik an Raute 204 bestimmt, dass der Mund und/oder die Augen des Benutzers einen Hinweis darauf geben, dass dieser eine akustische Eingabe, oder im Begriff ist eine akustische Eingabe bereitzustellen, bewegt sich die Logik zu Block 206 hin, wo die Logik damit beginnt, Verarbeiten einer akustischen Eingabesequenz (und/oder auf eine bereitzustellende akustische Eingabesequenz wartet) und/oder eine Funktion in Antwort auf den Empfang der akustischen Eingabesequenz auszuführen. Danach fährt die Logik zur Entscheidungsraute 208 fort, wo die Logik bestimmt, ob ein „Sprachtrennzeichen“ empfangen worden ist, das obwohl die Eingabe durch den Benutzer zum Beispiel keinen Teil der (zum Beispiel vorgesehenen) akustischen Eingabesequenz bildet, eine fehlerhafte Eingabe in das Gerät ist, bedeutungslos und/oder unverständlich für das Gerät ist und/oder keinen Teil eines Befehls an das Gerät bildet.
  • Ein solches „Sprachtrennzeichen“ kann durch das Gerät selbst identifiziert werden, zum Beispiel in Antwort auf die Bestimmung, dass das „Sprachtrennzeichen“ ein Wort in einer anderen Sprache relativ zu anderen Teilen der akustischen Eingabe ist (zum Beispiel als die Mehrheit der Eingabe und/oder des ersten Wortes oder der Worte, die vom Benutzer als Eingabe gesprochen werden), in Antwort auf die Bestimmung, dass das „Sprachtrennzeichen“, das eingegeben wird, kein tatsächliches Wort in der gesprochenen Sprache ist, wenn andere Teile der Eingabe in der Sprache bereitgestellt werden und/oder in Antwort auf die Bestimmung, dass das „Sprachtrennzeichen“, das vom Benutzer eingegeben wird, mit einem Sprachtrennzeichen in einer Datentabelle von Sprachtrennzeichen , die während der Verarbeitung zum Beispiel einer akustischen Befehlssequenz vom Gerät ignoriert werden sollen, übereinstimmt. Zusätzlich oder anstelle des Vorgenannten kann ein „Sprachtrennzeichen“ vom Gerät als eines identifiziert werden, das auf eine Bestimmung reagiert, dass das „Sprachtrennzeichen“ wenigstens teilweise basierend auf der Anwendung einer Lippenlesesoftware an wenigstens einer Abbildung des Gesichts des Benutzers unverständlich ist, das von einer Kamera des Geräts erfasst worden ist um festzustellen, dass obwohl Audio vom Gerät empfangen worden ist, das Audio ein Laut aus zum Beispiel einem geschlossenen Mund und/oder einem unbeweglichen/stillstehenden Mund stammt, der kein Teil eines tatsächlichen Wortes bildet. In jedem Fall versteht es sich, dass das Gerät zum Beispiel in Antwort auf die „Sprachtrennzeichen“-Eingabe, die als solche identifiziert wird, die „Sprachtrennzeichen“-Eingabe ignoriert, diese davon ausschließt, ein Teil der zu verarbeitenden akustischen Eingabesequenz zu bilden und/oder anderweitig diese nicht als Teil der akustischen Eingabesequenz und/oder des Befehls, in welcher diese bereitgestellt worden ist, zu verarbeiten.
  • Wenn zum Beispiel die Eingabe in das Gerät „Bitte das näheste ähm Restaurant finden“ lautet, kann jedes Wort in der Eingabe gegen eine Tabelle englischer Wörter verglichen werden, wobei zum Beispiel „nächste“ und „Restaurant“ basierend auf der Übereinstimmung der eingegebenen Wörter in Bezug auf die entsprechenden Einträge in der Tabelle der englischen Wörter verglichen wird (und/oder zum Beispiel festgestellt wird, dass diese Teil des Befehls basierend darauf bilden, dass es sich um Wörter derselben Sprache wie das Anfangswort „bitte“ handelt), während „ähm“ als kein englisches Wort darstellend festgestellt wird und somit nicht als Teil des Befehls verarbeitet wird (und/oder zum Beispiel aus der akustischen Eingabesequenz, wie sie vom Gerät verarbeitet wird, ausgeschieden wird). Zusätzlich oder anstelle des Vorstehenden kann „ähm“ als eine Eingabe identifiziert werden, die vom Gerät basierend darauf ignoriert werden soll, dass „ähm“ in der Tabelle der „Sprachtrennzeichen“ enthalten ist und/oder eine unverständliche Eingabe ist.
  • Weiterhin in Bezug auf 2, falls eine positive Bestimmung an Raute 208 vorgenommen worden ist, kann die Logik zu Block 206 zurückkehren und damit fortfahren, Verarbeiten einer akustischen Eingabesequenz und/oder als Teil der Sequenz zurückweisen, einschließlich der „Sprachtrennzeichen“, während andere Teile des Audios vom Benutzer als Teil der Sequenz weiterhin verarbeitet werden. In diesem Sinne kann sich das „Sprachtrennzeichen“ auf die (zum Beispiel kontinuierliche und/oder im Wesentlichen kontinuierliche) Verarbeitung eines Audios ohne eine Pause der Anwendung der akustischen Eingabesequenz erstrecken, wie noch nachfolgend erörtert wird. Falls jedoch eine negative Bestimmung an Raute 208 stattfindet, fährt die Logik anstatt dessen mit der Entscheidungsraute 210 fort.
  • An der Entscheidungsraute 210 stellt die Logik fest, ob ein anderer Betrieb (zum Beispiel eine andere Anwendung) am Gerät vom Benutzer eingesetzt wird. Falls die Logik zum Beispiel bestimmt, dass ein Benutzer eine berührungsgesteuerte Anzeige des Geräts manipuliert, um im Internet unter Verwendung einer Browser-Anwendung zu surfen, kann die Logik mit Block 212 fortfahren, wo die Logik die Verarbeitung der akustischen Eingabesequenz vorübergehend unterbricht, zum Beispiel für einen Zeitraum, während dem der Benutzer die andere Anwendung (zum Beispiel Browser-Anwendung) derart manipuliert, dass Audio, das keinen Teil eines Befehls an das Gerät bildet und/oder nicht dazu vorgesehen war, einen Teil davon zu bilden.
  • Obwohl nicht aus 2 ersichtlich, versteht es sich jedoch, dass bei manchen Ausführungsformen die Bestimmung, dass ein weiterer Betrieb gemäß oder nicht gemäß den vorliegenden Prinzipien eingesetzt wird, mit der Bestimmung kombiniert werden kann, dass der Benutzer damit aufgehört hat, die akustische Eingabesequenz bereitzustellen (zum Beispiel und/oder insgesamt aufgehört hat, Audio bereitzustellen), um trotzdem die Verarbeitung der akustischen Eingabe nicht anzuhalten oder auszuschalten, wie es anderweitig der Fall wäre, sondern damit fortzufahren, auf eine Eingabe von einer Sequenz zu „hören“, die wenigstens bereits teilweise bereitgestellt worden ist, während der Benutzer zum Beispiel im Internet zwecks für die akustische Eingabesequenz nützlicher Informationen surft.
  • Wie jedoch bei der beispielhaften Logik von 2 zu sehen ist, kann die Logik, in Antwort auf die Bestimmung, dass der Benutzer einen weiteren Betrieb und/oder eine weitere Anwendung des Geräts einsetzt, zu Block 212 fortfahren, um die Verarbeitung ungeachtet der Tatsache, ob der Benutzer noch spricht und/oder eine akustische Eingabe bereitstellt, anzuhalten oder zu Block 212 fortfahren, basierend auf der positiven Bestimmung an Raute 210, kombiniert mit der Bestimmung, dass der Benutzer damit aufgehört hat, überhaupt Audio bereitzustellen (zum Beispiel basierend auf der Ausführung der Lippenlesesoftware an einer Abbildung des Benutzers mit dem Sprechen aufgehört hat, um festzustellen, dass sich die Lippen des Benutzers nicht mehr bewegen und der Benutzer somit keinerlei Eingabe mehr an das Gerät bereitstellt).
  • Ungeachtet dessen sei angemerkt, dass eine negative Bestimmung an Raute 210 die Logik dazu veranlasst, zur Entscheidungsraute 214 fortzufahren. An der Raute 214 stellt die Logik fest, ob ein oder mehrere Signale von einem Beschleunigungsmesser des Geräts und/oder von einem Gesichtsnäherungssensor des Geräts einen Hinweis darauf bereitstellt, dass sich das Gerät außerhalb eines Abstandsgrenzwerts befindet und/oder außerhalb eines Abstandsgrenzwerts bewegt wird, wo der Abstand für den Grenzwert zum Abstand zwischen dem Gerät und dem Gesicht des Benutzers relativ ist. Daher kann zum Beispiel eine positive Bestimmung an Raute 214 basierend darauf getroffen werden, dass der Benutzer das Gerät (zum Beispiel zumindest über einen vorbestimmten Abstand hinweg) vom Gesichtsbereich des Benutzers entfernt, weil der Benutzer zum Beispiel beabsichtigt, keine weitere Eingaben mehr an das Gerät bereitzustellen. Trotz des Vorgenannten kann die Logik bei manchen Ausführungsformen an Raute 214 gleichwohl zur Entscheidungsraute 216 (nachfolgend beschrieben) fortfahren, falls ebenfalls an Raute 214 festgestellt wird, trotzdem sich das Gerät außerhalb des Abstandsgrenzwerts zum Benutzer befindet, dass der Benutzer mit dem Sprechen fortfährt, zum Beispiel auch wenn das gesprochene Audio ein „Sprachtrennzeichen“ ist.
  • In jedem Fall versteht es sich, dass die Logik, in Antwort auf eine positive Bestimmung, zu Block 212 zurückkehrt. Eine negative Bestimmung an Raute 214 veranlasst die Logik jedoch dazu, sich zur Entscheidungsraute 216 zu bewegen, wo die Logik bestimmt, ob eine akustische Pause in der akustischen Eingabesequenz aufgetreten ist. Eine akustische Pause kann zum Beispiel eine Pause während dem Sprechen des Benutzers sein (zum Beispiel vollständig und/oder es wird kein Ton bereitgestellt) und/oder eine, bei der keinerlei akustische Eingaben an das Gerät bereitgestellt werden. Die an Raute 216 vorgenommene Bestimmung kann auf einer Bestimmung basieren, dass der derzeitige Gesichtsausdruck des Benutzers (basierend auf einem Abbild des Benutzers, das von einer Kamera des Geräts erfasst worden ist) ein Hinweis darauf ist, dass keine akustische Eingabe mehr bereitgestellt wird, basierend darauf, dass der Mund des Benutzers zumindest fast vollständig geschlossen ist (und/oder unbeweglich ist oder stillsteht) und/oder basierend darauf, dass der Mund des Benutzers zumindest teilweise geöffnet ist (zum Beispiel aber unbeweglich/stillstehend ist).
  • Falls bei Raute 216 eine negative Bestimmung getroffen wird, kann die Logik zu Block 206 zurückkehren . Falls jedoch eine positive Bestimmung an Raute 216 getroffen worden ist, fährt die Logik anstatt dessen mit Block 212 weiter und hält die Verarbeitung der akustischen Eingabe wie hierin beschrieben an. Die Logik von 2 fährt dann von Block 212 weiter zur Entscheidungsraute 218 (zum Beispiel ungeachtet der Tatsache, von welcher Entscheidungsraute aus Block 212 angetroffen wird). An der Raute 218 stellt die Logik fest, ob eine Grenzwertzeit abgelaufen ist, während der keine Berührungseingabe an der berührungsgesteuerten Anzeige empfangen worden ist, die ein Hinweis darauf sein kann, dass der Benutzer (zum Beispiel nach Einsetzen eines weiteren Betriebs des Geräts unter Verwendung einer wie hierin dargelegten berührungsgesteuerten Anzeige) zum Beispiel mit der Bereitstellung der akustischen Eingabe an das Gerät fortsetzt, oder im Begriff ist, diese fortzusetzen (zum Beispiel nachdem der Benutzer die zur Bereitstellung der akustischen Eingabe nützlichen Informationen unter Verwendung des Internet-Browsers aufgefunden hat) . Daher kann in den Fällen, in denen ein Benutzer einen weiteren Betrieb des Geräts eingesetzt hat, die Entscheidungsraute 218 erreicht werden, obwohl die Logik bei anderen Ausführungsformen vom Block 212 direkt zur Entscheidungsraute 220, die noch in Kürze beschrieben wird, fortfahren kann. In jedem Fall kann eine negative Bestimmung an Raute 218 die Logik dazu veranlassen, die Bestimmung an Raute 218 solange fortzuführen, bis eine positive Bestimmung getroffen worden ist. Nach einer positiven Bestimmung an Raute 218 fährt die Logik dann zur Entscheidungsraute 220 fort.
  • An der Entscheidungsraute 220 stellt die Logik fest, ob wiederum basierend auf zum Beispiel einer Erfassung von Audio eine akustische Eingabe an das Gerät bereitgestellt wird, während sich das Gerät innerhalb eines Grenzwertabstands vom Gesicht des Benutzers befindet, während der Benutzer wie hierin dargelegt auf, um oder zum Gerät hin sieht und/oder basierend auf der Erfassung von Audio, während sich der Mund des Benutzers wie hierin dargelegt bewegt, etc. Eine negative Bestimmung an Raute 220 kann die Logik dazu veranlassen, mit dem Treffen der Bestimmung an Raute 220 solange fortzuführen, bis eine positive Bestimmung getroffen wird. Eine positive Bestimmung an Raute 220 veranlasst die Logik dazu, mit Block 222 weiterzufahren, wo die Logik die Verarbeitung der akustischen Eingabesequenz wieder aufnimmt und/oder einen Befehl ausführt, der in der bereitgestellten akustischen Eingabesequenz bereitgestellt ist oder davon abgeleitet ist.
  • Unter Fortsetzung der detaillierten Beschreibung in Bezug auf 3 zeigt diese eine beispielhafte Benutzeroberfläche (UI) 300, die an einem Gerät dargestellt sein kann, das die vorliegenden Prinzipien einsetzt, wenn zum Beispiel festgestellt wird, dass eine Pause in einer akustischen Eingabe wie hierin dargelegt stattfindet. Wie aus 3 ersichtlich, weist die UI 300 eine Überschrift/einen Titel 302 auf, der ein Hinweis darauf ist, dass zum Beispiel eine Anwendung zum Empfang eines akustischen Befehls und/oder einer akustischen Eingabesequenz gemäß den vorliegenden Prinzipien eingeleitet wird und am Gerät läuft und zum Beispiel, dass die UI 300 damit assoziiert ist. Es ist ebenfalls zu beachten, dass ein Home-Auswahlelement 304 dargestellt ist, das ausgewählt werden kann, um zum Beispiel einen Home-Bildschirm des Geräts (zum Beispiel durch Präsentieren von Symbolen für die Anwendungen des Geräts) ohne weitere Eingabe durch den Benutzer dargestellt wird.
  • Die UI 300 weist ebenfalls ein Statuskennzeichen 306 und damit assoziierter Text 308 auf, was im beispielhaften Fall darauf hindeutet, dass die Anwendung angehalten wurde und/oder dass sie auf eine akustische Eingabe von einem Benutzer wartet (zum Beispiel in Antwort auf die Bestimmung, dass keine akustische Eingabe gerade vor und/oder während dem Zeitraum bereitgestellt wird, während dem die UI 300 dargestellt wird). Daher deutet der beispielhafte Text 308 darauf hin, dass das Gerät und/oder die Anwendung „auf die Eingabe [des Benutzers] ... wartet“. Eine beispielhafte Abbildung und/oder Illustration 310, wie zum Beispiel ein Mikrofon, weist ebenfalls darauf hin, dass ein Benutzer in das Gerät oder in dessen Nähe sprechen sollte, dass die UI 300 darstellt, um eine akustische Eingabe bereitzustellen und zum Beispiel um eine Illustration einer Handlung (zum Beispiel sprechen) bereitzustellen, die vom Benutzer unternommen werden sollte, um die Anwendung einzusetzen. Es ist zu beachten, dass während dem Empfang einer akustischen Eingabesequenz eine UI mit einigen derselben Auswahlelementen dargestellt sein kann (zum Beispiel die Elemente 314, die nachfolgend noch beschrieben werden) und dass wenigstens ein Teil des Mikrofons 310 die Farbe von einer ersten Farbe, wenn die akustische Eingabe empfangen wird, zu einer zweiten Farbe wechselt, die sich von der ersten Farbe unterscheidet, wenn die akustische Eingabe-Anwendung auf eine Eingabe, wie an der UI 300 gezeigt, „wartet“.
  • In jedem Fall weist die UI 300 ebenfalls eine beispielhafte des Benutzers auf, die zum Beispiel von einer Kamera erfasst worden ist, die sich am Gerät befindet und/oder mit diesem in Kommunikation steht, das die UI 300 darstellt. Die kann zum Beispiel eine aktuelle Abbildung sein, die in regelmäßigen Abständen (zum Beispiel alle Zehntel einer Sekunde) aktualisiert wird, während von der Kamera neue Abbildungen des Benutzers erfasst werden und somit wenigstens im Wesentlichen eine Abbildung des Benutzers in Echtzeit sein kann. Es ist zu beachten, dass in der der Mund des Benutzers geöffnet ist, es versteht sich jedoch, dass dieser unbeweglich ist und/oder stillsteht, was zum Beispiel zu einer Bestimmung durch das Gerät führt, dass keine akustische Eingabe bereitgestellt wird. Es werden mehrfache Auswahlelemente 314 für Anwendungen, Funktionen und/oder Betriebe des Geräts, das die UI 300 darstellt, zusätzlich zur akustischen Eingabe-Anwendung gezeigt, sodass zum Beispiel ein Benutzer zwischen der akustischen Eingabe-Anwendung und einer anderen Anwendung umschalten kann, während die akustische Eingabe-Anwendung zum Beispiel trotzdem noch geöffnet bleibt und/oder angehalten wird. Daher gelten die nachfolgenden Auswahlelemente als automatisch auswählbar, ohne diese durch weitere Eingabe eines Benutzers zu starten und/oder ohne zu veranlassen, dass die Anwendung, die mit dem bestimmten ausgewählten Auswahlelement assoziiert ist, zum Beispiel gestartet wird und eine assoziierte UI zu haben, die auf einer Anzeige des Geräts dargestellt ist: ein Browser-Auswahlelement 316 zum Beispiel für eine Internet-Browser-Anwendung, ein Landkarten-Auswahlelement 318 zum Beispiel für eine Landkarten-Anwendung und/oder ein Kontakte-Auswahlelement 320 zum Beispiel für eine Kontakte-Anwendung und/oder Kontaktliste. Es ist zu beachten, dass ein Andere-Anwendungen-Sehen-Auswahlelement 322 ebenfalls dargestellt und auswählbar ist, um automatisch, ohne weitere Eingabe des Benutzers, zu veranlassen, dass eine UI dargestellt wird (zum Beispiel eine Home-Bildschirm-UI, eine E-Mail-UI, die mit einer E-Mail-Anwendung assoziiert ist, etc.), welche zum Beispiel Symbole von noch geöffneten Anwendungen darstellt, die auswählbar sind, während die akustische Eingabe-Anwendung „angehalten“ ist.
  • Zusätzlich zum Vorstehenden weist die UI 300 Anweisungen 324 auf, die darauf hindeuten, dass falls der Benutzer die akustische Eingabe-Anwendung schließen und/oder die bestimmte akustische Eingabesequenz, die durch den Benutzer vor der vom Gerät erfassten Pause eingegeben wurde, beenden möchte, ein entsprechender Befehl (zum Beispiel automatisch) in das Gerät eingegeben werden kann, zum Beispiel durch Entfernen des Geräts aus der Gesichtsnähe des Benutzers (zum Beispiel um einen Grenzwertabstand weg von wenigstens einem Teil des Gesichts des Benutzers) . Es ist jedoch zu beachten, dass die Anweisungen 324 darauf hindeuten können, dass die Anwendung noch auf andere Wege geschlossen ist, wie zum Beispiel der Eingabe eines akustischen Befehls, die Anwendung zu schließen und/oder die Verarbeitung der akustischen Eingabesequenz zu beenden, dem Einsatz einer anderen Anwendung und/oder eines anderen Betriebs des Geräts über einen Grenzwertzeitraum hinweg, um die Anwendung zu schließen und oder die Verarbeitung der akustischen Eingabesequenz zu beenden (zum Beispiel nach Ablauf der Grenzwertzeit), dem Fehlen einer Bereitstellung einer akustischen Eingabe (zum Beispiel dem Bereitstellen einer akustischen Pause und/oder dem Nicht-Sprechen) innerhalb einer Grenzwertzeit, um die Anwendung zu schließen und/oder die Verarbeitung der akustischen Eingabesequenz zu beenden (zum Bei spiel nach Ablauf der Grenzwert zeit), dem Nicht-Bereitstellen einer Berührungseingabe in die Anzeige, welche die UI 300 darstellt, über einen Grenzwertzeitraumhinaus, , um die Anwendung zu schließen und/oder die Verarbeitung der akustischen Eingabesequenz zu beenden, etc. (zum Beispiel nach Ablauf der Grenzwertzeit).
  • 4 zeigt eine beispielhafte UI 400, die an einem Gerät gemäß den vorliegenden Prinzipien dargestellt ist, zum Beispiel automatisch, ohne weitere Eingabe eines Benutzers, in Antwort auf die Auswahl des Elements 316 von der UI 300. Im vorliegenden Fall ist die UI 400 für einen Internet-Browser bestimmt. Es ist zu beachten, dass die UI 400 ein Auswahlelement 402 aufweist, das auswählbar ist, um zum Beispiel die UI 300 oder eine andere UI automatisch zu veranlassen, ohne weitere Eingabe des Benutzers, für die akustische Eingabe-Anwendung gemäß den vorliegenden Prinzipien dargestellt zu sein.
  • Daher kann ein Benutzer beispielsweise mitten und/oder während der Bereitstellung einer akustischen Eingabesequenz entscheiden, dass Informationen zur Vervollständigung der akustischen Eingabesequenz vom Internet unter Verwendung der Browser-Anwendung abgerufen werden sollten. Der Benutzer kann dafür das Element 316 auswählen, das Internet unter Verwendung der Browser-Anwendung surfen, um zum Beispiel Kontaktinformationen von der Lenovo, Singapur, Ltd. Webseite abzurufen und dann zur akustischen Eingabe-Anwendung zurückkehren, um die Bereitstellung der akustischen Eingabesequenz fertigzustellen, wobei die Eingabe nun die Kontaktinformationen über Lenovo, Singapur, Ltd. aufweist. Eine beispielhafte akustische Eingabesequenz im vorliegenden Fall kann zum Beispiel „Bitte die Telefon-Anwendung verwenden um ... [Pause während der Eingabe, während der Benutzer den Internet-Browser einsetzt] .. die Telefonnummer fünf, fünf, fünf Lenovo eins anzurufen“. In Zahlen ausgedrückt, würde die Nummer zum Beispiel (555) 536-6861 lauten.
  • Unter Fortsetzung der detaillierten Beschreibung bezüglich 5 zeigt diese eine beispielhafte UI 500, die mit einer akustischen Eingabe-Anwendung gemäß den vorliegenden Prinzipien assoziiert ist. Es ist zu beachten, dass eine Überschrift/ein Titel 502 dargestellt ist, die/der in ihrer/seiner Funktion und Konfiguration der Überschrift 302 ähnelt, es ist auch ein Home-Auswahlelement 504 dargestellt, das in seiner Funktion und Konfiguration im Wesentlichen dem Home-Element 304 ähnlich ist, mehrfache Auswahlelemente 506 sind dargestellt, die in ihrer Funktion und Konfiguration jeweils den Elementen 314 von 3 ähnlich sind und es ist eine dargestellt, die in ihrer Funktion und Konfiguration der im Wesentlichen ähnlich sein kann (zum Beispiel mit der Ausnahme, dass die Abbildung in Echtzeit zeigt, dass der Mund des Benutzers geschlossen ist, wodurch angezeigt ist, dass keine akustische Eingabe vom Benutzer bereitgestellt wird).
  • Die UI 500 zeigt ebenfalls ein Statuskennzeichen 508 und assoziierten Text 510, was im vorliegenden Fall darauf hindeutet, dass das Gerät und/oder die akustische Eingabe-Anwendung (zum Beispiel aktuell) keine akustische Eingabe empfängt und auch darauf hindeutet, dass die Verarbeitung der akustischen Eingabesequenz beendet wird (zum Beispiel ungeachtet dessen, ob eine vollständige akustische Eingabesequenz empfangen worden ist oder nicht, wie vom Gerät erfasst) . Die UI 500 kann ebenfalls ein oder mehrere der nachfolgenden Auswahlelemente aufweisen:
    • ein die vorherige Eingabesequenz wiederaufnehmen Element 514, das auswählbar ist, um die akustische Eingabe-Anwendung automatisch, ohne weitere Eingabe des Benutzers, zu veranlassen, die Verarbeitung für eine akustische Eingabesequenz zu öffnen und/oder wieder aufzunehmen, die zum Beispiel teilweise eingegeben wurde, bevor die Verarbeitung der Sequenz beendet wurde, sodass ein Benutzer die Bereitstellung der Sequenz fertigstellen kann, ein neue Eingabesequenz Element 516, das auswählbar ist, um die akustische Eingabe-Anwendung automatisch, ohne weitere Eingabe des Benutzers, zu veranlassen, zum Beispiel mit dem „Horchen“ auf eine neue akustische Eingabesequenz zu beginnen und ein Anwendungselement 518 zu schließen, das auswählbar ist, um die akustische Eingabe-Anwendung automatisch, ohne weitere Eingabe des Benutzers, zu veranlassen, zum Beispiel die akustische Eingabe-Anwendung zu schließen und/oder zum Home-Bildschirm des Geräts zurückzukehren.
  • 6 zeigt eine beispielhafte UI 600, die mit einer akustischen Eingabe-Anwendung gemäß den vorliegenden Prinzipien assoziiert ist. Es ist zu beachten, dass eine Überschrift/ein Titel 602 dargestellt ist, die/der in ihrer/seiner Funktion und Konfiguration der Überschrift 302 ähnelt, es ist auch ein Home-Auswahlelement 604 dargestellt, das in seiner Funktion und Konfiguration im Wesentlichen dem Home-Element 304 ähnlich ist, mehrfache Auswahlelemente 606 sind dargestellt, die in ihrer Funktion und Konfiguration jeweils den Elementen 314 von 3 ähnlich sind und obwohl nicht dargestellt, kann auch eine Abbildung an der UI 600 dargestellt sein, die in ihrer Funktion und Konfiguration der im Wesentlichen ähnlich sein kann.
  • Die UI 600 zeigt ebenfalls ein Statuskennzeichen 608 und assoziierten Text 610, was im vorliegenden Fall darauf hindeutet, dass sich der Benutzer (zum Beispiel wie vom Gerät gemäß den vorliegenden Prinzipien erfasst) vom Gerät abgewendet hat und/oder sich der Mund des Benutzers nicht mehr bewegt, dass aber der Benutzer das Gerät immer noch zum Beispiel innerhalb eines Abstandsgrenzwerts zum Gesicht des Benutzers positioniert hat, um eine akustische Eingabe bereitzustellen. In einem solchen Fall kann die akustische Eingabe-Anwendung die Verarbeitung einer akustischen Eingabesequenz anhalten und warten, bis der Benutzer wieder damit fortfährt, diese gemäß den vorliegenden Prinzipien bereitzustellen und kann ebenfalls ein Auswahlelement 612 darstellen, das auswählbar ist, um eine Eingabe an das Gerät automatisch, ohne weitere Eingabe vom Benutzer, bereitzustellen, um damit fortzufahren, auf den Empfang der akustischen Eingabesequenz zu warten sowohl als auch ein Auswahlelement 614, das auswählbar ist, um die Verarbeitung durch die akustische Eingabe-Anwendung der akustischen Eingabesequenz, die in das Gerät eingegeben worden ist, automatisch, ohne weitere Eingabe vom Benutzer, zu beenden und/oder die akustische Eingabe-Anwendung selbst zu schließen.
  • Ohne sich auf eine bestimmte Figur zu beziehen versteht es sich, dass obwohl zum Beispiel eine akustische Eingabe-Anwendung gemäß den vorliegenden Prinzipien mit einem Gerät verkauft werden kann, gelten die vorliegenden Prinzipien ohne Weiteres auch für Fälle, bei denen die akustische Eingabe-Anwendung zum Beispiel von einem Server auf ein Gerät über ein Netzwerk, wie zum Beispiel dem Internet, heruntergeladen werden kann.
  • Ebenfalls ohne sich auf eine bestimmte Figur zu beziehen, erkennen die vorliegenden Prinzipien auch an, dass eine Bewegung eines Geräts, welches eine akustische Eingabe-Anwendung ausführt und/oder die Position des Geräts relativ zum Benutzer vom Gerät erfasst und verwendet werden kann um festzustellen, ob eine akustische Eingabe gemäß den vorliegenden Prinzipien bereitgestellt wird oder werden soll. Weiterhin kann zum Beispiel festgestellt werden, dass ein Benutzer im Begriff ist, eine akustische Eingabe bereitzustellen, um somit die akustische Eingabe-Anwendung einzuleiten und/oder damit mit dem „Horchen“ auf eine akustische Eingebe zu beginnen, in Antwort auf eine Bestimmung, dass der Benutzer zum Beispiel eine von einer Kamera des Geräts erfasste Geste bereitgestellt hat, die vom Gerät als eine Geste erkannt wird, die darauf hindeutet, dass der Benutzer eine akustische Eingabe an die akustische Eingabe-Anwendung bereitstellt oder im Begriff ist dies zu tun und/oder in Antwort auf eine Bestimmung, dass der Benutzer das Gerät zum Beispiel von vorher außerhalb eines Grenzwertabstands des Gesichts des Benutzers zu einer Position innerhalb des Grenzwertabstands bewegt hat und somit das Gerät in einer vordefinierten Orientierung hält (die zum Beispiel durch die akustische Eingabe-Anwendung erkennbar ist und/oder wobei das Gerät darauf hindeutet, dass der Benutzer im Begriff ist, eine akustische Eingabe bereitzustellen und somit das Gerät und/oder die Anwendung veranlasst wird, auf eine Eingabe zu „horchen“ (zum Beispiel in Antwort auf Signale von zum Beispiel einem Orientierungssensor und/oder Berührungssensoren am Gerät)) und/oder dass der Benutzer das Gerät in einem Abstand (der zum Beispiel konstant oder wenigstens im Wesentlichen konstant bleibt, wie zum Beispiel innerhalb von einem Zoll) positioniert hat, um diesem eine akustische Eingabe bereitzustellen (zum Beispiel wobei das Gerät gemäß den vorliegenden Prinzipien so lange „zuhört“ solange sich das Gerät in diesem Abstand befindet).
  • Ebenfalls gemäß den vorliegenden Prinzipien versteht es sich, dass die hierin erörterte Nachverfolgung der Augen in einem Fall eingesetzt werden kann, in dem zum Beispiel der Benutzer eine akustische Eingabesequenz bereitstellt, eine SMS at Gerät empfängt, wobei das Gerät bestimmt, dass es eine Verarbeitung der akustischen Eingabesequenz in Antwort auf eine Bestimmung anhalten soll, dass die Augen des Benutzers wenigstens auf einen Teil der SMS gerichtet sind und/oder dass der Benutzer damit aufgehört hat, eine akustische Eingabe bereitzustellen und/oder vollständig aufgehört hat zu sprechen und dann die Verarbeitung der akustischen Eingabesequenz wieder aufzunehmen, in Antwort auf die Bestimmung, dass der Benutzer wieder eine akustische Eingabe an das Gerät bereitstellt und/oder dass der Bildschirm, der die SMS darstellt, geschlossen oder anderweitig verlassen wurde.
  • In einem weiteren Beispiel geht man davon aus, dass ein Benutzer beginnt, eine akustische Eingabesequenz gemäß der vorliegenden Prinzipien einzugeben, die Bereitstellung der Sequenz anhält, um einen weiteren Betrieb des Geräts einzusetzen und dann bestimmt, dass der Zusammenhang und/oder ein vorheriger Eingabeteil der Sequenz basierend auf der Wiederaufnahme der akustischen Eingabe, die bereitgestellt und verarbeitet wird, verändert werden sollte. In einem solchen Fall kann das Gerät zum Beispiel ein „Schlüsselwort“ erkennen, das vom Benutzer bereitgestellt wurde, um zum Beispiel automatisch, ohne weiter Eingabe vom Benutzer, in Antwort darauf das zuletzt bereitgestellte Wort vor der Pause zu ignorieren und somit die Verarbeitung desselben als Teil der akustischen Eingabesequenz, die nach der Pause fertigzustellen ist, zurückzuweisen. Zusätzlich oder anstelle des Vorgenannten kann das Gerät zum Beispiel zwei Wörter, die durch eine Pause des Benutzers während der Bereitstellung der akustischen Eingabe getrennt wurden, als ähnlich und/oder zwiespältig erkennen, indem beide kompatibel verarbeitet werden können, um einen Befehl auszuführen (zum Beispiel beide Wörter sind Hauptwörter, beide Wörter sind verschiedene Städte aber der Zusammenhang der Sequenz richtet sich auf Informationen über eine einzelne Stadt, etc.). Trotzdem wird der Zusammenhang bei manchen Ausführungsformen, bei denen sich der Zusammenhang der Sequenz nach einer Pause verändert, nach der Pause und/oder den eingegebenen Worten modifiziert, nachdem die Pausen als betriebsbereite verarbeitet werden, zu denen die Sequenz gehört.
  • Es ist ebenfalls zu beachten, obwohl nicht als Figur bereitgestellt, dass eine Einstellungs-UI, die mit einer akustischen Eingabe-Anwendung assoziiert ist, an einem Gerät dargestellt sein kann, das die akustische Eingabe-Anwendung ausführt, um somit eine oder mehrere Einstellungen des Geräts zu konfigurieren. Es können zum Beispiel bestimmte Auswahlelemente für andere Betriebe und/oder Anwendungen von einem Benutzer zur Darstellung an einer UI, wie zum Beispiel der UI 300, ein oder mehrere Betriebe zur Bestimmung, ob eine Pause in einer akustischen Eingabe aufgetreten ist und wenn eine akustische Eingabe, die wie oben beschrieben weitergeführt wurde, aktiviert oder deaktiviert sein kann (zum Beispiel basierend auf einem Ein-/Aus-Umschaltelement), etc., eingestellt werden.

Claims (17)

  1. Gerät, aufweisend: einen Prozessor (122); einen Speicher (140), der dem Prozessor zugänglich ist und Anweisungen aufweist, die vom Prozessor ausführbar sind, zum: Verarbeiten einer akustischen Eingabesequenz, wobei die akustische Eingabesequenz von einem Benutzer des Geräts bereitgestellt wird; Bestimmen, dass eine Pause während der Bereitstellung der akustischen Eingabesequenz aufgetreten ist, wenigstens teilweise basierend auf ein erstes Signal von wenigstens einer Kamera, die in Kommunikation mit dem Gerät steht; in Antwort auf die Bestimmung, dass die Pause aufgetreten ist, Aufhören, die akustische Eingabesequenz zu verarbeiten; Bestimmen, dass die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen wurde, wenigstens teilweise basierend auf ein zweites Signal von der Kamera; und in Antwort auf eine Bestimmung, dass die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen wurde, Wiederaufnehmen der Verarbeitung der akustischen Eingabesequenz, wobei die Pause ein akustisches Sequenztrennzeichen aufweist, das für das Gerät unverständlich ist, wobei die Anweisungen ferner durch den Prozessor ausführbar sind, um zu bestimmen, mit der Verarbeitung der akustischen Eingabesequenz aufzuhören, in Antwort auf eine Verarbeitung eines Signals von einem Beschleunigungsmesser am Gerät, außer wenn ebenfalls wenigstens im Wesentlichen gleichzeitig das akustische Sequenztrennzeichen empfangen wird.
  2. Gerät nach Anspruch 1, wobei das akustische Sequenztrennzeichen basierend wenigstens teilweise auf eine Ausführung einer Lippenlesesoftware an wenigstens dem ersten Signal als unverständlich festgestellt wird, wobei das erste Signal von der Kamera in Antwort darauf generiert wird, dass die Kamera wenigstens eine Abbildung wenigstens eines Teils des Gesichts des Benutzers erfasst.
  3. Gerät nach Anspruch 1, wobei das erste und das zweite Signal jeweils von der Kamera in Antwort darauf generiert werden, dass die Kamera wenigstens eine Abbildung wenigstens eines Teils des Gesichts des Benutzers erfasst.
  4. Gerät nach Anspruch 1, wobei die Pause eine Pause während der Bereitstellung von akustischer Eingabe von einem Benutzer in das Gerät aufweist.
  5. Gerät nach Anspruch 4, wobei die zumindest teilweise auf dem ersten Signal basierende Bestimmung, dass die Pause aufgetreten ist, eine Bestimmung aufweist, dass der aktuelle Gesichtsausdruck des Benutzers ein Hinweis darauf ist, dass dieser nicht im Begriff ist, eine akustische Eingabe bereitzustellen.
  6. Gerät nach Anspruch 5, wobei die Bestimmung, dass der aktuelle Gesichtsausdruck des Benutzers ein Hinweis darauf ist, dass dieser nicht im Begriff ist, eine akustische Eingabe bereitzustellen, eine Bestimmung aufweist, dass der Mund des Benutzers zumindest weitgehend geschlossen ist.
  7. Gerät nach Anspruch 6, wobei die Bestimmung, dass der aktuelle Gesichtsausdruck des Benutzers ein Hinweis darauf ist, dass dieser nicht im Begriff ist, eine akustische Eingabe bereitzustellen, eine Bestimmung aufweist, dass der Mund des Benutzers geschlossen ist.
  8. Gerät nach Anspruch 1, wobei die wenigstens teilweise auf dem zweiten Signal basierende Bestimmung, dass die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen worden ist, eine Bestimmung aufweist, der der Mund des Benutzers geöffnet ist.
  9. Gerät nach Anspruch 1, wobei die wenigstens teilweise auf dem ersten Signal basierende Bestimmung, dass die Pause aufgetreten ist, eine Bestimmung aufweist, dass der Mund des Benutzers geöffnet ist und zumindest im Wesentlichen stillsteht.
  10. Gerät nach Anspruch 1, wobei die zumindest teilweise auf dem ersten Signal basierende Bestimmung, dass die Pause aufgetreten ist, eine Bestimmung aufweist, dass die Augen des Benutzers nicht auf das oder zum Gerät hin gerichtet sind.
  11. Verfahren, aufweisend: Empfangen einer akustischen Eingabesequenz an einem Gerät (202), wobei die akustische Eingabesequenz von einem Benutzer des Geräts bereitgestellt wird; Bestimmen, dass eine Pause während der Bereitstellung der akustischen Eingabesequenz aufgetreten ist (216), wenigstens teilweise basierend auf ein erstes Signal von wenigstens einer Kamera, die in Kommunikation mit dem Gerät steht; in Antwort auf die Bestimmung, dass die Pause aufgetreten ist, Aufhören, die akustische Eingabesequenz zu verarbeiten (212); Bestimmen, dass die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen wurde, wenigstens teilweise basierend auf ein zweites Signal von der Kamera; und in Antwort auf eine Bestimmung, dass die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen wurde, Wiederaufnehmen der Verarbeitung der akustischen Eingabesequenz (222), wobei die Pause ein akustisches Sequenztrennzeichen aufweist, das für das Gerät unverständlich ist, wobei die Anweisungen ferner durch den Prozessor ausführbar sind, um zu bestimmen, mit der Verarbeitung der akustischen Eingabesequenz aufzuhören, in Antwort auf eine Verarbeitung eines Signals von einem Beschleunigungsmesser am Gerät, außer wenn ebenfalls wenigstens im Wesentlichen gleichzeitig das akustische Sequenztrennzeichen empfangen wird.
  12. Verfahren nach Anspruch 11, wobei die Bestimmung, dass der Benutzer die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen hat, die Bestimmung, dass der Benutzer eine Bereitstellung von akustischer Eingabe wieder aufgenommen hat, in Antwort auf den Empfang der akustischen Eingabe aufweist.
  13. Verfahren nach Anspruch 11, wobei die Bestimmung, dass der Benutzer die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen hat, die Bestimmung, dass der Benutzer die Bereitstellung der akustischen Eingabe wieder aufgenommen hat, in Antwort auf die Bestimmung, dass eine Grenzwertzeit, während welcher keine Berührungseingabe an der berührungsgesteuerten Anzeige empfangen worden ist, abgelaufen ist, aufweist.
  14. Verfahren nach Anspruch 11, wobei das Verfahren ferner in Antwort auf die Bestimmung, dass der Benutzer die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen hat, mit dem Empfang der akustischen Eingabesequenz am Gerät fortfährt.
  15. Verfahren nach Anspruch 11, wobei das Verfahren ferner, in Antwort auf die Bestimmung, dass der Benutzer die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen hat, das Fortfahren der Ausführung einer akustischen Eingabesequenz-Anwendung aufweist, die initiiert wird, um die akustische Eingabesequenz zu empfangen, wobei die akustische Eingabesequenz-Anwendung die akustische Eingabesequenz vor der Bestimmung verarbeitet, dass der Benutzer damit aufgehört hat, die akustische Eingabesequenz bereitzustellen, und wobei die akustische Eingabesequenz-Anwendung damit fortfährt, die akustische Eingabesequenz an dem Gerät zu empfangen, das die akustische Eingabesequenz-Anwendung verwendet.
  16. Verfahren nach Anspruch 15, wobei die Bestimmung, dass der Benutzer damit aufgehört hat, die akustische Eingabesequenz bereitzustellen, die Bestimmung, dass der Benutzer damit aufgehört hat, eine akustische Eingabe bereitzustellen, aufweist basierend auf dem Signal von der Kamera und die auf der Eingabe von der berührungsgesteuerten Anzeige basierenden Bestimmung, dass der Benutzer einen anderen Betrieb des Geräts einsetzt.
  17. Vorrichtung, aufweisend: einen ersten Prozessor; einen Netzwerk-Adapter; einen Speicher mit Anweisungen, die über ein Netzwerk über den Netzwerkadapter übertragen werden, zur Ausführung mittels eines zweiten Prozessors, zum: Empfangen einer akustischen Eingabesequenz an einem Gerät, wobei die akustische Eingabesequenz von einem Benutzer des Geräts bereitgestellt wird; Bestimmen, dass eine Pause während der Bereitstellung der akustischen Eingabesequenz aufgetreten ist, wenigstens teilweise basierend auf ein erstes Signal von wenigstens einer Kamera, die in Kommunikation mit dem Gerät steht; in Antwort auf die Bestimmung, dass die Pause aufgetreten ist, Aufhören, die akustische Eingabesequenz zu verarbeiten; Bestimmen, dass die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen wurde, wenigstens teilweise basierend auf ein zweites Signal von der Kamera; undin Antwort auf eine Bestimmung, dass die Bereitstellung der akustischen Eingabesequenz wieder aufgenommen wurde, Wiederaufnehmen der Verarbeitung der akustischen Eingabesequenz, wobei die Pause ein akustisches Sequenztrennzeichen aufweist, das für das Gerät unverständlich ist, wobei die Anweisungen ferner durch den Prozessor ausführbar sind, um zu bestimmen, mit der Verarbeitung der akustischen Eingabesequenz aufzuhören, in Antwort auf eine Verarbeitung eines Signals von einem Beschleunigungsmesser am Gerät, außer wenn ebenfalls wenigstens im Wesentlichen gleichzeitig das akustische Sequenztrennzeichen empfangen wird.
DE102014117343.0A 2013-12-03 2014-11-26 Erfassen einer Pause in einer akustischen Eingabe in ein Gerät Active DE102014117343B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/095,369 US10163455B2 (en) 2013-12-03 2013-12-03 Detecting pause in audible input to device
US14/095,369 2013-12-03

Publications (2)

Publication Number Publication Date
DE102014117343A1 DE102014117343A1 (de) 2015-06-03
DE102014117343B4 true DE102014117343B4 (de) 2020-03-26

Family

ID=52292539

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102014117343.0A Active DE102014117343B4 (de) 2013-12-03 2014-11-26 Erfassen einer Pause in einer akustischen Eingabe in ein Gerät

Country Status (4)

Country Link
US (2) US10163455B2 (de)
CN (1) CN104679471B (de)
DE (1) DE102014117343B4 (de)
GB (1) GB2522748B (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9633252B2 (en) 2013-12-20 2017-04-25 Lenovo (Singapore) Pte. Ltd. Real-time detection of user intention based on kinematics analysis of movement-oriented biometric data
US10180716B2 (en) 2013-12-20 2019-01-15 Lenovo (Singapore) Pte Ltd Providing last known browsing location cue using movement-oriented biometric data
US9741342B2 (en) * 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
CN109446876B (zh) * 2018-08-31 2020-11-06 百度在线网络技术(北京)有限公司 手语信息处理方法、装置、电子设备和可读存储介质
US11151993B2 (en) * 2018-12-28 2021-10-19 Baidu Usa Llc Activating voice commands of a smart display device based on a vision-based mechanism
US11915698B1 (en) * 2021-09-29 2024-02-27 Amazon Technologies, Inc. Sound source localization

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070124507A1 (en) * 2005-11-28 2007-05-31 Sap Ag Systems and methods of processing annotations and multimodal user inputs
US20090138507A1 (en) * 2007-11-27 2009-05-28 International Business Machines Corporation Automated playback control for audio devices using environmental cues as indicators for automatically pausing audio playback
US20130021459A1 (en) * 2011-07-18 2013-01-24 At&T Intellectual Property I, L.P. System and method for enhancing speech activity detection using facial feature detection

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2510344A (en) 1945-03-17 1950-06-06 Rca Corp Viewing screen
US2567654A (en) 1947-08-21 1951-09-11 Hartford Nat Bank & Trust Co Screen for television projection
DE1164465B (de) 1962-12-07 1964-03-05 Telefunken Patent Transportabler Fernsehempfaenger
US3628854A (en) 1969-12-08 1971-12-21 Optical Sciences Group Inc Flexible fresnel refracting membrane adhered to ophthalmic lens
US3972593A (en) 1974-07-01 1976-08-03 Minnesota Mining And Manufacturing Company Louvered echelon lens
US4190330A (en) 1977-12-27 1980-02-26 Bell Telephone Laboratories, Incorporated Variable focus liquid crystal lens system
US4577928A (en) 1983-04-21 1986-03-25 Data Vu Company CRT magnifying lens attachment and glare reduction system
FR2649799B1 (fr) 1989-07-12 1993-05-28 Cintra Daniel Systeme optique pour l'agrandissement d'images
JP2648558B2 (ja) 1993-06-29 1997-09-03 インターナショナル・ビジネス・マシーンズ・コーポレイション 情報選択装置及び情報選択方法
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
JPH10282310A (ja) 1997-04-11 1998-10-23 Dainippon Printing Co Ltd フレネルレンズシート及び透過型スクリーン
US6073036A (en) 1997-04-28 2000-06-06 Nokia Mobile Phones Limited Mobile station with touch input having automatic symbol magnification function
US6169538B1 (en) 1998-08-13 2001-01-02 Motorola, Inc. Method and apparatus for implementing a graphical user interface keyboard and a text buffer on electronic devices
US6243683B1 (en) 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US20030093280A1 (en) * 2001-07-13 2003-05-15 Pierre-Yves Oudeyer Method and apparatus for synthesising an emotion conveyed on a sound
US20030171932A1 (en) 2002-03-07 2003-09-11 Biing-Hwang Juang Speech recognition
US7231351B1 (en) * 2002-05-10 2007-06-12 Nexidia, Inc. Transcript alignment
US7174191B2 (en) * 2002-09-10 2007-02-06 Motorola, Inc. Processing of telephone numbers in audio streams
CN1717648A (zh) 2002-11-29 2006-01-04 皇家飞利浦电子股份有限公司 具有触摸区域的移动表示的用户界面
US7133535B2 (en) * 2002-12-21 2006-11-07 Microsoft Corp. System and method for real time lip synchronization
US20040160419A1 (en) 2003-02-11 2004-08-19 Terradigital Systems Llc. Method for entering alphanumeric characters into a graphical user interface
DE10310794B4 (de) 2003-03-12 2012-10-18 Hewlett-Packard Development Co., L.P. Bedieneinrichtung und Kommunikationsgerät
US7999857B2 (en) * 2003-07-25 2011-08-16 Stresscam Operations and Systems Ltd. Voice, lip-reading, face and emotion stress analysis, fuzzy logic intelligent camera system
US7890327B2 (en) * 2004-06-28 2011-02-15 International Business Machines Corporation Framework for extracting multiple-resolution semantics in composite media content analysis
EP1693801A3 (de) * 2005-02-16 2006-11-29 David Schaufele Biometrische Systeme und Verfahren zur Identitätsüberprüfung
EP1877149A1 (de) 2005-05-05 2008-01-16 Sony Computer Entertainment Inc. Hören selektiver geräuschquellen in verbindung mit computerinteraktiver verarbeitung
US8223361B2 (en) 2006-10-11 2012-07-17 Sharp Laboratories Of America, Inc. Empty job detection for direct print
US20080180218A1 (en) * 2006-11-07 2008-07-31 Flax Stephen W Bi-Modal Remote Identification System
US8156518B2 (en) * 2007-01-30 2012-04-10 At&T Intellectual Property I, L.P. System and method for filtering audio content
US9244455B2 (en) 2007-09-10 2016-01-26 Fisher-Rosemount Systems, Inc. Location dependent control access in a process control system
US8099289B2 (en) 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US8330593B2 (en) 2008-04-11 2012-12-11 Ease Diagnostics Monitoring vehicle activity
EP2279465B1 (de) * 2008-04-17 2014-04-02 Siemens Aktiengesellschaft Verfahren und system für cyber-sicherheitsverwaltung von industriellen steuersystemen
US8514251B2 (en) 2008-06-23 2013-08-20 Qualcomm Incorporated Enhanced character input using recognized gestures
ES2386673T3 (es) * 2008-07-03 2012-08-24 Mobiter Dicta Oy Procedimiento y dispositivo de conversión de voz
US20100079508A1 (en) 2008-09-30 2010-04-01 Andrew Hodge Electronic devices with gaze detection capabilities
WO2010078596A1 (en) 2009-01-05 2010-07-08 Tactus Technology, Inc. User interface system
US8732623B2 (en) 2009-02-17 2014-05-20 Microsoft Corporation Web cam based user interaction
US8655320B2 (en) * 2009-04-14 2014-02-18 Ca, Inc. Method and system for providing low-complexity voice messaging
US20100280828A1 (en) * 2009-04-30 2010-11-04 Gene Fein Communication Device Language Filter
US20110065451A1 (en) 2009-09-17 2011-03-17 Ydreams-Informatica, S.A. Context-triggered systems and methods for information and services
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
US8175617B2 (en) 2009-10-28 2012-05-08 Digimarc Corporation Sensor-based mobile search, related methods and systems
WO2012036669A1 (en) 2010-09-13 2012-03-22 Hewlett-Packard Development Company, L.P. Smile detection systems and methods
CA2814941C (en) * 2010-11-04 2017-03-14 Ricoh Company, Ltd. Communication terminal, communication method and computer readable information recording medium
US8886128B2 (en) 2010-12-10 2014-11-11 Verizon Patent And Licensing Inc. Method and system for providing proximity-relationship group creation
CN103329068B (zh) * 2011-01-24 2017-02-08 索尼电脑娱乐公司 信息处理装置
US20120268268A1 (en) 2011-04-19 2012-10-25 John Eugene Bargero Mobile sensory device
JP5673330B2 (ja) * 2011-04-25 2015-02-18 株式会社デンソー 音声入力装置
US20120304067A1 (en) * 2011-05-25 2012-11-29 Samsung Electronics Co., Ltd. Apparatus and method for controlling user interface using sound recognition
US9285592B2 (en) 2011-08-18 2016-03-15 Google Inc. Wearable device with input and output structures
JP2013080015A (ja) * 2011-09-30 2013-05-02 Toshiba Corp 音声認識装置および音声認識方法
US9106789B1 (en) * 2012-01-20 2015-08-11 Tech Friends, Inc. Videoconference and video visitation security
US8812983B2 (en) 2012-02-17 2014-08-19 Lenovo (Singapore) Pte. Ltd. Automatic magnification and selection confirmation
US8832328B2 (en) 2012-03-13 2014-09-09 Qualcomm Incorporated Data redirection for universal serial bus devices
FR2989209B1 (fr) * 2012-04-04 2015-01-23 Aldebaran Robotics Robot apte a integrer des dialogues naturels avec un utilisateur dans ses comportements, procedes de programmation et d'utilisation dudit robot
CN102647525A (zh) * 2012-04-16 2012-08-22 中兴通讯股份有限公司 一种移动终端及其异常通话的处理方法
US9823742B2 (en) 2012-05-18 2017-11-21 Microsoft Technology Licensing, Llc Interaction and management of devices using gaze detection
US9443510B2 (en) * 2012-07-09 2016-09-13 Lg Electronics Inc. Speech recognition apparatus and method
US20140071163A1 (en) * 2012-09-11 2014-03-13 Peter Tobias Kinnebrew Augmented reality information detail
KR20140036584A (ko) * 2012-09-17 2014-03-26 삼성전자주식회사 음성 신호의 음량을 조절하기 위한 방법 및 그 전자 장치
US9966075B2 (en) * 2012-09-18 2018-05-08 Qualcomm Incorporated Leveraging head mounted displays to enable person-to-person interactions
US9727556B2 (en) * 2012-10-26 2017-08-08 Entit Software Llc Summarization of a document
US8913138B2 (en) * 2012-12-21 2014-12-16 Technologies Humanware Inc. Handheld magnification device with a two-camera module
CN103914131A (zh) 2013-01-07 2014-07-09 鸿富锦精密工业(武汉)有限公司 显示屏幕自动调节系统及方法
US9170993B2 (en) * 2013-01-29 2015-10-27 Hewlett-Packard Development Company, L.P. Identifying tasks and commitments using natural language processing and machine learning
US9105270B2 (en) * 2013-02-08 2015-08-11 Asustek Computer Inc. Method and apparatus for audio signal enhancement in reverberant environment
US9123340B2 (en) 2013-03-01 2015-09-01 Google Inc. Detecting the end of a user question
US9436287B2 (en) * 2013-03-15 2016-09-06 Qualcomm Incorporated Systems and methods for switching processing modes using gestures
US9286030B2 (en) * 2013-10-18 2016-03-15 GM Global Technology Operations LLC Methods and apparatus for processing multiple audio streams at a vehicle onboard computer system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070124507A1 (en) * 2005-11-28 2007-05-31 Sap Ag Systems and methods of processing annotations and multimodal user inputs
US20090138507A1 (en) * 2007-11-27 2009-05-28 International Business Machines Corporation Automated playback control for audio devices using environmental cues as indicators for automatically pausing audio playback
US20130021459A1 (en) * 2011-07-18 2013-01-24 At&T Intellectual Property I, L.P. System and method for enhancing speech activity detection using facial feature detection

Also Published As

Publication number Publication date
GB2522748A (en) 2015-08-05
CN104679471A (zh) 2015-06-03
DE102014117343A1 (de) 2015-06-03
CN104679471B (zh) 2019-04-23
US10163455B2 (en) 2018-12-25
US20150154983A1 (en) 2015-06-04
US10269377B2 (en) 2019-04-23
US20180374501A1 (en) 2018-12-27
GB201420978D0 (en) 2015-01-07
GB2522748B (en) 2017-11-08

Similar Documents

Publication Publication Date Title
DE102014117343B4 (de) Erfassen einer Pause in einer akustischen Eingabe in ein Gerät
DE102016118680B4 (de) Situationsabhängiges Aufheben eines Weckwortes zum Aktivieren einer Sprachbefehlseingabe
DE102014117344A1 (de) Gerät und Verfahren zum Empfangen einer Eingabe und Darstellen als Antwort eine Ausgabe auf einem von dem ersten Gerät unterschiedlichen zweiten Gerät
DE102015110621B4 (de) Intelligente Untertitel
DE102016109561B4 (de) Bestimmung eines Geräts, an dem das Audiomaterial einer Telefonkommunikation vorzulegen ist
DE102017122427A1 (de) Automatische Anpassung einer Lautstärke eines Lautsprechers eines Gerätes basierend auf einer Amplitude einer Spracheingabe in das Gerät
DE102014117504A1 (de) Verwenden von Kontext zum Interpretieren von natürlichen Spracherkennungsbefehlen
DE102017115936A1 (de) Systeme und Verfahren zum Aktivieren eines Sprachassistenten und Bereitstellen eines Indikators, dass der Sprachassistent Hilfe zu leisten hat
DE102015100900A1 (de) Einstellen einer Spracherkennung unter Verwendung einer Kontextinformation
DE102015101236B4 (de) Nichthörbare Spracheingabekorrektur
DE102014118109A1 (de) Systeme und Verfahren zum Darstellen von Informationen auf einem Gerät basierend auf einem Eye-Tracking
DE102016122716A1 (de) Arbeitsbereichsübergänge in einer erweiterten Realität, basierend auf einem kontextuellen Umfeld
DE102015108004A1 (de) Darstellen einer Nutzerschnittstelle auf einem ersten Gerät basierend auf der Erfassung eines zweiten Gerätes in einer Umgebung des ersten Geräts
DE102016103218A1 (de) Blickbasierte Benachrichtigungsantwort
DE102015100470A1 (de) Interaktive Benutzergesteneingaben
DE102017115933A1 (de) Koordinieren einer Eingabe an mehreren lokalen Geräten
DE102018114533A1 (de) Systeme und Verfahren zur Identifikation von Antwortanfragen an einer Peripherievorrichtung
DE102018114658A1 (de) Eingabe während einer Unterhaltungssitzung
DE102018114453A1 (de) Interaktive Sessions
DE102013225744A1 (de) System und verfahren für eine effektive bereichsdetektierung einer handgeste
DE102018116315A1 (de) Systeme und Verfahren zum Erhöhen der Lautstärke einer Audio-Ausgabe durch ein Gerät
US11889135B2 (en) Video stream playing control method and apparatus, and storage medium
DE102015117843A1 (de) Kontextbasierte Textkorrektur
US20170212643A1 (en) Toggling between presentation and non-presentation of representations of input
DE102017104035A1 (de) Bestimmen räumlicher Beziehungen zwischen Gehäusen eines Mobilgeräts

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R082 Change of representative

Representative=s name: SCHWEIGER, MARTIN, DIPL.-ING. UNIV., DE