DE102015119592A1 - Durch einen Blick veranlasste Spracherkennung - Google Patents

Durch einen Blick veranlasste Spracherkennung Download PDF

Info

Publication number
DE102015119592A1
DE102015119592A1 DE102015119592.5A DE102015119592A DE102015119592A1 DE 102015119592 A1 DE102015119592 A1 DE 102015119592A1 DE 102015119592 A DE102015119592 A DE 102015119592A DE 102015119592 A1 DE102015119592 A1 DE 102015119592A1
Authority
DE
Germany
Prior art keywords
user
voice input
gaze
information handling
input module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102015119592.5A
Other languages
English (en)
Inventor
Antoine Roland Raux
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Singapore Pte Ltd
Original Assignee
Lenovo Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Singapore Pte Ltd filed Critical Lenovo Singapore Pte Ltd
Publication of DE102015119592A1 publication Critical patent/DE102015119592A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1202Dedicated interfaces to print systems specifically adapted to achieve a particular effect
    • G06F3/1203Improving or facilitating administration, e.g. print management
    • G06F3/1208Improving or facilitating administration, e.g. print management resulting in improved quality of the output result, e.g. print layout, colours, workflows, print preview
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Ein Ausführungsbeispiel stellt ein Verfahren bereit, umfassend: Detektieren einer Position des Benutzerblicks auf einem elektronischen Gerät, Aktivieren eines Spracheingabemoduls basierend auf der Position des Benutzerblicks; Detektieren einer Spracheingabe an dem elektronischen Gerät; Bewerten der Spracheingabe unter Verwendung des Spracheingabemoduls, und Durchführen von mindestens einer Maßnahme basierend auf der Bewertung der Spracheingabe. Weitere Aspekte werden beschrieben und beansprucht.

Description

  • HINTERGRUND
  • Mit der Schaffung von intelligenten Personal Digital Assistants (z.B. SIRI, S Voice, GOOGLE NOW, CORTANA und HIDI) wurde die Verwendung von Sprachbefehlen zur Steuerung von elektronischen Geräten äußerst populär. SIRI ist ein eingetragenes Warenzeichen von Apple, Inc. in den Vereinigten Staaten und in anderen Ländern. S VOICE ist ein eingetragenes Warenzeichen von Samsung Electronics Co. in den Vereinigten Staaten und in anderen Ländern. GOOGLE ist ein eingetragenes Warenzeichen von Google Inc. in den Vereinigten Staaten und in anderen Ländern. CORTANA ist ein anhängiges Warenzeichen von Microsoft in den Vereinigten Staaten und in anderen Ländern. Im Allgemeinen interagiert ein Benutzer mit einem Spracheingabemodul, das z.B. durch einem persönlichen Assistenten durch Verwendung von natürlicher Sprache ausgeführt ist. Diese Art von Schnittstelle ermöglicht es einem Gerät, Spracheingaben, z.B. Sprachbefehle, vom Benutzer zu erhalten, (z.B. "Wie ist das Wetter morgen?", "Rufe Dan an"), diese Anforderungen zu bearbeiten und die gewünschten Maßnahmen des Benutzers durch die Durchführung der Aufgabe selbst oder die Weiterreichung der Benutzeranfragen an eine gewünschte Anwendung auszuführen.
  • Da natürliche Sprache ein wichtiges Kommunikationsverfahren ist, mit dem die Leute vertraut sind, bietet die Möglichkeit, Sprachbefehle zu verwenden, einen natürlichen und effizienten Weg, um die Funktionen des Betriebssystems oder der Anwendungen eines Geräts zu verwenden, unabhängig davon, wie einfach oder wie komplex sie sind. Jedoch ist eines der größten Probleme bei der Verwendung von persönlichen Assistenten die Bestimmung, welcher Teil der Sprache eines Benutzers dazu bestimmt ist, als ein Sprachbefehl erhalten zu werden. Das ständige Hören auf den Benutzer hat sich als eine zu schwierige Aufgabe erwiesen, um sie mit einem brauchbaren Niveau von falsch-positiven (d.h. der Assistent reagiert auf Sprechen ohne Bezug) und falsch-negativen (d.h. der Assistent ignoriert Benutzerbefehle) Ergebnissen zu erzielen. Außerdem kann der persönliche Assistent eine energieintensive Anwendung sein, wenn er ständig im Hintergrund laufen gelassen wird, was einen bedeutenden Einfluss auf die Batterielebensdauer haben könnte. Um dieses Problem zu lösen, verwenden die meisten sprachgesteuerten Assistenten heutzutage eine Form von Auslöser, um den Spracherkennungsprozess zu initiieren. Dieser Auslöser baut darauf auf, dass jedes Sprechen, das unmittelbar auf den Auslöser folgt, ein Befehl ist, der an den Assistenten gerichtet ist. Einige herkömmliche Auslöser sind physisches Drücken von Knöpfen (z.B. SIRI-Aktivierung) und spezielle Schlüsselsätze, die vor jedem an das System gerichteten Befehl gesprochen werden müssen (z.B. Okay GOOGLE).
  • KURZE ZUSAMMENFASSUNG
  • Zusammenfassend stellt ein Aspekt ein Verfahren bereit, das Folgendes umfasst: Detektieren einer Position eines Benutzerblicks auf einem elektronischen Gerät; Aktivieren eines Spracheingabemoduls basierend auf der Position des Benutzerblicks; Detektieren einer Spracheingabe auf dem elektronischen Gerät; Bewerten der Spracheingabe unter Verwendung des Spracheingabemoduls und Durchführen mindestens einer Maßnahme basierend auf der Bewertung der Spracheingabe.
  • Ein anderer Aspekt stellt ein Informationshandhabungsgerät bereit, umfassend: Einen Prozessor; mindestens einen Sensor, der operativ mit dem Prozessor gekoppelt ist; und einen Speicher, der Anweisungen speichert, die vom Prozessor ausgeführt werden können, um: Eine Position des Benutzerblicks zu detektieren; basierend auf der Position des Benutzerblicks ein Spracheingabemodul zu aktivieren; unter Verwendung mindestens eines Sensors eine Spracheingabe zu detektieren; unter Verwendung des Spracheingabemoduls die Spracheingabe zu bewerten und, basierend auf der Bewertung der Spracheingabe, mindestens eine Maßnahme durchzuführen.
  • Ein weiterer Aspekt stellt ein Produkt bereit, umfassend: Ein Speichergerät mit Code, der in diesem gespeichert ist, wobei der Code vom Prozessor ausgeführt werden kann und Folgendes umfasst: Code, der eine Position des Benutzerblicks detektiert; Code, der, basierend auf der Position des Benutzerblicks, ein Spracheingabemodul aktiviert; Code, der eine Spracheingabe unter Verwendung einer Modalität detektiert; Code, der, unter Verwendung des Spracheingabemoduls, die Spracheingabe bewertet, und Code, der, basierend auf der Bewertung der Spracheingabe, mindestens eine Maßnahme durchführt.
  • Das Vorhergehende ist eine Zusammenfassung und kann somit Vereinfachungen, Verallgemeinerungen und Unterlassungen von Einzelheiten enthalten; folglich erkennen Fachleute, das die Zusammenfassung nur veranschaulichend und nicht dazu beabsichtigt ist, in irgendeiner Weise einschränkend zu sein.
  • Für ein besseres Verständnis der Ausführungsbeispiele, zusammen mit anderen und weiteren Merkmalen und Vorteilen davon, wird nun auf die folgende Beschreibung zusammen mit den beigefügten Zeichnungen Bezug genommen. Der Schutzumfang der Erfindung wird in den beigefügten Ansprüchen angegeben.
  • KURZE BESCHREIBUNG DER VERSCHIEDENEN ANSICHTEN DER ZEICHNUNGEN
  • 1 veranschaulicht ein Beispiel eines Schaltsystems eines Informationshandhabungsgeräts.
  • 2 veranschaulicht ein weiteres Beispiel eines Schaltsystems eines Informationshandhabungsgeräts.
  • 3 veranschaulicht ein exemplarisches Verfahren einer durch einen Blick veranlassten Erkennung.
  • 4 veranschaulicht ein weiteres exemplarisches Verfahren einer durch einen Blick veranlassten Erkennung.
  • DETAILLIERTE BESCHREIBUNG
  • Es ist leicht zu verstehen, dass die Bestandteile der Ausführungsbeispiele, wie hierin allgemein beschrieben und in den Figuren veranschaulicht, in einer großen Vielzahl von verschiedenen Konfigurationen zusätzlich zu den beschriebenen exemplarischen Ausführungsbeispielen angeordnet und entworfen sein können. Somit ist die folgende, detailliertere Beschreibung der exemplarischen Ausführungsbeispiele, wie in den Figuren dargestellt, nicht dazu beabsichtigt, den Schutzumfang der Ausführungsbeispiele, wie beansprucht, zu begrenzen, sondern stellt lediglich exemplarische Ausführungsbeispiele dar.
  • Der Bezug in der gesamten Beschreibung auf "ein bestimmtes Ausführungsbeispiel" oder "ein Ausführungsbeispiel" (oder dergleichen) bedeutet, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder Charakteristik, die in Verbindung mit dem Ausführungsbeispiel beschrieben wird, in mindestens einem Ausführungsbeispiel eingeschlossen ist. Somit beziehen sich das Auftreten der Ausdrücke "in einem bestimmten Ausführungsbeispiel" oder "in einem beliebigen Ausführungsbeispiel" oder dergleichen an verschiedenen Stellen in dieser ganzen Beschreibung nicht alle notwendigerweise auf das gleiche Ausführungsbeispiel.
  • Außerdem können die beschriebenen Merkmale, Strukturen oder Charakteristiken auf eine beliebige geeignete Weise in einem oder in mehreren Ausführungsbeispielen kombiniert sein. In der folgenden Beschreibung werden zahlreiche spezifische Einzelheiten bereitgestellt, um ein gründliches Verständnis von Ausführungsbeispielen zu geben. Ein entsprechender Fachmann wird jedoch detektieren, dass die verschiedenen Ausführungsbeispiele ohne eines oder mehrere der spezifischen Einzelheiten oder mit anderen Verfahren, Bestandteilen Materialien usw. ausgeführt werden können. In anderen Fällen werden gut bekannte Strukturen, Materialien oder Vorgänge nicht gezeigt oder in Einzelheiten beschrieben, um eine Verwirrung zu vermeiden.
  • Ein Ausführungsbeispiel ermöglicht es Benutzern, mit einem elektronischen Gerät zu interagieren, indem der Blick des Benutzers nachverfolgt und die Position eines Benutzerblicks als ein Auslösemechanismus verwendet wird. Zum Beispiel kann ein Ausführungsbeispiel aktiv auf eine Audioeingabe hören, wenn der Blick des Benutzers auf die obere rechte Ecke des Bildschirms eines Smartphones gerichtet ist. Ein Ausführungsbeispiel löst somit bequem und einfach das Problem, ein elektronisches Gerät manuell zu veranlassen, Audioeingaben wie z.B. Sprachbefehle zu empfangen.
  • Einige gegenwärtig verfügbare kommerzielle Systeme verwenden Auslöser, die das Drücken einer bestimmten Taste erfordern (z.B Drücken und Halten der Home-Taste, um SIRI zu aktivieren, oder Drücken und Halten der Search-Taste, um CORTANA zu aktivieren). Ein alternatives Verfahren, das gegenwärtig zur Verfügung steht, ist die Verwendung eines Schlüsselsatzes, (z.B. die Worte "Hey SIRI”, während ein Gerät, auf dem iOS 8 oder höher läuft, eingesteckt ist, oder die Worte "Okay GOOGLE", während ein Gerät, auf dem ANDROID 4.3 läuft, aktiv ist). ANDROID ist ein eingetragenes Warenzeichen von Google Inc. in den Vereinigten Staaten und in anderen Ländern. Sobald ein Benutzer einen Schlüsselsatz spricht, wird das Gerät dazu veranlasst, nach den Sprachbefehlen zu horchen, die nach dem Schlüsselsatz kommen.
  • Das Hauptproblem bei den aktuellen Verfahren zur Aktivierung eines Auslösers ist, dass sie dazu neigen, jede Aufgabe zu unterbrechen, mit der der Benutzer gegenwärtig beschäftigt ist (z.B. Verlassen einer Anwendung bei der Aktivierung des persönlichen Assistenten). Insbesondere muss ein Benutzer, wenn er mit der Ausführung einer Aufgabe beschäftigt ist, die eine Tastatur, eine Maus oder eine Touch-Eingabe auf dem Gerät erfordert, (z.B. Bearbeiten einer E-Mail, Bearbeiten eines Dokuments, Durchblättern oder Ansehen von soziale Netzwerken) diese Aufgabe unterbrechen oder möglicherweise sogar seine gegenwärtige Anwendung schließen, um auf einen getrennten Bereich zu klicken, diesen zu berühren oder in diesen zu gelangen, um auf den persönlichen Assistenten zuzugreifen.
  • Eine gegenwärtige Lösung der Anforderung einer taktilen Eingabe ist die Verwendung eines Schlüsselsatzes. Gegenwärtig können die meisten Schlüsselsätze nur außerhalb von Anwendungen Dritter verwendet werden oder erfordern, dass man sich in einem bestimmten Menü oder Bildschirm im Betriebssystem des Geräts befindet (z.B. in der GOOGLE NOW-Anwenung vor den Worten "Okay GOOGLE”). Somit sind die Schlüsselsatz-Auslöser möglicherweise nicht so restriktiv wie das Druckknopf-Verfahren, das den Benutzer dazu zwingen kann, seine Hand neu zu positionieren oder bei Hände zu verwenden, um eine Taste zu drücken. Jedoch weist das Verfahren zur Verwendung von Schlüsselsätzen auch Nachteile auf. Auch wenn der Schlüsselsatz in einer Anwendung Dritter verwendet werden könnte, müssen die Schlusselsatz-Auslöser gesprochen werden, bevor ein beliebiger Sprachbefehl vom Benutzer gegeben wird. Diese konstante und repetitive Tätigkeit stellt für den Benutzer eine Last dar und verringert den Vorteil des Aspekts der natürlichen Sprache des intelligenten Assistenten, wobei es sich um eine der wichtigsten Charakteristiken handelt.
  • Somit beschäftigt sich ein Ausführungsbeispiel mit diesen Beschränkungen durch die Verwendung der Nachverfolgung des Blicks, wodurch es dem Benutzer ermöglicht wird, die Spracherkennung auszulösen, indem er einfach auf einen bestimmten Bereich auf dem Bildschirm des Geräts blickt. Ein Ausführungsbeispiel verwendet ein Sensorgerät, das die Position des Blicks eines Benutzers detektiert. Ein Ausführungsbeispiel aktiviert dann eine Spracheingabemodul, z.B. einen intelligente Assistenten, der alle Sprachbefehle vom Benutzer detektiert. Der Auslöser könnte dadurch aktiviert werden, dass der Benutzer seinen Blick auf eine bestimmte Ecke des Bildschirms eines Geräts fixiert oder auf eine vorbestimmte Position blickt, die vom Benutzer eingestellt wird. Außerdem könnte ein Ausführungsbeispiel ein Piktogramm oder sogar eine animierte Figur (z.B. CLIPPY, der beliebte Office-Assistent von Microsoft) aufweisen, auf den sich der Benutzer richten muss, wenn er den intelligenten Assistenten aktivieren möchte.
  • Es sollte beachtet werden, dass, während hier Beispiele bereitgestellt werden, die sich auf einem intelligenten Assistenten konzentrieren, diese Beispiele nicht einschränkend sind und die allgemeinen Techniken im Allgemeinen auf Sprachmodule angewendet werden können, wie sie zum Diktieren in Formularen oder im Allgemeinen innerhalb von Anwendungen bereitgestellt werden.
  • Die veranschaulichten exemplarischen Ausführungsbeispiele werden am besten durch die Bezugnahme auf die Zeichnungen verstanden. Die folgende Beschreibung ist lediglich als Beispiel beabsichtigt und veranschaulicht einfach bestimmte exemplarische Ausführungsbeispiele.
  • Während verschiedene andere Schaltungen, Schaltungsanordnungen oder Komponenten in Informationshandhabungsgeräten mit Bezug auf die Smartphone- und oder Tablet-Schaltungsanordnung 100 verwendet werden können, umfasst ein Beispiel, veranschaulicht in 1, ein System-on-Chip Design, das z.B. in Tablets oder anderen mobilen Rechenplattformen zu finden ist. Software und Prozessor(en) sind in einem einzigen Chip 110 kombiniert. Die Prozessoren umfassen interne Recheneinheiten, Register, Cache-Speicher, Busse, I/O-Schnittstellen usw., wie im Stand der Technik gut bekannt. Interne Busse und dergleichen hängen von verschiedenen Lieferanten ab, aber im Wesentlichen können alle Peripheriegeräte (120) an einen einzigen Chip 110 angeschlossen sein. Die Schaltkreisanordnung 100 kombiniert den Prozessor, die Speichersteuerung und den I/O Controller Knoten alle in einem einzigen Chip 110. Auch verwenden die Systeme 100 dieser Art nicht typischerweise SATA oder PCI oder LPC. Allgemeine Schnittstellen umfassen z.B. SDIO und I2C.
  • Es gibt Leistungsmanagementchip(s) 130, z.B. eine Batteriemanagementeinheit, BMU, die Leistung verwalten, wenn diese z.B. mit Hilfe einer wiederaufladbaren Batterie 140 zur Verfügung gestellt wird, die durch eine Verbindung mit einer Stromquelle (nicht gezeigt) wiederaufgeladen werden kann. In mindestens einem Entwurf wird ein einzelner Chip, wie z.B. 110, verwendet, um eine BIOS-ähnliche Funktion und DRAM-Speicher zu liefern.
  • Das System 100 umfasst typischerweise eines oder mehrere von einem WWAN-Sende-/Empfangsgerät 150 und einem WLAN-Sende-/Empfangsgerät 160, um eine Verbindung mit verschiedenen Netzen, wie z.B. Telekommunikationsnetzen und drahtlosen Internet-Geräten, z.B. mit Zugangspunkten, herzustellen. Außerdem sind gewöhnlich Geräte 120 enthalten, wie z.B. ein Bildsensor, wie etwa eine Kamera. Das System 100 enthält oftmals einen Touchscreen 170 für die Dateneingabe und Anzeige/Wiedergabe. Das System 100 umfasst typischerweise auch verschiedene Speichergeräte, z.B. einen Flash-Speicher 180 und SDRAM 190.
  • 2 stellt ein Blockdiagramm eines weiteren Beispiels von Informationshandhabungsgeräte-Schaltungen, -Schaltungsanordnungen oder -Komponenten dar. Das Beispiel, dargestellt in 2, kann Rechensystemen entsprechen, wie z.B. der Serie von THINKPAD PCs, die von Lenovo (US) Inc., Morrisville, NC, vertrieben werden, oder anderen Geräten. Wie aus der Beschreibung hierin offensichtlich ist, können die Ausführungsbeispiele weitere Merkmale oder nur einige der Merkmale des in 2 gezeigten Beispiels umfassen.
  • Das Beispiel von 2 umfasst einen sogenannten Chipsatz 210 (eine Gruppe von integrierten Schaltungen oder Chips, die zusammenarbeiten, Chipsätze) mit einer Architektur, die je nach dem Hersteller (z.B. INTEL, AMD, ARM usw.) variieren kann. INTEL ist ein eingetragenes Warenzeichen der Intel Corporation in den Vereinigten Staaten und in anderen Ländern. AMD ist ein eingetragenes Warenzeichen von Advanced Micro Devices, Inc. in den Vereinigten Staaten und in anderen Ländern. ARM ist ein nicht eingetragenes Warenzeichen von ARM Holdings plc in den Vereinigten Staaten und in anderen Ländern. Die Architektur des Chipsatzes 210 umfasst eine Kern- und Speichersteuergruppe 220 und einen I/O Controller Knoten 250, der Informationen (z.B. Daten, Signale, Befehle usw.) über ein Direct Management Interface(DMI) 242 oder einen Link Controller 244 austauscht. In 2 ist die DMI 242 eine Chip-zu-Chip-Schnittstelle (manchmal bezeichnet als eine Verbindung zwischen einer "Northbridge" und einer "Southbridge"). Die Kern- und Speichersteuergruppe 220 umfasst einen oder mehrere Prozessor(en) 222 (z.B. einen Single- oder Multi-Core) und einen Speicher-Controller Knoten 226, der Information über einen Front Side Bus (FSB) 224 austauschen; wobei zu beachten ist, dass Komponenten der Gruppe 220 in einem Chip integriert sein können, der die herkömmliche Architektur vom Typ "Northbridge" verdrängt. Ein oder mehrere Prozessoren 222 umfassen interne Recheneinheiten, Register, Cache-Speicher, Busse, I/O-Schnittstellen usw., wie im Stand der Technik gut bekannt.
  • In 2 bildet der Speicher-Controller Knoten 226 eine Schnittstelle mit dem Speicher 240 (z.B., um eine Unterstützung für eine Art von RAM bereitzustellen, die als "Systemspeicher" oder "Speicher" bezeichnet werden kann). Der Speicher-Controller Knoten 226 enthält weiter eine Low Voltage Differential Signaling(LVDS)-Schnittstelle 232 für ein Anzeigegerät 292 (z.B. eine Kathodenstrahlröhre, einen Flachbildschirm, einen Berührungsbildschirm usw.). Ein Block 238 umfasst einige Technologien, die über die LVDS-Schnittstelle 232 unterstützt werden können (z.B. serielles digitales Video, HDMI/DVI, Bildschirmanschluss). Der Speicher-Controller Knoten 226 umfasst auch eine PCI-Express-Schnittstelle (PCI-E) 234, die diskrete Graphiken 236 unterstützen kann.
  • In 2 umfasst der I/O Controller Knoten 250 eine SATA-Schnittstelle 251 (z.B. für HDDs, SDDs usw., 280), eine PCI-E-Schnittstelle 252 (z.B. für drahtlose Verbindungen 282), eine USB-Schnittstelle 253 (z.B. für Geräte 284 wie einen Digitalisierer, eine Tastatur, Mäuse, Kameras, Telefone, Mikrophone, Speicher oder andere verbundene Geräte usw.), eine Netzschnittstelle 254 (z.B. LAN), eine GPIO-Schnittstelle 255, eine LPC-Schnittstelle 270 (für ASICs 271, eine TPM 272, eine Super-I/O 273, einen Firmware Hub 274, BIOS-Unterstützung 275 ebenso wie verschiedene Arten von Speicher 276 wie z.B. ROM 277, Flash 278 und NVRAM 279), eine Leistungsmanagement-Schnittstelle 261, eine Taktgeber-Schnittstelle 262, eine Audio-Schnittstelle 263 (z.B. für Lautsprecher 294), eine TCO-Schnittstelle 264, eine Systemmanagementbus-Schnittstelle 265 und ein SPI-Flash 266, der BIOS 268 und Boot-Code 290 umfassen kann. Der I/O Controller Knoten 250 kann eine Gigabit-Ethernet-Unterstützung umfassen.
  • Das System kann beim Einschalten so konfiguriert werden, dass es den Boot-Code 290 für das BIOS 268 ausführt, wie im SPI-Flash 266 gespeichert, und danach Daten unter der Kontrolle von einem oder von mehreren Betriebssystemen und Anwendungssoftware verarbeitet (z.B. im Systemspeicher 240 abgelegt). Ein Betriebssystem kann in einer beliebigen Vielzahl von Orten gespeichert sein und es kann z.B. gemäß den Anweisungen der BIOS 268 darauf zugegriffen werden. Wie hier beschrieben, kann ein Gerät weniger oder mehr Merkmale umfassen, als im System von 2 gezeigt wird.
  • Eine Informationshandhabungs-Geräteschaltungsanordnung, wie z.B. in 1 oder 2 angegeben, kann in Geräten wie z.B. Tablets, Smartphones PC-Geräten im Allgemeinen und/oder elektronischen Geräten verwendet werden, die Benutzer verwenden können, um Daten einzugeben, aufzuzeichnen oder zu ändern. Zum Beispiel kann die Schaltkreisanordnung, die in 1 skizziert wird, im Ausführungsbeispiel eines Tablets oder eines Smartphones implementiert sein, während die Schaltkreisanordnung, die in 2 skizziert wird, im Ausführungsbeispiel eines PC implementiert sein kann.
  • Es ist zu verstehen, dass derartige Geräte (z.B. ein Tablet-Computergerät, ein PC oder ein Smartphone) vorzugsweise Touchscreens, Mikrophone und Kameras als primäre Eingabegeräte bieten, wobei sich gegenwärtige Geräte vorzugsweise auf Touchscreen- und Mikrophoneingaben zur Anwendungssteuerung stützen. In einem Ausführungsbeispiel stellt die Verschmelzung derartiger Modalitäten eine benutzerfreundliche Erfahrung zur Verfügung, insbesondere bei bestimmten Anwendungen, die die Verwendung anderer Eingabemodalitäten garantieren, die nicht von derartigen Geräten unterstützt werden.
  • Als Beispiel und unter Bezugnahme auf 3 wird eine Website gezeigt, wie sie auf einer Anzeige eines typischen Informationshandhabungsgerätes gezeigt wird, wie z.B. einem Touchscreen 170 von 1 oder einem Anzeigegerät 292 von 2. Ein Ausführungsbeispiel ermöglicht es einem Benutzer, den intelligenten Digital Personal Assistent auf eine nicht-invasive Art zu aktivieren.
  • In einem Ausführungsbeispiel wird unter Verwendung eines Sensorgeräts die Position des Blicks eines Benutzers detektiert. Das Sensorgerät kann innerhalb des Informationshandhabungsgerätes untergebracht sein (z.B. einer Webcam in einem Tablet, Smartphone, PC usw.). Außerdem oder alternativ könnte das Sensorgerät ein getrenntes Gerät sein (z.B. eine eigenständige Webcam oder ein Sensor wie etwa ein KINECT-Gerät). KINECT ist ein eingetragenes Warenzeichen der Microsoft Corporation in den Vereinigten Staaten und in anderen Ländern. In einem weiteren Ausführungsbeispiel könnte das Sensorgerät ein beliebiges Bildaufnahmegerät oder Videoaufnahmegerät sein. Außerdem könnte der Sensor komplexerer Art sein (z.B. ein Bereichs-Abbildungsgerät, ein 3D-Scangerät usw.).
  • Als Beispiel könnte in einem Ausführungsbeispiel ein Benutzer gerade eine Website 300 durchblättern und wünschen, den intelligenten Digital Personal Assistent zu verwenden, um etwas auf der Website, die er gerade sieht, abzufragen. Anstatt zu erfordern, dass der Benutzer seine Browser-Anwendung verlässt und ihn zu zwingen, einen Knopf zu drücken und zu halten oder einen lästigen Schlüsselsatz zu wiederholen, ermöglicht ein Ausführungsbeispiel dem Benutzer, einfach auf eine vordefinierte Position auf dem Bildschirm zu blicken (z.B. die untere linke Ecke 301). Durch den Blick auf diese vorbestimmte Position aktiviert der Benutzer den persönlichen Assistenten, und jede weitere Eingabe (z.B. Sprachbefehle) wird so interpretiert, dass sie für die Verwendung durch den persönlichen Assistenten beabsichtigt war.
  • Als weiteres Beispiel könnte in einem Ausführungsbeispiel ein Benutzer gerade eine Website 300 durchblättern und wünschen, den intelligenten Digital Personal Assistent zu verwenden, um einen Befehl über etwas auszugeben, das nicht mit der Website, die er sieht, in Verbindung steht (z.B., Hinzufügen eines Termins zu seinem Kalender). Wieder könnte, anstatt zu erfordern, dass der Benutzer seine Browser-Anwendung verlässt und ihn zu zwingen, einen Knopf zu drücken und zu halten oder einen lästigen Schlüsselsatz zu wiederholen, der Benutzer einfach auf ein vorbestimmtes Piktogramm auf dem Bildschirm blicken (z.B. ein Mikrophon-Piktogramm, das sich auf dem Bildschirm 302 befindet). Durch den Blick auf das Piktogramm, ein intuitives Symbol zur Spracherkennung, aktiviert der Benutzer den persönlichen Assistenten, und jede weitere Eingabe (z.B. Sprachbefehle) wird so interpretiert, dass sie für die Verwendung durch den persönlichen Assistenten beabsichtigt war.
  • In einem zusätzlichen Ausführungsbeispiel könnte ein Benutzer gerade eine Website 300 durchblättern und wünschen, den intelligenten Digital Personal Assistent zu verwenden, um etwas über eine Anwendung Dritter abzufragen (z.B. Prüfen der Preise auf einer Online-Shopping-Anwendung). Wieder könnte, anstatt zu erfordern, dass der Benutzer seine Browser-Anwendung verlässt und ihn zu zwingen, einen Knopf zu drücken und zu halten oder einen lästigen Schlüsselsatz zu wiederholen, der Benutzer einfach auf einen anthropomorphen Agenten auf dem Bildschirm blicken (z.B. CLIPPY, eine animierte Figur, die sich auf dem Bildschirm 303 befindet, oder dergleichen). Durch den Blick auf eine visuelle Darstellung seines persönlichen Assistenten aktiviert der Benutzer den persönlichen Assistenten, und jede folgende Eingabe (z.B. Sprachbefehle) wird als für die Verwendung durch den persönlichen Assistenten beabsichtigt interpretiert.
  • Um den intuitiven Charakter weiter zu erhöhen, kann ein Ausführungsbeispiel die visuelle Darstellung der vorbestimmten Position ändern. Als Beispiel und unter Bezugnahme auf 4 könnte ein Ausführungsbeispiel die Farbe ändern oder die vorbestimmte Position mit einem visuellen Symbol 401 hervorheben, wenn der Benutzer seinen Blick auf die Position richtet. Diese Änderung des visuellen Zustands der Position ist eine deutliche Anzeige für den Benutzer, dass der intelligente persönlicher Assistent gegenwärtig aktiv und dazu Lage ist, weitere Befehle zu empfangen. Zusätzlich ermöglicht das Verändern des visuellen Zustands der Position es dem Benutzer, falsche positive Ergebnisse zu vermeiden. Wenn der Benutzer nicht die Absicht hatte, den persönlichen Assistenten zu aktivieren, könnte er vermeiden, weiterer Befehle auszugeben und seinen Blick abwenden, wodurch die Notwendigkeit vermieden wird, die Anwendung des persönlichen Assistenten zu beenden oder zu verlassen.
  • Außerdem oder alternativ kann ein Ausführungsbeispiel die visuelle Darstellung des vorbestimmten Piktogramms ändern. Als Beispiel und unter Bezugnahme auf 4 kann ein Ausführungsbeispiel die Hintergrundfarbe ändern oder das vorbestimmte Piktogramm 402 hervorheben, wenn der Benutzer seinen Blick auf die Position richtet. In einem zusätzlichen Ausführungsbeispiel kann das Piktogramm einfach erscheinen oder verschwinden, wenn der Blick des Benutzers auf die bekannte Position des Piktogramms gerichtet wird. Diese Änderung des visuellen Zustands des Piktogramms wie oben ist eine deutliche Anzeige dessen, dass der intelligente persönliche Assistent gegenwärtig aktiv ist. Außerdem ermöglicht die Veränderung des visuellen Zustands des Piktogramms dem Benutzer, falsche positive Ergebnisse zu vermeiden. Wenn der Benutzer nicht die Absicht hatte, den persönlichen Assistenten zu aktivieren, vermeidet er leicht die Notwendigkeit, den persönlichen Assistenten abzubrechen oder zu verlassen, wodurch dem Benutzer Zeit gespart und Frustration mit dem persönlichen Assistenten erspart wird.
  • In einem weiteren Ausführungsbeispiel könnte der animierte Agent auf den visuellen Fokus des Benutzers reagieren. Als Beispiel und unter Bezugnahme auf 4 verglichen mit 303 von 3 könnte ein Ausführungsbeispiel die Reaktion des animierten Agenten 403 ändern, wenn der Benutzer seinen Blick auf seine Position richtet. In einem zusätzlichen Ausführungsbeispiel könnte der animierte Agent zahlreiche Reaktionen aufweisen, in Abhängigkeit von mehreren Umständen (z.B. welche Anwendung geöffnet war, wie lange der Blick des Benutzers vorhanden war, Tageszeit, usw.), wodurch dem Benutzer angegeben werden könnte, dass der intelligente persönliche Assistent bereit war, einen bestimmten Satz von Befehlen zu empfangen. Diese Änderung der Reaktion des Agenten ist nicht nur eine deutliche Anzeige dessen, dass der intelligente persönliche Assistent gegenwärtig aktiv ist. Zusätzlich ermöglicht die Änderung des visuellen Zustands der Position dem Benutzer, falsche positive Ergebnisse zu vermeiden. Wenn der Benutzer nicht die Absicht hatte, den persönlichen Assistenten zu aktivieren, vermeidet er leicht die Notwendigkeit, den persönlichen Assistenten abzubrechen oder zu verlassen, wodurch dem Benutzer Zeit gespart und Frustration mit dem persönlichen Assistenten erspart wird.
  • In einem zusätzlichen Ausführungsbeispiel kann der Benutzer auswählen, welche Option er verwenden möchte (z.B. Position, Piktogramm, Charakter usw.). Somit könnte ein Benutzer, wenn er findet, dass der animierte Agent übermäßig invasiv oder lästig ist, die einfachere oder sauberere Option der vorbestimmten Position wählen. Alternativ kann ein Benutzer, wenn er Schwierigkeiten hatte, sich an die vorbestimmte Position zu erinnern, wählen, das Symbol zu implementieren und es ständig auf dem Bildschirm zu belassen, wodurch eine leichtere Identifizierung ermöglicht wird. In einem weiteren Ausführungsbeispiel könnte der Benutzer ein personalisiertes Piktogramm oder Agenten basierend auf einem Bild, einem Video, einer Anwendung Dritter oder dergleichen auswählen.
  • Zusätzlich ermöglicht ein Ausführungsbeispiel es dem Benutzer, die vorbestimmte Position jeder Modularität zur Identifizierung der Position, den er gewählt hat, auszuwählen (z.B. vorbestimmte Position, Piktogramm, Agenten usw.). Zusätzlich zu einer gesamten Default-Einstellung kann ein Benutzer auch die Position des Identifizierers auf der Grundlage dessen einstellen, welche Anwendung der Benutzer geöffnet hat (z.B. untere Ecken für Browser, um die Abdeckung des Uniform Resource Locater (URL)/der Suchleiste zu vermeiden, obere Ecken für Videos, um die Abdeckung der Wiedergabe-/Zeitleiste, etc.). zu vermeiden. In einem zusätzlichen Ausführungsbeispiel können Anwendungen Dritter eine voreingestellte bevorzugte Position aufweisen, basierend auf der graphischen Benutzeroberfläche (GUI) der Anwendung. In einem weiteren Ausführungsbeispiel könnte diese Voreinstellung vom Benutzer abgelehnt werden.
  • Zusätzlich zur einfachen Verwendung ermöglicht ein Ausführungsbeispiel eine größere Genauigkeit. Ein Benutzer kann wünschen, sich weiter vor der Möglichkeit von falschen positiven Ergebnissen zu schützen. Somit kann ein Ausführungsbeispiel eine zusätzliche Modalität der Aktivierung zusammen mit dem Blick des Benutzers ermöglichen. Dieser zusätzliche Schritt des Aktivierens könnte aktuelle Verfahren der Aktivierung umfassen, wie z.B. Drücken und Halten einer bestimmten Taste, während sich der Blick des Benutzers an einer vorbestimmten Position befindet (z.B. der Taste, die gedrückt werden soll). Außerdem oder alternativ könnte ein Ausführungsbeispiel einen Schlüsselsatz als den zusätzlichen Aktivierungsmodus verwenden (z.B. durch Bezugnahme auf den animierten Agenten 403 durch den Namen, wenn der Blick auf dieses gerichtet wird).
  • Zusätzlich zu den oben erwähnten existierenden Auslöseverfahren ermöglicht die Nachverfolgung des Blicks alternative Verfahren. Zum Beispiel kann ein Ausführungsbeispiel es einem Benutzer ermöglichen, ein oder zweimal mit einem oder mit beiden Augen zu blinzeln, bevor der intelligente persönliche Assistent aktiviert wird. Dieser zusätzliche Schritt ermöglicht einen höheren Grad der Zuständigkeit, ohne eine große zusätzliche Anstrengung seitens des Benutzers zu erfordern und ohne übermäßig belastend zu sein (z.B. Wiederholung desselben Schlüsselsatzes jedes Mal, wenn der Benutzer wünscht, den persönlichen Assistenten zu aktivieren).
  • Außerdem oder alternativ kann ein Ausführungsbeispiel es dem Benutzer ermöglichen, sein Gerät zu bewegen (z.B. ein Tablet, ein Smartphone, einen PC usw.), in Kombination mit der Verwendung seines Blicks. Wenn z.B. ein Benutzer seinen Blick auf das vorbestimmte Piktogramm gerichtet hat und sich der visuelle Zustand des Piktogramms verändert hat, könnte der Benutzer die Position oder den Winkel seines Geräts ruckartig bewegen oder ändern,(d.h. den Beschleunigungsmesser verwenden) als zweite Modalität, um seinen Versuch, den intelligenten persönlichen Assistenten zu aktivieren, zu bekräftigen. Dies ermöglicht zusätzlich die erhöhte Befähigung, ohne die Notwendigkeit einer zweiten Hand oder die Erfordernis, dass der Benutzer einen lästigen Schlüsselsatz wiederholt.
  • Außerdem oder alternativ kann ein Ausführungsbeispiel z.B. ermöglichen, dass der Benutzer eine elektronische Kommunikation an sein Gerät schickt (z.B. durch ein Bluetooth-Headset, ein Nahfeldkommunikationsgerät usw.), in Kombination mit der Verwendung seines Blicks. Wenn z.B. ein Benutzer seinen Blick auf das vorbestimmte Piktogramm gerichtet hat und sich der visuelle Zustand des Piktogramms verändert hat, könnte der Benutzer mit einem getrennten Gerät interagieren (z.B. Drücken einer Taste auf seinem Bluetooth-Headset), um seinen Versuch, den intelligenten persönlichen Assistenten zu aktivieren, zu bekräftigen.
  • Wie von einem Fachmann zu erkennen ist, können verschiedene Aspekte als ein System, ein Verfahren oder ein Geräte-Programmprodukt ausgeführt sein. Dementsprechend können Aspekte die Form eines Ausführungsbeispiels ausschließlich für Hardware oder eines Ausführungsbeispiels, das Software enthält, annehmen, die alle hierin im Allgemeinen als eine "Schaltung", ein "Modul" oder ein "System" bezeichnet werden können. Außerdem können Aspekte die Form eines Geräte-Programmprodukts annehmen, das in einem oder in mehrere gerätelesbaren Medien mit einem darin verkörperten gerätelesbaren Programmcode ausgeführt ist.
  • Es sollte beachtet werden, dass die verschiedenen hierin beschriebenen Funktionen unter Verwendung von Anweisungen implementiert werden können, die auf einem gerätelesbaren Speichermedium wie z.B. einer Nichtsignal-Speichergerät gespeichert sind, die durch einen Prozessor ausgeführt werden. Ein Speichergerät kann z.B. ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem, -Vorrichtung oder -Gerät, oder eine beliebige geeignete Kombination der oben Genannten sein. Spezifischere Beispiele eines Speichermediums umfassen Folgendes: Eine tragbare Computerdiskette, eine HD-Festplatte, einen Arbeitsspeicher (RAM), einen Festwertspeicher (ROM), einen löschbaren programmierbaren Festspeicher (EPROM oder Flash-Speicher), einen optischen Lichtleiter, einen tragbaren Compact-Disk Festwertspeicher (CD-ROM), ein optisches Speichergerät, ein magnetisches Speichergerät oder eine beliebige geeignete Kombination der oben Genannten. Im Kontext dieses Dokuments ist ein Speichergerät nicht signaltragend, und "nicht-flüchtig" umfasst alle Medien außer signaltragende Medien.
  • Programmcode, der in einem Speichermedium ausgeführt ist, kann unter Verwendung eines geeigneten Mediums übertragen werden, darin eingeschlossen, aber nicht beschränkt auf, drahtlos, Drahtleitung, Glasfaserkabel, RF usw. oder eine beliebige geeignete Kombination des oben Genannten.
  • Programmcode zur Durchführung von Maßnahmen kann in einer beliebigen Kombination aus einer oder aus mehreren Programmiersprachen geschrieben sein. Programmcode kann vollständig auf einem einzigen Gerät ausgeführt werden, teilweise auf einem einzigen Gerät, als unabhängiges Softwarepaket, teilweise auf einem einzigen Gerät und teilweise auf einem weiteren Gerät oder ganz auf einem weiterem Gerät. In einigen Fällen können die Geräte durch eine beliebige Art von Verbindung oder Netzwerk verbunden sein, darin eingeschlossen sind ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder kann die Verbindung durch andere Geräte erfolgen (zum Beispiel über das Internet unter Verwendung eines Internet Service Providers), durch drahtlose Verbindungen z.B. Nahfeldkommunikation oder durch eine fest verkabelte Verbindung wie z.B. über einen USB-Anschluss.
  • Exemplarische Ausführungsbeispiele werden hierin unter Bezugnahme auf die Figuren beschrieben, die exemplarische Verfahren, Geräte und Programmprodukte gemäß verschiedenen exemplarischen Ausführungsbeispielen veranschaulichen. Es ist zu sehen, dass die Maßnahmen und die Funktion mindestens teilweise durch Programmanweisungen implementiert werden können. Diese Programmanweisungen können einem Prozessor eines allgemeinen Informationshandhabungsgeräts, eines Informationshandhabungsgeräts für einen speziellen Zweck oder einer anderen programmierbaren Datenverarbeitungsgeräts bereitgestellt sein, um eine Maschine zu erzeugen, so dass die Anweisungen, die über einen Prozessor des Geräts ablaufen, die spezifizierten Funktionen/Maßnahmen implementieren.
  • Es muss angemerkt werden, dass, während spezifische Blöcke in den Figuren verwendet werden und eine bestimmte Anordnung von Blöcken in den Figuren dargestellt wurde, dies nicht einschränkende Beispiele sind. In bestimmten Zusammenhängen können zwei oder mehr Blöcke kombiniert sein, kann ein Block in zwei oder mehr Blöcke aufgeteilt sein oder können bestimmte Blöcke wie angemessen neu geordnet oder neu organisiert werden, da die ausdrücklich veranschaulichten Beispiele nur für beschreibende Zwecke verwendet werden und nicht als einschränkend ausgelegt werden dürfen.
  • Wie hier verwendet kann der Singular "ein" so ausgelegt werden, dass er den Plural "ein oder mehr" umfasst, falls nicht anderweitig deutlich angegeben.
  • Diese Offenbarung wurde zum Zweck der Veranschaulichung und der Beschreibung dargestellt, ist jedoch nicht dazu beabsichtigt, ausschließend oder einschränkend zu sein. Viele Änderungen und Variationen sind für die Fachleute offensichtlich. Die exemplarischen Ausführungsbeispiele wurden ausgewählt und beschrieben, um Prinzipien und praktische Anwendungen zu erklären, und um anderen Fachleuten zu ermöglichen, die Offenbarung für verschiedene Ausführungsbeispiele mit verschiedenen Modifikationen zu verstehen, die für die bestimmte berücksichtige Verwendung geeignet sind.
  • Somit muss, obwohl hier veranschaulichende exemplarische Ausführungsbeispiele unter Bezugnahme auf die beigefügten Figuren beschrieben wurden, davon ausgegangen werden, dass diese Beschreibung nicht einschränkend ist, und dass von einem Fachmann verschiedene weitere Änderungen und Modifikationen durchgeführt werden können, ohne vom Schutzumfang oder vom Geist der Offenbarung abzuweichen.

Claims (20)

  1. Ein Verfahren, umfassend: Detektieren einer Position eines Benutzerblicks an einem elektronischen Gerät, Aktivieren eines Spracheingabemoduls basierend auf der Position des Benutzerblicks, Detektieren einer Spracheingabe an dem elektronischen Gerät; Bewerten der Spracheingabe unter Verwendung des Spracheingabemoduls, und Durchführen von mindestens einer Maßnahme basierend auf der Bewertung der Spracheingabe.
  2. Das Verfahren nach Anspruch 1, wobei das Detektieren einer Position des Benutzerblicks Folgendes umfasst: Verwenden eines Sensorgeräts, um den Benutzerblick zu detektieren.
  3. Das Verfahren nach Anspruch 2, wobei das Sensorgerät ausgewählt ist aus einer Gruppe, bestehend aus: Einem Bildaufnahmegerät, einem Videoaufnahmegerät, einem Bildbereichs-Erfassungsgerät und einem 3D-Scan-Gerät.
  4. Das Verfahren nach Anspruch 1, wobei das Detektieren einer Spracheingabe Folgendes umfasst: Verwenden eines Audioaufnahmegeräts, um ein Audiosignal zu detektieren.
  5. Das Verfahren nach Anspruch 4, wobei das detektierte Audiosignal Sprachbefehle vom Benutzer umfasst.
  6. Das Verfahren nach Anspruch 1, wobei die Aktivierung durch das Spracheingabemodul durch die Position eines Benutzerblicks veranlasst wird, welcher auf eine Charakteristik gerichtet ist, die aus einer Gruppe ausgewählt ist, bestehend aus einer vorbestimmten Position, einem Piktogramm, einem anthropomorphen Agenten, einem vom Benutzer ausgewählten Bild und einem von einer dritten Partei erzeugen Agenten.
  7. Das Verfahren nach Anspruch 6, weiter umfassend ein Ändern eines visuellen Zustands der Charakteristik in Reaktion darauf, dass der Benutzerblick auf die Charakteristik gerichtet ist.
  8. Das Verfahren nach Anspruch 6, wobei die Position der Charakteristik basierend auf einem Faktor bestimmt ist, der aus einer Gruppe ausgewählt ist, bestehend aus: Einer Benutzerauswahl, einer Anwendungspräferenz Dritter und einer laufenden Geräteaufgabe.
  9. Das Verfahren nach Anspruch 1, wobei das Aktivieren des Spracheingabemoduls auf einer Befehlseingabe unter Verwendung einer Modularität basiert, die eine Eingabe in Kombination mit der Position des Benutzerblicks detektiert.
  10. Das Verfahren nach Anspruch 9, wobei die Modularität eine Eingabe detektiert, ausgewählt aus einer Gruppe, bestehend aus: Einer Veränderung der Mimik, eine Änderung der Geschwindigkeit des Geräts, einer elektronischer Kommunikation, einem Schlüsselsatz und einem Drücken eines Knopfes.
  11. Ein Informationshandhabungsgerät, umfassend: Einen Prozessor, mindestens einen Sensor, der mit dem Prozessor operativ gekoppelt ist; und einen Speicher, der Anweisungen speichert, die vom Prozessor ausgeführt werden können, um: Eine Position eines Benutzerblicks zu detektieren; basierend auf der Position des Benutzerblicks ein Spracheingabemodul zu aktivieren, eine Spracheingabe unter Verwendung von mindestens einem Sensor zu detektieren; unter Verwendung des Spracheingabemoduls die Spracheingabe zu bewerten, und basierend auf der Bewertung der Spracheingabe mindestens einer Maßnahme durchzuführen.
  12. Das Informationshandhabungsgerät nach Anspruch 11, wobei das Detektieren einer Position eines Benutzerblicks Folgendes umfasst: Ein Verwenden eines Sensorgeräts, ausgewählt aus einer Gruppe, bestehend aus: Einem Bildaufnahmegerät, einem Videoaufnahmegerät, einem Bereichsaufnahmegerät und einem 3D-Scan-Gerät.
  13. Das Informationshandhabungsgerät nach Anspruch 11, wobei das Detektieren einer Spracheingabe Folgendes umfasst: Verwenden eines Audioaufnahmegeräts, um ein Audiosignal zu detektieren.
  14. Das Informationshandhabungsgerät nach Anspruch 13, wobei das detektierte Audiosignal Sprachbefehle vom Benutzer umfasst.
  15. Das Informationshandhabungsgerät nach Anspruch 11, wobei das Spracheingabemodul durch die Position eines Benutzerblicks veranlasst wird, welcher auf eine Charakteristik gerichtet ist, die aus einer Gruppe ausgewählt ist, bestehend aus: Einer vorbestimmten Position, einem Piktogramm, einem antropomorphen Agenten, einem vom Benutzer ausgewählten Bild und einem von einer dritten Partei ausgewählten Agenten.
  16. Das Informationshandhabungsgerät nach Anspruch 15, weiter umfassend eine Änderung eines visuellen Zustands der Charakteristik in Reaktion darauf, dass der Benutzerblick auf die Charakteristik gerichtet ist.
  17. Das Informationshandhabungsgerät nach Anspruch 15, wobei die Position der Charakteristik basierend auf einem Faktor bestimmt ist, der aus einer Gruppe ausgewählt ist, bestehend aus: Einer Benutzerauswahl, einer Anwendungspräferenz Dritter und einer laufenden Geräteaufgabe.
  18. Das Informationshandhabungsgerät nach Anspruch 1, wobei das Aktivieren des Spracheingabemoduls auf einer Spracheingabe unter Verwenden einer Modalität basiert, die eine Eingabe in Kombination mit der Position des Benutzerblicks detektiert.
  19. Das Informationshandhabungsgerät nach Anspruch 18, wobei die Modalität eine Eingabe detektiert, ausgewählt aus einer Gruppe, bestehend aus: Einer Veränderung des Gesichts, einer Änderung einer Geschwindigkeit des Geräts, einer elektronischen Kommunikation, einem Schlüsselsatz und einem Drücken eines Knopfes.
  20. Ein Produkt, umfassend: Ein Speichergerät mit einem Code, der darin gespeichert ist, wobei der Code durch den Prozessor ausgeführt werden kann und Folgendes umfasst: einen Code, der eine Position eines Benutzerblicks detektiert; einen Code, der, basierend auf der Position des Benutzerblicks, ein Spracheingabemodul aktiviert, einen Code, der eine Spracheingabe unter Verwendung einer Modalität detektiert; einen Code, der unter Verwendung des Spracheingabemoduls die Spracheingabe bewertet, und einen Code, der, basierend auf der Bewertung der Spracheingabe, mindestens eine Maßnahme durchführt.
DE102015119592.5A 2014-11-12 2015-11-12 Durch einen Blick veranlasste Spracherkennung Pending DE102015119592A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/539,495 2014-11-12
US14/539,495 US10228904B2 (en) 2014-11-12 2014-11-12 Gaze triggered voice recognition incorporating device velocity

Publications (1)

Publication Number Publication Date
DE102015119592A1 true DE102015119592A1 (de) 2016-05-12

Family

ID=55132717

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102015119592.5A Pending DE102015119592A1 (de) 2014-11-12 2015-11-12 Durch einen Blick veranlasste Spracherkennung

Country Status (4)

Country Link
US (1) US10228904B2 (de)
CN (1) CN105589555B (de)
DE (1) DE102015119592A1 (de)
GB (1) GB2534274B (de)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
EP2958010A1 (de) 2014-06-20 2015-12-23 Thomson Licensing Vorrichtung und Verfahren zur Steuerung der Vorrichtung durch einen Benutzer
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US9990921B2 (en) * 2015-12-09 2018-06-05 Lenovo (Singapore) Pte. Ltd. User focus activated voice recognition
JP2017117371A (ja) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法、制御装置およびプログラム
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10261752B2 (en) 2016-08-02 2019-04-16 Google Llc Component libraries for voice interaction services
JP6801329B2 (ja) * 2016-09-21 2020-12-16 富士ゼロックス株式会社 画像形成装置、情報処理装置及び情報処理システム
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US10466963B2 (en) 2017-05-18 2019-11-05 Aiqudo, Inc. Connecting multiple mobile devices to a smart home assistant account
US11016729B2 (en) 2017-11-08 2021-05-25 International Business Machines Corporation Sensor fusion service to enhance human computer interactions
US10685648B2 (en) 2017-11-08 2020-06-16 International Business Machines Corporation Sensor fusion model to enhance machine conversational awareness
US11221669B2 (en) * 2017-12-20 2022-01-11 Microsoft Technology Licensing, Llc Non-verbal engagement of a virtual assistant
WO2019123425A1 (en) * 2017-12-22 2019-06-27 Telefonaktiebolaget Lm Ericsson (Publ) Gaze-initiated voice control
CN114860187A (zh) * 2018-01-03 2022-08-05 腾讯科技(深圳)有限公司 智能语音设备控制方法、装置、计算机设备和存储介质
CN108198553B (zh) * 2018-01-23 2021-08-06 北京百度网讯科技有限公司 语音交互方法、装置、设备和计算机可读存储介质
US10460734B2 (en) 2018-03-08 2019-10-29 Frontive, Inc. Methods and systems for speech signal processing
WO2019195799A1 (en) * 2018-04-05 2019-10-10 Synaptics Incorporated Context-aware control for smart devices
US20190324531A1 (en) 2018-04-18 2019-10-24 Flex Ltd. System and method for using gaze control to control electronic switches and machinery
JP7277569B2 (ja) * 2018-05-04 2023-05-19 グーグル エルエルシー 検出されたジェスチャおよび凝視に基づく自動化アシスタントの機能の呼び出し
KR20210002722A (ko) 2018-05-04 2021-01-08 구글 엘엘씨 감지된 입 움직임 및/또는 시선을 기반으로 자동화된 어시스턴트 적응
JP7263505B2 (ja) 2018-05-04 2023-04-24 グーグル エルエルシー ホットワードを用いない自動アシスタント機能の適応
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11049608B2 (en) * 2018-07-03 2021-06-29 H&R Accounts, Inc. 3D augmented reality document interaction
US11210968B2 (en) * 2018-09-18 2021-12-28 International Business Machines Corporation Behavior-based interactive educational sessions
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11151993B2 (en) * 2018-12-28 2021-10-19 Baidu Usa Llc Activating voice commands of a smart display device based on a vision-based mechanism
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US10708653B1 (en) * 2019-03-19 2020-07-07 Bose Corporation Entry presence detection for audio-video products and devices
CN109949812A (zh) * 2019-04-26 2019-06-28 百度在线网络技术(北京)有限公司 一种语音交互方法、装置、设备及存储介质
WO2020222723A1 (en) * 2019-04-29 2020-11-05 Leka Donald Dynamic nlp cross-platform voice search interface
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110262767B (zh) * 2019-06-03 2022-03-11 交互未来(北京)科技有限公司 基于靠近嘴部检测的语音输入唤醒装置、方法和介质
EP3757818B1 (de) * 2019-06-28 2022-09-28 AO Kaspersky Lab Systeme und verfahren zur automatischen dienstaktivierung in einer rechenvorrichtung
RU2746201C2 (ru) 2019-06-28 2021-04-08 Акционерное общество "Лаборатория Касперского" Система и способ невербальной активации сервиса на мобильном устройстве
JP7442331B2 (ja) 2020-02-05 2024-03-04 キヤノン株式会社 音声入力装置およびその制御方法ならびにプログラム
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11955137B2 (en) 2021-03-11 2024-04-09 Apple Inc. Continuous dialog with a digital assistant
US11756574B2 (en) 2021-03-11 2023-09-12 Apple Inc. Multiple state digital assistant for continuous dialog

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1215658A3 (de) 2000-12-05 2002-08-14 Hewlett-Packard Company Visuelle Aktivierung sprachgesteuerter Vorrichtungen
US9250703B2 (en) * 2006-03-06 2016-02-02 Sony Computer Entertainment Inc. Interface with gaze detection and voice input
WO2013033842A1 (en) * 2011-09-07 2013-03-14 Tandemlaunch Technologies Inc. System and method for using eye gaze information to enhance interactions
US20150109191A1 (en) * 2012-02-16 2015-04-23 Google Inc. Speech Recognition
US9823742B2 (en) 2012-05-18 2017-11-21 Microsoft Technology Licensing, Llc Interaction and management of devices using gaze detection
CN103049081B (zh) * 2012-12-05 2017-05-24 上海量明科技发展有限公司 开启对象视觉触发的方法、客户端及系统
US20140350942A1 (en) 2013-05-23 2014-11-27 Delphi Technologies, Inc. Vehicle human machine interface with gaze direction and voice recognition
CN103336576B (zh) * 2013-06-28 2016-12-28 广州爱九游信息技术有限公司 一种基于眼动追踪进行浏览器操作的方法及装置
CN103500061B (zh) * 2013-09-26 2017-11-07 三星电子(中国)研发中心 控制显示器的方法及设备
KR20150086646A (ko) * 2014-01-20 2015-07-29 삼성전자주식회사 프리뷰 이미지를 제공하는 화상형성장치, 그 프리뷰 이미지를 디스플레이하는 디스플레이 장치 및 그 방법들
CN104023127A (zh) 2014-05-16 2014-09-03 深圳市中兴移动通信有限公司 一种短信息处理的方法及装置

Also Published As

Publication number Publication date
CN105589555B (zh) 2020-11-24
GB201520012D0 (en) 2015-12-30
CN105589555A (zh) 2016-05-18
GB2534274B (en) 2019-07-17
GB2534274A (en) 2016-07-20
US20160132290A1 (en) 2016-05-12
US10228904B2 (en) 2019-03-12

Similar Documents

Publication Publication Date Title
DE102015119592A1 (de) Durch einen Blick veranlasste Spracherkennung
US11323658B2 (en) Display apparatus and control methods thereof
DE112013003261B4 (de) Biometrisch initiierte Kommunikation
US9851790B2 (en) Gaze based notification reponse
DE102016122716A1 (de) Arbeitsbereichsübergänge in einer erweiterten Realität, basierend auf einem kontextuellen Umfeld
DE202019005728U1 (de) Elektronische Vorrichtung zur Steuerung einer Mehrzahl von Anwendungen
DE102014106579A1 (de) Besondere Gesten für Kamerasteuerungs- und Bildverarbeitungsverfahren
DE102014118223A1 (de) Multitouch-Authentifizierung durch lokales Gerät
DE102019104950A1 (de) Inhalt übertragen
DE112011105171T5 (de) Blockieren von Benutzerinhalten basierend auf der Position
DE102018114658A1 (de) Eingabe während einer Unterhaltungssitzung
DE102017120697A1 (de) Eye-Tracking Auswahlvalidierung
DE102017115936A1 (de) Systeme und Verfahren zum Aktivieren eines Sprachassistenten und Bereitstellen eines Indikators, dass der Sprachassistent Hilfe zu leisten hat
DE102017115933B4 (de) Koordinieren einer Eingabe an mehreren lokalen Geräten
DE102018114533A1 (de) Systeme und Verfahren zur Identifikation von Antwortanfragen an einer Peripherievorrichtung
DE102015108004A1 (de) Darstellen einer Nutzerschnittstelle auf einem ersten Gerät basierend auf der Erfassung eines zweiten Gerätes in einer Umgebung des ersten Geräts
DE102014117343B4 (de) Erfassen einer Pause in einer akustischen Eingabe in ein Gerät
DE102016109521A1 (de) Multimodale Disambiguierung einer sprachunterstützten Eingabe
DE102018114453A1 (de) Interaktive Sessions
DE112016002384T5 (de) Hilfsschicht mit automatisierter Extraktion
DE102017126306A1 (de) Kontextabhängiger Koversionsmodus für digitalen Assistenten
DE102014101042A1 (de) Modifizieren einer Eingabestifteingabe oder -reaktion unter Verwendung einer gefolgerten Bewegung
DE102016113914A1 (de) Einfügung von Zeichen bei Spracherkennung
DE102014101026A1 (de) Eingabestiftkurzschrift
DE102013102284A1 (de) Berührungseingabeeinstellungsmanagement

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R082 Change of representative

Representative=s name: GRUENECKER PATENT- UND RECHTSANWAELTE PARTG MB, DE