-
HINTERGRUND
-
Mit der Schaffung von intelligenten Personal Digital Assistants (z.B. SIRI, S Voice, GOOGLE NOW, CORTANA und HIDI) wurde die Verwendung von Sprachbefehlen zur Steuerung von elektronischen Geräten äußerst populär. SIRI ist ein eingetragenes Warenzeichen von Apple, Inc. in den Vereinigten Staaten und in anderen Ländern. S VOICE ist ein eingetragenes Warenzeichen von Samsung Electronics Co. in den Vereinigten Staaten und in anderen Ländern. GOOGLE ist ein eingetragenes Warenzeichen von Google Inc. in den Vereinigten Staaten und in anderen Ländern. CORTANA ist ein anhängiges Warenzeichen von Microsoft in den Vereinigten Staaten und in anderen Ländern. Im Allgemeinen interagiert ein Benutzer mit einem Spracheingabemodul, das z.B. durch einem persönlichen Assistenten durch Verwendung von natürlicher Sprache ausgeführt ist. Diese Art von Schnittstelle ermöglicht es einem Gerät, Spracheingaben, z.B. Sprachbefehle, vom Benutzer zu erhalten, (z.B. "Wie ist das Wetter morgen?", "Rufe Dan an"), diese Anforderungen zu bearbeiten und die gewünschten Maßnahmen des Benutzers durch die Durchführung der Aufgabe selbst oder die Weiterreichung der Benutzeranfragen an eine gewünschte Anwendung auszuführen.
-
Da natürliche Sprache ein wichtiges Kommunikationsverfahren ist, mit dem die Leute vertraut sind, bietet die Möglichkeit, Sprachbefehle zu verwenden, einen natürlichen und effizienten Weg, um die Funktionen des Betriebssystems oder der Anwendungen eines Geräts zu verwenden, unabhängig davon, wie einfach oder wie komplex sie sind. Jedoch ist eines der größten Probleme bei der Verwendung von persönlichen Assistenten die Bestimmung, welcher Teil der Sprache eines Benutzers dazu bestimmt ist, als ein Sprachbefehl erhalten zu werden. Das ständige Hören auf den Benutzer hat sich als eine zu schwierige Aufgabe erwiesen, um sie mit einem brauchbaren Niveau von falsch-positiven (d.h. der Assistent reagiert auf Sprechen ohne Bezug) und falsch-negativen (d.h. der Assistent ignoriert Benutzerbefehle) Ergebnissen zu erzielen. Außerdem kann der persönliche Assistent eine energieintensive Anwendung sein, wenn er ständig im Hintergrund laufen gelassen wird, was einen bedeutenden Einfluss auf die Batterielebensdauer haben könnte. Um dieses Problem zu lösen, verwenden die meisten sprachgesteuerten Assistenten heutzutage eine Form von Auslöser, um den Spracherkennungsprozess zu initiieren. Dieser Auslöser baut darauf auf, dass jedes Sprechen, das unmittelbar auf den Auslöser folgt, ein Befehl ist, der an den Assistenten gerichtet ist. Einige herkömmliche Auslöser sind physisches Drücken von Knöpfen (z.B. SIRI-Aktivierung) und spezielle Schlüsselsätze, die vor jedem an das System gerichteten Befehl gesprochen werden müssen (z.B. Okay GOOGLE).
-
KURZE ZUSAMMENFASSUNG
-
Zusammenfassend stellt ein Aspekt ein Verfahren bereit, das Folgendes umfasst: Detektieren einer Position eines Benutzerblicks auf einem elektronischen Gerät; Aktivieren eines Spracheingabemoduls basierend auf der Position des Benutzerblicks; Detektieren einer Spracheingabe auf dem elektronischen Gerät; Bewerten der Spracheingabe unter Verwendung des Spracheingabemoduls und Durchführen mindestens einer Maßnahme basierend auf der Bewertung der Spracheingabe.
-
Ein anderer Aspekt stellt ein Informationshandhabungsgerät bereit, umfassend: Einen Prozessor; mindestens einen Sensor, der operativ mit dem Prozessor gekoppelt ist; und einen Speicher, der Anweisungen speichert, die vom Prozessor ausgeführt werden können, um: Eine Position des Benutzerblicks zu detektieren; basierend auf der Position des Benutzerblicks ein Spracheingabemodul zu aktivieren; unter Verwendung mindestens eines Sensors eine Spracheingabe zu detektieren; unter Verwendung des Spracheingabemoduls die Spracheingabe zu bewerten und, basierend auf der Bewertung der Spracheingabe, mindestens eine Maßnahme durchzuführen.
-
Ein weiterer Aspekt stellt ein Produkt bereit, umfassend: Ein Speichergerät mit Code, der in diesem gespeichert ist, wobei der Code vom Prozessor ausgeführt werden kann und Folgendes umfasst: Code, der eine Position des Benutzerblicks detektiert; Code, der, basierend auf der Position des Benutzerblicks, ein Spracheingabemodul aktiviert; Code, der eine Spracheingabe unter Verwendung einer Modalität detektiert; Code, der, unter Verwendung des Spracheingabemoduls, die Spracheingabe bewertet, und Code, der, basierend auf der Bewertung der Spracheingabe, mindestens eine Maßnahme durchführt.
-
Das Vorhergehende ist eine Zusammenfassung und kann somit Vereinfachungen, Verallgemeinerungen und Unterlassungen von Einzelheiten enthalten; folglich erkennen Fachleute, das die Zusammenfassung nur veranschaulichend und nicht dazu beabsichtigt ist, in irgendeiner Weise einschränkend zu sein.
-
Für ein besseres Verständnis der Ausführungsbeispiele, zusammen mit anderen und weiteren Merkmalen und Vorteilen davon, wird nun auf die folgende Beschreibung zusammen mit den beigefügten Zeichnungen Bezug genommen. Der Schutzumfang der Erfindung wird in den beigefügten Ansprüchen angegeben.
-
KURZE BESCHREIBUNG DER VERSCHIEDENEN ANSICHTEN DER ZEICHNUNGEN
-
1 veranschaulicht ein Beispiel eines Schaltsystems eines Informationshandhabungsgeräts.
-
2 veranschaulicht ein weiteres Beispiel eines Schaltsystems eines Informationshandhabungsgeräts.
-
3 veranschaulicht ein exemplarisches Verfahren einer durch einen Blick veranlassten Erkennung.
-
4 veranschaulicht ein weiteres exemplarisches Verfahren einer durch einen Blick veranlassten Erkennung.
-
DETAILLIERTE BESCHREIBUNG
-
Es ist leicht zu verstehen, dass die Bestandteile der Ausführungsbeispiele, wie hierin allgemein beschrieben und in den Figuren veranschaulicht, in einer großen Vielzahl von verschiedenen Konfigurationen zusätzlich zu den beschriebenen exemplarischen Ausführungsbeispielen angeordnet und entworfen sein können. Somit ist die folgende, detailliertere Beschreibung der exemplarischen Ausführungsbeispiele, wie in den Figuren dargestellt, nicht dazu beabsichtigt, den Schutzumfang der Ausführungsbeispiele, wie beansprucht, zu begrenzen, sondern stellt lediglich exemplarische Ausführungsbeispiele dar.
-
Der Bezug in der gesamten Beschreibung auf "ein bestimmtes Ausführungsbeispiel" oder "ein Ausführungsbeispiel" (oder dergleichen) bedeutet, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder Charakteristik, die in Verbindung mit dem Ausführungsbeispiel beschrieben wird, in mindestens einem Ausführungsbeispiel eingeschlossen ist. Somit beziehen sich das Auftreten der Ausdrücke "in einem bestimmten Ausführungsbeispiel" oder "in einem beliebigen Ausführungsbeispiel" oder dergleichen an verschiedenen Stellen in dieser ganzen Beschreibung nicht alle notwendigerweise auf das gleiche Ausführungsbeispiel.
-
Außerdem können die beschriebenen Merkmale, Strukturen oder Charakteristiken auf eine beliebige geeignete Weise in einem oder in mehreren Ausführungsbeispielen kombiniert sein. In der folgenden Beschreibung werden zahlreiche spezifische Einzelheiten bereitgestellt, um ein gründliches Verständnis von Ausführungsbeispielen zu geben. Ein entsprechender Fachmann wird jedoch detektieren, dass die verschiedenen Ausführungsbeispiele ohne eines oder mehrere der spezifischen Einzelheiten oder mit anderen Verfahren, Bestandteilen Materialien usw. ausgeführt werden können. In anderen Fällen werden gut bekannte Strukturen, Materialien oder Vorgänge nicht gezeigt oder in Einzelheiten beschrieben, um eine Verwirrung zu vermeiden.
-
Ein Ausführungsbeispiel ermöglicht es Benutzern, mit einem elektronischen Gerät zu interagieren, indem der Blick des Benutzers nachverfolgt und die Position eines Benutzerblicks als ein Auslösemechanismus verwendet wird. Zum Beispiel kann ein Ausführungsbeispiel aktiv auf eine Audioeingabe hören, wenn der Blick des Benutzers auf die obere rechte Ecke des Bildschirms eines Smartphones gerichtet ist. Ein Ausführungsbeispiel löst somit bequem und einfach das Problem, ein elektronisches Gerät manuell zu veranlassen, Audioeingaben wie z.B. Sprachbefehle zu empfangen.
-
Einige gegenwärtig verfügbare kommerzielle Systeme verwenden Auslöser, die das Drücken einer bestimmten Taste erfordern (z.B Drücken und Halten der Home-Taste, um SIRI zu aktivieren, oder Drücken und Halten der Search-Taste, um CORTANA zu aktivieren). Ein alternatives Verfahren, das gegenwärtig zur Verfügung steht, ist die Verwendung eines Schlüsselsatzes, (z.B. die Worte "Hey SIRI”, während ein Gerät, auf dem iOS 8 oder höher läuft, eingesteckt ist, oder die Worte "Okay GOOGLE", während ein Gerät, auf dem ANDROID 4.3 läuft, aktiv ist). ANDROID ist ein eingetragenes Warenzeichen von Google Inc. in den Vereinigten Staaten und in anderen Ländern. Sobald ein Benutzer einen Schlüsselsatz spricht, wird das Gerät dazu veranlasst, nach den Sprachbefehlen zu horchen, die nach dem Schlüsselsatz kommen.
-
Das Hauptproblem bei den aktuellen Verfahren zur Aktivierung eines Auslösers ist, dass sie dazu neigen, jede Aufgabe zu unterbrechen, mit der der Benutzer gegenwärtig beschäftigt ist (z.B. Verlassen einer Anwendung bei der Aktivierung des persönlichen Assistenten). Insbesondere muss ein Benutzer, wenn er mit der Ausführung einer Aufgabe beschäftigt ist, die eine Tastatur, eine Maus oder eine Touch-Eingabe auf dem Gerät erfordert, (z.B. Bearbeiten einer E-Mail, Bearbeiten eines Dokuments, Durchblättern oder Ansehen von soziale Netzwerken) diese Aufgabe unterbrechen oder möglicherweise sogar seine gegenwärtige Anwendung schließen, um auf einen getrennten Bereich zu klicken, diesen zu berühren oder in diesen zu gelangen, um auf den persönlichen Assistenten zuzugreifen.
-
Eine gegenwärtige Lösung der Anforderung einer taktilen Eingabe ist die Verwendung eines Schlüsselsatzes. Gegenwärtig können die meisten Schlüsselsätze nur außerhalb von Anwendungen Dritter verwendet werden oder erfordern, dass man sich in einem bestimmten Menü oder Bildschirm im Betriebssystem des Geräts befindet (z.B. in der GOOGLE NOW-Anwenung vor den Worten "Okay GOOGLE”). Somit sind die Schlüsselsatz-Auslöser möglicherweise nicht so restriktiv wie das Druckknopf-Verfahren, das den Benutzer dazu zwingen kann, seine Hand neu zu positionieren oder bei Hände zu verwenden, um eine Taste zu drücken. Jedoch weist das Verfahren zur Verwendung von Schlüsselsätzen auch Nachteile auf. Auch wenn der Schlüsselsatz in einer Anwendung Dritter verwendet werden könnte, müssen die Schlusselsatz-Auslöser gesprochen werden, bevor ein beliebiger Sprachbefehl vom Benutzer gegeben wird. Diese konstante und repetitive Tätigkeit stellt für den Benutzer eine Last dar und verringert den Vorteil des Aspekts der natürlichen Sprache des intelligenten Assistenten, wobei es sich um eine der wichtigsten Charakteristiken handelt.
-
Somit beschäftigt sich ein Ausführungsbeispiel mit diesen Beschränkungen durch die Verwendung der Nachverfolgung des Blicks, wodurch es dem Benutzer ermöglicht wird, die Spracherkennung auszulösen, indem er einfach auf einen bestimmten Bereich auf dem Bildschirm des Geräts blickt. Ein Ausführungsbeispiel verwendet ein Sensorgerät, das die Position des Blicks eines Benutzers detektiert. Ein Ausführungsbeispiel aktiviert dann eine Spracheingabemodul, z.B. einen intelligente Assistenten, der alle Sprachbefehle vom Benutzer detektiert. Der Auslöser könnte dadurch aktiviert werden, dass der Benutzer seinen Blick auf eine bestimmte Ecke des Bildschirms eines Geräts fixiert oder auf eine vorbestimmte Position blickt, die vom Benutzer eingestellt wird. Außerdem könnte ein Ausführungsbeispiel ein Piktogramm oder sogar eine animierte Figur (z.B. CLIPPY, der beliebte Office-Assistent von Microsoft) aufweisen, auf den sich der Benutzer richten muss, wenn er den intelligenten Assistenten aktivieren möchte.
-
Es sollte beachtet werden, dass, während hier Beispiele bereitgestellt werden, die sich auf einem intelligenten Assistenten konzentrieren, diese Beispiele nicht einschränkend sind und die allgemeinen Techniken im Allgemeinen auf Sprachmodule angewendet werden können, wie sie zum Diktieren in Formularen oder im Allgemeinen innerhalb von Anwendungen bereitgestellt werden.
-
Die veranschaulichten exemplarischen Ausführungsbeispiele werden am besten durch die Bezugnahme auf die Zeichnungen verstanden. Die folgende Beschreibung ist lediglich als Beispiel beabsichtigt und veranschaulicht einfach bestimmte exemplarische Ausführungsbeispiele.
-
Während verschiedene andere Schaltungen, Schaltungsanordnungen oder Komponenten in Informationshandhabungsgeräten mit Bezug auf die Smartphone- und oder Tablet-Schaltungsanordnung 100 verwendet werden können, umfasst ein Beispiel, veranschaulicht in 1, ein System-on-Chip Design, das z.B. in Tablets oder anderen mobilen Rechenplattformen zu finden ist. Software und Prozessor(en) sind in einem einzigen Chip 110 kombiniert. Die Prozessoren umfassen interne Recheneinheiten, Register, Cache-Speicher, Busse, I/O-Schnittstellen usw., wie im Stand der Technik gut bekannt. Interne Busse und dergleichen hängen von verschiedenen Lieferanten ab, aber im Wesentlichen können alle Peripheriegeräte (120) an einen einzigen Chip 110 angeschlossen sein. Die Schaltkreisanordnung 100 kombiniert den Prozessor, die Speichersteuerung und den I/O Controller Knoten alle in einem einzigen Chip 110. Auch verwenden die Systeme 100 dieser Art nicht typischerweise SATA oder PCI oder LPC. Allgemeine Schnittstellen umfassen z.B. SDIO und I2C.
-
Es gibt Leistungsmanagementchip(s) 130, z.B. eine Batteriemanagementeinheit, BMU, die Leistung verwalten, wenn diese z.B. mit Hilfe einer wiederaufladbaren Batterie 140 zur Verfügung gestellt wird, die durch eine Verbindung mit einer Stromquelle (nicht gezeigt) wiederaufgeladen werden kann. In mindestens einem Entwurf wird ein einzelner Chip, wie z.B. 110, verwendet, um eine BIOS-ähnliche Funktion und DRAM-Speicher zu liefern.
-
Das System 100 umfasst typischerweise eines oder mehrere von einem WWAN-Sende-/Empfangsgerät 150 und einem WLAN-Sende-/Empfangsgerät 160, um eine Verbindung mit verschiedenen Netzen, wie z.B. Telekommunikationsnetzen und drahtlosen Internet-Geräten, z.B. mit Zugangspunkten, herzustellen. Außerdem sind gewöhnlich Geräte 120 enthalten, wie z.B. ein Bildsensor, wie etwa eine Kamera. Das System 100 enthält oftmals einen Touchscreen 170 für die Dateneingabe und Anzeige/Wiedergabe. Das System 100 umfasst typischerweise auch verschiedene Speichergeräte, z.B. einen Flash-Speicher 180 und SDRAM 190.
-
2 stellt ein Blockdiagramm eines weiteren Beispiels von Informationshandhabungsgeräte-Schaltungen, -Schaltungsanordnungen oder -Komponenten dar. Das Beispiel, dargestellt in 2, kann Rechensystemen entsprechen, wie z.B. der Serie von THINKPAD PCs, die von Lenovo (US) Inc., Morrisville, NC, vertrieben werden, oder anderen Geräten. Wie aus der Beschreibung hierin offensichtlich ist, können die Ausführungsbeispiele weitere Merkmale oder nur einige der Merkmale des in 2 gezeigten Beispiels umfassen.
-
Das Beispiel von 2 umfasst einen sogenannten Chipsatz 210 (eine Gruppe von integrierten Schaltungen oder Chips, die zusammenarbeiten, Chipsätze) mit einer Architektur, die je nach dem Hersteller (z.B. INTEL, AMD, ARM usw.) variieren kann. INTEL ist ein eingetragenes Warenzeichen der Intel Corporation in den Vereinigten Staaten und in anderen Ländern. AMD ist ein eingetragenes Warenzeichen von Advanced Micro Devices, Inc. in den Vereinigten Staaten und in anderen Ländern. ARM ist ein nicht eingetragenes Warenzeichen von ARM Holdings plc in den Vereinigten Staaten und in anderen Ländern. Die Architektur des Chipsatzes 210 umfasst eine Kern- und Speichersteuergruppe 220 und einen I/O Controller Knoten 250, der Informationen (z.B. Daten, Signale, Befehle usw.) über ein Direct Management Interface(DMI) 242 oder einen Link Controller 244 austauscht. In 2 ist die DMI 242 eine Chip-zu-Chip-Schnittstelle (manchmal bezeichnet als eine Verbindung zwischen einer "Northbridge" und einer "Southbridge"). Die Kern- und Speichersteuergruppe 220 umfasst einen oder mehrere Prozessor(en) 222 (z.B. einen Single- oder Multi-Core) und einen Speicher-Controller Knoten 226, der Information über einen Front Side Bus (FSB) 224 austauschen; wobei zu beachten ist, dass Komponenten der Gruppe 220 in einem Chip integriert sein können, der die herkömmliche Architektur vom Typ "Northbridge" verdrängt. Ein oder mehrere Prozessoren 222 umfassen interne Recheneinheiten, Register, Cache-Speicher, Busse, I/O-Schnittstellen usw., wie im Stand der Technik gut bekannt.
-
In 2 bildet der Speicher-Controller Knoten 226 eine Schnittstelle mit dem Speicher 240 (z.B., um eine Unterstützung für eine Art von RAM bereitzustellen, die als "Systemspeicher" oder "Speicher" bezeichnet werden kann). Der Speicher-Controller Knoten 226 enthält weiter eine Low Voltage Differential Signaling(LVDS)-Schnittstelle 232 für ein Anzeigegerät 292 (z.B. eine Kathodenstrahlröhre, einen Flachbildschirm, einen Berührungsbildschirm usw.). Ein Block 238 umfasst einige Technologien, die über die LVDS-Schnittstelle 232 unterstützt werden können (z.B. serielles digitales Video, HDMI/DVI, Bildschirmanschluss). Der Speicher-Controller Knoten 226 umfasst auch eine PCI-Express-Schnittstelle (PCI-E) 234, die diskrete Graphiken 236 unterstützen kann.
-
In 2 umfasst der I/O Controller Knoten 250 eine SATA-Schnittstelle 251 (z.B. für HDDs, SDDs usw., 280), eine PCI-E-Schnittstelle 252 (z.B. für drahtlose Verbindungen 282), eine USB-Schnittstelle 253 (z.B. für Geräte 284 wie einen Digitalisierer, eine Tastatur, Mäuse, Kameras, Telefone, Mikrophone, Speicher oder andere verbundene Geräte usw.), eine Netzschnittstelle 254 (z.B. LAN), eine GPIO-Schnittstelle 255, eine LPC-Schnittstelle 270 (für ASICs 271, eine TPM 272, eine Super-I/O 273, einen Firmware Hub 274, BIOS-Unterstützung 275 ebenso wie verschiedene Arten von Speicher 276 wie z.B. ROM 277, Flash 278 und NVRAM 279), eine Leistungsmanagement-Schnittstelle 261, eine Taktgeber-Schnittstelle 262, eine Audio-Schnittstelle 263 (z.B. für Lautsprecher 294), eine TCO-Schnittstelle 264, eine Systemmanagementbus-Schnittstelle 265 und ein SPI-Flash 266, der BIOS 268 und Boot-Code 290 umfassen kann. Der I/O Controller Knoten 250 kann eine Gigabit-Ethernet-Unterstützung umfassen.
-
Das System kann beim Einschalten so konfiguriert werden, dass es den Boot-Code 290 für das BIOS 268 ausführt, wie im SPI-Flash 266 gespeichert, und danach Daten unter der Kontrolle von einem oder von mehreren Betriebssystemen und Anwendungssoftware verarbeitet (z.B. im Systemspeicher 240 abgelegt). Ein Betriebssystem kann in einer beliebigen Vielzahl von Orten gespeichert sein und es kann z.B. gemäß den Anweisungen der BIOS 268 darauf zugegriffen werden. Wie hier beschrieben, kann ein Gerät weniger oder mehr Merkmale umfassen, als im System von 2 gezeigt wird.
-
Eine Informationshandhabungs-Geräteschaltungsanordnung, wie z.B. in 1 oder 2 angegeben, kann in Geräten wie z.B. Tablets, Smartphones PC-Geräten im Allgemeinen und/oder elektronischen Geräten verwendet werden, die Benutzer verwenden können, um Daten einzugeben, aufzuzeichnen oder zu ändern. Zum Beispiel kann die Schaltkreisanordnung, die in 1 skizziert wird, im Ausführungsbeispiel eines Tablets oder eines Smartphones implementiert sein, während die Schaltkreisanordnung, die in 2 skizziert wird, im Ausführungsbeispiel eines PC implementiert sein kann.
-
Es ist zu verstehen, dass derartige Geräte (z.B. ein Tablet-Computergerät, ein PC oder ein Smartphone) vorzugsweise Touchscreens, Mikrophone und Kameras als primäre Eingabegeräte bieten, wobei sich gegenwärtige Geräte vorzugsweise auf Touchscreen- und Mikrophoneingaben zur Anwendungssteuerung stützen. In einem Ausführungsbeispiel stellt die Verschmelzung derartiger Modalitäten eine benutzerfreundliche Erfahrung zur Verfügung, insbesondere bei bestimmten Anwendungen, die die Verwendung anderer Eingabemodalitäten garantieren, die nicht von derartigen Geräten unterstützt werden.
-
Als Beispiel und unter Bezugnahme auf 3 wird eine Website gezeigt, wie sie auf einer Anzeige eines typischen Informationshandhabungsgerätes gezeigt wird, wie z.B. einem Touchscreen 170 von 1 oder einem Anzeigegerät 292 von 2. Ein Ausführungsbeispiel ermöglicht es einem Benutzer, den intelligenten Digital Personal Assistent auf eine nicht-invasive Art zu aktivieren.
-
In einem Ausführungsbeispiel wird unter Verwendung eines Sensorgeräts die Position des Blicks eines Benutzers detektiert. Das Sensorgerät kann innerhalb des Informationshandhabungsgerätes untergebracht sein (z.B. einer Webcam in einem Tablet, Smartphone, PC usw.). Außerdem oder alternativ könnte das Sensorgerät ein getrenntes Gerät sein (z.B. eine eigenständige Webcam oder ein Sensor wie etwa ein KINECT-Gerät). KINECT ist ein eingetragenes Warenzeichen der Microsoft Corporation in den Vereinigten Staaten und in anderen Ländern. In einem weiteren Ausführungsbeispiel könnte das Sensorgerät ein beliebiges Bildaufnahmegerät oder Videoaufnahmegerät sein. Außerdem könnte der Sensor komplexerer Art sein (z.B. ein Bereichs-Abbildungsgerät, ein 3D-Scangerät usw.).
-
Als Beispiel könnte in einem Ausführungsbeispiel ein Benutzer gerade eine Website 300 durchblättern und wünschen, den intelligenten Digital Personal Assistent zu verwenden, um etwas auf der Website, die er gerade sieht, abzufragen. Anstatt zu erfordern, dass der Benutzer seine Browser-Anwendung verlässt und ihn zu zwingen, einen Knopf zu drücken und zu halten oder einen lästigen Schlüsselsatz zu wiederholen, ermöglicht ein Ausführungsbeispiel dem Benutzer, einfach auf eine vordefinierte Position auf dem Bildschirm zu blicken (z.B. die untere linke Ecke 301). Durch den Blick auf diese vorbestimmte Position aktiviert der Benutzer den persönlichen Assistenten, und jede weitere Eingabe (z.B. Sprachbefehle) wird so interpretiert, dass sie für die Verwendung durch den persönlichen Assistenten beabsichtigt war.
-
Als weiteres Beispiel könnte in einem Ausführungsbeispiel ein Benutzer gerade eine Website 300 durchblättern und wünschen, den intelligenten Digital Personal Assistent zu verwenden, um einen Befehl über etwas auszugeben, das nicht mit der Website, die er sieht, in Verbindung steht (z.B., Hinzufügen eines Termins zu seinem Kalender). Wieder könnte, anstatt zu erfordern, dass der Benutzer seine Browser-Anwendung verlässt und ihn zu zwingen, einen Knopf zu drücken und zu halten oder einen lästigen Schlüsselsatz zu wiederholen, der Benutzer einfach auf ein vorbestimmtes Piktogramm auf dem Bildschirm blicken (z.B. ein Mikrophon-Piktogramm, das sich auf dem Bildschirm 302 befindet). Durch den Blick auf das Piktogramm, ein intuitives Symbol zur Spracherkennung, aktiviert der Benutzer den persönlichen Assistenten, und jede weitere Eingabe (z.B. Sprachbefehle) wird so interpretiert, dass sie für die Verwendung durch den persönlichen Assistenten beabsichtigt war.
-
In einem zusätzlichen Ausführungsbeispiel könnte ein Benutzer gerade eine Website 300 durchblättern und wünschen, den intelligenten Digital Personal Assistent zu verwenden, um etwas über eine Anwendung Dritter abzufragen (z.B. Prüfen der Preise auf einer Online-Shopping-Anwendung). Wieder könnte, anstatt zu erfordern, dass der Benutzer seine Browser-Anwendung verlässt und ihn zu zwingen, einen Knopf zu drücken und zu halten oder einen lästigen Schlüsselsatz zu wiederholen, der Benutzer einfach auf einen anthropomorphen Agenten auf dem Bildschirm blicken (z.B. CLIPPY, eine animierte Figur, die sich auf dem Bildschirm 303 befindet, oder dergleichen). Durch den Blick auf eine visuelle Darstellung seines persönlichen Assistenten aktiviert der Benutzer den persönlichen Assistenten, und jede folgende Eingabe (z.B. Sprachbefehle) wird als für die Verwendung durch den persönlichen Assistenten beabsichtigt interpretiert.
-
Um den intuitiven Charakter weiter zu erhöhen, kann ein Ausführungsbeispiel die visuelle Darstellung der vorbestimmten Position ändern. Als Beispiel und unter Bezugnahme auf 4 könnte ein Ausführungsbeispiel die Farbe ändern oder die vorbestimmte Position mit einem visuellen Symbol 401 hervorheben, wenn der Benutzer seinen Blick auf die Position richtet. Diese Änderung des visuellen Zustands der Position ist eine deutliche Anzeige für den Benutzer, dass der intelligente persönlicher Assistent gegenwärtig aktiv und dazu Lage ist, weitere Befehle zu empfangen. Zusätzlich ermöglicht das Verändern des visuellen Zustands der Position es dem Benutzer, falsche positive Ergebnisse zu vermeiden. Wenn der Benutzer nicht die Absicht hatte, den persönlichen Assistenten zu aktivieren, könnte er vermeiden, weiterer Befehle auszugeben und seinen Blick abwenden, wodurch die Notwendigkeit vermieden wird, die Anwendung des persönlichen Assistenten zu beenden oder zu verlassen.
-
Außerdem oder alternativ kann ein Ausführungsbeispiel die visuelle Darstellung des vorbestimmten Piktogramms ändern. Als Beispiel und unter Bezugnahme auf 4 kann ein Ausführungsbeispiel die Hintergrundfarbe ändern oder das vorbestimmte Piktogramm 402 hervorheben, wenn der Benutzer seinen Blick auf die Position richtet. In einem zusätzlichen Ausführungsbeispiel kann das Piktogramm einfach erscheinen oder verschwinden, wenn der Blick des Benutzers auf die bekannte Position des Piktogramms gerichtet wird. Diese Änderung des visuellen Zustands des Piktogramms wie oben ist eine deutliche Anzeige dessen, dass der intelligente persönliche Assistent gegenwärtig aktiv ist. Außerdem ermöglicht die Veränderung des visuellen Zustands des Piktogramms dem Benutzer, falsche positive Ergebnisse zu vermeiden. Wenn der Benutzer nicht die Absicht hatte, den persönlichen Assistenten zu aktivieren, vermeidet er leicht die Notwendigkeit, den persönlichen Assistenten abzubrechen oder zu verlassen, wodurch dem Benutzer Zeit gespart und Frustration mit dem persönlichen Assistenten erspart wird.
-
In einem weiteren Ausführungsbeispiel könnte der animierte Agent auf den visuellen Fokus des Benutzers reagieren. Als Beispiel und unter Bezugnahme auf 4 verglichen mit 303 von 3 könnte ein Ausführungsbeispiel die Reaktion des animierten Agenten 403 ändern, wenn der Benutzer seinen Blick auf seine Position richtet. In einem zusätzlichen Ausführungsbeispiel könnte der animierte Agent zahlreiche Reaktionen aufweisen, in Abhängigkeit von mehreren Umständen (z.B. welche Anwendung geöffnet war, wie lange der Blick des Benutzers vorhanden war, Tageszeit, usw.), wodurch dem Benutzer angegeben werden könnte, dass der intelligente persönliche Assistent bereit war, einen bestimmten Satz von Befehlen zu empfangen. Diese Änderung der Reaktion des Agenten ist nicht nur eine deutliche Anzeige dessen, dass der intelligente persönliche Assistent gegenwärtig aktiv ist. Zusätzlich ermöglicht die Änderung des visuellen Zustands der Position dem Benutzer, falsche positive Ergebnisse zu vermeiden. Wenn der Benutzer nicht die Absicht hatte, den persönlichen Assistenten zu aktivieren, vermeidet er leicht die Notwendigkeit, den persönlichen Assistenten abzubrechen oder zu verlassen, wodurch dem Benutzer Zeit gespart und Frustration mit dem persönlichen Assistenten erspart wird.
-
In einem zusätzlichen Ausführungsbeispiel kann der Benutzer auswählen, welche Option er verwenden möchte (z.B. Position, Piktogramm, Charakter usw.). Somit könnte ein Benutzer, wenn er findet, dass der animierte Agent übermäßig invasiv oder lästig ist, die einfachere oder sauberere Option der vorbestimmten Position wählen. Alternativ kann ein Benutzer, wenn er Schwierigkeiten hatte, sich an die vorbestimmte Position zu erinnern, wählen, das Symbol zu implementieren und es ständig auf dem Bildschirm zu belassen, wodurch eine leichtere Identifizierung ermöglicht wird. In einem weiteren Ausführungsbeispiel könnte der Benutzer ein personalisiertes Piktogramm oder Agenten basierend auf einem Bild, einem Video, einer Anwendung Dritter oder dergleichen auswählen.
-
Zusätzlich ermöglicht ein Ausführungsbeispiel es dem Benutzer, die vorbestimmte Position jeder Modularität zur Identifizierung der Position, den er gewählt hat, auszuwählen (z.B. vorbestimmte Position, Piktogramm, Agenten usw.). Zusätzlich zu einer gesamten Default-Einstellung kann ein Benutzer auch die Position des Identifizierers auf der Grundlage dessen einstellen, welche Anwendung der Benutzer geöffnet hat (z.B. untere Ecken für Browser, um die Abdeckung des Uniform Resource Locater (URL)/der Suchleiste zu vermeiden, obere Ecken für Videos, um die Abdeckung der Wiedergabe-/Zeitleiste, etc.). zu vermeiden. In einem zusätzlichen Ausführungsbeispiel können Anwendungen Dritter eine voreingestellte bevorzugte Position aufweisen, basierend auf der graphischen Benutzeroberfläche (GUI) der Anwendung. In einem weiteren Ausführungsbeispiel könnte diese Voreinstellung vom Benutzer abgelehnt werden.
-
Zusätzlich zur einfachen Verwendung ermöglicht ein Ausführungsbeispiel eine größere Genauigkeit. Ein Benutzer kann wünschen, sich weiter vor der Möglichkeit von falschen positiven Ergebnissen zu schützen. Somit kann ein Ausführungsbeispiel eine zusätzliche Modalität der Aktivierung zusammen mit dem Blick des Benutzers ermöglichen. Dieser zusätzliche Schritt des Aktivierens könnte aktuelle Verfahren der Aktivierung umfassen, wie z.B. Drücken und Halten einer bestimmten Taste, während sich der Blick des Benutzers an einer vorbestimmten Position befindet (z.B. der Taste, die gedrückt werden soll). Außerdem oder alternativ könnte ein Ausführungsbeispiel einen Schlüsselsatz als den zusätzlichen Aktivierungsmodus verwenden (z.B. durch Bezugnahme auf den animierten Agenten 403 durch den Namen, wenn der Blick auf dieses gerichtet wird).
-
Zusätzlich zu den oben erwähnten existierenden Auslöseverfahren ermöglicht die Nachverfolgung des Blicks alternative Verfahren. Zum Beispiel kann ein Ausführungsbeispiel es einem Benutzer ermöglichen, ein oder zweimal mit einem oder mit beiden Augen zu blinzeln, bevor der intelligente persönliche Assistent aktiviert wird. Dieser zusätzliche Schritt ermöglicht einen höheren Grad der Zuständigkeit, ohne eine große zusätzliche Anstrengung seitens des Benutzers zu erfordern und ohne übermäßig belastend zu sein (z.B. Wiederholung desselben Schlüsselsatzes jedes Mal, wenn der Benutzer wünscht, den persönlichen Assistenten zu aktivieren).
-
Außerdem oder alternativ kann ein Ausführungsbeispiel es dem Benutzer ermöglichen, sein Gerät zu bewegen (z.B. ein Tablet, ein Smartphone, einen PC usw.), in Kombination mit der Verwendung seines Blicks. Wenn z.B. ein Benutzer seinen Blick auf das vorbestimmte Piktogramm gerichtet hat und sich der visuelle Zustand des Piktogramms verändert hat, könnte der Benutzer die Position oder den Winkel seines Geräts ruckartig bewegen oder ändern,(d.h. den Beschleunigungsmesser verwenden) als zweite Modalität, um seinen Versuch, den intelligenten persönlichen Assistenten zu aktivieren, zu bekräftigen. Dies ermöglicht zusätzlich die erhöhte Befähigung, ohne die Notwendigkeit einer zweiten Hand oder die Erfordernis, dass der Benutzer einen lästigen Schlüsselsatz wiederholt.
-
Außerdem oder alternativ kann ein Ausführungsbeispiel z.B. ermöglichen, dass der Benutzer eine elektronische Kommunikation an sein Gerät schickt (z.B. durch ein Bluetooth-Headset, ein Nahfeldkommunikationsgerät usw.), in Kombination mit der Verwendung seines Blicks. Wenn z.B. ein Benutzer seinen Blick auf das vorbestimmte Piktogramm gerichtet hat und sich der visuelle Zustand des Piktogramms verändert hat, könnte der Benutzer mit einem getrennten Gerät interagieren (z.B. Drücken einer Taste auf seinem Bluetooth-Headset), um seinen Versuch, den intelligenten persönlichen Assistenten zu aktivieren, zu bekräftigen.
-
Wie von einem Fachmann zu erkennen ist, können verschiedene Aspekte als ein System, ein Verfahren oder ein Geräte-Programmprodukt ausgeführt sein. Dementsprechend können Aspekte die Form eines Ausführungsbeispiels ausschließlich für Hardware oder eines Ausführungsbeispiels, das Software enthält, annehmen, die alle hierin im Allgemeinen als eine "Schaltung", ein "Modul" oder ein "System" bezeichnet werden können. Außerdem können Aspekte die Form eines Geräte-Programmprodukts annehmen, das in einem oder in mehrere gerätelesbaren Medien mit einem darin verkörperten gerätelesbaren Programmcode ausgeführt ist.
-
Es sollte beachtet werden, dass die verschiedenen hierin beschriebenen Funktionen unter Verwendung von Anweisungen implementiert werden können, die auf einem gerätelesbaren Speichermedium wie z.B. einer Nichtsignal-Speichergerät gespeichert sind, die durch einen Prozessor ausgeführt werden. Ein Speichergerät kann z.B. ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem, -Vorrichtung oder -Gerät, oder eine beliebige geeignete Kombination der oben Genannten sein. Spezifischere Beispiele eines Speichermediums umfassen Folgendes: Eine tragbare Computerdiskette, eine HD-Festplatte, einen Arbeitsspeicher (RAM), einen Festwertspeicher (ROM), einen löschbaren programmierbaren Festspeicher (EPROM oder Flash-Speicher), einen optischen Lichtleiter, einen tragbaren Compact-Disk Festwertspeicher (CD-ROM), ein optisches Speichergerät, ein magnetisches Speichergerät oder eine beliebige geeignete Kombination der oben Genannten. Im Kontext dieses Dokuments ist ein Speichergerät nicht signaltragend, und "nicht-flüchtig" umfasst alle Medien außer signaltragende Medien.
-
Programmcode, der in einem Speichermedium ausgeführt ist, kann unter Verwendung eines geeigneten Mediums übertragen werden, darin eingeschlossen, aber nicht beschränkt auf, drahtlos, Drahtleitung, Glasfaserkabel, RF usw. oder eine beliebige geeignete Kombination des oben Genannten.
-
Programmcode zur Durchführung von Maßnahmen kann in einer beliebigen Kombination aus einer oder aus mehreren Programmiersprachen geschrieben sein. Programmcode kann vollständig auf einem einzigen Gerät ausgeführt werden, teilweise auf einem einzigen Gerät, als unabhängiges Softwarepaket, teilweise auf einem einzigen Gerät und teilweise auf einem weiteren Gerät oder ganz auf einem weiterem Gerät. In einigen Fällen können die Geräte durch eine beliebige Art von Verbindung oder Netzwerk verbunden sein, darin eingeschlossen sind ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder kann die Verbindung durch andere Geräte erfolgen (zum Beispiel über das Internet unter Verwendung eines Internet Service Providers), durch drahtlose Verbindungen z.B. Nahfeldkommunikation oder durch eine fest verkabelte Verbindung wie z.B. über einen USB-Anschluss.
-
Exemplarische Ausführungsbeispiele werden hierin unter Bezugnahme auf die Figuren beschrieben, die exemplarische Verfahren, Geräte und Programmprodukte gemäß verschiedenen exemplarischen Ausführungsbeispielen veranschaulichen. Es ist zu sehen, dass die Maßnahmen und die Funktion mindestens teilweise durch Programmanweisungen implementiert werden können. Diese Programmanweisungen können einem Prozessor eines allgemeinen Informationshandhabungsgeräts, eines Informationshandhabungsgeräts für einen speziellen Zweck oder einer anderen programmierbaren Datenverarbeitungsgeräts bereitgestellt sein, um eine Maschine zu erzeugen, so dass die Anweisungen, die über einen Prozessor des Geräts ablaufen, die spezifizierten Funktionen/Maßnahmen implementieren.
-
Es muss angemerkt werden, dass, während spezifische Blöcke in den Figuren verwendet werden und eine bestimmte Anordnung von Blöcken in den Figuren dargestellt wurde, dies nicht einschränkende Beispiele sind. In bestimmten Zusammenhängen können zwei oder mehr Blöcke kombiniert sein, kann ein Block in zwei oder mehr Blöcke aufgeteilt sein oder können bestimmte Blöcke wie angemessen neu geordnet oder neu organisiert werden, da die ausdrücklich veranschaulichten Beispiele nur für beschreibende Zwecke verwendet werden und nicht als einschränkend ausgelegt werden dürfen.
-
Wie hier verwendet kann der Singular "ein" so ausgelegt werden, dass er den Plural "ein oder mehr" umfasst, falls nicht anderweitig deutlich angegeben.
-
Diese Offenbarung wurde zum Zweck der Veranschaulichung und der Beschreibung dargestellt, ist jedoch nicht dazu beabsichtigt, ausschließend oder einschränkend zu sein. Viele Änderungen und Variationen sind für die Fachleute offensichtlich. Die exemplarischen Ausführungsbeispiele wurden ausgewählt und beschrieben, um Prinzipien und praktische Anwendungen zu erklären, und um anderen Fachleuten zu ermöglichen, die Offenbarung für verschiedene Ausführungsbeispiele mit verschiedenen Modifikationen zu verstehen, die für die bestimmte berücksichtige Verwendung geeignet sind.
-
Somit muss, obwohl hier veranschaulichende exemplarische Ausführungsbeispiele unter Bezugnahme auf die beigefügten Figuren beschrieben wurden, davon ausgegangen werden, dass diese Beschreibung nicht einschränkend ist, und dass von einem Fachmann verschiedene weitere Änderungen und Modifikationen durchgeführt werden können, ohne vom Schutzumfang oder vom Geist der Offenbarung abzuweichen.