DE102015100470A1

DE102015100470A1 - Interaktive Benutzergesteneingaben

Info

Publication number: DE102015100470A1
Application number: DE102015100470.4A
Authority: DE
Inventors: Xin Feng; Robert James Kapinos; Jon Heim; Paul Hilburger; James Anthony Hunt
Original assignee: Lenovo Singapore Pte Ltd
Current assignee: Lenovo Singapore Pte Ltd
Priority date: 2014-01-20
Filing date: 2015-01-14
Publication date: 2015-07-23
Also published as: GB2523891B; GB2523891A8; CN104793733B; CN104793733A; US20150205359A1; US11226686B2; GB201500915D0; GB2523891A

Abstract

Ein Aspekt stellt ein Verfahren bereit, das umfasst: Erfassen, unter Verwendung einer Gesteneingabekomponente eines Informationshandhabungsgeräts, einer Benutzergesteneingabe; Verarbeiten, unter Verwendung eines Prozessors, der erfassten Benutzergesteneingabe, um eines oder mehrere Merkmale zu extrahieren; Vergleichen, unter Verwendung eines Prozessors, des einen oder der mehreren extrahierten Merkmale der Benutzergesteneingabe mit einer vorab festgelegten Gesteneingabe; Ermitteln, unter Verwendung eines Prozessors, dass ein auf Basis des Vergleichs berechnetes Konfidenzniveau einen unteren Ähnlichkeitsgrenzwert überschreitet, einen oberen Ähnlichkeitsgrenzwert jedoch nicht überschreitet; und Durchführen einer Aktion, die ausgewählt wird aus der Gruppe bestehend aus Kommunizieren mit dem Benutzer und Anpassen der Benutzergesteneingabe. Andere Aspekte sind beschrieben und beansprucht.

Description

Hintergrund
Informationshandhabungsgeräte ("Geräte") gibt es in diversen Formen, zum Beispiel Laptop-Rechengeräte, Tablet-Rechengeräte, Smartphones und dergleichen. Gesten wie Benutzergesten, die an eine Kamera oder einen anderen optischen Sensor eines Geräts bereitgestellt werden, werden immer häufiger für eine Bereitstellung von Benutzereingaben verwendet.
Derzeit sind die Algorithmen, die zum Erkennen von Gesten und Durchführen von Aktionen verwendet werden, einfach: eine Geste wird entweder erkannt oder nicht und eine entsprechende vorab festgelegte Reaktion wird durchgeführt, wenn die Geste erkannt wird. Dies ist ein Alles-oder-Nichts-Ansatz. Folglich führt die Gestiksoftware, wenn eine Geste erkannt wird, eine vorab festgelegte Aktion oder ein vorab festgelegtes Ergebnis für einen Benutzer durch. Wird eine Geste nicht erkannt, führt das System jedoch gar keine Aktion durch.
Kurzdarstellung
Zusammengefasst stellt ein Aspekt ein Verfahren bereit, das umfasst: Erfassen, unter Verwendung einer Gesteneingabekomponente eines Informationshandhabungsgeräts, einer Benutzergesteneingabe; Verarbeiten, unter Verwendung eines Prozessors, der erfassten Benutzergesteneingabe, um eines oder mehrere Merkmale zu extrahieren; Vergleichen, unter Verwendung eines Prozessors, des einen oder der mehreren extrahierten Merkmale der Benutzergesteneingabe mit einer vorab festgelegten Gesteneingabe; Ermitteln, unter Verwendung eines Prozessors, dass ein auf Basis des Vergleichs berechnetes Konfidenzniveau einen unteren Ähnlichkeitsgrenzwert überschreitet, einen oberen Ähnlichkeitsgrenzwert jedoch nicht überschreitet; und Durchführen einer Aktion, die ausgewählt wird aus der Gruppe bestehend aus Kommunizieren mit dem Benutzer und Anpassen der Benutzergesteneingabe.
Ein weiterer Aspekt stellt ein Informationshandhabungsgerät bereit, das umfasst: eine Gesteneingabekomponente; einen Prozessor, der operativ mit der Gesteneingabekomponente verbunden ist; ein Speichergerät, das für den Prozessor zugängliche Anweisungen speichert, wobei die Anweisungen durch den Prozessor ausführbar sind zum: Erfassen einer Benutzergesteneingabe unter Verwendung der Gesteneingabekomponente eines Informationshandhabungsgeräts; Verarbeiten der erfassten Benutzergesteneingabe, um eines oder mehrere Merkmale zu extrahieren; Vergleichen des einen oder der mehreren extrahierten Merkmale der Benutzergesteneingabe mit einer vorab festgelegten Gesteneingabe; Ermitteln, dass ein auf Basis des Vergleichs berechnetes Konfidenzniveau einen unteren Ähnlichkeitsgrenzwert überschreitet, einen oberen Ähnlichkeitsgrenzwert jedoch nicht überschreitet; und Durchführen einer Aktion, die aus der Gruppe ausgewählt ist, die aus Kommunizieren mit dem Benutzer und Anpassen der Gesteneingabekomponente besteht.
Ein weiterer Aspekt stellt ein Produkt bereit, das umfasst: ein Speichergerät, auf dem ein prozessorausführbarer Code gespeichert ist, wobei der Code umfasst: Code, der eine Benutzergesteneingabe unter Verwendung einer Gesteneingabekomponente eines Informationshandhabungsgeräts erfasst; Code, der die erste Benutzergesteneingabe unter Verwendung eines Prozessors verarbeitet, um eines oder mehrere Merkmale zu extrahieren; Code, der das eine oder die mehrere extrahierten Merkmale der Benutzergesteneingabe unter Verwendung eines Prozessors mit einer vorab festgelegten Gesteneingabe vergleicht; Code, der unter Verwendung eines Prozessors ermittelt, dass ein auf Basis des Vergleichs berechnetes Konfidenzniveau einen unteren Ähnlichkeitsgrenzwert überschreitet, einen oberen Ähnlichkeitsgrenzwert jedoch nicht überschreitet; und Code, der eine Aktion durchführt, die aus der Gruppe ausgewählt ist, die aus Kommunizieren mit dem Benutzer und Anpassen der Gesteneingabekomponente besteht.
Das Vorstehende ist eine Kurzdarstellung und kann somit Vereinfachungen, Verallgemeinerungen und ausgelassene Details enthalten; folglich wird der Fachmann verstehen, dass die Kurzdarstellung lediglich veranschaulichend ist und in keiner Weise einschränkend.
Um die Ausführungsformen sowie andere und weitere Merkmale und Vorteile davon besser zu verstehen, wird Bezug auf die folgende Beschreibung in Zusammenschau mit den beiliegenden Zeichnungen genommen. Der Umfang der Erfindung wird in den beiliegenden Ansprüchen aufgezeigt.
Kurze Beschreibung der Figuren
1 veranschaulicht ein Beispiel für einen Schaltkreis eines Informationshandhabungsgeräts.
2 veranschaulicht ein weiteres Beispiel für einen Schaltkreis eines Informationshandhabungsgeräts.
3 veranschaulicht ein Beispiel für eine Benutzergesteneingabe.
4 veranschaulicht ein Beispiel für eine Verwendung von mehreren Grenzwerten für eine interaktive Benutzergesteneingabe.
5 veranschaulicht ein Beispiel für eine Bereitstellung von unterrichtendem Feedback an einen Benutzer, der versucht, eine Benutzergesteneingabe durchzuführen.
6 veranschaulicht ein Beispiel für eine Kommunikation mit einem Benutzer, um eine vorab festgelegte Aktion auf Basis eines Konfidenzniveaus zu bestätigen.
7 veranschaulicht ein Beispiel für eine Anpassung einer Gesteneingabekomponente.
Ausführliche Beschreibung
Es ist leicht verständlich, dass die Komponenten der Ausführungsformen, wie sie in den Figuren hier allgemein beschrieben und veranschaulicht sind, neben den beschriebenen beispielhaften Ausführungsformen in einer großen Vielzahl unterschiedlicher Konfigurationen angeordnet und konzipiert sein können. Somit soll die folgende ausführlichere Beschreibung der beispielhaften Ausführungsformen, wie in den Figuren dargestellt, den beanspruchten Umfang der Ausführungsformen nicht einschränken, sondern ist lediglich für beispielhafte Ausführungsformen repräsentativ.
In dieser gesamten Schrift bedeutet eine Bezugnahme auf "eine Ausführungsform" (oder dergleichen), dass ein bestimmten Merkmal, eine bestimmte Struktur oder ein bestimmtes Charakteristikum, das in Verbindung mit der Ausführungsform beschrieben ist, in zumindest einer Ausführungsform enthalten ist. Somit bezieht sich der Ausdruck "bei einer Ausführungsform" oder dergleichen an diversen Stellen in dieser gesamten Schrift nicht zwingenderweise immer auf die gleiche Ausführungsform.
Darüber hinaus können die beschriebenen Merkmale, Strukturen oder Charakteristika bei einer oder mehreren Ausführungsformen auf eine beliebige geeignete Weise kombiniert werden. In der folgenden Beschreibung werden zahlreiche spezifische Details angeführt, um ein umfassendes Verständnis von Ausführungsformen bereitzustellen. Der Fachmann wird jedoch verstehen, dass die diversen Ausführungsformen ohne ein oder mehrere der spezifischen Details oder mit anderen Verfahren, Komponenten, Materialien usw. ausgeübt werden können. In anderen Fällen sind hinlänglich bekannte Strukturen, Materialien oder Vorgänge nicht ausführlich gezeigt oder beschrieben, um eine Unklarheit zu vermeiden.
Wie hier beschrieben, verwenden herkömmliche Systeme einen Alles-oder-Nichts-Ansatz der Gestenerkennung. Das heißt, wenn keine Geste erkannt wird, erhält der Benutzer kein Feedback vom System. Ein Nachteil dieses Ansatzes besteht darin, dass das Gestensystem unflexibel und weniger interaktiv/unterrichtend wird. Somit besteht ein Bedarf an einer Grauzone („fuzzy zone") der Gestenerkennung, um solche Probleme zu lösen, beispielsweise wenn zwar eine Benutzergesteneingabe wird, aber mit niedrigerer Konfidenz. Beispielsweise, wenn eine Person etwas von einer anderen Person hört, sich aber nicht sicher ist, ob sie es richtig versteht, wird sie nachfragen und bestätigt: "Meinst Du ..." oder "Kannst Du das wiederholen?".
Demgemäß stellt eine Ausführungsform das Akzeptieren eines niedrigeren Konfidenzniveaus für Benutzergesteneingaben bereit. Bei einer Ausführungsform verwendet ein Gestenerkennungsmodul mehr als einen Grenzwert, zum Beispiel einen oberen und einen unteren Grenzwert, um ein Konfidenzniveau zu berechnen, das der Benutzergesteneingabe zugeordnet ist. Eine Ausführungsform ermittelt somit das Konfidenzniveau von Benutzergesteneingaben und vergleicht dieses mit mehr als einem Grenzwert, um die Benutzergesteneingaben gemäß dem vom Gestenerkennungsmodul zugeordneten Konfidenzniveau unterschiedlich zu verarbeiten. Bei nicht-einschränkenden Beispielen kann dies ein Kommunizieren mit dem Benutzer umfassen, zum Beispiel um den Benutzer anzuweisen, wie eine Geste richtig durchzuführen ist, um den Benutzer aufzufordern, eine weitere oder wiederholte Gesteneingabe bereitzustellen, und/oder dies kann ein Anpassen der Gesteneingabekomponente umfassen, zum Beispiel ein Ändern eines Sichtfelds für eine Kamera, die zum Erfassen von Bildeingaben verwendet wird. Dies stellt ein interaktiveres Erlebnis bereit, bei dem der Benutzer nicht frustriert wird, wenn ein Gestensystem nicht reagiert, nur weil ein einzelner Erkennungsgrenzwert nicht überstiegen wurde.
Die veranschaulichten beispielhaften Ausführungsformen sind unter Bezugnahme auf die Figuren am besten verständlich. Die folgende Beschreibung soll lediglich beispielhaft sein und einfach gewisse beispielhafte Ausführungsformen veranschaulichen.
Auch wenn diverse andere Schaltungen, Schaltkreise oder Komponenten in Informationshandhabungsgeräten verwendet werden können, umfasst ein in 1 gezeigtes Beispiel in Bezug auf einen Smartphone- und/oder Tablet-Schaltkreis 100 ein System-auf-Chip-Design, das beispielsweise in Tablet- oder anderen mobilen Datenverarbeitungsplattformen zu finden ist. Software und einer oder mehrere Prozessoren sind in einem einzelnen Chip 110 kombiniert. Die Prozessoren umfassen interne arithmetische Einheiten, Register, Cachespeicher, Busse, E/A-Anschlüsse usw., wie auf dem Gebiet hinlänglich bekannt. Interne Busse und dergleichen hängen von den verschiedenen Anbietern ab, im Wesentlichen können sich jedoch alle peripheren Geräte (120) mit einem einzelnen Chip 110 verbinden. Der Schaltkreis 100 kombiniert den Prozessor, ein Speichersteuergerät und einen E/A-Controllerhub allesamt in einen einzelnen Chip 110. Außerdem verwenden Systeme 100 dieses Typs SATA oder PCI oder LPC für gewöhnlich nicht. Übliche Schnittstellen umfassen zum Beispiel SDIO und I2C.
Es gibt einen oder mehrere Energieverwaltungschips 130, zum Beispiel ein Batteriemanagementgerät (BMU), das Energie verwalten, die zum Beispiel über eine wiederaufladbare Batterie 140 zugeführt wird, die durch Verbinden mit einer Energiequelle (nicht gezeigt) wiederaufgeladen werden kann. Bei zumindest einem Design wird ein einzelner Chip, zum Beispiel 110, verwendet, um eine BIOS-ähnliche Funktionalität und einen DRAM-Speicher bereitzustellen.
Das System 100 umfasst für gewöhnlich eines oder mehreres eines WWAN-Sendeempfängers 150 und eines WLAN-Sendeempfängers 160 für eine Verbindung mit diversen Netzwerken, zum Beispiel Telekommunikationsnetzwerken und drahtlosen Internetgeräte, zum Beispiel Zugangspunkten. Üblicherweise sind weitere Geräte 120 integriert, zum Beispiel ein Bildsensor wie eine Kamera. Das System 100 umfasst häufig einen berührungsempfindlichen Bildschirm 170 für eine Dateneingabe und -anzeige/wiedergabe. Das System 100 umfasst außerdem für gewöhnlich diverse Speichergeräte, zum Beispiel einen Flash-Speicher 180 und einen SDRAM 190.
2 zeigt ein Blockschaltbild eines weiteren Beispiels für Schaltungen, Schaltkreise oder Komponenten eines Informationshandhabungsgeräts. Das in 2 gezeigte Beispiel kann Datenverarbeitungssystemen wie der THINKPAD-Reihe von Personal Computern, die von Lenovo (US) Inc., Morrisville, NC, verkauft wird, oder anderen Geräten entsprechen. Aus der vorliegenden Beschreibung geht hervor, dass Ausführungsformen andere Merkmale oder nur manche der Merkmale der in 2 gezeigten Beispiele umfassen können.
Das Beispiel von 2 umfasst einen sogenannten Chipsatz 210 (eine Gruppe von integrierten Schaltkreisen oder Chips, die gemeinsam arbeiten, Chipsätze) mit einer Architektur, die je nach Hersteller (zum Beispiel INTEL, AMD, ARM usw.) variieren kann. INTEL ist eine eingetragene Handelsmarke der Intel Corporation in den Vereinigten Staaten und anderen Ländern. AMD ist eine eingetragene Handelsmarke von Advanced Micro Devices, Inc., in den Vereinigten Staaten und anderen Ländern. ARM ist eine nicht eingetragene Handelsmarke von ARM Holdings plc in den Vereinigten Staaten und anderen Ländern. Die Architektur des Chipsatzes 210 umfasst eine Kern- und Speichersteuergerätgruppe 220 und einen E/A-Controllerhub 250, der Informationen (zum Beispiel Daten, Signale, Befehle usw.) über eine direkte Verwaltungsschnittstelle (DMI) 242 oder ein Verbindungssteuergerät 244 austauscht. In 2 ist die DMI 242 eine Chip-zu-Chip-Schnittstelle (wird manchmal als Verbindung zwischen einer "Northbridge" und einer "Southbridge" bezeichnet). Die Kern- und Speichersteuergerätgruppe 220 umfasst einen oder mehrere Prozessoren 222 (zum Beispiel Ein- oder Mehrfachkern) und einen Speichercontrollerhub 226, der Informationen über einen Front-Side-Bus (FSB) 224 austauscht; unter Bemerkung, dass Komponenten der Gruppe 220 in einem Chip integriert sein können, der die herkömmliche Architektur im "Northbridge"-Stil ersetzt. Der eine oder die mehreren Prozessoren 222 umfassen interne arithmetische Einheiten, Register, Cachespeicher, Busse, E/A-Anschlüsse usw., wie auf dem Gebiet hinlänglich bekannt.
In 2 ist der Speichercontrollerhub 226 mit einem Speicher 240 verbunden (zum Beispiel um Unterstützung eines Typs von RAM bereitzustellen, der als "Systemspeicher" oder "Speicher" bezeichnet werden kann). Der Speichercontrollerhub 226 umfasst darüber hinaus eine LVDS-Schnittstelle 232 für ein Anzeigegerät 292 (zum Beispiel ein CRT, ein Flachbildschirm, ein berührungsempfindlicher Bildschirm usw.). Ein Block 238 umfasst gewisse Technologien, die über die LVDS-Schnittstelle 232 unterstützt werden können (zum Beispiel serieller Digital- Video-, HDMI/DVI-, Anzeigeanschluss). Der Speichercontrollerhub 226 umfasst außerdem eine PCI-Express-Schnittstelle (PCI-E) 234, die diskrete Grafiken 236 unterstützen kann.
In 2 umfasst das E/A-Hubcontroller 250 eine SATA-Schnittstelle 251 (zum Beispiel für HDDs, SDDs usw., 280), eine PCI-E-Schnittstelle 252 (zum Beispiel für Drahtlosverbindungen 282), eine USB-Schnittstelle 253 (zum Beispiel für Geräte 284 wie ein Digitalisierungsgerät, eine Tastatur, Mäuse, Kameras, Telefone, Mikrofone, Speicher, andere verbundene Geräte usw.), eine Netzwerkschnittstelle 254 (zum Beispiel LAN), eine GPIO-Schnittstelle 255, eine LPC-Schnittstelle 270 (für ASICs 271, einen TPM 272, einen Super-E/A 273, einen Firmware-Hub 274, eine BIOS-Unterstützung 275 sowie diverse Typen von Speicher 276 wie ROM 277, Flash 278 und NVRAM 279), eine Energieverwaltungsschnittstelle 261, eine Takterzeugerschnittstelle 262, eine Audioschnittstelle 263 (zum Beispiel für Lautsprecher 294), eine TCO-Schnittstelle 264, eine Systemverwaltungsbusschnittstelle 265 und einen SPI-Flash 266, der BIOS 268 und einen Bootcode 290 umfassen kann. Der E/A-Hubcontroller 250 kann Gigabit-Ethernet-Unterstützung umfassen.
Nachdem es eingeschaltet wurde, kann das System so konfiguriert sein, dass es den Bootcode 290 für das BIOS 268 ausführt, wie auf dem SPI-Flash 266 gespeichert, und danach Daten unter Kontrolle eines oder mehrerer Betriebssysteme und von Anwendungssoftware (zum Beispiel im Systemspeicher 240 gespeichert) verarbeitet. Ein Betriebssystem kann an einem beliebigen einer Vielzahl von Speicherorten gespeichert sein und es kann zum Beispiel gemäß den Anweisungen des BIOS 268 auf dieses zugegriffen werden. Wie hier beschrieben, kann ein Gerät weniger oder mehr Merkmale umfassen, als im System von 2 gezeigt.
Ein Schaltkreis eines Informationshandhabungsgeräts, wie zum Beispiel in 1 oder 2 gezeigt, kann in Benutzergeräten wie Laptop-Computern, Desktop-Computer, Tablet-Computern usw. umfasst sein, die Gesteneingaben akzeptieren. Eine Ausführungsform kann daher unter Verwendung eines Geräteschaltkreises und von Komponenten umgesetzt sein, wie sie in 1 und 2 gezeigt sind, um diverse Gestenbenutzereingaben zu erfassen, bearbeiten und verarbeiten.
Unter Bezugnahme auf 3 erfasst eine Ausführungsform Benutzergesteneingaben, die von einem Benutzer bereitgestellt werden, bei 301, zum Beispiel unter Verwendung von Kamerabildern eines Benutzers, der eine Geste mit seiner Hand durchführt (näher in Verbindung mit 4 beschrieben). Die Bilder des Benutzers können dann von einem Gestenerkennungsmodul bearbeitet werden. Das Bearbeiten der Benutzergesteneingabe umfasst das Extrahieren von Merkmalen bei 302 und das Vergleichen von Merkmalen mit erwarteten Gesteneingaben bei 303. Dies ermöglicht, dass die Gestenerkennung ein Konfidenzniveau für die erfasste Benutzergesteneingabe bei 304 ermittelt, zum Beispiel einen Punktewert darüber, wie stark die tatsächliche Eingabe des Benutzers mit einer vorab festgelegten, erwarteten Eingabe übereinstimmt.
Das Konfidenzniveau kann auf Basis einer Reihe von Faktoren generiert werden, die bei der Gestenerkennung verwendet werden. Jeder Faktor (n) weist ein Konfidenzniveau (Cn) auf, das beschreibt, wie nahe eine vom Benutzer bereitgestellte Eingabe eine erwarteten Wert kommt, sowie eine Gewichtung (Wn), die die Wichtigkeit dieses Faktors darstellt.
Ein Beispiel für einen Faktor, der von einem Gestenerkennungsmodul verwendet wird, umfasst die Form der Geste (die eine statische oder dynamische Bewegung sein/umfassen kann), ohne jedoch darauf beschränkt zu sein. Die Form der Geste kann zum Beispiel die Form eines Objekts, zum Beispiel eines Körpers/einer Hand/eines Fingers eines Menschen, das verwendet wird, um die Geste durchzuführen, die Bewegung, die Geschwindigkeit, und den Bereich der Bewegung des Objekts, das die Geste durchführt, den Abstand zwischen der Gesteneingabekomponente (zum Beispiel Kamera) und dem Objekt, das die Geste durchführt, zum Beispiel eine Hand eines Benutzers, usw. umfassen. Beispielsweise, wenn sich ein Benutzer im erforderlichen Abstandsbereich befindet, führt dies zu einem hohen Konfidenzniveau für diesen Faktor, ein Benutzer außerhalb des Bereichs hingegen führt sodann zu einem niedrigen Konfidenzniveau.
Die Beleuchtung kann als Faktor mit einbezogen werden, der von einem Gestenerkennungsmodul verwendet wird, wobei zum Beispiel eine geeignete/starke Beleuchtung zu höheren Konfidenzniveaus führt und eine geringere/gedämpfte Beleuchtung zu niedrigeren Konfidenzniveaus führt. Die Beleuchtung beeinflusst die Fähigkeit des Gestenerkennungsmoduls, diverse Merkmale der Gesteneingabe zu unterscheiden und zu extrahieren.
Das Vorhandensein von Ablenkungen (zum Beispiel weitere Personen oder sich bewegende Objekte in einem erfassten Bild) kann die Konfidenzberechnung gleichermaßen beeinflussen und von einem Gestenerkennungsmodul als Faktor verwendet werden. Beispielsweise bringt das Vorhandensein einer Ablenkung, zum Beispiel eines sich bewegenden Objekts, die in einem Eingabebild erfasst wird, eine Negativgewichtung in das allgemeine Gestenkonfidenzniveau ein, das für die Benutzergesteneingabe berechnet wird.
Beispielsweise kann das allgemeine Konfidenzniveau einer Geste wie folgt berechnet werden:
wobei C das allgemeine Konfidenzniveau der Geste ist, N die Zahl des Faktors, C_n das Konfidenzniveau des n-ten Faktors ist und W_n die Gewichtung des n-ten Faktors ist. Das allgemeine Konfidenzniveau der Geste ist die gewichtete Summe jedes Faktors über die Summe des Gewichts. C liegt im Bereich von [0, 1], wobei 1 die höchste Konfidenz ist und 0 die niedrigste Konfidenz ist.
Wie hier beschrieben, definiert eine Ausführungsform zumindest zwei Grenzwerte, zum Beispiel einen oberen und einen unteren Schwellenwert, in Bezug auf welchen das Konfidenzniveau für eine bestimmte empfangene Benutzergesteneingabe beurteilt werden kann. Bei einer Ausführungsform sind die beiden Grenzwerte als C_fuzzy und C_action definiert, wobei der Fuzzy-Grenzwert und der action-Grenzwert ein oberer Schwellenwert sind.
Eine Ausführungsform verwendet die Schwellenwerte, um einen grauen oder Fuzzy-Bereich zu ermitteln, in dem das Gestenerkennungsmodul, auch wenn eine gewisse Gesteneingabe erkannt wurde, die bestimmte Geste auf einem oder mehreren Gründen nicht mit einem hohen Konfidenzgrad erkannt hat. Anstatt keine Aktion durchzuführen, kann eine Ausführungsform eine weitere Funktion bereitstellen, so dass die Gesteneingabe verwendet werden kann, sogar wenn sie nicht mit einem hohen Konfidenzgrad erkannt wurde.
Beispielsweise kann eine Ausführungsform unter erneuter Bezugnahme auf 3 bei 305, wenn das für die Gesteneingabe berechnete allgemeine Konfidenzniveau einer Ermittlung zufolge nicht einmal den unteren Grenzwert, C_fuzzy, überschreitet, bei 306 keine Aktion durchführen. Wenn das allgemeine Konfidenzniveau höher als C_fuzzy ist, wie bei 305 ermittelt, den Coberen Grenzwert, C_action, jedoch nicht überschreitet, wie bei 307 ermittelt, werden die eine oder mehreren alternativen vorab festgelegten Aktionen bei 309 durchgeführt. Wenn das allgemeine Konfidenzniveau der Geste höher als C_action ist, wie bei 307 ermittelt, wird die Geste erkannt und das entsprechende Ergebnis wird bei 308 durchgeführt, ähnlich einem herkömmlichen Gestenerkennungssystem.
Es kann diverse Faktoren geben, die zum Konfidenzniveau und zur Ermittlung der entsprechenden Höhen für die verwendeten Grenzwerte beitragen. Beispielsweise kann die Einzigartigkeit der Geste berücksichtigt werden, wobei die Wahrscheinlichkeit, dass die Geste Nicht-Gesten-Eingaben ähnlich ist, beispielsweise wenn ein höherer Konfidenzgrad erforderlich ist, vor Erkennung berücksichtigt wird. Der Aufwand der Durchführung der Geste kann berücksichtigt werden, wobei beispielsweise ein höherer Konfidenzgrad oder ein höheres Konfidenzniveau für Gesten erforderlich ist, die Systemaktionen übermitteln, die schwierig oder umständlich rückgängig zu machen sind. Die Zeit der Nutzung kann berücksichtigt werden, zum Beispiel kann sich der untere Grenzwert über die Zeit erhöhen (und somit einen höheren Grad der Durchführungstreue einer Geste erfordern), da der Benutzer mit dem Gesteneingabesystem vertrauter geworden ist. Man bemerke, dass die oberen und unteren Grenzwerte unabhängig sein können. Außerdem können die Grenzwerte über die Zeit nicht nur modifiziert oder geändert werden, sondern es können auch mehr als zwei Grenzwerte verwendet werden.
Wie verstanden werden wird, behandelt eine Ausführungsform Probleme von herkömmlichen Gestensystemen in Bezug auf Benutzerfreundlichkeit. Beispielsweise wenn ein Benutzer bei Verwendung eines herkömmlichen System eine Fingergeste durchführt und sein Finger nicht exakt so gerade wie erforderlich ist, dann wird diese Fingergeste nicht erkannt. Wenn ein Benutzer eine Gestenbewegung richtig, aber in einem falschen Kontext (wenn zum Beispiel die aktuelle Anwendung diese Gesteneingabe nicht unterstützt usw.) durchführt, gibt ein herkömmliches Gestensystem dem Benutzer gleichermaßen keinerlei Feedback, nicht einmal wenn der Benutzer die gleiche Bewegung wieder und wieder wiederholt, da die Geste nicht erkannt wird.
Eine Ausführungsform verwendet mehrere Grenzwerte, um ein interaktiveres Gestenerkennungssystem bereitzustellen. Unter "interaktiv" versteht sich, dass das Gestenerkennungssystem die Bedürfnisse des Benutzers intelligent anpasst. Beispielsweise wenn ein Kameragestensystem ein gewisses Konfidenzniveau erreicht, dass ein Benutzer versucht, eine Geste durchzuführen (wobei die genaue Geste jedoch nicht zwingenderweise bekannt ist), kann sich eine Ausführungsform an die Bedürfnisse des Benutzers anpassen, zum Beispiel sich selbst mit den einzelnen Charakteristika des Benutzers personalisieren und/oder mit dem Benutzer interagieren, um intelligente Tipps auf Basis der Informationen bereitzustellen, die das System bereits gesammelt hat, um den Benutzer zu einer weiteren Gesteneingabe oder anderen Gesteneingabe usw. aufzufordern.
Gewisse Beispielfälle sind hier beschrieben und veranschaulicht. Beispielsweise wenn ein Teil einer Benutzergesteneingabe außerhalb des Sichtfelds einer Kamera liegt oder der Abstand zwischen der Kamera und dem Benutzer/Objekt, der bzw. das die Geste durchführt, zu groß ist, kann eine Ausführungsform das Sichtfeld der Kamera automatisch anpassen und/oder den Benutzer auffordern, sich neu zu positionieren. Als weiteres Beispiel kann eine Ausführungsform bei ungeeigneter Beleuchtung die Kameraeinstellungen anpassen oder die Umgebung aktiv beleuchten. Wenn die Bewegungsgeschwindigkeit des Benutzers, der die Geste durchführt, zu langsam/schnell ist, kann eine Ausführungsform gleichermaßen einen Tipp bereitstellen, zum Beispiel einen verbalen und/oder visuellen Hinweis, der die korrekte Durchführung der Geste anzeigt. Wenn eine durchgeführte Geste in einem unkorrekten Kontext (wenn zum Beispiel eine Geste von der derzeit laufenden Anwendung nicht unterstützt wird) durchgeführt wird, kann eine Ausführungsform den Benutzer gleichermaßen darüber in Kenntnis setzen. Wenn die Form eines Teils eines Menschen oder eines Objekts nicht korrekt oder unsachgemäß ausgerichtet ist, kann eine Ausführungsform gleichermaßen einen Korrekturtipp oder eine Korrekturanweisung für den Benutzer bereitstellen.
Wie hier beschrieben, stellt eine Ausführungsform somit ein Gestenerkennungssystem bereit, das für einen Benutzer Vorschläge/Tipps diesbezüglich bereitstellt, wie eine Anpassung vorzunehmen ist, und/oder das System oder Komponenten davon, zum Beispiel Kameraeinstellungen, automatisch anpasst, um das Erkennen von mehrdeutigen Gesten zu erleichtern. Außerdem kann eine Ausführungsform anhand der Gesteneingabe des Benutzers Vermutungen anstellen oder schätzen und zum Beispiel den Benutzer auffordern, die Vermutung oder Schätzung zu bestätigen.
Unter Bezugnahme auf 4 kann ein Benutzer wünschen, ein auf eines Geräts 400 wiedergegebenes Video stummzuschalten. Er versucht, eine "Stummschalten"-Geste zu verwenden, zum Beispiel das Heben eines Finger 401 zu den Lippen, aber seine Hand ist zu niedrig und zu weit vom Gesicht weg, als dass sie von der Gesteneingabekomponente, zum Beispiel der Kamera 420, erkannt werden könnte. Für gewöhnlich führt dies dazu, dass die Geste nicht erkannt wird und keinerlei Aktion durchgeführt wird.
Gemäß einer Ausführungsform und unter Bezugnahme auf 5 kann jedoch ein unterrichtendes Feedback bereitgestellt werden, auf Basis dessen, dass, auch wenn die Gesteneingabe von 4 einen oberen Niveaugrenzwert für das Durchführen einer spezifischen gestenbasierten Aktion nicht überstiegt, sie den Fuzzy-Grenzwert übersteigen kann, so dass eine Vermutung, dass eine Stummschalten-Geste versucht wird, vom System angestellt wird. Somit kann eine Ausführungsform ein unterrichtendes Feedback 503 bereitstellen, zum Beispiel in Form eines Bildes oder eines Videos auf einem Anzeigebildschirm des Geräts 500, so dass der Benutzer über die korrekte Durchführung der Geste angewiesen werden kann. Hier kann das Feedback 503 anzeigen, dass die Geste nicht erkannt wird, da das Sichtfeld nicht genug von der Hand 401 des Benutzers umfasst, und den Benutzer diesbezüglich unterrichten.
Unter Bezugnahme auf 6 kann eine Ausführungsform gleichermaßen eine Nachricht 604 in einem Anzeigefenster eines Geräts 600 bereitstellen, die den Benutzer auffordert, eine Vermutung für die versuchte Benutzergesteneingabe zu bestätigen. Beispielsweise kann eine Ausführungsform basierend darauf, dass der Benutzer zwar den unteren Konfidenzgrenzwert, aber nicht den oberen Konfidenzgrenzwert überschreitet, vermuten, dass der Benutzer die Stummschalten-Geste durchzuführen versucht und den Benutzer unter Verwendung der Nachricht 604 auffordern, diese zu bestätigen.
Anhand dieses unterrichtenden Feedbacks, wie zum Beispiel in 5 veranschaulicht, kann ein Benutzer die Geste in der korrekten Technik erneut durchführen. Eine Ausführungsform kann sich jedoch auf einen bestimmten Benutzer einstellen und sich an diesen anpassen, zum Beispiel auf bzw. an einen Benutzer, der, obwohl er weiß, dass er seine Hand höher heben sollte, dies aus einem gewissen Grund nicht tun kann (zum Beispiel Unbehagen, Verletzung usw.). Somit kann eine Ausführungsform die Gesteneingabekomponente anpassen, zum Beispiel das Sichtfeld der Kamera 720 neu ausrichten, so dass es in der Lage ist, den Finger 701 des Benutzers zu erfassen, um das Merkmal der Gesteneingabe zu extrahieren. Somit nimmt die Gerät 700 proaktiv Anpassungen vor, um die bestimmten Bedürfnisse des Benutzers bei der Durchführung von Gesten zu berücksichtigen, so dass der Benutzer gewisse Gesten technisch gesehen falsch durchführen kann und dennoch die volle Funktionalität des Systems nutzen kann.
Es wird verstanden, dass die diversen Ausführungsformen sodann ein interaktiveres und flexibleres Gestenerkennungssystem bereitstellen. Gemäß den hier beschriebenen beispielhaften Ausführungsformen ist ein Benutzer in der Lage, mit dem Gestenerkennungssystem zu interagieren, um mehr über die Verwendung des Systems zu lernen, und kann das System sich selbst anpassen, um die persönlichen Bedürfnisse diverser Benutzer zu berücksichtigen.
Wie der Fachmann verstehen wird, können diverse Aspekte als System, Verfahren oder Geräteprogrammprodukt umgesetzt sein. Demgemäß können Aspekte die Form einer gänzlich aus Hardware bestehenden Ausführungsform oder einer Ausführungsform annehmen, die Software umfasst, die hier allesamt als "Schaltung", "Modul" oder "System" bezeichnet werden können. Darüber hinaus Aspekte die Form eines Geräteprogrammprodukts annehmen, das in einem oder mehreren für Geräte lesbaren Medien umgesetzt ist, die einen für Geräte lesbaren Programmcode aufweisen.
Es sei angemerkt, dass die diversen Funktionen, die hier beschrieben sind, unter Verwendung von Anweisungen umgesetzt werden können, die auf einem für Geräte lesbaren Speichermedium wie einem Nicht-Signal-Speichergerät gespeichert sind, die von einem Prozessor ausgeführt werden. Ein Speichergerät kann zum Beispiel ein(e) elektronische(s), magnetische(s), optische(s), elektromagnetische(s), Infrarot- oder Halbleitersystem, -vorrichtung oder -gerät oder eine beliebige Kombination des Vorstehenden sein. Spezifischere Beispiele für ein Speichermedium umfassen: eine tragbare Computerdiskette, eine Festplatte, einen Direktzugriffsspeicher (RAM, Random Access Memory), einen Nur-Lese-Speicher (ROM, Read Only Memory), einen löschbaren programmierbaren Nur-Lese-Speicher (EPROM (Erasable Programmable Read Only Memory) oder Flash-Speicher), einen Lichtwellenleiter, einen tragbaren Compact-Disk-Nur-Lese-Speicher (CD-ROM, Compact Disc-Read Only Memory), ein optisches Speichergerät, ein magnetisches Speichergerät oder eine geeignete Kombination des Vorstehenden. Im Kontext dieses Dokuments ist ein Speichergerät kein Signal, und "nicht-vorübergehend" umfasst alle Medien außer Signalmedien.
Ein Programmcode, der auf einem Speichermedium umgesetzt ist, kann mithilfe eines beliebigen geeigneten Mediums übertragen werden, einschließlich drahtlos, festnetzgebunden, Glasfaserkabel, HF usw. oder einer geeigneten Kombination des Vorstehenden, ohne darauf beschränkt zu sein.
Ein Programmcode zum Ausführen von Vorgängen kann in einer beliebigen Kombination einer oder mehrerer Programmiersprachen geschrieben sein. Der Programmcode kann gänzlich auf einem einzelnen Gerät, teilweise auf einem einzelnen Gerät, als eigenständiges Softwarepaket, teilweise auf einem einzelnen Gerät und teilweise auf einem anderen Gerät oder gänzlich auf dem anderen Gerät ausgeführt werden. In manchen Fällen können die Geräte über einen beliebigen Verbindungs- oder Netzwerktyp verbunden werden, zum Beispiel ein lokales Netz (LAN) oder ein Weitverkehrsnetz (WAN), oder kann die Verbindung über andere Geräte (zum Beispiel über das Internet unter Verwendung eines Internetdienstanbieters), über Drahtlosverbindungen, zum Beispiel Nahfeldkommunikation, oder eine drahtgebundene Verbindung, zum Beispiel über eine USB-Verbindung, hergestellt werden.
Beispielhafte Ausführungsformen sind hier unter Bezugnahme auf die Figuren beschrieben, die beispielhafte Verfahren, Geräte und Programmprodukte gemäß diversen beispielhaften Ausführungsformen veranschaulichen. Es wird verstanden, dass die Aktionen und Funktionalität zumindest teilweise durch Programmanweisungen umgesetzt werden können. Diese Programmanweisungen können an einen Prozessor eines Universal-Informationshandhabungsgeräts, eines speziellen Informationshandhabungsgeräts oder eines anderen programmierbaren Rechengeräts bereitgestellt werden, um eine Maschine zu erzeugen, so dass die Anweisungen, die über einen Prozessor der Gerät ausgeführt werden, die angegebenen Funktionen/Aktionen umsetzen.
Erwähnenswert ist, dass, obwohl spezifische Blöcke in den Figuren verwendet werden und eine bestimmte Reihenfolge von Blöcken veranschaulicht ist, dies nicht-einschränkende Beispiele sind. In gewissen Kontexten können zwei oder mehr Blöcke kombiniert werden, kann ein Block in zwei oder mehr Blöcke aufgeteilt werden und können gewisse Blöcke nach Bedarf umgereiht oder umgeordnet werden, da die expliziten veranschaulichten Beispiele lediglich beschreibend sind und nicht als einschränkend auszulegen sind.
Wie hier verwendet, kann der Singular "ein/e/s/r" so ausgelegt werden, dass er den Plural "ein/e/s/r oder mehrere" umfasst, außer wenn eindeutig anderweitig angegeben.
Diese Offenbarung wurde zum Zwecke der Veranschaulichung und Beschreibung dargeboten, soll jedoch nicht erschöpfend oder einschränkend sein. Viele Modifikationen und Variationen sind für den Fachmann mit durchschnittlichem Wissen offensichtlich. Die beispielhaften Ausführungsformen wurden gewählt und beschrieben, um Grundsätze und die praktische Anwendung zu erläutern und um dem Fachmann mit durchschnittlichem Wissen zu ermöglichen, die Offenbarung für diverse Ausführungsformen mit diversen Modifikationen besser zu verstehen, wie je nach bestimmten Verwendungszweck geeignet.
Auch wenn veranschaulichende beispielhafte Ausführungsformen hier in Bezug auf die beiliegenden Figuren beschrieben wurden, wird somit verstanden, dass diese Beschreibung nicht einschränkend ist und dass vom Fachmann diverse andere Änderungen und Modifikationen daran vorgenommen werden können, ohne sich vom Umfang oder Geist der Offenbarung zu entfernen.

Claims

Verfahren, das umfasst: Erfassen, unter Verwendung einer Gesteneingabekomponente eines Informationshandhabungsgeräts, einer Benutzergesteneingabe; Verarbeiten, unter Verwendung eines Prozessors, der erfassten Benutzergesteneingabe, um eines oder mehrere Merkmale zu extrahieren; Vergleichen, unter Verwendung eines Prozessors, des einen oder der mehreren extrahierten Merkmale der Benutzergesteneingabe mit einer vorab festgelegten Gesteneingabe; Ermitteln, unter Verwendung eines Prozessors, dass ein auf Basis des Vergleichs berechnetes Konfidenzniveau einen unteren Ähnlichkeitsgrenzwert überschreitet, einen oberen Ähnlichkeitsgrenzwert jedoch nicht überschreitet; und Durchführen einer Aktion, die ausgewählt wird aus der Gruppe bestehend aus Kommunizieren mit dem Benutzer und Anpassen der Benutzergesteneingabe.
Verfahren nach Anspruch 1, wobei die einen oder die mehreren extrahierten Merkmale der Benutzergesteneingabe aus der Gruppe ausgewählt werden, die besteht aus Form eines Objekts, das eine Benutzereingabe formt; Abstand zwischen einem Objekt, das die Benutzergeste formt, und der Gesteneingabekomponente; Beleuchtungszustand der erfassten Benutzergesteneingabe; und Ablenkungen, die in der erfassten Benutzergesteneingabe umfasst sind.
Verfahren nach Anspruch 1, das darüber hinaus aufweist: Ermitteln, dass das auf Basis des Vergleichs berechnete Konfidenzniveau den oberen Ähnlichkeitsgrenzwert überschreitet; und danach automatisches Durchführen einer vorab festgelegten Aktion auf Basis dessen, dass die Benutzergesteneingabe den oberen Ähnlichkeitsgrenzwert überschreitet.
Verfahren nach Anspruch 1, das darüber hinaus aufweist: Ermitteln, dass das auf Basis des Vergleichs berechnete Konfidenzniveau den unteren Ähnlichkeitsgrenzwert nicht überschreitet; und danach Durchführen keiner Aktion, basierend darauf, dass die Benutzergesteneingabe den unteren Ähnlichkeitsgrenzwert nicht überschreitet.
Verfahren nach Anspruch 1, wobei das Kommunizieren mit dem Benutzer das aktive Anfordern einer weiteren Benutzereingabe umfasst.
Verfahren nach Anspruch 5, wobei das aktive Anfordern das Auffordern eines Benutzers, eine vorab festgelegte Aktion zu bestätigen, die auf Basis des berechneten Konfidenzniveaus ausgewählt wird, umfasst.
Verfahren nach Anspruch 1, wobei das Kommunizieren mit dem Benutzer das Bereitstellen von Feedback an den Benutzer umfasst, das Vorschläge zur korrekten Durchführung einer oder mehrerer Gesteneingaben unterbreitet.
Verfahren nach Anspruch 1, wobei das Anpassen der Gesteneingabekomponente das Ändern eines Sichtfelds einer Kamera umfasst, die verwendet wird, Bilder des Benutzers zu erfassen.
Verfahren nach Anspruch 1, wobei das Kommunizieren mit dem Benutzer das Auffordern des Benutzers, eine Gesteneingabe bereitzustellen, umfasst.
Verfahren nach Anspruch 9, wobei das Auffordern des Benutzers das Unterrichten des Benutzers darüber, dass eines oder mehrere extrahierte Merkmale einer zuvor erfassten Gesteneingabe zu einem niedrigen Konfidenzniveau führen, umfasst.
Informationshandhabungsgerät, das umfasst: eine Gesteneingabekomponente; einen Prozessor, der operativ mit der Gesteneingabekomponente verbunden ist; ein Speichergerät, das Anweisungen speichert, die für den Prozessor zugänglich sind, wobei die Anweisungen durch den Prozessor ausführbar sind zum: Erfassen, unter Verwendung der Gesteneingabekomponente eines Informationshandhabungsgeräts, einer Benutzergesteneingabe; Verarbeiten der erfassten Benutzergesteneingabe, um eines oder mehrere Merkmale zu extrahieren; Vergleichen des einen oder der mehreren extrahierten Merkmale der Benutzergesteneingabe mit einer vorab festgelegten Gesteneingabe; Ermitteln, dass das auf Basis des Vergleichs berechnete Konfidenzniveau einen unteren Ähnlichkeitsgrenzwert überschreitet, einen oberen Ähnlichkeitsgrenzwert jedoch nicht überschreitet; und Durchführen einer Aktion, die ausgewählt wird aus der Gruppe bestehend aus Kommunizieren mit dem Benutzer und Anpassen der Benutzergesteneingabe.
Informationshandhabungsgerät nach Anspruch 11, wobei die einen oder die mehreren extrahierten Merkmale der Benutzergesteneingabe aus der Gruppe ausgewählt werden, die besteht aus Form eines Objekts, das eine Benutzereingabe formt; Abstand zwischen einem Objekt, das die Benutzergeste formt, und der Gesteneingabekomponente; Beleuchtungszustand der erfassten Benutzergesteneingabe; und Ablenkungen, die in der erfassten Benutzergesteneingabe umfasst sind.
Informationshandhabungsgerät nach Anspruch 11, wobei die Anweisungen darüber hinaus durch den Prozessor ausführbar sind zum: Ermitteln, dass das auf Basis des Vergleichs berechnete Konfidenzniveau den oberen Ähnlichkeitsgrenzwert überschreitet; und danach automatischem Durchführen einer vorab festgelegten Aktion auf Basis dessen, dass die Benutzergesteneingabe den oberen Ähnlichkeitsgrenzwert überschreitet.
Informationshandhabungsgerät nach Anspruch 11, wobei die Anweisungen darüber hinaus durch den Prozessor ausführbar sind zum: Ermitteln, dass das auf Basis des Vergleichs berechnete Konfidenzniveau den unteren Ähnlichkeitsgrenzwert nicht überschreitet; und danach Durchführen keiner Aktion, basierend darauf, dass die Benutzergesteneingabe den unteren Ähnlichkeitsgrenzwert nicht überschreitet.
Informationshandhabungsgerät nach Anspruch 11, wobei das Kommunizieren mit dem Benutzer das aktive Anfordern einer weiteren Benutzereingabe umfasst.
Informationshandhabungsgerät nach Anspruch 15, wobei das aktive Anfordern das Auffordern eines Benutzers, eine vorab festgelegte Aktion zu bestätigen, die auf Basis des berechneten Konfidenzniveaus ausgewählt wird, umfasst.
Informationshandhabungsgerät nach Anspruch 11, wobei das Kommunizieren mit dem Benutzer das Bereitstellen von Feedback an den Benutzer umfasst, das Vorschläge zur korrekten Durchführung einer oder mehrerer Gesteneingaben unterbreitet.
Informationshandhabungsgerät nach Anspruch 11, wobei das Anpassen der Gesteneingabekomponente das Ändern eines Sichtfelds einer Kamera umfasst, die verwendet wird, Bilder des Benutzers zu erfassen.
Informationshandhabungsgerät nach Anspruch 11, wobei das Kommunizieren mit dem Benutzer das Auffordern des Benutzers, eine Gesteneingabe bereitzustellen, umfasst, und wobei ferner das Auffordern des Benutzers das Unterrichten des Benutzers darüber, dass eines oder mehrere extrahierte Merkmale einer zuvor erfassten Gesteneingabe zu einem niedrigen Konfidenzniveau führen, umfasst.
Produkt, das umfasst: ein Speichergerät, auf der ein prozessorausführbarer Code gespeichert ist, wobei der Code umfasst: Code, der eine Benutzergesteneingabe unter Verwendung einer Gesteneingabekomponente eines Informationshandhabungsgeräts erfasst; Code, der die erste Benutzergesteneingabe unter Verwendung eines Prozessors verarbeitet, um eines oder mehrere Merkmale zu extrahieren; Code, der das eine oder die mehrere extrahierten Merkmale der Benutzergesteneingabe unter Verwendung eines Prozessors mit einer vorab festgelegten Gesteneingabe vergleicht; Code, der unter Verwendung eines Prozessors ermittelt, dass ein auf Basis des Vergleichs berechnetes Konfidenzniveau einen unteren Ähnlichkeitsgrenzwert überschreitet, einen oberen Ähnlichkeitsgrenzwert jedoch nicht überschreitet; und Code, der eine Aktion durchführt, die aus der Gruppe ausgewählt ist, die aus Kommunizieren mit dem Benutzer und Anpassen der Gesteneingabekomponente besteht.