DE102013109862A1

DE102013109862A1 - Vorrichtung und Verfahren für Benutzeranbindung sowie Endgerät, das dieselben benutzt

Info

Publication number: DE102013109862A1
Application number: DE102013109862.2A
Authority: DE
Inventors: Seung Woo Nam
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2012-09-10
Filing date: 2013-09-10
Publication date: 2014-03-13
Also published as: US20140071044A1

Abstract

Bereitgestellt werden eine Vorrichtung und ein Verfahren für Benutzeranbindung sowie ein Endgerät, das dieselben benutzt. Das Benutzeranbindungsverfahren umfasst, ein Referenzbild eines für Benutzeranbindung zu benutzenden Objektes zu setzen, das für Benutzeranbindung zu benutzende Objekt aus eingegebenen benutzerbezogenen Bildern zu erkennen, tiefenbezogene Bewegung des Objektes durch Vergleichen des erkannten Objektes und des Referenzbildes zu bestimmen und eine Anwendung in Übereinstimmung mit der tiefenbezogenen Bewegung des Objektes zu betreiben. Daher ist es möglich, das Endgerät unter Verwendung von Benutzerbewegung in Bezug auf eine Distanz zwischen dem von dem Benutzer benutzten Endgerät und dem Benutzer zu steuern.

Description

ANSPRUCH AUF PRIORITÄT
Diese Anmeldung beansprucht die Prioritäten der Koreanischen Patentanmeldungen Nr. 2012-0099780 , eingereicht am 10. September 2012, und Nr. 2013-0090587 , eingereicht am 31. Juli 2013 beim Koreanischen Amt für geistiges Eigentum (KIPO), deren gesamte Inhalte durch Bezugnahme hierin aufgenommen werden.
HINTERGRUND
1. Technisches Gebiet
Ausführungsbeispiele der vorliegenden Erfindung beziehen sich auf Benutzeranbindung und insbesondere auf eine Vorrichtung und ein Verfahren, Benutzeranbindung an ein mobiles Endgerät unter Verwendung einer Benutzer-Geste bereitzustellen, sowie ein Endgerät, das dieselben benutzt.
2. Verwandte Technik
Eine Benutzerschnittstelle bezieht sich auf eine Vorrichtung oder Software, die zu reibungsloser Interaktion zwischen einem Benutzer und einem Gerät verhilft. Die Benutzerschnittstelle wird hauptsächlich zum Beispiel bei Computern, elektronischen Geräten, Industrieanlagen und Heimgeräten benutzt und hilft dem Benutzer, mit einem entsprechenden Gerät zu interagieren.
Beispiele für typische Benutzerschnittstellen umfassen eine Befehlszeilenschnittstelle, bei der der Benutzer unter Verwendung einer Tastatur einen Befehl eingibt, um ein Programm zu betreiben, eine menübetriebene Schnittstelle, bei der der Benutzer ein Menü auswählt, um ein Programm zu betreiben, und eine grafische Benutzerschnittstelle, bei der der Benutzer unter Verwendung eines Zeigegerätes wie z. B. eines Lichtstiftes, einer Maus, einer Steuerkugel und eines Joysticks ein Grafikanzeigeprogramm betreibt.
Aufgrund der Weiterentwicklung der Technik gibt es immer mehr natürliche und intuitive Benutzerschnittstellen zwischen dem Benutzer und dem Gerät, die sich von konventionellen typischen Typen lösen. Ein repräsentatives Beispiel für eine derartige Schnittstelle ist eine 3D-Benutzerschnittstelle.
Kinect^TM von Microsoft, eine von 3D-Benutzerschnittstellen, ermöglicht Spiele und Unterhaltungsdienste durch Erkennen einer Benutzer-Geste ohne Verwendung eines Steuergerätes. Als eine Ganzkörpergeste für Interaktion zwischen Inhalt und dem Benutzer, bevor der Inhalt startet, ist Kinect dafür eingerichtet, eine Anfangsgeste des Benutzers zu machen, zum Beispiel, beide Hände zu heben.
Jedoch haben Benutzerschnittstellen, die neben Kinect für ein mobiles Endgerät benutzt werden, Einschränkungen in der Interaktion mit 3D-Inhalt(-Anwendung) in Übereinstimmung mit der Benutzer-Geste. Insbesondere gibt es viele Einschränkungen aufgrund eines Erkennungsbereichs des Benutzers und einer Anzeigegröße des mobilen Endgerätes, so dass es schwierig zu benutzen ist.
Dementsprechend ist es notwendig, eine Benutzerschnittstelle bereitzustellen, die für das mobile Endgerät geeigneter und natürlicher ist.
KURZE DARSTELLUNG
Dementsprechend werden Ausführungsbeispiele der vorliegenden Erfindung bereitgestellt, um eines oder mehrere Probleme aufgrund von Einschränkungen und Nachteilen der verwandten Technik zu beseitigen.
Ausführungsbeispiele der vorliegenden Erfindung stellen ein Anbindungsverfahren zwischen einem Endgerät, das von einem Benutzer benutzt wird, und dem Benutzer bereit.
Ausführungsbeispiele der vorliegenden Erfindung stellen auch eine Benutzerschnittstellenvorrichtung bereit, die das obige Anbindungsverfahren benutzt.
Ausführungsbeispiele der vorliegenden Erfindung stellen auch ein Endgerät bereit, das die obige Benutzerschnittstelle enthält.
In manchen Ausführungsbeispielen umfasst ein Benutzeranbindungsverfahren, ein Referenzbild eines für Benutzeranbindung zu benutzenden Objektes zu setzen, das für Benutzeranbindung zu benutzende Objekt aus eingegebenen benutzerbezogenen Bildern zu erkennen, tiefenbezogene Bewegung des Objektes durch Vergleichen des erkannten Objektes und des Referenzbildes zu bestimmen und eine Anwendung in Übereinstimmung mit der tiefenbezogenen Bewegung des Objektes zu betreiben.
Das für Benutzeranbindung zu benutzende Objekt kann ein Teil des Körpers eines Benutzers sein.
Der Teil des Körpers des Benutzers kann mindestens eines von Hand, Finger, Handfläche, Gesicht, Lippen, Nase, Augen und Kopf des Benutzers umfassen.
Das Bestimmen der tiefenbezogenen Bewegung des Objektes durch Vergleichen des erkannten Objektes und des Referenzbildes kann umfassen, eine tiefenbezogene Position des Objektbildes durch Vergleichen einer Größe des in den eingegebenen benutzerbezogenen Bildern erkannten Objektbildes und einer Größe des Referenzbildes zu bestimmen.
Die Größe des in den eingegebenen benutzerbezogenen Bildern erkannten Objektbildes kann durch eine Breite, Länge oder Fläche des Bildes definiert sein.
Das Setzen des Referenzbildes des für Benutzeranbindung zu benutzenden Objektes kann umfassen, einen Teil des Körpers des Benutzers als ein Objekt des Referenzbildes zu setzen, von einer Kamera eingegebene Bilder, die mit dem gesetzten Teil des Körpers des Benutzers verknüpft sind, und virtuelle Grafik, die mit dem Referenzbild verknüpft ist, zu vereinigen und das Resultat anzuzeigen, die von der Kamera eingegebenen, mit dem gesetzten Teil des Körpers des Benutzers verknüpften Bilder und die virtuelle Grafik anzupassen und die Bilder, die mit einem Teil des Körpers des Benutzers verknüpft sind, der in der virtuellen Grafik angepasst ist, als das Referenzbild zu speichern.
Das Erkennen des für Benutzeranbindung zu benutzenden Objektes aus eingegebenen benutzerbezogenen Bildern kann umfassen, mit dem Objekt verknüpfte Merkmale in von einer Kamera eingegebenen Gesamtbildern zu extrahieren.
Die tiefenbezogene Bewegung kann eine Bewegung in Bezug auf eine Distanz zwischen einer Kamera und einem als das Objekt gesetzten Teil des Körpers eines Benutzers sein.
In Übereinstimmung mit einem weiteren Aspekt der Erfindung kann das Benutzeranbindungsverfahren auch eine Bewegung in einer Ebenenrichtung (oder einer Horizontalrichtung) in Bezug auf die Kamera zusätzlich zu der tiefenbezogenen Bewegung des Benutzers zur Benutzeranbindung sein.
In anderen Ausführungsbeispielen umfasst eine Benutzerschnittstellenvorrichtung eine Empfangseinheit, die dafür eingerichtet ist, benutzerbezogene Bilder zu empfangen, eine Merkmalsextraktionseinheit, die dafür eingerichtet ist, für Benutzeranbindung zu benutzende objektbezogene Bilder aus eingegebenen benutzerbezogenen Bildern zu extrahieren, eine Gestenerkennungseinheit, die dafür eingerichtet ist, tiefenbezogene Bewegung des Objektes durch Vergleichen der extrahierten objektbezogenen Bilder und eines Referenzbildes zu bestimmen, und eine Inhaltsbetriebseinheit, die dafür eingerichtet ist, Inhalt in Übereinstimmung mit der tiefenbezogenen Bewegung des Objektes zu betreiben.
In diesem Fall kann die Bewegung des Objektes die tiefenbezogene Bewegung und Bewegung in einer Ebenenrichtung umfassen.
Die Benutzerschnittstellenvorrichtung kann weiterhin eine Anzeigeeinheit umfassen, die dafür eingerichtet ist, das von der Gestenerkennungseinheit bereitgestellte extrahierte objektbezogene Bild und das Referenzbild zu vereinigen und das Resultat anzuzeigen.
Das für Benutzeranbindung zu benutzende Objekt kann ein Teil des Körpers eines Benutzers sein.
Der Teil des Körpers des Benutzers kann mindestens eines von Hand, Finger, Handfläche, Gesicht, Lippen, Nase, Augen und Kopf des Benutzers sein.
Die Gestenerkennungseinheit kann eine tiefenbezogene Position des Objektbildes durch Vergleichen einer Größe des in den eingegebenen benutzerbezogenen Bildern erkannten Objektbildes und einer Größe des Referenzbildes bestimmen.
Die Größe des in den eingegebenen benutzerbezogenen Bildern erkannten Objektbildes kann durch eine Breite, Länge oder Fläche des Bildes definiert sein.
Die tiefenbezogene Bewegung kann eine Bewegung in Bezug auf eine Distanz zwischen einer Kamera und einem als das Objekt gesetzten Teil des Körpers eines Benutzers sein.
Das Referenzbild kann das in die Kamera eingegebene Objektbild, wenn das für Benutzeranbindung zu benutzende Objekt an einem Referenzpunkt positioniert ist, sein.
In noch weiteren Ausführungsbeispielen enthält ein Endgerät eine Benutzerschnittstelleneinheit, die dafür eingerichtet ist, für Benutzeranbindung zu benutzende objektbezogene Bilder aus eingegebenen benutzerbezogenen Bildern zu extrahieren, tiefenbezogene Bewegung des Objektes durch Vergleichen der extrahierten objektbezogenen Bilder und eines Referenzbildes zu bestimmen und Inhalt in Übereinstimmung mit der tiefenbezogenen Bewegung des Objektes zu betreiben, und eine Datenspeichereinrichtung, die dafür eingerichtet ist, ein für Benutzeranbindung zu benutzendes objektbezogenes Referenzbild zu speichern.
Die Benutzerschnittstelleneinheit kann dafür eingerichtet sein, Grafik, die mit einem als ein Objekt des Referenzbildes benutzten Teil des Körpers des Benutzers verknüpft ist, und ein von einer Kamera eingegebenes aktuelles Bild des Objektes zu vereinigen und das Resultat anzuzeigen, und das zu der Grafik passende Objektbild als das Referenzbild zu setzen, wenn das von der Kamera eingegebene Objektbild zu der Grafik passt.
In Übereinstimmung mit der oben beschriebenen Erfindung ist es möglich, das Endgerät unter Verwendung von Benutzerbewegung in Bezug auf eine Distanz zwischen dem von dem Benutzer benutzten Endgerät und dem Benutzer zu steuern, und der Benutzer kann ein elektronisches Gerät freier benutzen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Ausführungsbeispiele der vorliegenden Erfindung ergeben sich noch deutlicher durch detaillierte Beschreibung von Ausführungsbeispielen der vorliegenden Erfindung unter Bezugnahme auf die beigefügten Zeichnungen, in denen:
1 ein Blockdiagramm ist, das eine Konfiguration einer Benutzerschnittstellenvorrichtung in Übereinstimmung mit der Erfindung zeigt.
2 ein Konzeptdiagramm ist, das Arbeitsgänge eines Benutzeranbindungsverfahrens in Übereinstimmung mit der Erfindung zeigt.
3 ein Flussdiagramm ist, das Arbeitsgänge eines Referenzbild-Setzverfahrens für Gestenerkennung in Übereinstimmung mit der Erfindung zeigt.
4 ein Flussdiagramm ist, das Arbeitsgänge des Benutzeranbindungsverfahrens in Übereinstimmung mit der Erfindung zeigt.
5 ein Blockdiagramm ist, das eine Konfiguration eines Endgerätes in Übereinstimmung mit der Erfindung zeigt.
BESCHREIBUNG VON AUSFÜHRUNGSBEISPIELEN
Obwohl die Erfindung für verschiedene Modifizierungen und alternative Formen empfänglich ist, sind spezielle Ausführungsformen davon anhand von Beispielen in den Zeichnungen gezeigt und werden hierin im Detail beschrieben. Selbstverständlich besteht aber keine Absicht, die Erfindung auf die offenbarten besonderen Formen zu beschränken, sondern im Gegenteil soll die Erfindung alle Modifizierungen, Äquivalente und Alternativen abdecken, die in den Geist und Schutzbereich der Erfindung fallen.
Die hierin benutzte Terminologie dient nur zur Beschreibung von besonderen Ausführungsformen und soll die Erfindung nicht beschränken. Wie hierin benutzt, sollen die Singularformen ”ein”, ”eine, ”einer” und ”der”, ”die”, ”das” auch die Pluralformen enthalten, außer der Kontext zeigt klar etwas anderes an. Es ist weiterhin selbstverständlich, dass die Begriffe ”umfasst”, ”umfassend”, ”enthält” und/oder ”enthaltend”, wenn hierin benutzt, das Vorhandensein von angegebenen Merkmalen, ganzen Zahlen, Schritten, Tätigkeiten, Elementen und/oder Komponenten spezifizieren, aber nicht das Vorhandensein oder die Hinzufügung von einem oder mehreren weiteren Merkmalen, ganzen Zahlen, Schritten, Arbeitsgängen, Elementen, Komponenten und/oder Gruppen davon ausschließen.
Wenn nicht anders definiert, haben alle hierin benutzten Begriffe (einschließlich technischer und wissenschaftlicher Begriffe) die gleiche Bedeutung wie sie ein Fachmann, auf den sich diese Erfindung bezieht, gewöhnlich versteht. Es ist weiterhin selbstverständlich, dass Begriffe wie jene, die in gewöhnlich benutzten Wörterbüchern definiert sind, so zu interpretieren sind, dass sie eine Bedeutung haben, die mit ihrer Bedeutung im Kontext der relevanten Technik konsistent ist, und nicht in einem idealisierten oder allzu sehr formalen Sinn zu interpretieren sind, wenn hierin nicht ausdrücklich so definiert.
Die hierin benutzte Terminologie ist durch Betrachten einer Funktion in den Ausführungsformen definiert, und Bedeutungen können variieren, zum Beispiel in Abhängigkeit von Absichten oder Kunden eines Benutzers oder Betreibers. Daher sind die Bedeutungen von in den Ausführungsformen benutzten Begriffen auf Basis des Schutzbereichs in der ganzen Beschreibung zu interpretieren.
Der in der vorliegenden Beschreibung benutzte Begriff ”Endgerät” kann sich auf eine Mobilstation (MS), eine Benutzerausrüstung (UE), ein Benutzerendgerät (UT), ein Drahtlos-Endgerät, ein Zugangs-Endgerät (AT), ein Endgerät, eine Teilnehmereinheit, eine Teilnehmerstation (SS), ein Drahtlos-Gerät, ein Drahtloskommunikationsgerät, eine Drahtlos-Sende-/-empfangseinheit (WTRU), einen Mobilknoten, ein Mobiltelefon oder andere Begriffe beziehen.
Verschiedene Ausführungsformen des Endgerätes können ein Zellulartelefon, ein Smartphone mit einer Drahtloskommunikationsfunktion, einen persönlichen digitalen Assistenten (PDA) mit einer Drahtloskommunikationsfunktion, ein Drahtlosmodem, einen portablen Computer mit einer Drahtloskommunikationsfunktion, einen Fotoapparat wie z. B. eine Digitalkamera mit einer Drahtloskommunikationsfunktion, einen Spieleapparat mit einer Drahtloskommunikationsfunktion, ein Musikspeicher- und -abspiel-Elektronikerzeugnis mit einer Drahtloskommunikationsfunktion, ein Internet-Elektronikerzeugnis, das drahtlosen Internetzugang und Browsen ermöglicht, und eine portable Einheit oder Endgeräte, die Kombinationen von entsprechenden Funktionen integrieren, umfassen, doch soll dies nicht beschränkend sein.
Nachfolgend werden Ausführungsbeispiele der vorliegenden Erfindung unter Bezugnahme auf die beigefügten Zeichnungen im Detail beschrieben. Um das Gesamtverständnis der Erfindung zu erleichtern, bezeichnen gleiche Bezugszeichen in den Zeichnungen gleiche Elemente, und daher wird deren Beschreibung nicht wiederholt.
Die Erfindung bezieht sich auf eine Technik, eine Benutzerschnittstelle, die Tiefeninformationen benutzt, zwischen einem Endgerät und einem Benutzer bereitzustellen, und stellt insbesondere ein Verfahren bereit, Tiefeninformationen durch Kalibrierung unter Verwendung von Merkmalen eines Teils des Körpers des Benutzers zu gewinnen, bevor Inhalt oder eine Anwendung startet.
Um dreidimensional mit dem in einem mobilen Endgerät betriebenen Inhalt (Anwendung) zu interagieren, ist Initialisierung notwendig, bevor der Inhalt startet. Zum Beispiel wird angenommen, dass der von einer in dem mobilen Endgerät eingebauten Kamera erfasste Finger des Benutzers benutzt wird, um mit dem Inhalt zu interagieren. Wird in diesem Fall ein Tiefenwert in Übereinstimmung mit einer Größe des Fingers erkannt und für Benutzeranbindung benutzt, ist es auch notwendig, Informationen über eine Fingergröße zu initialisieren, bevor der Inhalt startet (zum Beispiel wird bei Kinect Inhalt betrieben, indem eine Anfangsgeste des Benutzers, beide Hände zu heben, erkannt wird), da jeder Benutzer andere Fingergrößen hat und sich eine Größe des Fingers in Übereinstimmung mit einer Distanz zwischen der in dem mobilen Endgerät eingebauten Kamera und dem Finger des Benutzers ändert.
Durch Erweitern der Interaktion wird ein anderer Teil eines Körpers neben dem Finger des Benutzers benutzt, um in einer Z-Richtung (einer Distanz zwischen einer Kamera und einem Benutzer) anzubinden. Zum Beispiel kann ein Gesicht oder eine Pupille des Benutzers benutzt werden. Auch in diesem Fall muss initialisiert werden, zum Beispiel eine Größe des Gesichts, eine Distanz zwischen Augen und eine Anfangsposition der Pupille.
Daher stellt die Erfindung auch ein Initialisierungsverfahren für Benutzeranbindung bereit.
1 ist ein Blockdiagramm, das eine Konfiguration einer Benutzerschnittstellenvorrichtung in Übereinstimmung mit der Erfindung zeigt.
Die Benutzerschnittstellenvorrichtung in Übereinstimmung mit der Erfindung kann in verschiedenen Endgeräten eingebettet oder eingebaut sein, die von dem Benutzer benutzt werden.
Unten zu beschreibende Komponenten sind durch eine funktionelle Einstufung und nicht durch eine physische Einstufung definiert und können durch die von jeder Komponente durchgeführten Funktionen definiert sein. Jede der Komponenten kann durch Hardware und/oder einen Programmcode, die jede Funktion durchführen, und eine Verarbeitungseinheit realisiert werden, und Funktionen von zwei oder mehr Komponenten können in einer Komponente enthalten sein. Daher soll ein der Komponente in der Ausführungsform gegebener Name eine stellvertretende Funktion implizieren, die von jeder Komponente durchgeführt wird, und nicht jede Komponente physisch unterscheiden. Man beachte, dass der technische Schutzbereich der Erfindung nicht auf den Namen der Komponente beschränkt ist.
In 1 kann die Benutzerschnittstellenvorrichtung 100 in Übereinstimmung mit der Ausführungsform der Erfindung eine Kameraempfangseinheit 110, eine Merkmalsextraktionseinheit 120, eine Gestenerkennungseinheit 130, eine Inhaltsbetriebseinheit 140 und eine Anzeigeeinheit 150 enthalten.
In die Kameraempfangseinheit 110 eingegebene Bilder können alle von einem Bildsensor und einem Laufzeitsensor (TOF-Sensor) eingegebenen Bilder umfassen. Die in der Kameraempfangseinheit 110 empfangenen Bilder können auch ein RGB-Bild, eine Tiefenkarte und ein Infrarotbild umfassen.
Der Bildsensor ist hier ein Bilddetektorelement, zum Beispiel ein ladungsgekoppeltes Bauelement (CCD). In dem CCD sind 100.000 oder mehr Detektorelemente in einem Chip von Münzgröße vorgesehen, und auf einer Chipoberfläche fokussierte Bilder werden in jedem Element als ein Ladungspaket akkumuliert. Dieses Paket wird durch einen Ladungsübertragungsmechanismus mit hoher Geschwindigkeit ausgegeben, wird umgewandelt und wird dann als ein Bild angezeigt. Die Elemente in dem CCD dienen als ein Detektor-Array, und eine Fläche davon wird untergeteilt und zum Beispiel für Akkumulation und Ausgabe benutzt.
Der TOF-Sensor wird allgemein benutzt, um eine Tiefe bei einer 3D-Kamera zu messen. Eine Distanz von einem Gegenstand wird berechnet, indem eine Zeit gemessen wird, die vom Senden von Licht (Infrarotwellenlänge) bis zum Empfang der von dem Gegenstand reflektierten Signale verstrichen ist. Eine auf TOF basierende Tiefenkamera kann nur schwer einen Lichtimpuls erzeugen und misst eine Tiefe durch Erkennen einer Phasendifferenz von reflektierten Wellen aufgrund von hoher Geschwindigkeit in dem Sensor.
Die Merkmalsextraktionseinheit 120 extrahiert Bilder, die mit einem bestimmten Teil des Körpers des Benutzers verknüpft sind, z. B. Augen, Kopf, Gesicht, Hand und Finger, um für Gestenerkennung in Übereinstimmung mit der Erfindung benutzt zu werden, aus den von der Kameraempfangseinheit 110 eingegebenen Bildern.
In Übereinstimmung mit der Ausführungsform der Erfindung detektiert die Merkmalsextraktionseinheit 120 die beiden Augen des Benutzers aus den eingegebenen Bildern und extrahiert eine Distanz zwischen den beiden Augen (einschließlich Pupillen) als ein Merkmal eines entsprechenden Bildes. Überdies detektiert die Merkmalsextraktionseinheit 120 eine Fingerfläche aus den eingegebenen Bildern, extrahiert Informationen über eine Länge und Dicke des Fingers und übergibt das Resultat der Gestenerkennungseinheit 130. Die Gestenerkennungseinheit 130 benutzt daher ein entsprechendes Merkmal.
Bevor der Benutzer den Inhalt oder die Anwendung betreibt, stellt die Gestenerkennungseinheit 130 der Anzeigeeinheit 150 Grafikinformationen über virtuelle Referenzbilder bereit, die mit den von der Kamera eingegebenen Bildern verknüpft sind. Die Gestenerkennungseinheit 130 stellt der Anzeigeeinheit 150 außerdem ein von der Kamera eingegebenes aktuelles Farb- oder Schwarzweißbild oder aus dem aktuellen Bild extrahierte Merkmalsflächenbilder bereit. In diesem Fall kann das von der Kamera eingegebene Farb- oder Schwarzweißbild zum Beispiel eine Tiefenkarte oder ein Infrarotbild sein.
In einem Arbeitsgang, ein Referenzbild für Kalibrierung zu setzen, stellt die Gestenerkennungseinheit 130 den Zoom der Kamera automatisch so ein, dass ein Umriss von virtueller Grafik zu Augenumrissen passt, die als ein Objekt des eingegebenen Bildes an den aktuellen Augenpositionen des Benutzers benutzt werden. Andererseits, wenn der Benutzer die Distanz so einstellt, dass sie zu virtuellen Positionen der beiden Augen passt, ist es möglich, das als das Referenzbild zu benutzende Merkmal des Benutzers zu erkennen, wenn der Benutzer oder ein Teil des Körpers des Benutzers an einem Referenzpunkt positioniert sind. In diesem Fall wird als der Referenzpunkt ein eingestellter Zoom oder eine Position des Benutzers oder eines Teils des Körpers des Benutzers benutzt. Wenn der Zoom nicht benutzt wird, passt der Benutzer direkt einen Teil des Körpers an den Umriss der virtuellen Grafik an, setzt den Referenzpunkt eines zu erkennenden Objektes und speichert ein Objektbild.
Wenn sich der Benutzer von der Kamera weg bewegt, wird die Distanz zwischen den beiden Augen des Benutzers dementsprechend kleiner. Wenn sich der Benutzer näher zu der Kamera bewegt, wird die Distanz zwischen den beiden Augen des Benutzers dementsprechend größer. Diese Änderungen können für Anbindung zwischen dem Inhalt und dem Benutzer benutzt werden.
In einer anderen Ausführungsform der Erfindung kann ein Verfahren benutzt werden, beide Eckpunkte der Lippen des Benutzers zu benutzen. Wenn beide Eckpunkte der Lippen benutzt werden, wird eine Distanz zwischen der Kamera und dem Benutzer mittels einer Distanz zwischen einem ersten Punkt und einem zweiten Punkt berechnet. Wenn die Distanz zwischen den zwei Punkten größer wird, wird die Distanz zwischen der Kamera und dem Benutzer kleiner. Diese Änderung kann für Benutzeranbindung benutzt werden.
In noch einer anderen Ausführungsform der Erfindung kann der Finger als das Merkmal benutzt werden. In diesem Fall werden in der Kamera empfangene Bilder und eine Dicke oder Länge des als eine Referenz dienenden Fingers grafisch vereinigt und angezeigt.
2 beschreibt die folgenden Arbeitsgänge im Detail. Der Benutzer passt seinen eigenen Finger, das heißt, eine Länge oder Dicke eines aktuellen Fingerbildes, und eine Position von virtueller Grafik an. Wenn das aktuelle Fingerbild des Benutzers zu der Position der virtuellen Grafik passt, wird die Position des Fingers des Benutzers als eine Referenzposition benutzt, und eine Distanz zwischen der Kamera und dem Finger des Benutzers wird als eine Referenzdistanz benutzt. In diesem Fall können in Abhängigkeit von Eigenschaften der Kamera Daten für Kalibrierung vorher gespeichert werden.
Wenn sich die Position des Fingers des Benutzers in Bezug auf die Referenzdistanz näher zu der Kamera bewegt, wird eine Dicke des in die Kamera eingegebenen Bildes des Fingers des Benutzers größer, und seine Länge wird größer. Andererseits, wenn sich die Position des Fingers des Benutzers weiter als die Referenzdistanz von der Kamera weg bewegt, wird die Dicke des Fingers kleiner, und seine Länge wird kleiner.
Wenn diese Änderungen benutzt werden, ist es möglich, die Distanz zwischen der Kamera und dem Benutzer aus dem in die Kamera eingegebenen Bild des Körpers des Benutzers wie z. B. des Fingers oder der Augen zu berechnen.
Die Anzeigeeinheit 150 vereinigt das von der Kamera eingegebene, in der Gestenerkennungseinheit 130 bereitgestellte Bild und mit dem Referenzbild verknüpfte virtuelle Grafik und zeigt das Resultat an.
Beispiele für 3D-Anzeigeverfahren in der Anzeigeeinheit können hier ein stereoskopisches Verfahren, bei dem unterschiedliche Bilder jeweils in linke und rechte Augen eingegeben werden, so dass der Benutzer eine Empfindung von drei Dimensionen bekommt, und ein Bewegungsparallaxenverfahren sein, bei dem sich eine Distanz eines Objektes und ein Betrag der Bewegung nach links und rechts in Übereinstimmung mit dem Blickpunkt des Benutzers ändern.
Indessen ist die Tiefenkarte einer von wichtigen Faktoren, um 3D-Bilder darzustellen, und stellt eine Distanz zwischen einem in einem 3D-Raum positionierten Objekt und einer das Objekt erfassenden Kamera in Schwarzweiß- oder Farbeinheiten dar. Zum Beispiel, wenn die Tiefenkarte als Schwarzweiß dargestellt ist und sich das Objekt näher zu der Kamera bewegt, wird die Farbe weiß, und wenn sich das Objekt weiter weg von der Kamera bewegt, wird die Farbe schwarz. Allgemein, wenn linke und rechte Augen eines Menschen ein stereoskopisches Objekt beobachten, werden durch linke und rechte Augen eines Beobachters etwas unterschiedliche Stücke von Bildinformationen beobachtet, da das Objekt in etwas unterschiedlichen Positionen beobachtet wird. Der Beobachter kombiniert diese etwas unterschiedlichen Stücke von Bildinformationen, gewinnt Tiefeninformationen über ein stereoskopisches Objekt und bekommt dann daraus eine Empfindung von drei Dimensionen.
Wenn die Anzeigeeinheit 150 anzeigt, so dass das aktuelle Bild und das Referenzbild grafisch vereinigt werden, kann außerdem ein Verfahren für erweiterte Realität (AR = Augmented Reality) zum Anzeigen benutzt werden.
Das AR-Verfahren ist eine Technik zum Anzeigen eines virtuellen 3D-Objektes, um in einer realen Welt des Benutzers überlappt zu erscheinen, und bezieht sich auf eine Technik zum Kombinieren und Hinzufügen eines virtuellen Objektes und durch Computertechnik erzeugter Informationen zu der realen Welt. Da eine virtuelle Welt mit zusätzlichen Informationen in Echtzeit zu der realen Welt kombiniert wird, um sie als ein Bild anzuzeigen, wird sie auch gemischte Realität genannt. In der Technik virtueller Realität ist es schwierig, eine reale Umgebung zu sehen, da dem Benutzer erlaubt wird, in eine durch Computergrafik erzeugte virtuelle Umgebung einzutauchen. In der AR-Technik ist es dem Benutzer jedoch möglich, mit realistischeren zusätzlichen Informationen als die reale Umgebung versehen zu werden, da das virtuelle Objekt in die reale Umgebung gemischt wird,
Die Inhaltsbetriebseinheit 140 erkennt die Absicht des Benutzers in Übereinstimmung mit einem Distanzwert des Benutzers in den von der Gestenerkennungseinheit 130 ausgegebenen Informationen und steuert entsprechenden Inhalt in Übereinstimmung mit der erkannten Absicht des Benutzers.
Das heißt, wenn der Benutzer eine Referenzposition einer Hand oder des Gesichts anpasst oder der Kamera-Zoom automatisch angepasst wird und dadurch eine Kalibrierung beendet wird und das Referenzbild gesetzt wird, wird eine Dicke oder Länge der Hand dementsprechend kleiner, wenn sich ein dem Referenzbild entsprechender Teil des Körpers des Benutzers weiter weg von der Referenzposition bewegt. Daher wird detektiert, dass sich die Hand weiter weg von der Kamera bewegt, und entsprechender Inhalt kann gesteuert werden.
Zum Beispiel, wenn sich die Hand des Benutzers weiter weg von der Kamera bewegt, kann eine Größe eines Piktogramms des entsprechenden Inhalts verkleinert werden. Andererseits, wenn sich die Hand des Benutzers von der Referenzposition näher zu der Kamera bewegt, wird eine Dicke oder Länge der Hand größer. Daher kann diese Änderung benutzt werden, um den Inhalt zu steuern. Zum Beispiel, wenn sich die Hand des Benutzers näher zu der Kamera bewegt, kann die Größe des Piktogramms des entsprechenden Inhalts vergrößert werden.
2 ist ein Konzeptdiagramm, das Arbeitsgänge eines Benutzeranbindungsverfahrens in Übereinstimmung mit der Erfindung zeigt.
In Übereinstimmung mit der in 2 gezeigten Erfindung wird in stereoskopischem 3D-Inhalt oder holografischem Inhalt die Distanz zwischen der Kamera und dem Benutzer, zum Beispiel die Distanz zwischen der Kamera und dem Finger des Benutzers, in Echtzeit gemessen, um stereoskopischen Inhalt oder eine Anwendung mit einer Tiefe zu steuern.
Mit anderen Worten, es ist möglich, mit x- und y-Richtungen des Benutzers in einer Ebenenrichtung, welche senkrecht zu der Kamera ist, und einer z-Richtung, welche eine Distanzrichtung von der Kamera ist, anzubinden.
In 2 ist die Kameraempfangseinheit 110 auf einer linken Seite positioniert, und sie stellt einen Zustand da, in dem sich der Finger des Benutzers in Richtung auf eine rechte Seite weiter weg von der Kameraempfangseinheit 110 bewegt.
In 2 ist der Finger des Benutzers an drei Punkten d1, d2 und d3 positioniert. Wenn sich der Punkt von d1 nach d3 bewegt, wird selbstverständlich die Distanz von der Kameraempfangseinheit 110 größer.
Die Bilder des Fingers des Benutzers an jedem Punkt sind oberhalb der drei Punkte d1, d2 und d3 gezeigt. Wie gezeigt, stellt a1 ein Bild dar, wenn der Finger des Benutzers an d1 positioniert ist, stellt a2 ein Bild dar, wenn der Finger des Benutzers an d2 positioniert ist, und stellt a3 ein Bild dar, wenn der Finger des Benutzers an d3 positioniert ist.
In den Bildern von a1, a2 und a3 angezeigte rote gestrichelte Linien sind Grafik zum Anzeigen eines virtuellen Fingers und sind virtuelle Grafik, die mit dem Referenzbild verknüpft ist, das als eine Referenz benutzt wird, um eine Distanz (z) zwischen der Kameraempfangseinheit 110 und dem Finger des Benutzers zu berechnen.
In 2 ist eine Position d2 als eine Referenzposition oder Kalibrierungsposition gesetzt.
Nachdem der Benutzer den Finger in die Position d2 in Übereinstimmung mit der Grafik gebracht hat und die Position als die Referenzposition gesetzt hat, ist ein aktuelles Fingerbild größer als das Referenzbild in dem Bild a1, wenn der Benutzer in der Position d1 positioniert ist, die in Bezug auf die Referenzposition d1 näher als d2 ist, und ein aktuelles Fingerbild ist kleiner als das Referenzbild in dem Bild a3, wenn der Benutzer weiter weg als d2 in der Position d3 positioniert ist.
Wenn eine mathematische Methode auf das Konzept von 2 angewendet wird, wird die Distanz zwischen der Kamera und der Hand des Benutzers eine Funktion einer Dicke und Länge des Fingers.
Das heißt, in Übereinstimmung mit der Ausführungsform der Erfindung kann die Distanz zwischen der Kamera und dem Benutzer als eine Funktion einer Dicke des Fingers dargestellt werden, wie durch die folgende Gleichung 1 definiert. In diesem Fall ist die Distanz zwischen der Kamera und dem Benutzer umgekehrt proportional zur Dicke des Fingers. z = f(Δx) Gleichung 1
Hier zeigt z eine Distanz zwischen einer Kamera und einem Finger des Benutzers an, und Δx zeigt eine Dicke des Fingers an.
In Übereinstimmung mit einer anderen Ausführungsform der Erfindung kann die Distanz zwischen der Kamera und dem Finger des Benutzers als eine Funktion einer Länge des Fingers dargestellt werden, wie durch die folgende Gleichung 2 definiert. In diesem Fall ist die Distanz zwischen der Kamera und dem Benutzer umgekehrt proportional zur Länge des Fingers. z = f(Δy) Gleichung 2
Hier zeigt z eine Distanz zwischen einer Kamera und einem Finger des Benutzers an, und Δy zeigt eine Länge des Fingers an.
In den obigen Beispielen kann eine Größe des Bildes in Übereinstimmung mit der Erfindung durch eine Breite oder Länge des Bildes definiert sein, und eine Größe des in Übereinstimmung mit der Erfindung für Benutzeranbindung erkannten Bildes kann zum Beispiel durch eine Breite, Länge oder Fläche des Bildes definiert sein.
3 ist ein Flussdiagramm, das Arbeitsgänge eines Referenzbild-Setzverfahrens für Gestenerkennung in Übereinstimmung mit der Erfindung zeigt.
In 3 wird das Verfahren zum Setzen eines Referenzbildes, das als eine Referenz für Gestenerkennung des Benutzers benutzt wird, beschrieben, das für Benutzeranbindung in Übereinstimmung mit der Erfindung benutzt wird.
Das als die Referenz für Gestenerkennung in Übereinstimmung mit der Erfindung benutzte Bild kann Bilder von verschiedenen Teilen des Körpers des Benutzers umfassen, zum Beispiel von einem Finger, beiden Augen, Mund und Kopf, die benutzt werden können, um eine Distanz in Übereinstimmung mit der Bewegung des Benutzers zu detektieren.
Das als die Referenz bei Gestenerkennung in Übereinstimmung mit der Erfindung benutzte Bild kann Bilder von zum Beispiel einem Finger, Hand, Handfläche, Gesicht, Lippen, Nase, beiden Augen, einem Auge (zum Beispiel kann eine Länge eines Auges als ein Merkmal benutzt werden) und Kopf als ein Teil des Körpers des Benutzers umfassen.
Um das Referenzbild in Übereinstimmung mit der Erfindung zu setzen, werden zuerst Bilder eingegeben, die mit einem Objekt verknüpft sind, das als die Referenz zu benutzen ist (S210). Das Objekt kann hier ein Benutzer oder ein Teil des Körpers des Benutzers sein.
Danach wird das als die Referenz zu benutzende Objekt aus den eingegebenen Bildern extrahiert. In diesem Fall kann das als die Referenz zu benutzende Objekt vorher durch eine entsprechende Anwendung oder durch den Benutzer bestimmt werden. In diesem Fall kann das Objekt durch ein Verfahren extrahiert werden, bei dem ein Merkmal aus vollständigen eingegebenen Bildern extrahiert wird und ein Objektbild mit Fokus auf das Objekt extrahiert wird.
Das Benutzeranbindungsverfahren in Übereinstimmung mit der Erfindung zeigt das eingegebene Bild an und zeigt Bilder an, so dass virtuelle Grafik, die mit dem Referenzbild zusammenpasst, das eingegebene Bild überlappt (S220). Wie in 2 gezeigt, kann in diesem Fall die Grafik mit gestrichelten Linien angezeigt oder mit dem darauf überlappten eingegebenen Bild als ein transparentes Bild angezeigt werden, um für den Benutzer oder das Endgerät leicht erkennbar zu sein.
Danach wird eine Tiefeneinstellung des Objektes durchgeführt (S230). Die Tiefeneinstellung kann hier so durchgeführt werden, dass der Benutzer die angezeigte virtuelle Grafik sieht und das für die Benutzeranbindung zu benutzende Objekt vor oder zurück, das heißt, in einer vertikalen Richtung, in Bezug auf die Kamera bewegt. Die Tiefeneinstellung kann von dem Endgerät unter Verwendung des Kamera-Zooms, der in dem Endgerät eingebaut ist, das Benutzeranbindung in Übereinstimmung mit der Erfindung bereitstellt, auch automatisch durchgeführt werden.
Das Endgerät bestimmt, ob das Objekt des eingegebenen Bildes mit einer Größe oder Fläche einer durch Führung mit der virtuellen Grafik definierten Bildform zusammenpasst (S240).
In diesem Fall kann die virtuelle Grafik als gestrichelte Linien dargestellt werden, die Umrisse des Bildes umgeben, oder kann mit dem Objekt des eingegebenen Bildes angezeigt werden, das als ein transparentes Bild darauf überlappt ist, oder kann als verschiedene Typen dargestellt werden.
Der Benutzer des Endgerätes kann hier bestimmen, ob das eingegebene Objektbild zu einer Größe oder Fläche einer durch die virtuelle Grafik definierten Bildform passt. Zum Beispiel kann der Benutzer einen O.K.-Knopf drücken, wenn bestimmt wird, dass die zwei Bilder ausreichend zusammenpassen, oder das Endgerät kann automatisch ein O.K.-Signal ausgeben, wenn bestimmte Bedingungen erfüllt sind.
Wird bestimmt, dass das eingegebene Objektbild zu der durch die virtuelle Grafik definierten Bildform passt, werden das Objektbild in dem eingegebenen Bild oder objektbezogene Informationen, zum Beispiel eine Größe, Fläche, Länge und Breite des Objektes, gespeichert (S250). Daher ist das Setzen des für Benutzeranbindung in Übereinstimmung mit der Erfindung zu benutzenden Referenzbildes beendet.
4 ist ein Flussdiagramm, das Arbeitsgänge des Benutzeranbindungsverfahrens in Übereinstimmung mit der Erfindung zeigt.
In der folgenden Beschreibung einer Ausführungsform kann zwar jeder Arbeitsgang, der das Verfahren der Erfindung aufbaut, als der Arbeitsgang verstanden werden, der in einer entsprechenden Komponente in der in 1 beschriebenen Benutzerschnittstellenvorrichtung durchgeführt wird, doch ist jeder Arbeitsgang, der das Verfahren in Übereinstimmung mit der Erfindung aufbaut, auf seine eigene Funktion beschränkt, die jeden Arbeitsgang definiert. Das heißt, es ist zu beachten, dass der Gegenstand der Erfindung nicht auf einen Namen der Komponente beschränkt ist, die durch Beispiele belegt jeden Arbeitsgang durchführt.
Um Benutzeranbindung in Übereinstimmung mit der Erfindung durchzuführen, wie in den Arbeitsgängen von 3 beschrieben, sind Referenzbild-Setzprozesse zur Anbindung erforderlich.
Wenn das Setzen des Referenzbildes beendet ist, werden in die Kamera eingegebene Bilder für Benutzeranbindung empfangen (S310).
Ein Merkmal des Bildes für Benutzeranbindung wird aus dem eingegebenen Bild extrahiert (S320). Das Merkmal des Bildes in Übereinstimmung mit der Erfindung ist hier ein Teil des Körpers des Benutzers, der als ein Objekt des Referenzbildes zu benutzen ist. Verschiedene Teile des Körpers des Benutzers, die für Benutzeranbindung benutzt werden können, zum Beispiel ein Finger, beide Augen und Kopf, können benutzt werden.
Das extrahierte Bildmerkmal wird mit dem Referenzbild verglichen, das in dem Referenzbild-Setzprozess bestimmt wird, und in dem Endgerät gespeichert (S330).
Das Endgerät oder die Benutzerschnittstellenvorrichtung in Übereinstimmung mit der Erfindung betreibt Inhalt unter Verwendung von Kalibrierungsdaten, die durch Vergleichen des aktuell extrahierten Bildmerkmals und des Referenzbildes erhalten werden (S340). Zum Beispiel, wenn der Finger des Benutzers als das Referenzbild benutzt wird, kann bestimmt werden, ob eine Dicke des Fingers als das aktuell extrahierte Merkmal kleiner/größer als jene des Referenzbildes ist, und daher kann das Resultat für Inhaltsbetrieb benutzt werden.
Wenn zwei oder mehr Referenzbilder für Benutzeranbindung gesetzt werden, ist die Zahl der im Arbeitsgang (S320) der Merkmalsextraktion extrahierten Teilbilder in Übereinstimmung mit der Zahl der Referenzbilder hier zwei oder mehr, und im Arbeitsgang (S330) des Vergleichens einer Vielzahl von extrahierten Merkmalen mit dem Referenzbild werden zwei oder mehr Resultate, bei denen aktuell eingegebene Teilbilder, die als zwei oder mehr Merkmale benutzt werden, mit zwei oder mehr Referenzbildern verglichen werden, zusammenfassend bestimmt und für Betrieb von Inhalt oder Anwendungen benutzt.
In diesem Fall ist ein Prozess erforderlich, zwei oder mehr Referenzbilder zu setzen, und Bewegungen von zwei oder mehr Referenzbildern werden umfassend bestimmt und für Benutzeranbindung benutzt.
Indessen, wie oben beschrieben, wenn der Benutzer das für Benutzeranbindung zu benutzende Referenzbild ändern möchte (S350), wird das Referenzbild für Benutzeranbindung zurückgesetzt (S200).
Wenn daher das Bild von der Kamera eingegeben wird, extrahiert die Benutzerschnittstelle in Übereinstimmung mit der Erfindung ein Merkmal des von der Kamera eingegebenen Bildes in Übereinstimmung mit dem zurückgesetzten Referenzbild, kalibriert ein entsprechendes Merkmal und betreibt entsprechenden Inhalt in Übereinstimmung mit den kalibrierten Daten.
Die für Benutzeranbindung benutzte Bewegung wird in 4 zwar mit Fokus auf tiefenbezogene Bewegung des Objektes beschrieben, das Benutzeranbindungsverfahren in Übereinstimmung mit einem weiteren Aspekt der Erfindung wendet aber auch eine Bewegung in einer Ebenenrichtung (oder einer Horizontalrichtung) in Bezug auf die Kamera zusätzlich zu der tiefenbezogenen Bewegung des Benutzers zur Benutzeranbindung an.
5 ist ein Blockdiagramm, das eine Konfiguration des Endgerätes in Übereinstimmung mit der Erfindung zeigt.
Das bei der Erfindung durch Beispiele belegte Endgerät kann ein Mobilkommunikations-Endgerät umfassen, zum Beispiel ein Smartphone.
Wie in 5 gezeigt, kann das Mobilkommunikations-Endgerät in Übereinstimmung mit der Erfindung eine Benutzerschnittstelleneinheit 100, eine Kommunikationsdaten-Sende- und -empfangseinheit 200, einen Drahtloskommunikationsprozessor 300 und eine Datenspeichereinheit 400 enthalten.
Die Benutzerschnittstelleneinheit 100 in Übereinstimmung mit der Erfindung extrahiert ein für Benutzeranbindung zu benutzendes objektbezogenes Bild aus eingegebenen benutzerbezogenen Bildern, bestimmt eine Bewegung des Objektes durch Vergleichen der extrahierten objektbezogenen Bilder und des Referenzbildes und betreibt Inhalt oder Anwendungen in Übereinstimmung mit der Bewegung des Objektes.
In diesem Fall umfasst die Bewegung des Objektes tiefenbezogene Bewegung und Bewegung in einer Ebenenrichtung.
Die Benutzerschnittstelleneinheit 100 vereinigt von der Kamera eingegebene aktuelle Bilder des Objektes und virtuelle Grafik, die mit einem Teil des als ein Objekt des Referenzbildes benutzten Teil des Körpers des Benutzers verknüpft ist, und zeigt das Resultat an, und setzt das Objektbild als das Referenzbild, wenn das von der Kamera eingegebene Objektbild zu der Grafik passt.
Die Kommunikationsdaten-Sende- und -empfangseinheit 200 sendet und empfängt Daten, das heißt, Drahtloskommunikationsdaten, in Übereinstimmung mit einer eindeutigen Rolle des Drahtloskommunikations-Endgerätes. In diesem Fall umfassen die Drahtloskommunikationsdaten einen Sprachanruf des Benutzers und andere Daten als die Sprache. Die Kommunikationsdaten-Sende- und -empfangseinheit 200 sendet Kommunikationsdaten in Übereinstimmung mit Spezifikationen, die von einem entsprechenden Endgerät unterstützt werden, zu einer Basisstation und empfängt von der Basisstation zu dem Endgerät gesendete Kommunikationsdaten. Das Endgerät in Übereinstimmung mit der Erfindung und Mobilkommunikationssysteme, die mit einem solchen Endgerät kommunizieren, können verschiedenen Kommunikationsspezifikationen folgen, zum Beispiel 3GPP und IEEE.
Der Drahtloskommunikationsprozessor 300 führt Empfangsverarbeitung der von der Kommunikationsdaten-Sende- und -empfangseinheit 200 empfangenen Daten durch, stellt die Daten dem Benutzer in Form von Sprache, Text und Bild bereit und speichert die empfangenen Daten in Übereinstimmung mit einer Auswahl des Benutzers in der Datenspeichereinheit 400.
Der Drahtloskommunikationsprozessor 300 führt auch Sendeverarbeitung von vom Benutzer eingegebenen Sprachanrufdaten durch und führt das Resultat der Kommunikationsdaten-Sende- und -empfangseinheit 200 zu.
Die Datenspeichereinheit 400 speichert objektbezogene Referenzbilder und Informationen, die mit Referenzbildern verknüpft sind, die für Benutzeranbindung in Übereinstimmung mit der Erfindung zu benutzen sind.
Die Datenspeichereinheit 400 speichert auch verschiedene Daten, die bei Drahtloskommunikation des Endgerätes erzeugt werden. Die in der Datenspeichereinheit 400 zu speichernden Daten können verschiedenen Text, Bilder und Kontaktinformationen wie z. B. Telefonnummern enthalten, welche zwischen Benutzerendgeräten gesendet und empfangen werden. Die Datenspeichereinheit 400 speichert auch verschiedenen Inhalt und Anwendungsprogramme, die in dem Benutzerendgerät ausgeführt werden können.
Verschiedene in der Datenspeichereinheit 400 zu speichernde Daten können in Form einer Datenbank gespeichert werden. Der in dieser Beschreibung benutzte Begriff ”Datenbank” bezieht sich auf eine funktionelle Komponente zum Speichern von Informationen und nicht auf eine genaue Form einer Datenbank wie z. B. eine relationale und objektorientierte Datenbank, und die Datenbank kann in mannigfachen Formen realisiert werden.
Zum Beispiel kann die Datenbank auch als eine einfache Informationsspeicherkomponente in Form einer bei der Erfindung benutzten Dateibasis eingerichtet sein.
In Übereinstimmung mit den Ausführungsformen der Erfindung ist es möglich, das Endgerät unter Verwendung von Benutzerbewegung in Bezug auf die Distanz zwischen dem von dem Benutzer benutzten Endgerät und dem Benutzer zu steuern, das heißt, unter Verwendung der Tiefeninformationen der Benutzerbewegung.
Daher ist es dem Benutzer möglich, ein elektronisches Gerät, das die Anbindung in Übereinstimmung mit der Erfindung benutzt, freier zu benutzen.
Obwohl die Ausführungsbeispiele der vorliegenden Erfindung und deren Vorteile im Detail beschrieben wurden, können selbstverständlich verschiedene Änderungen, Ersetzungen und Änderungen daran vorgenommen werden, ohne den Schutzbereich der Erfindung, wie durch die folgenden Patentansprüche definiert, zu verlassen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

KR 2012-0099780 [0001]
KR 2013-0090587 [0001]

Claims

Benutzeranbindungsverfahren, umfassend: ein Referenzbild eines für Benutzeranbindung zu benutzenden Objektes zu setzen; das für Benutzeranbindung zu benutzende Objekt aus eingegebenen benutzerbezogenen Bildern zu erkennen; tiefenbezogene Bewegung des Objektes durch Vergleichen des erkannten Objektes und des Referenzbildes zu bestimmen; und eine Anwendung in Übereinstimmung mit der tiefenbezogenen Bewegung des Objektes zu betreiben.
Verfahren nach Anspruch 1, wobei das für Benutzeranbindung zu benutzende Objekt ein Teil des Körpers eines Benutzers ist.
Verfahren nach Anspruch 2, wobei der Teil des Körpers des Benutzers mindestens eines von Hand, Finger, Handfläche, Gesicht, Lippen, Nase, Augen und Kopf des Benutzers umfasst.
Verfahren nach Anspruch 1, wobei das Bestimmen der tiefenbezogenen Bewegung des Objektes durch Vergleichen des erkannten Objektes und des Referenzbildes umfasst, eine tiefenbezogene Position des Objektbildes durch Vergleichen einer Größe des in den eingegebenen benutzerbezogenen Bildern erkannten Objektbildes und einer Größe des Referenzbildes zu bestimmen.
Verfahren nach Anspruch 4, wobei die Größe des in den eingegebenen benutzerbezogenen Bildern erkannten Objektbildes durch eine Breite, Länge oder Fläche des Bildes definiert ist.
Verfahren nach Anspruch 1, wobei das Setzen des Referenzbildes des für Benutzeranbindung zu benutzenden Objektes umfasst: einen Teil des Körpers eines Benutzers als ein Objekt des Referenzbildes zu setzen; von einer Kamera eingegebene Bilder, die mit dem gesetzten Teil des Körpers des Benutzers verknüpft sind, und virtuelle Grafik, die mit dem Referenzbild verknüpft ist, zu vereinigen und das Resultat anzuzeigen; die von der Kamera eingegebenen, mit dem gesetzten Teil des Körpers des Benutzers verknüpften Bilder und die virtuelle Grafik anzupassen; und die Bilder, die mit einem Teil des Körpers des Benutzers verknüpft sind, der in der virtuellen Grafik angepasst ist, als das Referenzbild zu speichern.
Verfahren nach Anspruch 1, wobei das Erkennen des für Benutzeranbindung zu benutzenden Objektes aus eingegebenen benutzerbezogenen Bildern umfasst, mit dem Objekt verknüpfte Merkmale in von einer Kamera eingegebenen Gesamtbildern zu extrahieren.
Verfahren nach Anspruch 1, wobei die tiefenbezogene Bewegung eine Bewegung in Bezug auf eine Distanz zwischen einer Kamera und einem als das Objekt gesetzten Teil des Körpers eines Benutzers ist.
Benutzerschnittstellenvorrichtung, umfassend: eine Empfangseinheit, die dafür eingerichtet ist, benutzerbezogene Bilder zu empfangen; eine Merkmalsextraktionseinheit, die dafür eingerichtet ist, für Benutzeranbindung zu benutzende objektbezogene Bilder aus eingegebenen benutzerbezogenen Bildern zu extrahieren; eine Gestenerkennungseinheit, die dafür eingerichtet ist, tiefenbezogene Bewegung des Objektes durch Vergleichen der extrahierten objektbezogenen Bilder und eines Referenzbildes zu bestimmen; und eine Inhaltsbetriebseinheit, die dafür eingerichtet ist, Inhalt in Übereinstimmung mit der tiefenbezogenen Bewegung des Objektes zu betreiben.
Vorrichtung nach Anspruch 9, die weiterhin eine Anzeigeeinheit umfasst, die dafür eingerichtet ist, das von der Gestenerkennungseinheit bereitgestellte extrahierte objektbezogene Bild und das Referenzbild zu vereinigen und das Resultat anzuzeigen.
Vorrichtung nach Anspruch 9, wobei das für Benutzeranbindung zu benutzende Objekt ein Teil des Körpers eines Benutzers ist.
Vorrichtung nach Anspruch 11, wobei der Teil des Körpers des Benutzers mindestens eines von Hand, Finger, Handfläche, Gesicht, Lippen, Nase, Augen und Kopf des Benutzers ist.
Vorrichtung nach Anspruch 11, wobei die Gestenerkennungseinheit eine tiefenbezogene Position des Objektbildes durch Vergleichen einer Größe des in den eingegebenen benutzerbezogenen Bildern erkannten Objektbildes und einer Größe des Referenzbildes bestimmt.
Vorrichtung nach Anspruch 13, wobei die Größe des in den eingegebenen benutzerbezogenen Bildern erkannten Objektbildes durch eine Breite, Länge oder Fläche des Bildes definiert ist.
Vorrichtung nach Anspruch 9, wobei die tiefenbezogene Bewegung eine Bewegung in Bezug auf eine Distanz zwischen einer Kamera und einem als das Objekt gesetzten Teil des Körpers eines Benutzers ist.
Vorrichtung nach Anspruch 9, wobei das Referenzbild das in die Kamera eingegebene Objektbild ist, wenn das für Benutzeranbindung zu benutzende Objekt an einem Referenzpunkt positioniert ist.
Endgerät, umfassend: eine Benutzerschnittstelleneinheit, die dafür eingerichtet ist, für Benutzeranbindung zu benutzende objektbezogene Bilder aus eingegebenen benutzerbezogenen Bildern zu extrahieren, tiefenbezogene Bewegung des Objektes durch Vergleichen der extrahierten objektbezogenen Bilder und eines Referenzbildes zu bestimmen und Inhalt in Übereinstimmung mit der tiefenbezogenen Bewegung des Objektes zu betreiben; und eine Datenspeichereinrichtung, die dafür eingerichtet ist, ein für Benutzeranbindung zu benutzendes objektbezogenes Referenzbild zu speichern.
Endgerät nach Anspruch 17, wobei die Benutzerschnittstelleneinheit dafür eingerichtet ist, Grafik, die mit einem als ein Objekt des Referenzbildes benutzten Teil des Körpers eines Benutzers verknüpft ist, und ein von einer Kamera eingegebenes aktuelles Bild des Objektes zu vereinigen und das Resultat anzuzeigen, und das zu der Grafik passende Objektbild als das Referenzbild zu setzen, wenn das von der Kamera eingegebene Objektbild zu der Grafik passt.
Endgerät nach Anspruch 17, wobei die tiefenbezogene Bewegung eine Bewegung in Bezug auf eine Distanz zwischen einer Kamera und einem als das Objekt gesetzten Teil des Körpers eines Benutzers ist.