DE60133386T2 - Vorrichtung und verfahren zur anzeige eines ziels mittels bildverarbeitung ohne drei dimensionales modellieren - Google Patents

Vorrichtung und verfahren zur anzeige eines ziels mittels bildverarbeitung ohne drei dimensionales modellieren Download PDF

Info

Publication number
DE60133386T2
DE60133386T2 DE60133386T DE60133386T DE60133386T2 DE 60133386 T2 DE60133386 T2 DE 60133386T2 DE 60133386 T DE60133386 T DE 60133386T DE 60133386 T DE60133386 T DE 60133386T DE 60133386 T2 DE60133386 T2 DE 60133386T2
Authority
DE
Germany
Prior art keywords
image
target
user
points
projection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60133386T
Other languages
English (en)
Other versions
DE60133386D1 (de
Inventor
Daphna Weinshall
Mi-Suen Lee
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of DE60133386D1 publication Critical patent/DE60133386D1/de
Application granted granted Critical
Publication of DE60133386T2 publication Critical patent/DE60133386T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • G06F3/0325Detection arrangements using opto-electronic means using a plurality of light emitters or reflectors or a plurality of detectors forming a reference frame from which to derive the orientation of the object, e.g. by triangulation or on the basis of reference deformation in the picked up image
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/10Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
    • A63F2300/1087Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals comprising photodetecting means, e.g. a camera
    • A63F2300/1093Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals comprising photodetecting means, e.g. a camera using visible light

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Position Input By Displaying (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Description

  • BEZUGNAHME AUF RELATIERTE PATENTANMELDUNGEN
  • Die vorliegende Erfindung ist verwandt mit dem Folgenden, das durch Bezeichnung als hierin aufgenommen betrachtet werden soll.
    • US Patentanmeldung 09/488.028, eingereicht am 1/20/2000 für "Multimodal vdeo target acquisition and re-direction system and method",
    • US Patentanmeldung 09/532.820, eingereicht am 3/21/2000 für "Rands-Free Home Video Production Camcorder" und
    • US Patentanmeldung 08/995.823, eingereicht am 12/22/2000 für "Method an system for gesture based upon selection".
  • HINTERGRUND DER ERFINDUNG
  • BEREICH DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich auf Bilderkennung und insbesondere auf die Erkennung, ohne dreidimensionale Modellierung einer Szene, von Zeigegebärden, verwendet um ein Zielpunkt auf einer Fläche anzugeben.
  • HINTERGRUND
  • Es gibt viele Anwendungsbereiche, die aus der Gebärdeerkennung Nutzen ziehen können. Dies ist beispielsweise ein natürlicher Mechanismus zur Steuerung des Ziels der Kamera. Ein anderer Anwendungsbereich ist die Verwendung von Handgebärden zum Verlagern des Cursors über einen Schirm. Man kann sich ausmalen Selektionen bei einem künftigen intelligenten Fernseher zu machen, beispielsweise dadurch, dass man einfach mit einem Finger auf einen Gegenstand am Schirm zeigt. Es ist dabei keine Maus erforderlich.
  • Video-basierte Systeme, die Bilder einer Szene verwenden um Gebärden, wie eine Zeigegebärde um ein Ziel anzuzeigen, zu interpretieren, ist ein sehr schnell wachsendes Gebiet. Die Geschwindigkeit von Computer und die Geschwindigkeit von Bildverarbeitung sind derart, dass sehr bequeme Mechanismen zum Zielen und Neuzielen von Kameras geschaffen werden können. Bei Videokonferenzsystemen kann beispielsweise ein Benutzer auf einen betreffenden Gegenstand zeigen um eine zoomfähige Kamera auf eine PT-Basis zu positionieren. Derartige automatisierte Systeme sind intuitiver und lassen sich leichter steuern als herkömmliche Systeme, die explizite Befehle, wie ein Sprachsteuerungsbefehl ("Befehlssteuerung", im Grunde ein sprachbasierter Symbolprozessor, wobei jeder verbale Befehl einer Instruktion entspricht, beispielsweise "PAN – LEFT", "UP", "DOWN" usw.) eine Joystick-Steuerung und kontinuierliche Zielverfolgung brauchen. Bei derartigen Systemen werden Mehrwinkelbilder oft kombiniert zum Erzeugen eines dreidimensionalen Modells einer Szene. Das dreidimensionale Modell wird dann verwendet zum Ermitteln des Ziels, auf das der Benutzer zeigt.
  • Ein System, das eine derartige "kluge" Technologie anwendet um die Steuerung einer Kamera zu ermöglichen, ist in einer US Patentanmeldung Nr. 08/996.677, eingereicht am 12/23/97 mit dem Titel: "System and Method for Permitting Three-Dimensonal Navigation Through a Virtual Reality Environment Using Camera-Based Gesture Inputs" beschrieben/Diese Patentanmeldung beschreibt eine Anordnung, bei der eine Kamera die Profile von Menschen gegenüber dem Hintergrund unterscheidet, und zwar unter Anwendung von Bildverarbeitungstechniken. Die Bildverarbeitungstechniken bezwecken einen Gegenstand von einem Hintergrund zu unterscheiden. Die Gegenstände können dann von einer PAN/TILT/ZOOM (PTZ) Kamera verfolgt werden. Ein derartiges System kann wiederholt ein Ziel positionieren, darauf einzoomen und darauf fokussieren, so dass das Ziel am Schirm nach wie vor relativ zentriert wird.
  • Eine andere Technik, wie in dem US Patent 5.187.574 beschrieben, wird als virtuelle oder elektronische Zoombewegung bezeichnet. Videoinformation von einer oder mehreren festen Kameras wird elektronisch derart verarbeitet, dass das betreffende Ziel nach wie vor in dem Ausgangsvideosignal sichtbar ist, trotz der Tatsache, dass es sein kann, dass der Gegenstand nicht in dem Gesichtsfeld einer bestimmten Kamera zentriert steht. Durch Extraktions- und Interpolationsvorgänge kann der Befolgungsprozess durch feste Kameras durchgeführt werden, die im Allgemeinen preisgünstiger sind als PZT-Kameras.
  • Ein anderes System ist in dem Artikel "Finger-Pointer, Pointing interface by Image Processing" von Masaaki Fukumoto, Yasuhito Suenga und Kenji Mase beschrieben worden. In diesem Artikel beschreiben die Autoren ein System, das eine Kamera steuert auf ein Ziel zu fokussieren, wobei ein Operator innerhalb des Gesichtsfeldes des Systems, auf das Ziel zeigt. Das System tastet das Bild des Fingers der Operators ab und verarbeitet die ses Bild, was bewirkt, dass eine Kamera in diese allgemeine Richtung gezielt wird. Der Artikel beschreibt auch ein System, bei eine Kombination von Zeigegebärden und Sprachbefehlen angewandt wird. Durch die Anwendung einfacher Stimm- oder Gebärdebefehle kann der Operator die Kamera richten um einfache Funktionen zu erfüllen, wie Ein- oder Auszoomen, oder Schirm frei machen. Dieser Artikel soll durch Bezeichnung als hierin aufgenommen betrachtet werden.
  • Die bekannten Techniken um ein Ziel anzugeben, erfordern im Allgemeinen die Schaffung einer dreidimensionalen Konstruktion einer Video-Szene und des Zielgebietes innerhalb eines Computers um zu bestimmen, worauf der Benutzer zeigt. Dies ist mühsam aufzusetzen, weil dies viele Kameras und eine dreidimensionale Schnittstelle erfordert, was typischerweise ziemlich komplex und rechnerisch intensiv ist.
  • Eine bekannte Technik, welche diese Begrenzung nicht kennt, ist in dem US Patent Nr. 5.454.043 beschrieben. In dem "043" Patent werden Handbewegungen von einer Videokamera eingefangen und Orientierungs- und Bewegungsmuster werden durch Bildverarbeitung in Befehle umgewandelt. Die Technik kann nicht angewandt werden um ein Ziel anzuzeigen, wenn ein Benutzer an verschiedenen Stellen steht, wie in den bekannten dreidimensionalen Modellierungssannäherungen, sie hat aber den Vorteil, dass ein Benutzer beispielsweise einen Cursor an einem Videoschirm begrenzt steuern kann.
  • Es gibt ein Bedürfnis, in dem Stand der Technik, nach einem System, das Richtungsangaben, wie Zeigegebärden, interpretieren kann, das aber die Notwendigkeit einer Registrierung der Anordnung und der Elemente der Szene und des mit dreidimensionaler Modellierung der Szene assoziierten intensiven Rechenaufwands vermeidet.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Ein spezieller Subsatz dreidimensionaler Ziele ist derjenige, der auf einer Fläche liegt, deren Form im Voraus bekannt ist. So könne beispielsweise die ebene Oberfläche eines Projektionsschirms Ziele enthalten, auf die ein Sprecher zeigen kann. Ein anderes Beispiel ist ein Subbild an einem Videoschirm, auf das ein Zuschauer zeigen kann oder durch eine Richtungsangabe, wie das Anzeigen mit einem Stock, mit einem Finger, mit einer Handbewegung usw., angezeigt werden kann. Nach der vorliegenden Erfindung kann ein Ziel, wie beschrieben, in einem Bild einer Szene ohne Registrierung von Information über die Lagen von Kameras oder der Fläche, auf der das Ziel liegt, identifiziert werden.
  • Die einzige a priori erforderliche Information ist wenigstens Information über die Form der Fläche.
  • Das Verfahren zum Ermitteln des Ziels, auf das ein Benutzer zeigt, benutzt nach einer Ausführungsform wenigstens zwei Bilder eines Szene mit dem Zeiger und dem Zielgebiet. In diesem Beispiel wird vorausgesetzt, dass das Ziel auf einer flachen Ebene liegt, die Registrierungsmarken oder Referenzmarkierungen aufweist, die in den Szenenbildern der beiden Kameras sichtbar sind. Eine Zeigegebärde wird auch in den beiden Szenen eingefangen. Die Zeigegebärde wird verarbeitet und in dem Ausmaß aufgelöst, wie zum Ermitteln einer Linie in den X-Y-Koordinaten des Szenen selber erforderlich. Dies geschieht in den beiden Kameraszenen. So könnten beispielsweise Punkte (in X-Y-Koordinaten in Pixeleinheiten), die mit dem rechten Auge des Benutzers und mit der Fingerspitze zusammenfallen, verwendet werden. Auf alternative Weise könnte eine Linie definiert werden um die Richtung darzustellen, angegeben durch eine Gebärde und diese Linie könnte durch zwei beliebige Punkte auf der Linie definiert werden. Diese zielenden Punktepaare von beiden Szenen werden abgebildet.
  • Die betreffenden Bilder werden über die Registrierungsmarkierungen verformt, so dass sie genau das Erscheinen der Ebene nachahmen, mit der das Ziel zusammenfällt. Dies ermöglicht es, dass das Ziel unter Anwendung nur zweidimensionaler Inferenz ermittelt werden kann, wobei die dreidimensionale Inferenz völlig umgangen wird. Jedes Bild wird derart verformt, dass alle Punkte auf der Zielebene, die als Bezugsebene bezeichnet werden kann, in dem Bild an genau der gleichen Stelle erscheinen, wie sie in der Bezugsebene erscheinen. Wie nachstehend noch näher beschrieben wird, kann eine lineare Registrierungstransformation berechnet werden, wenn in dem Bild und in der Bezugsebene 4 entsprechende Punkte identifiziert werden. Die Transformation ist derart, dass die Punkte in der Bezugsebene in dem Kamerabild an den gleichen relativen Stellen erscheinen, wie sie erscheinen würden, wenn die Bezugsebene geradeaus betrachtet werden würde. Das heißt, wenn in einem quadratischen Muster in der Bezugsebene vier Referenzmarkierungen vorgesehen werden, würde das Kamerabild, das diese vier Markierungen sieht, quer derart verformt werden, dass sie wieder ein Quadrat in dem verformten Bild bilden. Das Verformen erfolgt durch eine Planare projektive Transformation, so dass alle Punkte in der Szene enden, die verzerrt sind, und alle Punkte, die auf einer beliebigen geraden Linie in dem ursprünglichen Bild liegen, nach wie vor auf einer geraden Linie liegen. Das zweite Bild wird auf ähnliche Art und Weise verformt und die zwei Bilder werden ausgerichtet, so dass die Referenzmarkierungen auf der Referenzebene jedes Bildes in einem einzigen Bild zusammenfallen. Vorzugsweise werden die zwei Bilder von im Wesentlichen verschiedenen Winkeln aus genommen, so dass der Benutzer in dem einen Kamerabild an einer anderen Stelle des Szene erscheint als in dem anderen Kamerabild. Gerade Linien werden zwischen dem rechten Auge und der Fingerspitze jedes Bildes des Benutzers gezogen und dort, wo sie sich kreuzen, ist die Stelle des Ziels. Selbstverständlich ist die oben stehende Beschreibung rein symbolisch. Der wirkliche Prozess erfolgt numerisch und nur die betreffenden Punkte werden transformiert. Diese Punkte sind die Punkte in den zwei Bildern, welche die Bilder des Auges und der Fingerspitze des Benutzers verbinden.
  • Die Annäherung kann in vielen Variationen angewandt werden. Zwei davon werden vorzugsweise näher betrachtet. Die erste Annäherung, in der die Kameras sich vor dem Benutzer befinden, wobei der Benutzer in Richtung der Kamera zeigt, ist besonders geeignet für eine Mensch/Maschine-Interaktion, wie das Angeben von Selektionen an einem Sichtschirm oder einem Monitor. Die zweite Annäherung, das Zeigen in Richtung einer ebenen Fläche, die für jede Kamera sichtbar ist, kann nützlich sein bei Multimedia-Applikationen wie Videokonferenz.
  • Es wird vorausgesetzt, dass die erste Variation, die als "Peek Through" Konfiguration bezeichnet wird, für Kommunikation über einen Fernseher oder Computermonitor nützlich wäre, beispielsweise beim Wählen von Elemente aus einem Menü oder beim Spielen eines Computerspiels. In diesem Entwurf befindet sich eine vertikale undurchsichtige Ebene mit einer oder mehreren mehreckigen Öffnungen (nebeneinander liegend) oben auf dem Computer- oder dem Fernsehmonitor, etwa koplanar zu dem Schirm. Eine andere Möglichkeit ist die Verwendung einer transparenten Erweiterungsfläche, wobei jede Öffnung durch wenigstens 4 Merkmalpunkte ersetzt worden ist. Die erweiterte Fläche, die den Schirm und die Öffnungserweiterung enthält, wird als "Bezugsebene" bezeichnet.
  • Eine oder zwei Kameras liegen hinter der Erweiterungsfläche, den Benutzer von hinter den zwei Öffnungen einfangend; jede Öffnung (oder 4 Referenzpunkte) ist immer völlig sichtbar an dem betreffenden Bildrand. (auf alternative Art und Weise können die zwei Kameras durch 2 Spiegel ersetzt werden, wobei 1 Kamera die 2 Bilder nebeneinander aufzeichnet.) Zunächst (und nur einmal) wird ein frontales Bild der Referenzebene (Schirm_vorgesehene Öffnungen oder Markierungen) in einem sehr kleinen Blickfeld (etwa eine orthographische Projektion) genommen um das zweidimensionale nicht verzerrte Erscheinen der Referenzebene darzustellen. Das Bild erhält den Bezugsrahmen zum Berechnen der Zielstelle.
  • Zum Berechnen der notwendigen Bildregistrierungstransformation (Verformung) werden die Öffnungsbegrenzungen in jedem betreffenden Bild und in dem Bezugsrahmen detektiert. Registrierung betrifft das Durchführen einer zweidimensionalen linearen Transformation an dem Bild, wonach die Öffnungsbegrenzungen in dem Bild in genau dem gleichen Verhältnis erscheinen, wie sie in dem Bezugsrahmen erscheinen. Vier Punkte reichen aus um diese Transformation zu berechnen, wie an anderen Stellen in der Beschreibung beschrieben.
  • Bei diesem Entwurf wird der Benutzer fotografiert, indem er in Richtung der Kamera zeigt. Um das Zeigeziel zu orten ist es notwendig, die Augen und die Fingerspitze des Benutzers zu detektieren. Als Hilfe bei der Detektion der Fingerspitze kann der Benutzer einen bunten Fingerhut tragen. Der Fingerhut kann andere Interaktionsmittel, wie eine Fernbedienung, ersetzen. Außerdem hat zur Erleichterung der Detektion der Fingerspitze eine tragbare Maus andere Vorteile für Benutzerschnittstellenzwecke, wie das Bieten der Möglichkeit, Zeigegebärden mehrerer Benutzer voneinander zu unterscheiden. Auf diese Weise könnten eine Anzahl Benutzer, die verschieden gefärbte Fingerhüte tragen, gleichzeitig dasselbe oder verschiedene Ziele angeben.
  • Es wird vergegenwärtigt, dass die zweite Variation, die "Direct View Configuration", für solche Zwecke die meist nützliche ist für Präsentationen oder Videokonferenzen mit einem großen Schirm oder in Situationen, in denen die Kameraaufstellung vorübergehend oder tragbar ist. In dieser Aufstellung werden die Zielebene oder Referenzebene und der Benutzer von beiden Kameras gesehen. Wie in der "Peek Through Configuration" basiert die Registrierung nur auf Bilddaten. Es werden vier Punkte in der Bezugsebene in jedem Bild identifiziert, wobei Registrierung bei der Anwendung einer zweidimensionalen linearen Transformation des Bildes auftritt. Da die Bezugsebene typischerweise ein Projektionsschirm oder eine weiße Wandtafel ist, lassen sich die Punkte auf einfache Art und Weise detektieren. Diese können aus einer Projektion mit hohem Kontrast geformt werden und zu dem betreffenden Zeitpunkt zum Einfangen der Aufstellung benutz werden und danach von dem Schirm entfernt werden. Auf alternative Weise können zwei Sätze paralleler Linien anstelle der Referenzmarkierungen verwendet werden. Die Begrenzungen des Schirms oder der Weißwandtafel können auch verwendet werden.
  • In dem Endschritt kann eines der Bilder als Referenzrahmen gewählt werden. Die Registrierungstransformation bildet die 4 identifizierten Punkte ab, so dass sie in dem zweiten Bild an derselben Stelle erscheinen wie sie in dem ersten Bild erscheinen. Registrierung erfolgt gegenüber dem Referenzrahmen anstelle der Referenzebene, was zur Identifikation des Zeigeziels ausreicht.
  • Die vorliegende Erfindung wird im Zusammenhang mit bestimmten bevorzugten Ausführungsformen in Bezug auf die nachfolgenden Figuren beschrieben, so dass das ganze besser verstanden werden kann. In Bezug auf die Figuren wird beansprucht, dass die dargestellten Einzelheiten nur Beispiel e sind und nur zur Illustration der bevorzugten Ausführungsformen der vorliegenden Erfindung beschrieben und als die meist nützliche und am besten verständliche Beschreibung der Grundlagen und der konzeptuellen Aspekte der vorliegenden Erfindung präsentiert werden. In dieser Hinsicht wird nicht versucht, strukturelle Einzelheiten der vorliegenden Erfindung detaillierter als zum elementaren Verständnis der vorliegenden Erfindung notwendig zu geben, wobei die Beschreibung der Zeichnung dem Fachmann einleuchten dürfte, wie verschiedenen Formen der vorliegenden Erfindung in der Praxis verwendet werden könnten.
  • KURZE BESCHREIBUNG DER ZEICHNUNG
  • Ausführungsbeispiele der vorliegenden Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
  • 1 eine symbolische Darstellung der Aufstellung zum Identifizieren einer Zielstelle in einer Projektion einer Szene der einen Kamera (oder Bezugsprojektion) unter Anwendung der Projektion einer zweiten Kamera nach einer Ausführungsform der vorliegenden Erfindung,
  • 2 eine symbolische Darstellung einer Szene zum Geben von Definitionen in Bezug auf die Projektion, erhalten von einer der Kameras nach der Ausführungsform nach 1,
  • 3 eine Darstellung der Szenenprojektion von der Kamera nach 2,
  • 4 eine Darstellung eines Szene zum Geben von Definitionen in Bezug auf die Projektion, erhalten von der anderen Kamera in der Ausführungsform nach 1,
  • 5 eine Darstellung der Szenenprojektion von der Kamera nach 4,
  • 6 die Richtung anzeigende selektierte Punkte aus der Szene nach 5, abgebildet durch eine planare Projektionstransformation auf die Szene nach 3 zum Erhalten der Koordinaten eines Ziels,
  • 7 eine Darstellung der Aufstellung mit einer Szene, die einen Richtungsvektor aufweist, die ein Ziel angibt und zum Identifizieren der Projektion einer Zielstelle auf eine Referenzprojektion unter Verwendung von Bildern von zwei Kameras nach einer anderen Ausführungsform der vorliegenden Erfindung verwendet wird,
  • 8 und 9 je eine Darstellung von Projektionen von den Bildern der Kamerabilder in der Ausführungsform nach 7,
  • 10 eine Darstellung der Kombination planarer Projektionstransformationen von Projektionen eines einzigen Richtungsvektors auf ein Bezugsbild zum Identifizieren eines durch den Richtungsvektor angegebenen Ziels,
  • 11 Darstellungen von Anordnungen und Prozessen, die bei der Anwendung der vorliegenden Erfindung angewandt werden können.
  • DETAILLIERTE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
  • In 1 ist ein Ziel 25, das in/auf einer ebenen Fläche, wie einem Fernsehschirm oder Projektionsschirm 10 oder an einer (nicht dargestellten) Wand liegt, durch einen Benutzer 30 angegeben. Die Zielstelle kann in dem Bild durch die zwei Kameras 35 und 40 identifiziert werden, und zwar durch eine Kombination der Bilder aus den zwei Kameras 35 und 40, und zwar auf die nachstehend beschriebene Art und Weise. Die Illustration zeigt den Benutzer 30, der unter Verwendung einer Zeigegebärde auf das Ziel 25 zeigt. Es wurde versuchsweise ermittelt, dass die von Menschen verwendete Gebärde auf ein Ziel zu zeigen, derart ist, dass die Fingerspitze des Benutzers, das rechte (oder linke) Auge des Benutzers und das Ziel durch eine gerade Linie miteinander verbunden sind. Dies bedeutet, dass die planare Projektion eines Ziels im Gesichtsfeld einer der beiden Kameras längs der planaren Projektion der geraden Linie liegt, die durch das Auge und die Fingerspitze des Benutzers definiert wird. In der vorliegenden Erfindung werden die planaren Projektionen der zwei zu einer gemeinsamen planaren Projektion transformiert, die von der Kamera 35 oder 40 oder einer beliebigen dritten Ebene sein konnte.
  • In 2 sind die Kameras derart aufgestellt, dass sie je die Zeigevorrichtung, in diesem Fall die Fingerspitze 80 des Benutzers, in Kombination mit dem Auge 90 des Benutzers einfangen. Auch jedes Gesichtsfeld 45 und 50 der Kameras ist derart, dass vier Referenzmarkierungen 20 in der Ebene, in/auf der das Ziel sich befindet, sichtbar sind. Die genaue Stelle oder das genaue Ziel der Kameras 35 und 40 ist kein Gegenstand der vorliegenden Erfindung, ausgenommen, was nach einer weiteren Erläuterung der vorliegenden Erfindung einleuchten dürfte, in dem Sinne, dass dies die Genauigkeit der Zielstelle beeinflusst. Der Genauigkeit halber ist es vorteilhaft zu gewährleisten, dass die Kamerabilder maximalen Gebrauch machen von der Auflösung und der Genauigkeit (als Vertreter einer richtigen planaren Projektion) der Kamerabilder.
  • In den 2 und 3 sind die Position des Auges 90 und der Fingerspitze 80 des Benutzers 30 durch einen dreidimensionalen Vektor 85 dargestellt, dessen Planare Projektion in dem Bild der Kamera 35 als der zweidimensionale Vektor 76 dargestellt ist. In dem restlichen Teil der planaren Projektion der Szene ist das Bild des Schirms 11 durch perspektivische Zeichnung auf übliche Weise verzerrt. Es ist eine Erweiterung 61 des Vektors 76 dargestellt, die lang genug ist um durch die Stelle des Ziels 255 hindurch zu gehen, was in dem Kontext nicht bekannt ist. Die Projektionen der Koordinaten der Registrierungsmarkierungen 20 (1) werden in dem Bild nach 3 als x1, y1 ... x4, y4 identifiziert. Die Endpunkte der Projektion 76 des Vektors 85 werden als x5, y5 und x6, y6 identifiziert.
  • In den 4 und 5 sind die Positionen des Auges 90 und der Fingerspitze 80 des Benutzers 30 wieder durch einen dreidimensionalen Vektor 86 dargestellt. Die Planare Projektion des Vektors 86 in dem Bild der Kamera 40 wird als den zweidimensionalen Vektor 87 dargestellt. Auch hier ist das Bild des Schirms 12 wieder durch perspektivisches Zeichnen auf die übliche Art und Weise verzerrt dargestellt und selbstverständlich ist die Verzerrung anders, und zwar wegen der Position und der Lage der Kamera 40. Es ist eine Erweiterung 62 des Vektors 86 dargestellt, die lang genug ist um durch die Stelle des Ziels 25 hindurch zu fahren. Die Planare Projektion der Erweiterung 62 ist durch 63 bezeichnet. Auch hier ist die Projektion der Position des Ziels nicht im voraus bekannt. Die Projektionen der Koordinaten der Registrierungsmarkierungen 20 (1) sind in dem Bild nach 5 als p1, q1, p4, q4 identifiziert. Die Endpunkte der Projektion 87 des Vektors 85 werden als p5, q5 und p6, q6 identifiziert.
  • In 6 ist die Projektion nach 5 mit einer transformierten Version 87' der Projektion 87 des Vektors darauf überlagert ist. Die transformierte Projektion 87' wird von dem zweidimensionalen linearen Transformationsvorgang hergeleitet, der die Projektion nach 5 derart abbildet, dass die Punkte p1, q1, ... p4, q4 genau auf den Koordinaten x1, y1,... x4, y4 abgebildet werden. Die Stelle des Ziels trifft mit dem Schnittpunkt der zwei Erweiterungslinien zusammen.
  • Diese Transformation kann dargestellt werden durch:
    Figure 00100001
    was die Transformation ausschließlich des Maßstands darstellt. Da jeder Punkt zwei Restriktionen in M schafft und da M eine 3 × 3 Matrix ist, definiert ohne Maßstab, gibt es 8 Unbekannte und kann deswegen ermittelt werden, und zwar unter Verwendung von 4 unabhängigen Punkten. Dies ist weshalb vier Registrierungspunkte 20 verwendet werden. M wird wie folgt definiert:
    Figure 00100002
    und wenn die vier Punkte p1, q1, ... p4, q4 gegeben sind, können alle Unbekannten in M durch Lösung des nachfolgenden linearen Gleichungssystems erhalten werden:
    Figure 00110001
  • Wenn das Ziel einmal identifiziert worden ist, kann die Information zum Schaffen mehrerer Merkmale verwendet werden. So kann beispielsweise ein Objekt, das auf den Schirm projiziert wird, durch Zeigung gesteuert werden. Für dieses Beispiel könnten die zwei Kamerabilder in die Ebene des Schirms 10 transformiertes werden. Wenn die Koordinaten am Schirm 10 des Ziels gegeben sind, könnte jeder Computerprozess diese Information benutzen. Beispielsweise ein Spiel mit mehreren Spielern, die je durch Zeigegebärden gesteuert werden. Verschieden gefärbte Fingerhüte oder Kellen könnten von verschiedenen Spielern gewonnen/verwendet werden um verschiedene Objekte, die am Schirm gerendert wurden, zu steuern. Bestimmte Aufgaben, die mit einer Maus, einem Lichtstift, einem Berührungsschirm usw. durchgeführt werden, könnten mit Zeigegebärden durchgeführt werden.
  • Obschon in der oben beschriebenen Ausführungsform das Ziel durch eine Zeigegebärde auf eine spezielle Art und Weise angegeben wird (Auge-zu-Fingerspitze), gibt es keinen Grund, dass diese Anzeige nicht auf eine andere Art und Weise hergeleitet werden konnte. So könnte beispielsweise eine Zielvorrichtung oder Kelle verwendet werden. Auch könnte statt eines Ziels an einem Schirm das Ziel beliebige Objekte oder Bilder sein, die im Wesentlichen auf einer gemeinsamen Ebene liegen. Weiterhin brauchen die Objekte oder Ziele nicht auf einer einzigen Ebene zu liegen, sondern könnten in vielen Ebenen liegen, die je einen betreffenden Satz mit Registrierungsmarkierungen haben. Die vorliegende Erfindung kann auch angewandt werden durch Anwendung anderer Transformationen, so dass Ziele auf Ebenen anders als flachen Ebenen liegen können. Eine weitere Variation ist in der Art und Weise, der Gestikulation um eine Richtung anzugeben. Es kann eine Zeitreihe von Bildern verwendet werden um eine Richtung herzuleiten, wie die Richtung einer Handbewegung oder Fingerbewegung über ein kurzes Zeitintervall, wie eine Gebärde um eine Richtung anzugeben. Auch eine andere geeignete Applikation wäre eine Weißwandtafel-Applikation. Weiterhin brauchen die Registrierungsmarkierungen 20 keine Markierungen auf dem Schirm zu sein, können aber die Ecken des Schirms 10 sein. Auch kann es sein, dass die Registrierungsmarkierungen auf den Schirm projiziert werden, und zwar an einem einzigen Punkt während der Aufstellung, wonach sie entfernt werden. Die Registrierungspunktkoordinaten können danach zum berechnen der Transformation ohne weitere Bezugnahme auf die Registrationsmarkierungen verwendet werden bis die Aufstellung geändert wird. Eine andere Applikation dieser Technologie ist zur Verwendung beim Zielen einer Kamera auf das Ziel. Wenn die Koordinaten in dem Referenzbild einmal bekannt sind, kann eine der zwei Kameras oder eine dritte Kamera neu gezielt und gezoomt werden um das Ziel zu erfassen. Dies wäre nützlich im Kontext eines automatisierten Videokonferenzsystems.
  • In 7 gibt in einer Aufstellung entsprechend einer anderen Ausführungsform der vorliegenden Erfindung ein Vektor 200 ein Ziel 226 an. Eine Fortsetzungslinie 205 ist längs der Achse des Vektors 200 auf das Ziel gerichtet. Wie bei den vorhergehenden Ausführungsformen beschrieben, stellt der Vektor 200 eine von verschiedenen Anzeigevorrichtungen dar, beispielsweise eine Zielgebärde. Auch wie in den anderen Ausführungsformen liegt das Ziel 226 in/auf einer Ebene, in diesem Beispiel einem Schirm 270, beispielsweise eines Fernsehers großen Formats. Kameras 235 und 240 werden durch betreffende Referenzrahmen 260 und 265 gezielt. Die Referenzrahmen 260 und 265 schaffen auf einfache Weise die Ausrichtpunkte für 14 in dem Gesichtsfeld der Kamera 235 und die Ausrichtpunkte 58 in dem gesichtsfeld der Kamera 240. Jede Kamera 235 und 240 ist derart gerichtet, dass sie den betreffenden satz mit Ausrichtpunkten und den vektor 200 sieht. Auf diese Weise könnte beispielsweise die Aufstellung einen Benutzer enthalten, der auf einem Stuhl vor einem Fernseher sitzt, wobei die Kameras sich oben auf dem Fernseher befinden und auf den Benutzer gerichtet sind.
  • Bei dieser Ausfühgrungsform sind die Ausrichtpunkte einfach die Ecken 18 der Rahmen 260 und 265. Die Koordinaten dieser Ecken werden vorzugsweise durch Extrapolation von Umrisspassungen auf Basis der Ränder der Rahmen zum Erhalten von Positionen mit der größten Präzision, dies im Verhältnis zu der begrenzten Auflösung der Kameras, insbesondere Videokameras. Derartige Techniken sind in dem betreffenden technischen Bereich durchaus bekannt.
  • In den 8 und 9 umfassen die Bilder der Kameras 240 und 235 Projektionen 210 bzw. 220 des Zeigevektors 200. Auch die Umrisse 215, 225, bestimmt durch die durch die Vektorprojektionen 210 und 220 angegebene Richtung, sind dargestellt. 7 wurde verwendet um die dreidimensionale Szene zu illustrieren, aber die Anordnung ist auch ein Hinweis auf eine Projektion, genommen aus einem Bild in Richtung des Schirms 270. Ein derartiges Bild wird als Referenzbild in dieser Ausführungsform verwendet, wobei die Vektoren der beiden Kamerabilder zu diesem Bild transformiert werden um die Koordinaten des Ziels in dem Referenzbild zu ermitteln.
  • In 10, welche die Szenenprojektion aus 7 zeigt, werden, nachdem die Vektorbilder unter Anwendung der zweidimensionalen linearen Transformation zu dem Referenzrahmen transformiert worden sind, die Umrisse 215 und 225 zu Umrissen 285 bzw. 280 transformiert. Die Transformation bildet die Punkte 14 in dem Bild nach 9 an den entsprechenden Punkten des Bildes nach 10 ab. Die einzigen Punkte, die aber transformiert zu werden brauchen, sind die Punkte, welche die Vektorprojektionen 210 und 220 definieren. Die Referenzbilder (Rahmen 260, 265 und das Referenzbild nach 7 oder 10) brauchen nur einmal für jede Aufstellung genommen zu werden um die Koordinaten der Referenzpunkte zu ermitteln.
  • In 11 sind die Anordnungen und Prozesse, die zum Implementieren von Applikationen der vorliegenden Erfindung verwendet bzw. angewandt werden können, in einem Blockschaltbild dargestellt. Ein Bildprozessor 305 empfängt Bilddaten von Kameras 301 und 302. Bild- und Koordinatendaten können in einem Speicher 310 oder in einem nicht flüchtigen Speicher 320 gespeichertes werden. So können beispielsweise die Transformationsdaten, die einmal berechnet worden sind, in dem nicht flüchtigen Speoicher 320 und de, Speicher 310 gespeichert werden, der beim Berechnen der Bilder von den Kameras 301 und 302 zum Herleiten von koordinaten x, y des Ziels verwendet wird, das auf einen Applikationsprozess 330 angewandt werden kann. Der Applikationsprozess 330 erzeugt danach ein Ausgangssignal, wie eine Spur auf einer Weißwandtafel oder Steuerdaten für einen Avater eines Spiels.
  • Es sei bemerkt, dass die Projektionsdaten, die von den Kameras 301 und 302 gesammelt worden sind, auch aus anderen Quellen, wie Sonar, Funk, medizinischer Ultraschallapparatur oder einer anderen Anordnung hergeleitet werden können, die imstande ist, eine planare Projektion zu erzeugen.
  • Es dürfte dem Fachmann einleuchten, dass die vorliegende Erfindung sich nicht auf die Einzelheiten der oben beschriebenen Ausführungsbeispiele beschränkt, und dass die vorliegende Erfindung in diesem Rahmen in anderen spezifischen Formen verkörpert werden kann. Die vorliegenden Ausführungsformen sollen deswegen in allen Hinsichten als illustrativ und nicht begrenzend betrachtet werden, wobei der Rahmen der vorliegenden Erfindung durch die beiliegenden Patentansprüche statt durch die oben stehenden Ausführungsbeispiele angegeben wird, und wobei alle Änderungen, die in der Bedeutung und in dem Gleichwertigkeitsbereich der Patentansprüche liegen, dadurch als hierin aufgenommen betrachtet werden sollen.
  • Text in der Zeichnung
  • 1
  • 10
    Schirm
  • 2
  • 10
    Schirm
  • 4
  • 10
    Schirm
  • 7
  • 270
    Schirm
  • 11
  • 310
    Speicher
    305
    Bildprozessor
    320
    nicht flüchtiger Speicher
    330
    Applikationsprozess
    340
    Ausgangsanordnung

Claims (4)

  1. Anordnung zur Orten eines Ziels (25) in einem Zielgebiet (10) mit Bezugspunkten (20), wobei das Ziel durch Zeigegebärden eines Benutzers angegeben wird, wobei die Anordnung Folgendes umfasst: – zwei Kameras (35, 40), die je dazu vorgesehen sind, ein Bild des Zielgebiets mit den Bezugspunkten und wenigstens der Zeigegebärde des Benutzers (30) zu erfassen, – wobei die Anordnung die nachfolgenden Aufgaben hat: – das Ermitteln einer linearen Transformation zwischen entsprechenden Bezugspunkten aus einem erfassten Bild und einem Bezugsbild, wobei die Transformation für ein oder für beide Bilder gilt, so dass die Koordinaten der Bezugspunkte in das Bezugsbild eingeführt werden, – das Verwenden der linearen Transformation zum Identifizieren von Punkten, welche die Projektion der Zeigegebärde des Benutzers in dem von dem transformierten ersten Bild hergeleiteten Bezugsbild darstellen und zum Herleiten von Punkten der Zeigegebärde aus dem transformierten zweiten Bild in dem Bezugsbild, dadurch gekennzeichnet, dass das flache Zielgebiet wenigstens vier Bezugspunkte hat, wobei die Anordnung vorgesehen ist: – zum Ermitteln der linearen Transformation aus den Bezugspunkten in dem erfassten Bild; – zum Identifizieren von Punkten von Linien, welche die Projektion der Zeigegebärde des Benutzers in dem Bezugsbild darstellen, hergeleitet aus dem transformierten ersten Bild und aus dem transformierten zweiten Bild in dem Bezugsbild; – zum Ermitteln des Zielpunktes als den Schnittpunkt in dem Bezugsbild der Linie aus dem ersten Bild mit der Linie aus dem zweiten Bild.
  2. Anordnung nach Anspruch 1, dadurch gekennzeichnet, dass die Zeigegebärde als eine gerade Linie ermittelt wird, definiert durch ein Auge des Benutzers und eine zeigende Fingerspitze des Benutzers.
  3. Verfahren zum Orten eines Ziels (25) in einem flachen Zielgebiet (10) mit Bezugspunkten (20), wobei das Ziel durch eine Zeigegebärde eines Benutzers (30) angegeben wird, wobei das Verfahren Folgendes umfasst: – das Erfassen zweier Bilder des Zielgebietes mit den Bezugspunkten und wenigstens der Zeigegebärde des Benutzers; – das Ermitteln einer linearen Transformation zwischen entsprechenden Bezugspunkten aus einem erfassten Bild und einem Bezugsbild, wobei die Transformation für ein Bild oder für die beiden Bilder gilt, so dass die Koordinaten von Bezugspunkten in das Bezugsbild eingeführt werden; – das Verwenden der linearen Transformation zum Identifizieren von Punkten, welche die Projektion der Zeigegebärde des Benutzers in dem Bezugsbild darstellen, hergeleitet aus dem transformierten ersten Bild und zum Herleiten von Punkten der Zeigegebärde aus dem transformierten zweiten Bild in dem Bezugsbild; dadurch gekennzeichnet, dass das flache Zielgebiet wenigstens vier Bezugspunkte hat, wobei das Verfahren Folgendes umfasst: – das Ermitteln der linearen Transformation aus den Bezugspunkten in dem erfassten Gebiet; – das Identifizieren von Punkten von Linien, welche die Projektion der Zeigegebärde des Benutzers in dem Bezugsbild darstellen, hergeleitet aus dem transformierten ersten Bild und aus dem transformierten zweiten Bild in dem Bezugsbild; – das Ermitteln des Zielpunktes als der Schnittpunkt in dem Bezugsbild der Linie aus dem ersten Bild mit der Li nie aus dem zweiten Bild.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Zeigegebärde als eine gerade Linie ermittelt wird, definiert durch ein Auge des Benutzers und eine zeigende Fingerspitze des Benutzers.
DE60133386T 2000-05-17 2001-05-08 Vorrichtung und verfahren zur anzeige eines ziels mittels bildverarbeitung ohne drei dimensionales modellieren Expired - Lifetime DE60133386T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US57299100A 2000-05-17 2000-05-17
US572991 2000-05-17
PCT/EP2001/005186 WO2001088681A1 (en) 2000-05-17 2001-05-08 Apparatus and method for indicating a target by image processing without three-dimensional modeling

Publications (2)

Publication Number Publication Date
DE60133386D1 DE60133386D1 (de) 2008-05-08
DE60133386T2 true DE60133386T2 (de) 2009-04-02

Family

ID=24290197

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60133386T Expired - Lifetime DE60133386T2 (de) 2000-05-17 2001-05-08 Vorrichtung und verfahren zur anzeige eines ziels mittels bildverarbeitung ohne drei dimensionales modellieren

Country Status (7)

Country Link
EP (1) EP1292877B1 (de)
JP (1) JP4768196B2 (de)
KR (1) KR100869447B1 (de)
CN (1) CN1222859C (de)
AT (1) ATE390664T1 (de)
DE (1) DE60133386T2 (de)
WO (1) WO2001088681A1 (de)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6600475B2 (en) 2001-01-22 2003-07-29 Koninklijke Philips Electronics N.V. Single camera system for gesture-based input and target indication
EP1507389A1 (de) * 2003-08-13 2005-02-16 Sony Ericsson Mobile Communications AB Mobiltelefon mit einer Einrichtung zur Alarmfernabschaltung
US7893920B2 (en) 2004-05-06 2011-02-22 Alpine Electronics, Inc. Operation input device and method of operation input
EP1596271A1 (de) 2004-05-11 2005-11-16 Hitachi Europe S.r.l. Verfahren zur Anzeige von Informationen und Informationsanzeigesystem
JP3926837B2 (ja) * 2004-06-04 2007-06-06 松下電器産業株式会社 表示制御方法および装置、プログラム、並びに携帯機器
JP2008504055A (ja) * 2004-06-28 2008-02-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 特にインプラントの画像のための画像処理システム
WO2009031646A1 (ja) * 2007-09-07 2009-03-12 Konami Digital Entertainment Co., Ltd. 画像処理装置、ゲーム装置およびコンピュータプログラム
JP5120754B2 (ja) * 2008-03-28 2013-01-16 株式会社国際電気通信基礎技術研究所 動作検出装置
TWI383311B (zh) * 2008-06-02 2013-01-21 Wistron Corp Multi - touch Inductive Input Device and Its Induction Method
KR101652110B1 (ko) * 2009-12-03 2016-08-29 엘지전자 주식회사 사용자의 제스쳐로 제어가능한 장치의 전력 제어 방법
CN102033644B (zh) * 2010-01-04 2015-07-15 张强 一种三维空间的触控或书写屏
CN101866235B (zh) * 2010-02-10 2014-06-18 张强 一种三维空间的多点触控或多笔书写屏
TWI406156B (zh) * 2010-03-12 2013-08-21 Primax Electronics Ltd 氣流感應式電腦游標訊號產生裝置以及氣流感應式滑鼠裝置
CN101916437B (zh) * 2010-06-18 2014-03-26 中国科学院计算技术研究所 一种基于多视觉信息的目标定位方法和系统
CN102004623B (zh) * 2010-11-29 2013-02-27 深圳市九洲电器有限公司 一种三维图像显示装置及方法
KR101151962B1 (ko) * 2011-02-16 2012-06-01 김석중 포인터를 사용하지 않는 가상 터치 장치 및 방법
KR101381928B1 (ko) * 2011-02-18 2014-04-07 주식회사 브이터치 포인터를 사용하지 않는 가상 터치 장치 및 방법
JP5730086B2 (ja) * 2011-03-18 2015-06-03 Necパーソナルコンピュータ株式会社 入力装置および入力方法
KR20120126508A (ko) * 2011-05-12 2012-11-21 김석중 포인터를 사용하지 않는 가상 터치 장치에서의 터치 인식 방법
KR101235432B1 (ko) * 2011-07-11 2013-02-22 김석중 3차원 모델링된 전자기기의 가상터치를 이용한 원격 조작 장치 및 방법
KR101330531B1 (ko) * 2011-11-08 2013-11-18 재단법인대구경북과학기술원 3차원 카메라를 이용한 가상 터치 방법 및 장치
CN102520799B (zh) * 2011-12-22 2015-03-25 胡世曦 一种光学键盘
TWI486820B (zh) * 2012-12-28 2015-06-01 Wistron Corp 用於互動系統之座標轉換方法及電腦系統
CN104714728B (zh) * 2013-02-28 2018-10-12 联想(北京)有限公司 一种显示方法和设备
TW201510771A (zh) 2013-09-05 2015-03-16 Utechzone Co Ltd 指向位置偵測裝置及其方法、程式及電腦可讀取紀錄媒體
CN104978012B (zh) 2014-04-03 2018-03-16 华为技术有限公司 一种指向交互方法、装置及系统
KR101453815B1 (ko) * 2014-08-01 2014-10-22 스타십벤딩머신 주식회사 사용자의 시점을 고려하여 동작인식하는 인터페이스 제공방법 및 제공장치
JP6124863B2 (ja) * 2014-11-26 2017-05-10 レノボ・シンガポール・プライベート・リミテッド ポインティング・ジェスチャ位置を認識する方法、コンピュータ、およびコンピュータ・プログラム
WO2017203102A1 (en) * 2016-05-25 2017-11-30 Valo Motion Oy An arrangement for controlling a computer program
KR102239469B1 (ko) * 2018-01-19 2021-04-13 한국과학기술원 객체 제어 방법 및 객체 제어 장치
WO2019143204A1 (ko) * 2018-01-19 2019-07-25 한국과학기술원 객체 제어 방법 및 객체 제어 장치
CN108363485B (zh) * 2018-01-25 2021-06-18 广州杰赛科技股份有限公司 非触摸屏显示终端的控制方法、装置、系统和计算机设备
KR102191061B1 (ko) * 2019-03-11 2020-12-15 주식회사 브이터치 2차원 카메라를 이용하여 객체 제어를 지원하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
CN112771480B (zh) * 2020-06-28 2022-04-12 华为技术有限公司 交互方法及电子设备
CN112419381B (zh) * 2020-12-15 2023-03-03 山东威高医疗科技有限公司 一种x光图像中标记点序列的自动识别方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3114813B2 (ja) * 1991-02-27 2000-12-04 日本電信電話株式会社 情報入力方法
JP3276010B2 (ja) * 1991-07-15 2002-04-22 日本電信電話株式会社 情報の入力方法
JPH0744313A (ja) * 1993-08-03 1995-02-14 Nippon Telegr & Teleph Corp <Ntt> 指示情報入力方法
JPH07146752A (ja) * 1993-11-22 1995-06-06 Toshiba Corp 環境モデル作成装置
US5768443A (en) * 1995-12-19 1998-06-16 Cognex Corporation Method for coordinating multiple fields of view in multi-camera
JP3749369B2 (ja) * 1997-03-21 2006-02-22 株式会社竹中工務店 ハンドポインティング装置
JPH1163927A (ja) * 1997-08-27 1999-03-05 Mitsubishi Heavy Ind Ltd 頭部位置・姿勢の計測装置および作業監視装置
JPH11161415A (ja) * 1997-11-28 1999-06-18 Seiko Epson Corp 入力方法および入力装置
US6147678A (en) * 1998-12-09 2000-11-14 Lucent Technologies Inc. Video hand image-three-dimensional computer interface with multiple degrees of freedom

Also Published As

Publication number Publication date
KR100869447B1 (ko) 2008-11-21
JP2003533817A (ja) 2003-11-11
WO2001088681A1 (en) 2001-11-22
CN1380996A (zh) 2002-11-20
DE60133386D1 (de) 2008-05-08
KR20020025198A (ko) 2002-04-03
EP1292877B1 (de) 2008-03-26
CN1222859C (zh) 2005-10-12
ATE390664T1 (de) 2008-04-15
EP1292877A1 (de) 2003-03-19
JP4768196B2 (ja) 2011-09-07

Similar Documents

Publication Publication Date Title
DE60133386T2 (de) Vorrichtung und verfahren zur anzeige eines ziels mittels bildverarbeitung ohne drei dimensionales modellieren
DE69732663T2 (de) Verfahren zur erzeugung und änderung von 3d modellen und korrelation von solchen modellen mit 2d bildern
DE69130198T2 (de) Bildanzeigesysteme
EP2430614B1 (de) Verfahren zur echtzeitfähigen, rechnergestützten analyse einer eine veränderliche pose enthaltenden bildsequenz
DE60205662T2 (de) Vorrichtung und Verfahren zur Berechnung einer Position einer Anzeige
DE19516664C1 (de) Verfahren zum Aufbau einer Farbtabelle in einer Computereinheit zur Klassifikation von Bildpunkten in einem Bild
DE69601880T2 (de) Verfahren und vorrichtung zur erstellung der lage einer fernsehkamera zur verwendung in einem virtuellen studio
DE69331259T2 (de) Räumliche Mensch-Schnittstelle durch Bewegungserkennung mit dynamischer Bildverarbeitung
DE60023447T2 (de) Verfahren zur berechnung der lage und ausrichtung eines objektes im dreidimensionalen raum
DE112007001789B4 (de) Verfahren zum Bewerten eines Bildes im Hinblick auf eine dominante Linie
DE102007059478B4 (de) Verfahren und System zur Ausrichtung eines virtuellen Modells an einem realen Objekt
DE10043460A1 (de) Auffinden von Körperpartien durch Auswerten von Kantenrichtungsinformation
DE69715816T2 (de) Videoanzeigesystem zum Darstellen einer virtuellen dreidimensionalen Bildanzeige
EP3931798A1 (de) Schätzung der bewegung einer bildposition
DE102004061841B4 (de) Markerloses Tracking System für Augmented Reality Anwendungen
DE60030401T2 (de) Anzeigetechniken für dreidimensionale virtuelle Realität
EP2831839A1 (de) Verfahren zum automatischen betreiben einer überwachungsanlage
DE102019214283A1 (de) Verfahren und Vorrichtung zum Verarbeiten eines durch eine Kamera aufgenommenen Bildes
DE60216766T2 (de) Verfahren zum automatischen verfolgen eines sich bewegenden körpers
DE112019006107T5 (de) Authoring-Vorrichtung, Authoring-Verfahren und Authoring-Programm
DE102009031158A1 (de) Vorrichtung und Verfahren zur Erkennung einer Zeigegeste eines Nutzers zur Interaktion mit einer Eingabefläche
DE102007041482A1 (de) Verfahren zur automatischen Erkennung wenigstens der Art und/oder der Lage einer mit einer Gliedmaße gebildeten Geste, insbesondere einer Handgeste
DE102007056835A1 (de) Bildverarbeitunsmodul zur Schätzung einer Objektposition eines Überwachungsobjekts, Verfahren zur Bestimmung einer Objektposition eines Überwachungsobjekts sowie Computerprogramm
DE102004027289B4 (de) Verfahren und Anordnung zur berührungslosen Navigation in einem Dokument
DE10134430A1 (de) Verfahren und Anordnung zur stereoskopischen Projektion von Bildern

Legal Events

Date Code Title Description
8364 No opposition during term of opposition