-
BEZUGNAHME AUF RELATIERTE PATENTANMELDUNGEN
-
Die
vorliegende Erfindung ist verwandt mit dem Folgenden, das durch
Bezeichnung als hierin aufgenommen betrachtet werden soll.
- US
Patentanmeldung 09/488.028, eingereicht am 1/20/2000 für "Multimodal vdeo target
acquisition and re-direction system and method",
- US Patentanmeldung 09/532.820, eingereicht am 3/21/2000 für "Rands-Free Home Video
Production Camcorder" und
- US Patentanmeldung 08/995.823, eingereicht am 12/22/2000 für "Method an system
for gesture based upon selection".
-
HINTERGRUND DER ERFINDUNG
-
BEREICH DER ERFINDUNG
-
Die
vorliegende Erfindung bezieht sich auf Bilderkennung und insbesondere
auf die Erkennung, ohne dreidimensionale Modellierung einer Szene,
von Zeigegebärden,
verwendet um ein Zielpunkt auf einer Fläche anzugeben.
-
HINTERGRUND
-
Es
gibt viele Anwendungsbereiche, die aus der Gebärdeerkennung Nutzen ziehen
können.
Dies ist beispielsweise ein natürlicher
Mechanismus zur Steuerung des Ziels der Kamera. Ein anderer Anwendungsbereich
ist die Verwendung von Handgebärden
zum Verlagern des Cursors über
einen Schirm. Man kann sich ausmalen Selektionen bei einem künftigen
intelligenten Fernseher zu machen, beispielsweise dadurch, dass man
einfach mit einem Finger auf einen Gegenstand am Schirm zeigt. Es
ist dabei keine Maus erforderlich.
-
Video-basierte
Systeme, die Bilder einer Szene verwenden um Gebärden, wie eine Zeigegebärde um ein
Ziel anzuzeigen, zu interpretieren, ist ein sehr schnell wachsendes
Gebiet. Die Geschwindigkeit von Computer und die Geschwindigkeit
von Bildverarbeitung sind derart, dass sehr bequeme Mechanismen
zum Zielen und Neuzielen von Kameras geschaffen werden können. Bei
Videokonferenzsystemen kann beispielsweise ein Benutzer auf einen
betreffenden Gegenstand zeigen um eine zoomfähige Kamera auf eine PT-Basis
zu positionieren. Derartige automatisierte Systeme sind intuitiver
und lassen sich leichter steuern als herkömmliche Systeme, die explizite
Befehle, wie ein Sprachsteuerungsbefehl ("Befehlssteuerung", im Grunde ein sprachbasierter Symbolprozessor,
wobei jeder verbale Befehl einer Instruktion entspricht, beispielsweise "PAN – LEFT", "UP", "DOWN" usw.) eine Joystick-Steuerung
und kontinuierliche Zielverfolgung brauchen. Bei derartigen Systemen
werden Mehrwinkelbilder oft kombiniert zum Erzeugen eines dreidimensionalen
Modells einer Szene. Das dreidimensionale Modell wird dann verwendet
zum Ermitteln des Ziels, auf das der Benutzer zeigt.
-
Ein
System, das eine derartige "kluge" Technologie anwendet
um die Steuerung einer Kamera zu ermöglichen, ist in einer US Patentanmeldung
Nr. 08/996.677, eingereicht am 12/23/97 mit dem Titel: "System and Method
for Permitting Three-Dimensonal Navigation Through a Virtual Reality
Environment Using Camera-Based Gesture Inputs" beschrieben/Diese Patentanmeldung beschreibt
eine Anordnung, bei der eine Kamera die Profile von Menschen gegenüber dem
Hintergrund unterscheidet, und zwar unter Anwendung von Bildverarbeitungstechniken.
Die Bildverarbeitungstechniken bezwecken einen Gegenstand von einem
Hintergrund zu unterscheiden. Die Gegenstände können dann von einer PAN/TILT/ZOOM
(PTZ) Kamera verfolgt werden. Ein derartiges System kann wiederholt
ein Ziel positionieren, darauf einzoomen und darauf fokussieren,
so dass das Ziel am Schirm nach wie vor relativ zentriert wird.
-
Eine
andere Technik, wie in dem
US
Patent 5.187.574 beschrieben, wird als virtuelle oder elektronische
Zoombewegung bezeichnet. Videoinformation von einer oder mehreren
festen Kameras wird elektronisch derart verarbeitet, dass das betreffende
Ziel nach wie vor in dem Ausgangsvideosignal sichtbar ist, trotz
der Tatsache, dass es sein kann, dass der Gegenstand nicht in dem
Gesichtsfeld einer bestimmten Kamera zentriert steht. Durch Extraktions-
und Interpolationsvorgänge
kann der Befolgungsprozess durch feste Kameras durchgeführt werden,
die im Allgemeinen preisgünstiger
sind als PZT-Kameras.
-
Ein
anderes System ist in dem Artikel "Finger-Pointer, Pointing interface by
Image Processing" von Masaaki
Fukumoto, Yasuhito Suenga und Kenji Mase beschrieben worden. In
diesem Artikel beschreiben die Autoren ein System, das eine Kamera
steuert auf ein Ziel zu fokussieren, wobei ein Operator innerhalb
des Gesichtsfeldes des Systems, auf das Ziel zeigt. Das System tastet
das Bild des Fingers der Operators ab und verarbeitet die ses Bild,
was bewirkt, dass eine Kamera in diese allgemeine Richtung gezielt
wird. Der Artikel beschreibt auch ein System, bei eine Kombination
von Zeigegebärden
und Sprachbefehlen angewandt wird. Durch die Anwendung einfacher
Stimm- oder Gebärdebefehle
kann der Operator die Kamera richten um einfache Funktionen zu erfüllen, wie
Ein- oder Auszoomen, oder Schirm frei machen. Dieser Artikel soll
durch Bezeichnung als hierin aufgenommen betrachtet werden.
-
Die
bekannten Techniken um ein Ziel anzugeben, erfordern im Allgemeinen
die Schaffung einer dreidimensionalen Konstruktion einer Video-Szene
und des Zielgebietes innerhalb eines Computers um zu bestimmen,
worauf der Benutzer zeigt. Dies ist mühsam aufzusetzen, weil dies
viele Kameras und eine dreidimensionale Schnittstelle erfordert,
was typischerweise ziemlich komplex und rechnerisch intensiv ist.
-
Eine
bekannte Technik, welche diese Begrenzung nicht kennt, ist in dem
US Patent Nr. 5.454.043 beschrieben.
In dem "043" Patent werden Handbewegungen
von einer Videokamera eingefangen und Orientierungs- und Bewegungsmuster
werden durch Bildverarbeitung in Befehle umgewandelt. Die Technik
kann nicht angewandt werden um ein Ziel anzuzeigen, wenn ein Benutzer
an verschiedenen Stellen steht, wie in den bekannten dreidimensionalen
Modellierungssannäherungen,
sie hat aber den Vorteil, dass ein Benutzer beispielsweise einen
Cursor an einem Videoschirm begrenzt steuern kann.
-
Es
gibt ein Bedürfnis,
in dem Stand der Technik, nach einem System, das Richtungsangaben,
wie Zeigegebärden,
interpretieren kann, das aber die Notwendigkeit einer Registrierung
der Anordnung und der Elemente der Szene und des mit dreidimensionaler
Modellierung der Szene assoziierten intensiven Rechenaufwands vermeidet.
-
ZUSAMMENFASSUNG DER ERFINDUNG
-
Ein
spezieller Subsatz dreidimensionaler Ziele ist derjenige, der auf
einer Fläche
liegt, deren Form im Voraus bekannt ist. So könne beispielsweise die ebene
Oberfläche
eines Projektionsschirms Ziele enthalten, auf die ein Sprecher zeigen
kann. Ein anderes Beispiel ist ein Subbild an einem Videoschirm,
auf das ein Zuschauer zeigen kann oder durch eine Richtungsangabe,
wie das Anzeigen mit einem Stock, mit einem Finger, mit einer Handbewegung
usw., angezeigt werden kann. Nach der vorliegenden Erfindung kann
ein Ziel, wie beschrieben, in einem Bild einer Szene ohne Registrierung
von Information über
die Lagen von Kameras oder der Fläche, auf der das Ziel liegt,
identifiziert werden.
-
Die
einzige a priori erforderliche Information ist wenigstens Information über die
Form der Fläche.
-
Das
Verfahren zum Ermitteln des Ziels, auf das ein Benutzer zeigt, benutzt
nach einer Ausführungsform
wenigstens zwei Bilder eines Szene mit dem Zeiger und dem Zielgebiet.
In diesem Beispiel wird vorausgesetzt, dass das Ziel auf einer flachen
Ebene liegt, die Registrierungsmarken oder Referenzmarkierungen aufweist,
die in den Szenenbildern der beiden Kameras sichtbar sind. Eine
Zeigegebärde
wird auch in den beiden Szenen eingefangen. Die Zeigegebärde wird
verarbeitet und in dem Ausmaß aufgelöst, wie
zum Ermitteln einer Linie in den X-Y-Koordinaten des Szenen selber
erforderlich. Dies geschieht in den beiden Kameraszenen. So könnten beispielsweise
Punkte (in X-Y-Koordinaten
in Pixeleinheiten), die mit dem rechten Auge des Benutzers und mit
der Fingerspitze zusammenfallen, verwendet werden. Auf alternative
Weise könnte
eine Linie definiert werden um die Richtung darzustellen, angegeben
durch eine Gebärde
und diese Linie könnte durch
zwei beliebige Punkte auf der Linie definiert werden. Diese zielenden
Punktepaare von beiden Szenen werden abgebildet.
-
Die
betreffenden Bilder werden über
die Registrierungsmarkierungen verformt, so dass sie genau das Erscheinen
der Ebene nachahmen, mit der das Ziel zusammenfällt. Dies ermöglicht es,
dass das Ziel unter Anwendung nur zweidimensionaler Inferenz ermittelt
werden kann, wobei die dreidimensionale Inferenz völlig umgangen
wird. Jedes Bild wird derart verformt, dass alle Punkte auf der
Zielebene, die als Bezugsebene bezeichnet werden kann, in dem Bild
an genau der gleichen Stelle erscheinen, wie sie in der Bezugsebene
erscheinen. Wie nachstehend noch näher beschrieben wird, kann
eine lineare Registrierungstransformation berechnet werden, wenn
in dem Bild und in der Bezugsebene 4 entsprechende Punkte identifiziert
werden. Die Transformation ist derart, dass die Punkte in der Bezugsebene
in dem Kamerabild an den gleichen relativen Stellen erscheinen,
wie sie erscheinen würden,
wenn die Bezugsebene geradeaus betrachtet werden würde. Das
heißt,
wenn in einem quadratischen Muster in der Bezugsebene vier Referenzmarkierungen
vorgesehen werden, würde
das Kamerabild, das diese vier Markierungen sieht, quer derart verformt
werden, dass sie wieder ein Quadrat in dem verformten Bild bilden.
Das Verformen erfolgt durch eine Planare projektive Transformation,
so dass alle Punkte in der Szene enden, die verzerrt sind, und alle
Punkte, die auf einer beliebigen geraden Linie in dem ursprünglichen
Bild liegen, nach wie vor auf einer geraden Linie liegen. Das zweite
Bild wird auf ähnliche
Art und Weise verformt und die zwei Bilder werden ausgerichtet,
so dass die Referenzmarkierungen auf der Referenzebene jedes Bildes
in einem einzigen Bild zusammenfallen. Vorzugsweise werden die zwei
Bilder von im Wesentlichen verschiedenen Winkeln aus genommen, so
dass der Benutzer in dem einen Kamerabild an einer anderen Stelle
des Szene erscheint als in dem anderen Kamerabild. Gerade Linien werden
zwischen dem rechten Auge und der Fingerspitze jedes Bildes des
Benutzers gezogen und dort, wo sie sich kreuzen, ist die Stelle
des Ziels. Selbstverständlich
ist die oben stehende Beschreibung rein symbolisch. Der wirkliche
Prozess erfolgt numerisch und nur die betreffenden Punkte werden
transformiert. Diese Punkte sind die Punkte in den zwei Bildern,
welche die Bilder des Auges und der Fingerspitze des Benutzers verbinden.
-
Die
Annäherung
kann in vielen Variationen angewandt werden. Zwei davon werden vorzugsweise
näher betrachtet.
Die erste Annäherung,
in der die Kameras sich vor dem Benutzer befinden, wobei der Benutzer in
Richtung der Kamera zeigt, ist besonders geeignet für eine Mensch/Maschine-Interaktion,
wie das Angeben von Selektionen an einem Sichtschirm oder einem
Monitor. Die zweite Annäherung,
das Zeigen in Richtung einer ebenen Fläche, die für jede Kamera sichtbar ist,
kann nützlich
sein bei Multimedia-Applikationen
wie Videokonferenz.
-
Es
wird vorausgesetzt, dass die erste Variation, die als "Peek Through" Konfiguration bezeichnet
wird, für
Kommunikation über
einen Fernseher oder Computermonitor nützlich wäre, beispielsweise beim Wählen von
Elemente aus einem Menü oder
beim Spielen eines Computerspiels. In diesem Entwurf befindet sich
eine vertikale undurchsichtige Ebene mit einer oder mehreren mehreckigen Öffnungen
(nebeneinander liegend) oben auf dem Computer- oder dem Fernsehmonitor,
etwa koplanar zu dem Schirm. Eine andere Möglichkeit ist die Verwendung
einer transparenten Erweiterungsfläche, wobei jede Öffnung durch
wenigstens 4 Merkmalpunkte ersetzt worden ist. Die erweiterte Fläche, die
den Schirm und die Öffnungserweiterung
enthält,
wird als "Bezugsebene" bezeichnet.
-
Eine
oder zwei Kameras liegen hinter der Erweiterungsfläche, den
Benutzer von hinter den zwei Öffnungen
einfangend; jede Öffnung
(oder 4 Referenzpunkte) ist immer völlig sichtbar an dem betreffenden
Bildrand. (auf alternative Art und Weise können die zwei Kameras durch
2 Spiegel ersetzt werden, wobei 1 Kamera die 2 Bilder nebeneinander
aufzeichnet.) Zunächst
(und nur einmal) wird ein frontales Bild der Referenzebene (Schirm_vorgesehene Öffnungen
oder Markierungen) in einem sehr kleinen Blickfeld (etwa eine orthographische
Projektion) genommen um das zweidimensionale nicht verzerrte Erscheinen
der Referenzebene darzustellen. Das Bild erhält den Bezugsrahmen zum Berechnen
der Zielstelle.
-
Zum
Berechnen der notwendigen Bildregistrierungstransformation (Verformung)
werden die Öffnungsbegrenzungen
in jedem betreffenden Bild und in dem Bezugsrahmen detektiert. Registrierung
betrifft das Durchführen
einer zweidimensionalen linearen Transformation an dem Bild, wonach
die Öffnungsbegrenzungen
in dem Bild in genau dem gleichen Verhältnis erscheinen, wie sie in
dem Bezugsrahmen erscheinen. Vier Punkte reichen aus um diese Transformation
zu berechnen, wie an anderen Stellen in der Beschreibung beschrieben.
-
Bei
diesem Entwurf wird der Benutzer fotografiert, indem er in Richtung
der Kamera zeigt. Um das Zeigeziel zu orten ist es notwendig, die
Augen und die Fingerspitze des Benutzers zu detektieren. Als Hilfe
bei der Detektion der Fingerspitze kann der Benutzer einen bunten
Fingerhut tragen. Der Fingerhut kann andere Interaktionsmittel,
wie eine Fernbedienung, ersetzen. Außerdem hat zur Erleichterung
der Detektion der Fingerspitze eine tragbare Maus andere Vorteile
für Benutzerschnittstellenzwecke,
wie das Bieten der Möglichkeit,
Zeigegebärden
mehrerer Benutzer voneinander zu unterscheiden. Auf diese Weise
könnten
eine Anzahl Benutzer, die verschieden gefärbte Fingerhüte tragen,
gleichzeitig dasselbe oder verschiedene Ziele angeben.
-
Es
wird vergegenwärtigt,
dass die zweite Variation, die "Direct
View Configuration",
für solche
Zwecke die meist nützliche
ist für
Präsentationen
oder Videokonferenzen mit einem großen Schirm oder in Situationen, in
denen die Kameraaufstellung vorübergehend
oder tragbar ist. In dieser Aufstellung werden die Zielebene oder
Referenzebene und der Benutzer von beiden Kameras gesehen. Wie in
der "Peek Through
Configuration" basiert
die Registrierung nur auf Bilddaten. Es werden vier Punkte in der
Bezugsebene in jedem Bild identifiziert, wobei Registrierung bei
der Anwendung einer zweidimensionalen linearen Transformation des
Bildes auftritt. Da die Bezugsebene typischerweise ein Projektionsschirm
oder eine weiße
Wandtafel ist, lassen sich die Punkte auf einfache Art und Weise
detektieren. Diese können
aus einer Projektion mit hohem Kontrast geformt werden und zu dem
betreffenden Zeitpunkt zum Einfangen der Aufstellung benutz werden
und danach von dem Schirm entfernt werden. Auf alternative Weise
können
zwei Sätze
paralleler Linien anstelle der Referenzmarkierungen verwendet werden.
Die Begrenzungen des Schirms oder der Weißwandtafel können auch verwendet
werden.
-
In
dem Endschritt kann eines der Bilder als Referenzrahmen gewählt werden.
Die Registrierungstransformation bildet die 4 identifizierten Punkte
ab, so dass sie in dem zweiten Bild an derselben Stelle erscheinen wie
sie in dem ersten Bild erscheinen. Registrierung erfolgt gegenüber dem
Referenzrahmen anstelle der Referenzebene, was zur Identifikation
des Zeigeziels ausreicht.
-
Die
vorliegende Erfindung wird im Zusammenhang mit bestimmten bevorzugten
Ausführungsformen in
Bezug auf die nachfolgenden Figuren beschrieben, so dass das ganze
besser verstanden werden kann. In Bezug auf die Figuren wird beansprucht,
dass die dargestellten Einzelheiten nur Beispiel e sind und nur
zur Illustration der bevorzugten Ausführungsformen der vorliegenden
Erfindung beschrieben und als die meist nützliche und am besten verständliche
Beschreibung der Grundlagen und der konzeptuellen Aspekte der vorliegenden
Erfindung präsentiert
werden. In dieser Hinsicht wird nicht versucht, strukturelle Einzelheiten
der vorliegenden Erfindung detaillierter als zum elementaren Verständnis der
vorliegenden Erfindung notwendig zu geben, wobei die Beschreibung
der Zeichnung dem Fachmann einleuchten dürfte, wie verschiedenen Formen
der vorliegenden Erfindung in der Praxis verwendet werden könnten.
-
KURZE BESCHREIBUNG DER ZEICHNUNG
-
Ausführungsbeispiele
der vorliegenden Erfindung sind in der Zeichnung dargestellt und
werden im Folgenden näher
beschrieben. Es zeigen:
-
1 eine
symbolische Darstellung der Aufstellung zum Identifizieren einer
Zielstelle in einer Projektion einer Szene der einen Kamera (oder
Bezugsprojektion) unter Anwendung der Projektion einer zweiten Kamera
nach einer Ausführungsform
der vorliegenden Erfindung,
-
2 eine
symbolische Darstellung einer Szene zum Geben von Definitionen in
Bezug auf die Projektion, erhalten von einer der Kameras nach der
Ausführungsform
nach 1,
-
3 eine
Darstellung der Szenenprojektion von der Kamera nach 2,
-
4 eine
Darstellung eines Szene zum Geben von Definitionen in Bezug auf
die Projektion, erhalten von der anderen Kamera in der Ausführungsform
nach 1,
-
5 eine
Darstellung der Szenenprojektion von der Kamera nach 4,
-
6 die
Richtung anzeigende selektierte Punkte aus der Szene nach 5,
abgebildet durch eine planare Projektionstransformation auf die
Szene nach 3 zum Erhalten der Koordinaten
eines Ziels,
-
7 eine
Darstellung der Aufstellung mit einer Szene, die einen Richtungsvektor
aufweist, die ein Ziel angibt und zum Identifizieren der Projektion
einer Zielstelle auf eine Referenzprojektion unter Verwendung von
Bildern von zwei Kameras nach einer anderen Ausführungsform der vorliegenden
Erfindung verwendet wird,
-
8 und 9 je
eine Darstellung von Projektionen von den Bildern der Kamerabilder
in der Ausführungsform
nach 7,
-
10 eine
Darstellung der Kombination planarer Projektionstransformationen
von Projektionen eines einzigen Richtungsvektors auf ein Bezugsbild
zum Identifizieren eines durch den Richtungsvektor angegebenen Ziels,
-
11 Darstellungen
von Anordnungen und Prozessen, die bei der Anwendung der vorliegenden
Erfindung angewandt werden können.
-
DETAILLIERTE BESCHREIBUNG BEVORZUGTER
AUSFÜHRUNGSFORMEN
-
In 1 ist
ein Ziel 25, das in/auf einer ebenen Fläche, wie einem Fernsehschirm
oder Projektionsschirm 10 oder an einer (nicht dargestellten)
Wand liegt, durch einen Benutzer 30 angegeben. Die Zielstelle kann
in dem Bild durch die zwei Kameras 35 und 40 identifiziert
werden, und zwar durch eine Kombination der Bilder aus den zwei
Kameras 35 und 40, und zwar auf die nachstehend
beschriebene Art und Weise. Die Illustration zeigt den Benutzer 30,
der unter Verwendung einer Zeigegebärde auf das Ziel 25 zeigt.
Es wurde versuchsweise ermittelt, dass die von Menschen verwendete
Gebärde
auf ein Ziel zu zeigen, derart ist, dass die Fingerspitze des Benutzers,
das rechte (oder linke) Auge des Benutzers und das Ziel durch eine
gerade Linie miteinander verbunden sind. Dies bedeutet, dass die
planare Projektion eines Ziels im Gesichtsfeld einer der beiden
Kameras längs
der planaren Projektion der geraden Linie liegt, die durch das Auge
und die Fingerspitze des Benutzers definiert wird. In der vorliegenden
Erfindung werden die planaren Projektionen der zwei zu einer gemeinsamen
planaren Projektion transformiert, die von der Kamera 35 oder 40 oder
einer beliebigen dritten Ebene sein konnte.
-
In 2 sind
die Kameras derart aufgestellt, dass sie je die Zeigevorrichtung,
in diesem Fall die Fingerspitze 80 des Benutzers, in Kombination
mit dem Auge 90 des Benutzers einfangen. Auch jedes Gesichtsfeld 45 und 50 der
Kameras ist derart, dass vier Referenzmarkierungen 20 in
der Ebene, in/auf der das Ziel sich befindet, sichtbar sind. Die
genaue Stelle oder das genaue Ziel der Kameras 35 und 40 ist
kein Gegenstand der vorliegenden Erfindung, ausgenommen, was nach
einer weiteren Erläuterung
der vorliegenden Erfindung einleuchten dürfte, in dem Sinne, dass dies
die Genauigkeit der Zielstelle beeinflusst. Der Genauigkeit halber
ist es vorteilhaft zu gewährleisten,
dass die Kamerabilder maximalen Gebrauch machen von der Auflösung und
der Genauigkeit (als Vertreter einer richtigen planaren Projektion)
der Kamerabilder.
-
In
den 2 und 3 sind die Position des Auges 90 und
der Fingerspitze 80 des Benutzers 30 durch einen
dreidimensionalen Vektor 85 dargestellt, dessen Planare
Projektion in dem Bild der Kamera 35 als der zweidimensionale
Vektor 76 dargestellt ist. In dem restlichen Teil der planaren
Projektion der Szene ist das Bild des Schirms 11 durch
perspektivische Zeichnung auf übliche
Weise verzerrt. Es ist eine Erweiterung 61 des Vektors 76 dargestellt,
die lang genug ist um durch die Stelle des Ziels 255 hindurch
zu gehen, was in dem Kontext nicht bekannt ist. Die Projektionen
der Koordinaten der Registrierungsmarkierungen 20 (1)
werden in dem Bild nach 3 als x1,
y1 ... x4, y4 identifiziert. Die Endpunkte der Projektion 76 des
Vektors 85 werden als x5, y5 und x6, y6 identifiziert.
-
In
den 4 und 5 sind die Positionen des Auges 90 und
der Fingerspitze 80 des Benutzers 30 wieder durch
einen dreidimensionalen Vektor 86 dargestellt. Die Planare
Projektion des Vektors 86 in dem Bild der Kamera 40 wird
als den zweidimensionalen Vektor 87 dargestellt. Auch hier
ist das Bild des Schirms 12 wieder durch perspektivisches
Zeichnen auf die übliche
Art und Weise verzerrt dargestellt und selbstverständlich ist
die Verzerrung anders, und zwar wegen der Position und der Lage
der Kamera 40. Es ist eine Erweiterung 62 des
Vektors 86 dargestellt, die lang genug ist um durch die
Stelle des Ziels 25 hindurch zu fahren. Die Planare Projektion
der Erweiterung 62 ist durch 63 bezeichnet. Auch
hier ist die Projektion der Position des Ziels nicht im voraus bekannt.
Die Projektionen der Koordinaten der Registrierungsmarkierungen 20 (1) sind
in dem Bild nach 5 als p1,
q1, p4, q4 identifiziert. Die Endpunkte der Projektion 87 des
Vektors 85 werden als p5, q5 und p6, q6 identifiziert.
-
In 6 ist
die Projektion nach 5 mit einer transformierten
Version 87' der
Projektion 87 des Vektors darauf überlagert ist. Die transformierte
Projektion 87' wird
von dem zweidimensionalen linearen Transformationsvorgang hergeleitet,
der die Projektion nach 5 derart abbildet, dass die
Punkte p1, q1, ...
p4, q4 genau auf
den Koordinaten x1, y1,...
x4, y4 abgebildet
werden. Die Stelle des Ziels trifft mit dem Schnittpunkt der zwei
Erweiterungslinien zusammen.
-
Diese
Transformation kann dargestellt werden durch:
was die Transformation ausschließlich des
Maßstands
darstellt. Da jeder Punkt zwei Restriktionen in M schafft und da
M eine 3 × 3
Matrix ist, definiert ohne Maßstab,
gibt es 8 Unbekannte und kann deswegen ermittelt werden, und zwar
unter Verwendung von 4 unabhängigen
Punkten. Dies ist weshalb vier Registrierungspunkte
20 verwendet
werden. M wird wie folgt definiert:
und wenn die vier Punkte
p
1, q
1, ... p
4, q
4 gegeben sind,
können
alle Unbekannten in M durch Lösung
des nachfolgenden linearen Gleichungssystems erhalten werden:
-
Wenn
das Ziel einmal identifiziert worden ist, kann die Information zum
Schaffen mehrerer Merkmale verwendet werden. So kann beispielsweise
ein Objekt, das auf den Schirm projiziert wird, durch Zeigung gesteuert
werden. Für
dieses Beispiel könnten
die zwei Kamerabilder in die Ebene des Schirms 10 transformiertes
werden. Wenn die Koordinaten am Schirm 10 des Ziels gegeben
sind, könnte
jeder Computerprozess diese Information benutzen. Beispielsweise
ein Spiel mit mehreren Spielern, die je durch Zeigegebärden gesteuert werden.
Verschieden gefärbte
Fingerhüte
oder Kellen könnten
von verschiedenen Spielern gewonnen/verwendet werden um verschiedene
Objekte, die am Schirm gerendert wurden, zu steuern. Bestimmte Aufgaben,
die mit einer Maus, einem Lichtstift, einem Berührungsschirm usw. durchgeführt werden,
könnten
mit Zeigegebärden
durchgeführt
werden.
-
Obschon
in der oben beschriebenen Ausführungsform
das Ziel durch eine Zeigegebärde
auf eine spezielle Art und Weise angegeben wird (Auge-zu-Fingerspitze),
gibt es keinen Grund, dass diese Anzeige nicht auf eine andere Art
und Weise hergeleitet werden konnte. So könnte beispielsweise eine Zielvorrichtung
oder Kelle verwendet werden. Auch könnte statt eines Ziels an einem
Schirm das Ziel beliebige Objekte oder Bilder sein, die im Wesentlichen
auf einer gemeinsamen Ebene liegen. Weiterhin brauchen die Objekte
oder Ziele nicht auf einer einzigen Ebene zu liegen, sondern könnten in
vielen Ebenen liegen, die je einen betreffenden Satz mit Registrierungsmarkierungen
haben. Die vorliegende Erfindung kann auch angewandt werden durch Anwendung
anderer Transformationen, so dass Ziele auf Ebenen anders als flachen
Ebenen liegen können. Eine
weitere Variation ist in der Art und Weise, der Gestikulation um
eine Richtung anzugeben. Es kann eine Zeitreihe von Bildern verwendet
werden um eine Richtung herzuleiten, wie die Richtung einer Handbewegung oder
Fingerbewegung über
ein kurzes Zeitintervall, wie eine Gebärde um eine Richtung anzugeben.
Auch eine andere geeignete Applikation wäre eine Weißwandtafel-Applikation. Weiterhin
brauchen die Registrierungsmarkierungen 20 keine Markierungen
auf dem Schirm zu sein, können
aber die Ecken des Schirms 10 sein. Auch kann es sein,
dass die Registrierungsmarkierungen auf den Schirm projiziert werden,
und zwar an einem einzigen Punkt während der Aufstellung, wonach
sie entfernt werden. Die Registrierungspunktkoordinaten können danach
zum berechnen der Transformation ohne weitere Bezugnahme auf die
Registrationsmarkierungen verwendet werden bis die Aufstellung geändert wird.
Eine andere Applikation dieser Technologie ist zur Verwendung beim
Zielen einer Kamera auf das Ziel. Wenn die Koordinaten in dem Referenzbild
einmal bekannt sind, kann eine der zwei Kameras oder eine dritte
Kamera neu gezielt und gezoomt werden um das Ziel zu erfassen. Dies
wäre nützlich im
Kontext eines automatisierten Videokonferenzsystems.
-
In 7 gibt
in einer Aufstellung entsprechend einer anderen Ausführungsform
der vorliegenden Erfindung ein Vektor 200 ein Ziel 226 an.
Eine Fortsetzungslinie 205 ist längs der Achse des Vektors 200 auf
das Ziel gerichtet. Wie bei den vorhergehenden Ausführungsformen
beschrieben, stellt der Vektor 200 eine von verschiedenen
Anzeigevorrichtungen dar, beispielsweise eine Zielgebärde. Auch
wie in den anderen Ausführungsformen
liegt das Ziel 226 in/auf einer Ebene, in diesem Beispiel
einem Schirm 270, beispielsweise eines Fernsehers großen Formats.
Kameras 235 und 240 werden durch betreffende Referenzrahmen 260 und 265 gezielt.
Die Referenzrahmen 260 und 265 schaffen auf einfache
Weise die Ausrichtpunkte für 1–4 in
dem Gesichtsfeld der Kamera 235 und die Ausrichtpunkte 5–8 in
dem gesichtsfeld der Kamera 240. Jede Kamera 235 und 240 ist
derart gerichtet, dass sie den betreffenden satz mit Ausrichtpunkten
und den vektor 200 sieht. Auf diese Weise könnte beispielsweise
die Aufstellung einen Benutzer enthalten, der auf einem Stuhl vor
einem Fernseher sitzt, wobei die Kameras sich oben auf dem Fernseher
befinden und auf den Benutzer gerichtet sind.
-
Bei
dieser Ausfühgrungsform
sind die Ausrichtpunkte einfach die Ecken 1–8 der
Rahmen 260 und 265. Die Koordinaten dieser Ecken
werden vorzugsweise durch Extrapolation von Umrisspassungen auf
Basis der Ränder
der Rahmen zum Erhalten von Positionen mit der größten Präzision,
dies im Verhältnis
zu der begrenzten Auflösung
der Kameras, insbesondere Videokameras. Derartige Techniken sind
in dem betreffenden technischen Bereich durchaus bekannt.
-
In
den 8 und 9 umfassen die Bilder der Kameras 240 und 235 Projektionen 210 bzw. 220 des Zeigevektors 200.
Auch die Umrisse 215, 225, bestimmt durch die
durch die Vektorprojektionen 210 und 220 angegebene
Richtung, sind dargestellt. 7 wurde
verwendet um die dreidimensionale Szene zu illustrieren, aber die
Anordnung ist auch ein Hinweis auf eine Projektion, genommen aus
einem Bild in Richtung des Schirms 270. Ein derartiges
Bild wird als Referenzbild in dieser Ausführungsform verwendet, wobei
die Vektoren der beiden Kamerabilder zu diesem Bild transformiert
werden um die Koordinaten des Ziels in dem Referenzbild zu ermitteln.
-
In 10,
welche die Szenenprojektion aus 7 zeigt,
werden, nachdem die Vektorbilder unter Anwendung der zweidimensionalen
linearen Transformation zu dem Referenzrahmen transformiert worden
sind, die Umrisse 215 und 225 zu Umrissen 285 bzw. 280 transformiert.
Die Transformation bildet die Punkte 1–4 in dem Bild nach 9 an
den entsprechenden Punkten des Bildes nach 10 ab.
Die einzigen Punkte, die aber transformiert zu werden brauchen,
sind die Punkte, welche die Vektorprojektionen 210 und 220 definieren.
Die Referenzbilder (Rahmen 260, 265 und das Referenzbild
nach 7 oder 10) brauchen
nur einmal für
jede Aufstellung genommen zu werden um die Koordinaten der Referenzpunkte
zu ermitteln.
-
In 11 sind
die Anordnungen und Prozesse, die zum Implementieren von Applikationen
der vorliegenden Erfindung verwendet bzw. angewandt werden können, in
einem Blockschaltbild dargestellt. Ein Bildprozessor 305 empfängt Bilddaten
von Kameras 301 und 302. Bild- und Koordinatendaten
können
in einem Speicher 310 oder in einem nicht flüchtigen
Speicher 320 gespeichertes werden. So können beispielsweise die Transformationsdaten,
die einmal berechnet worden sind, in dem nicht flüchtigen
Speoicher 320 und de, Speicher 310 gespeichert
werden, der beim Berechnen der Bilder von den Kameras 301 und 302 zum
Herleiten von koordinaten x, y des Ziels verwendet wird, das auf
einen Applikationsprozess 330 angewandt werden kann. Der
Applikationsprozess 330 erzeugt danach ein Ausgangssignal,
wie eine Spur auf einer Weißwandtafel
oder Steuerdaten für
einen Avater eines Spiels.
-
Es
sei bemerkt, dass die Projektionsdaten, die von den Kameras 301 und 302 gesammelt
worden sind, auch aus anderen Quellen, wie Sonar, Funk, medizinischer
Ultraschallapparatur oder einer anderen Anordnung hergeleitet werden
können,
die imstande ist, eine planare Projektion zu erzeugen.
-
Es
dürfte
dem Fachmann einleuchten, dass die vorliegende Erfindung sich nicht
auf die Einzelheiten der oben beschriebenen Ausführungsbeispiele beschränkt, und
dass die vorliegende Erfindung in diesem Rahmen in anderen spezifischen
Formen verkörpert
werden kann. Die vorliegenden Ausführungsformen sollen deswegen
in allen Hinsichten als illustrativ und nicht begrenzend betrachtet
werden, wobei der Rahmen der vorliegenden Erfindung durch die beiliegenden
Patentansprüche
statt durch die oben stehenden Ausführungsbeispiele angegeben wird,
und wobei alle Änderungen,
die in der Bedeutung und in dem Gleichwertigkeitsbereich der Patentansprüche liegen,
dadurch als hierin aufgenommen betrachtet werden sollen.
-
Text in der Zeichnung
-
1
- 10
- Schirm
-
2
- 10
- Schirm
-
4
- 10
- Schirm
-
7
- 270
- Schirm
-
11
- 310
- Speicher
- 305
- Bildprozessor
- 320
- nicht
flüchtiger
Speicher
- 330
- Applikationsprozess
- 340
- Ausgangsanordnung