Trackingverfahren
dienen der Erfassung und Verfolgung der Relativposition und -lage
zumindest eines Sensors bezüglich
zumindest eines Objekts. Optische Trackingverfahren werden in verschiedensten
technischen Bereichen angewendet, beispielsweise im Bereich der
so genannten Augmented Reality. In Augmented-Reality-Anwendungen
wird eine real betrachtete Umgebung mit virtuellen, computergenerierten
Objekten überlagert
und einem Benutzer z. B. mittels einer Datenbrille sichtbar gemacht.
Bei Verwendung eines optischen Trackingverfahrens werden Bilder
der realen Umgebung mit einer Bildaufnahmeeinrichtung, im Folgenden
als Kamera bezeichnet, aufgenommen. Die aufgenommenen Bilder werden
an eine Recheneinheit weitergeleitet, von welcher sie auf bekannte
Merkmale untersucht werden. Bei solchen Merkmalen kann es sich beispielsweise
um spezielle, vorher an zu verfolgenden Objekten angebrachte Marker
oder um bestimmte, z. B. geometrische, Eigenschaften von im Bild
enthaltenen Objekten handeln. Werden entsprechende Merkmale, die
sich zumindest einem Objekt zuordnen lassen, im Bild entdeckt, so
besteht die Möglichkeit,
aufgrund der Position und/oder Art und/oder Anzahl der Merkmale
die Position des Betrachters und/oder seine Blickrichtung relativ
zu einem betrachteten Objekt, gegebenenfalls auch nur relativ zu
einem Merkmal eines solchen Objekts, zu ermitteln und zu verfolgen. Die
beschriebene Relativlokalisierung, die weitere Verfahrensschritte
enthalten kann, ist eine Grundvoraussetzung für Augmented-Reality-Anwendungen,
in welchen einem realen Kamerabild in Echtzeit dreidimensionale,
virtuelle Objekte als Zusatzinformation lagerichtig überlagert
werden. Das angereicherte Kamerabild kann dann mittels einer geeigneten
Ausgabeeinheit, z.B. einer Datenbrille, dem Betrachter zur Verfügung gestellt
werden.
Optische
Trackingverfahren erfordern gemäß dem Stand
der Technik meist die vorherige Anbringung von optischen Markern
an den zu verfolgenden Objekten. Die Marker stehen in der Regel
in einem starken Kontrast zur Umgebung und sind einfach zu erkennen.
Als Vorbereitung für
ein markerbasiertes Trackingverfahren wird typischerweise eine Markerdatenbank
angelegt.
Wird
später
in einem aufgenommenen Bild ein Marker entdeckt, kann dieser mit
der Markerdatenbank verglichen werden, und aus der Verzerrung des
Markers im aufgenommenen Bild gegenüber dem in der Markerdatenbank
gespeicherten Bild desselben Markers kann die Position und Lage
des Anwenders bezüglich
des Markers rekonstruiert werden. Die Erkennung eines bekannten
Objekts ist in markerbasierten Trackingverfahren in der Regel unproblematisch.
Im einfachsten Fall werden hierzu die an verschiedenen Objekten
angebrachten Marker, z. B. durch den Aufdruck eines asymmetrischen
Musters, in eindeutig wiedererkennbarer Weise ausgeführt.
Markerbasierte
Trackingverfahren besitzen jedoch wesentliche Nachteile. Zum einen
müssen sämtliche
zu verfolgenden Objekte vorbereitet, insbesondere mit Markern versehen,
werden. Zum anderen müssen
verschiedene Angaben zu den Markern, beispielsweise der Anbringungsort
am Objekt und zumindest ein Markerbild, in einer geeigneten Datenbank
hinterlegt werden. Bei einem markerbasierten Tracking müssen an
einem zu verfolgenden Objekt ausreichend große Flächen für die Anbringung der Marker
vorhanden sein. Zudem müssen diese
Flächen
eben sein, da heutige Marker meist rein zweidimensionale Objekte
sind. Schattenwurf und Verdeckung können markerbasierte Trackingverfahren
negativ beeinflussen, wenn Objekte bzw. die darauf platzierten Marker
nicht mehr im Kamerabild sichtbar und somit nicht mehr auswertbar
sind. Des Weiteren sind heutige markerbasierte Trackingverfahren
in der Regel nicht lernfähig,
sondern speziell auf die Erkennung einer beschränkten Anzahl möglicher
Marker ausgelegt.
Die
meisten Nachteile markerbasierter Verfahren werden vermieden durch „markerlose", d. h. nicht markerbasierte,
Trackingverfahren, bei welchen statt der oben beschriebenen künstlichen
Marker natürliche
Merkmale (Kanten, Ecken, etc.) der zu verfolgenden Objekte aus dem
Kamerabild extrahiert und verfolgt werden. Gängige Algorithmen für eine solche Extraktion
sind über öffentliche
Programmbibliotheken allgemein zugänglich. Um anhand der aus einem aufgenommenen
Bild extrahierten Merkmale die Position eines Benutzers bestimmen
zu können,
müssen
diese nach einer ursprünglichen
Initialisierung von Bild zu Bild verfolgt werden.
Ein
wesentlicher Nachteil der bisher bekannten markerlosen optischen
Trackingverfahren besteht darin, dass sie keine einfache Möglichkeit
einer Objekterkennung bieten. Dies gilt insbesondere dann, wenn
vor Beginn der Erkennungsphase keine oder nicht in ausreichender
Menge und/oder Qualität Kamerabilder
der möglichen
zu erkennenden Objekte zur Verfügung stehen,
welche in ihrer Art den später
in der Erkennungsphase aufgenommenen Kamerabildern entsprechen.
Eine Objekterkennung ist jedoch notwendiger Bestandteil vieler Anwendungen, beispielsweise
einer automatischen Ablaufsteuerung zur situationsabhängigen Anzeige
von Information. Für
eine echtzeitfähige
und/oder mit geringem technischem Aufwand behaftete Realisierung
sollte eine Objekterkennung in einfacher Art und Weise erfolgen können. Für eine fehlerfreie
Realisierung sollte eine Objekterkennung robust erfolgen.
Eine
bildverarbeitungsbasierte Objekterkennung setzt den Aufbau einer
Datenbank mit Merkmalen möglicher
zu erkennender Objekte voraus. In vielen Anwendungsfällen steht
zur Bestimmung von Merkmalen eines möglichen Objekts ein dreidimensionales
geometrisches Modell des Objekts (z. B. ein CAD-Modell) zur Verfügung. Auf
das Vorhandensein des jeweiligen realen Objekts kann zum Aufbau
der Datenbank in einem solchen Fall verzichtet werden.
Bei
Anwendung bekannter Verfahren zur Merkmalsextraktion auf ein solches
dreidimensionales geometrisches Modell bzw. auf ein aus einem solchen
dreidimensionalen Modell gemäß dem Stand der
Technik erzeugtes zweidimensionales Objektbild werden typischerweise
andere signifikante Merkmale extrahiert als bei einer, typischerweise
zur Laufzeit stattfindenden, Merkmalsextraktion aus einem Kamerabild
desselben Objekts. Die Ursache hierfür liegt in den bisher bekannten
Verfahren zur Verarbeitung der Daten eines für den Aufbau einer Datenbank
zur Verfügung
stehenden dreidimensionalen geometrischen Modells. Beispielsweise
ist es bekannt, zur Erstellung eines der Merkmalsextraktion unterzogenen zweidimensionalen
Objektbilds lediglich die Gitternetzstruktur eines CAD-Modells zu
verwenden. Auf diesem Weg werden jedoch in der Regel sehr viele
signifikante Merkmale extrahiert, die zum Großteil nicht mit den im Kamerabild
gefundenen Merkmalen übereinstimmen.
Durch die Diskrepanz der auf solche Art und Weise extrahierten und
in der Datenbank abgelegten Merkmalen gegenüber den im Kamerabild auffindbaren
Merkmalen wird eine angestrebte Objekterkennung wesentlich erschwert,
in vielen Fällen
sogar unmöglich.
Wird zur Erstellung eines der Merkmalsextraktion unterzogenen zweidimensionalen
Objektbilds hingegen ein texturiertes CAD-Modell verwendet, ergibt
sich zwar typischerweise eine Vielzahl signifikanter Merkmale, welche
sich mit denen des Kamerabildes decken. Allerdings ist ein solches Verfahren
sehr aufwändig
und nur mit hohem Aufwand in Echtzeit zu bewältigen. Zudem können Verfälschungen
durch eine vom realen Objekt abweichende Texturierung auftreten.
Aufgabe
der vorliegenden Erfindung ist es, ein Verfahren zum Aufbau einer
Merkmalsdatenbank zu schaffen, welches eine einfache bildverarbeitungsgestützte Erkennung
eines markerlosen Objekts auf der Basis dreidimensionaler geometrischer Modelle
ermöglicht.
Gelöst wird
diese Aufgabe erfindungsgemäß durch
ein Verfahren der eingangs genannten Gattung, bei welchem zur Bestimmung
der Merkmale zumindest ein auf einen bestimmten Blickwinkel bezogenes
zweidimensionales Projektionsbild des opaken, texturfreien dreidimensionalen
geometrischen Modells erzeugt wird.
Durch
die Verwendung eines zweidimensionalen Projektionsbilds wird das
dreidimensionale geometrische Modell in eine prinzipiell mit den
in der Erkennungsphase aufgenommenen Kamerabildern vergleichbare
Form gebracht. Es ergibt sich somit eine gegenüber dem Stand der Technik verbesserte Übereinstimmung
zwischen den zum Aufbau der Merkmalsdatenbank verfügbaren Merkmalen
und den Merkmalen, welche aus den in der Erkennungsphase aufgenommenen
Kamerabildern extrahierbar sind.
Die
Wahl eines bestimmten Blickwinkels, insbesondere eines Blickwinkels,
welcher mit hoher Wahrscheinlichkeit einem in der Erkennungsphase auftretenden
Kamerablickwinkel auf das Objekt entspricht oder einem solchen ähnlich ist,
kann eine besonders hohe Ähnlichkeit
des Projektionsbilds mit zumindest einem in der Erkennungsphase
aufgenommenen Kamerabild zur Folge haben.
Durch
die Verwendung eines Projektionsbilds des opaken, also undurchsichtigen,
dreidimensionalen geometrischen Modells werden Kanten und Ecken
des dreidimensionalen Modells, die aus dem jeweiligen Blickwinkel
nicht sichtbar sind, eliminiert. Dadurch wird die Anzahl der auf
Basis des Modells extrahierten Merkmale, welche sich von den aus
einem in der Erkennungsphase aufgenommenen Kamerabild extrahierbaren
Merkmalen des Objekts unterscheiden, erheblich reduziert.
Durch
die Verwendung eines texturfreien, also nicht an seiner Oberfläche mit
grafischen Texturen bekleideten, dreidimensionalen geometrischen Modells
zur Erstellung des zweidimensionalen Projektionsbilds werden keine
Texturmerkmale extrahiert. Texturmerkmale besitzen in der Regel
einen geringen Zusammenhang mit tatsächlichen Oberflächen eigenschaften
der zugehörigen
Objekte. Zudem wird durch die auf diese Art und Weise erreichte
Reduktion der Anzahl zu verarbeitender Merkmale Rechen- und Speicheraufwand
vermieden.
Aus
dem erfindungsgemäß erstellten
Projektionsbild des dreidimensionalen geometrischen Modells können in
an sich bekannter Weise Merkmale extrahiert werden. Diese können in
an sich bekannter Art und Weise in einer Merkmalsdatenbank abgelegt werden.
In die Merkmalsdatenbank können
dabei die Merkmale mehrerer zweidimensionaler Projektionsbilder
desselben opaken, texturfreien dreidimensionalen geometrischen Modells
aufgenommen werden, welche jeweils auf einen bestimmten Blickwinkel
bezogen sind. Auf diese Weise kann eine gute Vergleichsbasis für Kamerabilder
aus verschiedenen Kamerablickwinkeln geschaffen werden. Dies ist
insbesondere dann von Vorteil, wenn der Kamerablickwinkel der zur
Objekterkennung aufgenommenen Kamerabilder nicht oder nur ungenau
vorhersehbar ist. Vorzugsweise sind Merkmale, welche aus einem einzigen
zweidimensionalen Projektionsbild extrahiert werden, so in der Merkmalsdatenbank
abgelegt, dass sie einander zuordenbar sind.
Statt
des Bezugs auf einen bestimmten Blickwinkel kann ein Projektionsbild
auch auf einen bestimmten Beobachtungspunkt bezogen sein. Dieser
Spezialfall des Bezugs auf einen bestimmten Blickwinkel liegt ebenfalls
im Bereich der Erfindung. Die Merkmalsdatenbank kann dementsprechende die
Merkmale mehrerer zweidimensionaler Projektionsbilder desselben
opaken, texturfreien dreidimensionalen geometrischen Modells enthalten,
welche jeweils auf einen bestimmten Beobachtungspunkt bezogen sind.
In
der Erkennungsphase wird zur Objekterkennung zumindest ein Kamerabild
aufgenommen. Aus diesem werden in an sich bekannter Art und Weise
die signifikanten, sichtbaren Merkmale eventuell im Kamerabild abgebildeter
Objekte extrahiert. Anschließend
werden diese zur Objekterkennung mit den in der Merkmalsdatenbank
abgelegten Merkmalen der möglichen
Vergleichsobjekte abgeglichen. Bevorzugt folgen die Aufnahme des
zumindest einen Kamerabildes, die Merkmalsextraktion und der Vergleich
mit der erfindungsgemäß aufgebauten
Datenbank zeitlich unmittelbar aufeinander in der so genannten Erkennungsphase.
Alternativ können
die genannte Schritte je nach Anwendung beliebig zeitlich beabstandet
sein.
Bevorzugt
erfolgt der Aufbau der Merkmalsdatenbank, d. h. die Extraktion der
Merkmale der Vergleichsobjekte und deren Ablage in der Merkmalsdatenbank,
offline vor Beginn der Erkennungsphase. Die rechenaufwändige Extraktion
von Merkmalen aus dreidimensionalen Objektmodellen muss somit nicht
zur Laufzeit in der Erkennungsphase erfolgen, wodurch eine echtzeitfähige Objekterkennung
und die echtzeitfähige
Durchführung
eines eventuell von der Objekterkennung abhängigen Verfahrens, z. B. eines
Trackingverfahrens, begünstigt
bzw. erst ermöglicht
wird.
Die
Offline-Vorbereitung kann, sofern die benötigten Daten zur Verfügung stehen,
zu einem beliebigen Zeitpunkt, hardwareunabhängig und ortsunabhängig erfolgen.
Gemäß einer
ersten bevorzugten Ausführungsform
der vorliegenden Erfindung enthält
das zumindest eine zweidimensionale Projektionsbild im Wesentlichen
ausschließlich
den sich aus dem jeweiligen Blickwinkel ergebenden Modellumriss
sowie Kanten und/oder Ecken des dreidimensionalen Modells, die aus
dem jeweiligen Blickwinkel sichtbar sind.
Diese
bevorzugte Ausführungsform
der Erfindung macht den Grundgedanken der Erfindung besonders deutlich.
Statt der Extraktion signifikanter Merkmale unmittelbar aus dem
dreidimensionalen Modell wird das Modell erfindungsgemäß zunächst so
vorverarbeitet, dass für
die Merkmalsextraktion Bilddaten zur Verfügung stehen, welche möglichst ausschließlich oder überwiegend
Merkmale enthalten, die mit hoher Wahrscheinlichkeit auch ein entsprechendes
Kamerabild enthält.
Der Modellumriss im Projektionsbild stellt in der Regel keine Kante
im dreidimensionalen geometrischen Sinn dar, ist aber aus einem
entsprechenden zweidimensionalen Kamerabild in der Regel als Kante
extrahierbar. Beispielsweise besitzen ein kugelförmiges Objekt und ein zugehöriges dreidimensionales
kugelförmiges Objektmodell
keine Kanten. Aus einem Kamerabild des kugelförmigen Objekts wird durch gängige Verfahren
zur Merkmalsextraktion insbesondere der Objektumriss extrahiert.
Aus dem kugelförmigen
Modell wird nun erfindungsgemäß ein zweidimensionales Projektionsbild
erstellt, welches im Wesentlichen den Modellumriss, je nach angewendetem
Verfahren ein Kreis oder eine Ellipse, enthält. Dieser Modellumriss ist
einfach aus dem Projektionsbild extrahierbar und besitzt eine hohe Ähnlichkeit
mit dem aus dem Kamerabild extrahierbaren Objektumriss.
Gemäß einer
zweiten bevorzugten Ausführungsform
der vorliegenden Erfindung enthält
das zumindest eine zweidimensionale Projektionsbild im Wesentlichen
ausschließlich
Kanten und/oder Ecken des dreidimensionalen Modells, die aus dem
jeweiligen Blickwinkel sichtbar sind. Bei dieser Ausführungsform
der vorliegenden Erfindung wird besonderes Augenmerk auf die gute
Wiedererkennbarkeit der Kanten und/oder Ecken eines Objekts gelegt.
Gemäß einer
dritten bevorzugten Ausführungsform
der vorliegenden Erfindung enthält
das zumindest eine zweidimensionale Projektionsbild im Wesentlichen
ausschließlich
den sich aus dem jeweiligen Blickwinkel ergebenden Modellumriss.
Bei dieser Ausführungsform
der vorliegenden Erfindung wird besonderes Augenmerk auf die gute
Wiedererkennbarkeit der Kontur eines Objekts gelegt.
Bevorzugt
enthält
das zweidimensionale Projektionsbild, welches im Rahmen eines erfindungsgemäßen Verfahrens
erzeugt wird, im Wesentlichen ausschließlich solche Kanten des dreidimensionalen
Modells, deren Kantwinkel einen bestimmten Winkelwert überschreitet,
und/oder zu solchen Kanten gehörige
Ecken. Ein typischer Winkelwert für eine solche in der Erzeugung
des Projektionsbilds stattfindende Beschränkung kann je nach Anwendung
beispielsweise zwischen 15° und
30° liegen.
Der Grund für
diese optionale Beschränkung
auf lediglich scharte Kanten und/oder zugehörige Ecken liegt darin, dass
scharfwinklige Kanten eines Objekts und an scharfwinklige Kanten
grenzende Ecken eines Objekts im aufgenommenen Kamerabild zu einem
besonders hohen Kontrastunterschied führen und somit leicht extrahierbar
sind. Hingegen führen
stumpfwinklige Kanten, d. h. Kanten mit einem niedrigen Kantwinkel,
und an stumpfwinklige Kanten grenzende Ecken im aufgenommenen Kamerabild
zu einem geringen Kontrastunterschied und werden somit durch gängige Verfahren
in der Regel nicht zuverlässig
als Merkmale extrahiert. Die Ablage entsprechender Merkmale in der
Merkmalsdatenbank ist somit als unnötig anzusehen. Aufwand, welcher
eventuell zur Extraktion, zur Ablage oder zum Vergleich solcher Merkmale
betrieben wird, ist als nachteilig anzusehen. Durch eine Beschränkung auf
scharfwinklige Kanten kann also die Effizienz eines erfindungsgemäßen Verfahrens
noch gesteigert werden.
Alternativ
oder zusätzlich
zu dem schrittweisen Vorgehen, zunächst ein zweidimensionales
Projektionsbild zu erzeugen und aus diesem anschließend Merkmale
zu extrahieren, können
Merkmale für die
Merkmalsdatenbank auch direkt aus dem dreidimensionalen geometrischen
Modell eines Objekts oder einer weiter verarbeiteten Form eines
solchen Modells gewonnen werden. Eine solche Vorgehensweise liegt
immer dann im Bereich der hier beschriebenen Erfindung, wenn im
Wesentlichen solche Merkmale extrahiert werden, die in einem entsprechenden
zweidimensionalen Projektionsbild enthalten wären.
Insbesondere
in Abhängigkeit
von den jeweils verwendeten Verfahren zur Merkmalsextraktion und
zum Merkmalsvergleich kann es vorteilhaft sein, ausschließlich, überwiegend
oder bevorzugt Kanten als Merkmale zu extrahieren. Ebenso kann es
vorteilhaft sein, ausschließlich, überwiegend
oder bevorzugt Ecken zu extrahieren. Unter einer Ecke eines Objekts
ist dabei ein gemeinsamer Punkt zumindest zweier Kanten zu verstehen.
In gängigen
Verfahren zur Merkmalsextraktion werden solche Ecken in der Regel
nur dann erkannt, wenn der Winkel zwischen den beiden Kanten einen
vorher definierten Grenzwert nicht übersteigt. Durch die Orientierung
an den jeweils verwendeten Verfahren zur Merkmalsextraktion und
zum Merkmalsvergleich wird die Verwendung von Standard-Verfahren
ermöglicht.
Das
Anlegen der Merkmalsdatenbank ist als Vorbereitung bzw. als Vorverarbeitung
zur späteren Objekterkennung
und -verfolgung zu sehen und muss in der Regel nur ein einziges
Mal erfolgen. Eine bestehende Merkmalsdatenbank kann durch die Hinzunahme
der Merkmale neuer Objekte erweitert werden. Auch eine solche Erweiterung
ist im Sinne der Erfindung als Aufbau der Merkmalsdatenbank zu verstehen.
Neben
den durch ein erfindungsgemäßes Verfahren
gewonnenen Merkmalen kann eine Merkmalsdatenbank Merkmale enthalten,
welche aus Kamerabildern und/oder anderen zweidimensionalen Objektbildern
gewonnen wurden.
Die
beschriebene Erfindung ermöglicht
die einfache bildverarbeitungsgestützte Erkennung von markerlosen
Objekten. Ein erfindungsgemäßes Verfahren
ist insbesondere als Vorbereitung zu optischen Trackingverfahren
anwendbar. Die Fähigkeit eines
Trackingverfahrens zur Objekterkennung stellt in vielen Anwendungen
einen entscheidenden Vorteil dar. Durch die Fähigkeit eines Trackingverfahrens zur
Objekterkennung kann beispielsweise eine automatische Ablaufsteuerung,
vorzugsweise anhand zumindest eines in einem bestimmten Arbeitsschritt
innerhalb eines Arbeitsablaufs im Blickfeld der Kamera befindlichen
Objekts, realisiert werden oder es können abhängig von zumindest einem erkannten
Objekt bestimmte Informationen gespeichert, bereitgestellt oder
ausgegeben werden.
Ein
erfindungsgemäßes Verfahren
besitzt eine geringe Anfälligkeit
gegenüber
sich ändernden Lichtverhältnissen.
Durch Schattenwurf teilverdeckte Objekte können trotzdem erkannt und gegebenenfalls
getrackt werden, wenn noch genügend
Merkmale des Objekts im Kamerabild sichtbar sind.