-
Die
Erfindung betrifft ein Verfahren zur Anpassung eines Objektmodells
an eine dreidimensionale Punktwolke, bei dem die Punktwolke mittels
eines Stereo-Verfahrens aus zwei Bildern erzeugt und ein Clustering-Verfahren
auf die Punktwolke angewandt wird, um zu jeweils einem Cluster gehörige Punkte
zu identifizieren, und wobei anschließend eine Modellanpassung
durchgeführt wird, bei der mindestens ein Objektmodell
mindestens einem Cluster überlagert und eine optimale Position
des Objektmodells bezüglich des Clusters ermittelt wird, und
wobei eine Fehlzuordnung von Punkten mittels des angepassten Objektmodells
korrigiert wird.
-
Zur
Identifizierung von Objekten und ihrer dreidimensionalen Lagebestimmung
werden Objektmodelle verwendet. Bei der Anpassung eines Objektmodells
an eine 3D-Punktwolke kommt es bei bekannten Verfahren (Schmidt,
J., Wähler, C, Krüger, L, Gövert, T.,
Hermes, C, 2007. 3D Scene Segmentation and Object Tracking in Multiocular
Image Sequences. Proc. Int. Conf. an Computer Vision Systems (ICVS),
Bielefeld, Germany.) oftmals zu Mehrdeutigkeiten (falsch
positive Zuordnungen). Das Objekt wird in der Punktwolke mehrfach
gefunden, obwohl es nicht so oft bzw. gar nicht vorhanden ist. Ein weiteres
Problem, welches sich auf die Modellanpassung bezieht, ist die Ungenauigkeit
der Anpassung. Derzeit übliche Stereoverfahren basieren
meist auf der Suche von Merkmalen (Kanten, Punkte, Ecken, Pixelblöcke,
usw.) in einem linken und einem rechten Bild und der anschließenden
Zuordnung gleicher/ähnlicher Merkmale zueinander. Alternativ
werden oftmals auch die Inhalte lokaler Bildfenster hinsichtlich
ihrer Ähnlichkeit untersucht. Der so genannte Disparitätswert
wird dann ermittelt, indem man den Versatz der zugeordneten Merkmale
oder Bildfenster im linken und im rechten Bild zueinander bestimmt. Unter
der Voraussetzung eines kalibrierten Kamerasystems kann durch Triangulation
anschließend aus dem Disparitätswert dem zugehörigen
Bildpunkt ein Tiefenwert zugeordnet werden. In manchen Fällen kommt
es zu falschen Tiefenwerten aufgrund fehlerhafter Zuordnung. Dies
geschieht häufig bei sich wiederholenden Strukturen im
Bild, wie z. B. Finger der Hand, Wald, etc. bei kantenbasierten
Stereoverfahren. Die aus der Fehlzuordnung entstehenden 3D-Punkte
bezeichnet man als Fehlkorrespondenzen bzw. Ausreißer.
Abhängig von der Wahl von Merkmalen tritt dieser Effekt
mehr oder wenig häufig auf, ist aber ohne weitere Annahmen
grundsätzlich nie auszuschließen. Diese Fehlkorrespondenzen
beeinflussen die Anpassung des Objektmodells negativ, da sie zu
einer Verschlechterung der Repräsentation der Szene durch
die 3D-Punktwolke führen.
-
In
der Literatur sind verschiedene Verfahren bekannt, die sich mit
dem Problem der Fehlkorrespondenzen beschäftigen. Ein Großteil
der Methoden versucht, die Ausreißer zu erkennen, um sie
anschließend zu eliminieren. Nachteil hierbei ist die geringer
werdende Anzahl an 3D-Punkten bzw. der dadurch verursachte Verlust
an Information. Andere Verfahren [Hirschmuller, H., 2005.
Accurate and Efficient Stereo Processing by Semi-Global Matching and
Mutual Information, Proc. IEEE Conf. an Computer Vision and Pattern
Recognition, San Diego, USA.] wiederum versuchen, beispielsweise
durch Annahme von abschnittsweise glatten Oberflächen das Problem
zu unterdrücken. Durch solche Glattheitsannahmen werden
feine Strukturen nicht mehr erkennbar, was zu einem Informationsverlust
führt. Außerdem liefern diese Verfahren nur dort
gute Ergebnisse, wo wirklich mit glatten Oberflächen zurechnen
ist.
-
Es
ist eine Aufgabe der Erfindung, ein verbessertes Verfahren zur Anpassung
eines Objektmodells an eine dreidimensionale Punktwolke anzugeben.
-
Die
Aufgabe wird erfindungsgemäß gelöst durch
ein Verfahren mit den Merkmalen des Anspruchs 1.
-
Vorteilhafte
Weiterbildungen sind Gegenstand der Unteransprüche.
-
Bei
einem erfindungsgemäßen Verfahren zur Anpassung
eines Objektmodells an eine dreidimensionale Punktwolke wird die
Punktwolke mittels eines Stereo-Verfahrens aus zwei Bildern erzeugt
und ein Clustering-Verfahren auf die Punktwolke angewandt, um zu
jeweils einem Cluster gehörige Punkte zu identifizieren.
-
Zur
Erzeugung der dreidimensionalen Punktwolke kann ein beliebiges Stereoverfahren
eingesetzt werden, beispielsweise ein raum-zeitliches Stereoverfahren,
wie es in [Schmidt, J. Wähler, C., Krüger,
L., Gövert, T. Hermes, C. 2007. 3D Scene Segmentation and
Object Tracking in Multiocular Image Sequences. Proc. Int. Conf.
On Computer Vision Systems (ICVS), Bielefeld, Germany]
beschrieben ist. In dieser Schrift ist auch ein Clustering-Verfahren beschrieben,
das beispielsweise im erfindungsgemäßen Verfahren
eingesetzt werden kann.
-
Beim
Clustering werden Punkte der Punktwolke, von denen angenommen wird,
dass sie zu demselben Objekt gehören, zu so genannten Clustern
zusammengefasst.
-
Auf
das Clustering folgend findet eine Modellanpassung statt, bei der
mindestens ein Objektmodell mindestens einem Cluster überlagert
und eine optimale Position des Objektmodells bezüglich
des Clusters ermittelt wird. Hierbei kann insbesondere ein Modellanpassungsverfahren
eingesetzt werden, wie es in [Zhang, Z., 1992. Iterative
Point Matching for Registration of Free-Form Curves, INRIA Technical
Report 1658] beschrieben ist.
-
Infolge
der Modellanpassung können einem Cluster fälschlicherweise
zugeordnete Punkte identifiziert und eliminiert werden. Ebenso können
fälschlicherweise außerhalb des betrachteten Clusters
isoliert oder in einem anderen Cluster liegende Punkte, so genannte
Ausreißer, als dem betrachteten Cluster zugehörig
identifiziert und die Zuordnung entsprechend korrigiert werden.
-
Erfindungsgemäß werden
mindestens zwei Iterationen mit dem Stereo-Verfahren, dem Clustering-Verfahren,
der Modellanpassung und der Korrektur von Fehlzuordnungen durchgeführt,
wobei nach der Korrektur der Fehlzuordnungen in das Stereoverfahren
rückgekoppelt wird, um die Korrespondenzzuordnung an dieser
Stelle nicht nur für diesen Punkt, sondern gegebenenfalls
für weitere betroffene Punkte zu verbessern. Dabei wird
ab der zweiten Iteration für mindestens einen der Punkte,
insbesondere für einen in der vorherigen Iteration als
fehlzugeordnet identifizierten und korrigierten Punkt eine Wahrscheinlichkeit
seines Aufenthaltsortes in der dreidimensionalen Punktwolke bestimmt,
da er sich möglichst auf der Oberfläche des dem
Objektmodell ähnelnden Objekts bzw. Clusters befinden muss.
Bei der Bildung von Korrespondenzen im Stereo-Verfahren wird nun
nicht nur die Ähnlichkeit von Bildbereichen sondern auch
die Wahrscheinlichkeit des Aufenthaltsortes berücksichtigt,
wodurch sich die Qualität der Punktwolke verbessert, da
weniger Fehlzuordnungen auftreten.
-
Beispielsweise
wird bei Betrachtung von Fingern einer Hand, die einander sehr ähnlich
sind, ein Punkt mit höherer Wahrscheinlichkeit dem richtigen Finger
anstatt einem benachbarten Finger zugeordnet.
-
Ein
vorteilhaftes Ausführungsbeispiel der erfindungsgemäßen
Lösung besteht darin, Bildbereiche herauszusegmentieren,
die repetitive Strukturen zeigen, an denen besonders häufig
durch Stereoverfahren Fehlzuordnungen vorgenommen werden, was zu
einer stark fehlerbehafteten Tiefenkarte der Szene führt.
Repetitive Strukturen im Bild werden beispielsweise durch die Ermittlung
von signifikanten lokalen Maxmima in durch eine Fouriertransformation
auf Bildregionen gewonnenen Amplitudenspektren detektiert. Die zu
den so markierten Bildpixeln gehörigen 3D-Punkte bilden
hierbei einen Cluster, d. h. das Clustering erfolgt in diesem Ausführungsbeispiel durch
den beschriebenen Detektor für repetitive Bildstrukturen.
Das Modell der Szene besteht vorzugsweise aus einer oder mehreren
Ebenen. Die Frequenzen, an denen im Amplitudenspektrum Maxima auftreten,
werden verwendet, um auf Basis der Kameraparameter Sehstrahlen zu
modellieren, die wiederum eine Schar von Ebenen definieren, die
parallel zur realen Objektebene liegen. Der Normalenvektor dieser
Ebenenschar definiert daher den Normalenvektor der Objektebene.
Unter Zuhilfenahme der initialen Stereoanalyse wird die Objektebene
z. B. nach Transformation der Ebenenschar in den durch die Koordinaten
u (horizontale Bildkoordinate), v (vertikale Bildkoordinate) und
d (Disparität) aufgespannten Disparitätsraum anhand
der maximalen Häufung von 3D-Punkten in diesem (uvd)-Raum
ermittelt (vgl. schwarze Punkte in 3).
-
Auch
kann zusätzlich oder alternativ aus mindestens einem der
beiden Bilder eine so genannte Wahrscheinlichkeitskarte erstellt
werden, die im Folgenden, wie in der Literatur üblich,
als Attention-Map bezeichnet wird. Dies ist im Detail in [Tanaka, M.,
Hotta, K., Kurita, T., Mishima, T., 2008. Dynamic Attention Map
by Ising Model for Human Face Detection, Int. Conf. On Pattern Recognition,
Brisbane, Australia.] beschrieben. Zur Erstellung der Attention-Map wird
ein Klassifikator benutzt, beispielsweise der in [Wähler,
C., Anlauf, J. K., 1999. A Time Delay Neural Network Algorithm for
Estimating Image-pattern Shape and Motion, Image and Vision Computing 17,
pp. 281–294] beschriebene TDNN. Dieser Klassifikator
wird zuvor mit Beispielbildern eines Beispielobjekts trainiert.
Mit der Attention-Map kann eine Aussage darüber getroffen
werden, ob sich ein dem Beispielobjekt ähnliches Objekt
in der Szene befindet bzw. wie viele dieser Objekte in der Szene
vorhanden sind. Die Attention-Map erlaubt darüber hinaus
eine Aussage darüber, wie wahrscheinlich es ist, dass sich
ein solches Objekt an einem bestimmten Ort befindet.
-
Die
Attention-Map kann nun unterstützend beim Clustering-Verfahren
und/oder bei der Modellanpassung berücksichtigt werden.
Beim Clustering-Verfahren dient die Attention-Map der Selektion geeigneter
Cluster für die nachfolgende Modellanpassung. Bei der Modellanpassung
kann die Attention-Map insbesondere zur Berechnung einer initialen Pose
des Modells benutzt werden, von der ausgehend die Modellanpassung
vorgenommen wird. Hierdurch verbessert sich das Konvergenzverhalten
der Modellanpassung. Eine gute Initialisierung führt bei der
Modellanpassung zudem dazu, dass das Problem von lokalen Minima
umgangen wird, die zu einer suboptimalen Anpassung führen
können.
-
Im
Folgenden wird ein Ausführungsbeispiel der Erfindung anhand
einer Zeichnung näher erläutert.
-
Dabei
zeigt:
-
1 ein
Ablaufdiagramm eines Verfahrens zur Anpassung eines Objektmodells
an eine dreidimensionale Punktwolke.
-
In 1 ist
ein Ablaufdiagramm eines Verfahrens zur Anpassung eines Objektmodells
OM an eine dreidimensionale Punktwolke PW gezeigt. Zunächst
werden zwei stereoskopisch aufgenommene Bilder B1, B2 einem Stereo-Verfahren
S1 zugeführt. Dieses bildet Korrespondenzpaare aus Punkten
beider Bilder B1, B2. Das Resultat ist eine dreidimensionale Punktwolke
PW. Mit einem Clusteringverfahren S2 wird die Punktwolke PW segmentiert,
das heißt Cluster CL mit zusammengehörigen Punkten
gebildet.
-
Auf
das Clusteringverfahren S2 folgend findet eine Modellanpassung S3
statt, bei der mindestens ein Objektmodell OM mindestens einem Cluster CL überlagert
und eine optimale Position des Objektmodells OM bezüglich
des Clusters CL ermittelt wird.
-
Mit
den nun in ihrer Lage und Pose identifizierten Objekten O können
während einer Korrektur S4 von Fehlzuordnungen einem Cluster
CL fälschlicherweise zugeordnete Punkte identifiziert und
eliminiert werden. Ebenso können fälschlicherweise
außerhalb des betrachteten Clusters CL isoliert oder in einem
anderen Cluster CL liegende Punkte, so genannte Ausreißer,
als dem betrachteten Cluster CL zugehörig identifiziert
und die Zuordnung entsprechend korrigiert werden, wobei eine korrigierte Punktwolke
PW' und korrigierte Cluster CL' entstehen.
-
Es
werden mindestens zwei Iterationen des erfindungsgemäßen
Verfahrens durchgeführt. Dabei wird nach der Korrektur
der Fehlzuordnungen S4 in das Stereoverfahren S1 zurückgekoppelt.
Dabei wird ab der zweiten Iteration für mindestens einen
der Punkte, insbesondere für einen in der vorherigen Iteration
als fehlzugeordnet identifizierten und korrigierten Punkt eine Wahrscheinlichkeit
seines Aufenthaltsortes in der dreidimensionalen Punktwolke PW' bestimmt.
Bei der Bildung von Korrespondenzen im Stereo-Verfahren S1 wird
nun nicht nur die Ähnlichkeit von Bildbereichen sondern
auch die Wahrscheinlichkeit des Aufenthaltsortes berücksichtigt,
wodurch sich die Qualität der Punktwolke PW verbessert,
da weniger Fehlzuordnungen auftreten.
-
In 2 ist
eine zweite Ausführungsform des Verfahrens zur Anpassung
des Objektmodells OM an die dreidimensionale Punktwolke PW gezeigt.
Das Verfahren entspricht dem in 1 Gezeigten.
Zusätzlich werden jedoch die Schritte Clusteringverfahren
S2 und/oder Modellanpassung S3 mittels einer Wahrscheinlichkeitskarte
AM unterstützt, die den Gepflogenheiten in der Literatur
entsprechend im Folgenden als Attention-Map AM bezeichnet wird.
-
Die
Attention-Map AM wird in einem Erstellungsschritt S6 aus mindestens
einem der beiden Bilder B1, B2 erstellt. Zur Erstellung der Attention-Map AM
wird ein Klassifikator KL benutzt. Dieser Klassifikator KL wird
zuvor mit Beispielbildern eines Beispielobjekts BO in einem Trainingsschritt
S5 trainiert. Mit der Attention-Map AM kann eine Aussage darüber getroffen
werden, ob sich ein dem Beispielobjekt BO ähnliches Objekt
O in der Szene befindet bzw. wie viele dieser Objekte O in der Szene
vorhanden sind. Die Attention-Map AM erlaubt darüber hinaus
eine Aussage darüber, wie wahrscheinlich es ist, dass sich
ein solches Objekt O an einem bestimmten Ort befindet.
-
Beim
Clustering-Verfahren S2 dient die Attention-Map AM der Selektion
geeigneter Cluster CL für die nachfolgende Modellanpassung
S3. Bei der Modellanpassung S3 kann die Attention-Map AM insbesondere
zur Berechnung einer initialen Pose des Objektmodells OM benutzt
werden, von der ausgehend die Modellanpassung S3 vorgenommen wird.
-
- AM
- Attention-Map,
Wahrscheinlichkeitskarte
- B1,
B2
- Bild
- BO
- Beispielobjekt
- CL,
CL'
- Cluster
- O
- Objekt
- OM
- Objektmodell
- PW,
PW'
- Punktwolke
- S1
- Stereo-Verfahren
- S2
- Clusteringverfahren
- S3
- Modellanpassung
- S4
- Korrektur
von Fehlzuordnungen
- S5
- Trainingsschritt
- S6
- Erstellungsschritt
der Attention-Map
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste
der vom Anmelder aufgeführten Dokumente wurde automatisiert
erzeugt und ist ausschließlich zur besseren Information
des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen
Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt
keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Nicht-Patentliteratur
-
- - Schmidt, J.,
Wähler, C, Krüger, L, Gövert, T., Hermes,
C, 2007. 3D Scene Segmentation and Object Tracking in Multiocular
Image Sequences. Proc. Int. Conf. an Computer Vision Systems (ICVS),
Bielefeld, Germany. [0002]
- - Hirschmuller, H., 2005. Accurate and Efficient Stereo Processing
by Semi-Global Matching and Mutual Information, Proc. IEEE Conf.
an Computer Vision and Pattern Recognition, San Diego, USA. [0003]
- - Schmidt, J. Wähler, C., Krüger, L., Gövert,
T. Hermes, C. 2007. 3D Scene Segmentation and Object Tracking in
Multiocular Image Sequences. Proc. Int. Conf. On Computer Vision
Systems (ICVS), Bielefeld, Germany [0008]
- - Zhang, Z., 1992. Iterative Point Matching for Registration
of Free-Form Curves, INRIA Technical Report 1658 [0010]
- - Tanaka, M., Hotta, K., Kurita, T., Mishima, T., 2008. Dynamic
Attention Map by Ising Model for Human Face Detection, Int. Conf.
On Pattern Recognition, Brisbane, Australia. [0015]
- - Wähler, C., Anlauf, J. K., 1999. A Time Delay Neural
Network Algorithm for Estimating Image-pattern Shape and Motion,
Image and Vision Computing 17, pp. 281–294 [0015]