DE102008019795A1

DE102008019795A1 - Verfahren zur Anpassung eines Objektmodells an eine dreidimensionale Punktwolke durch Korrektur von Fehlkorrespondenzen

Info

Publication number: DE102008019795A1
Application number: DE102008019795A
Authority: DE
Inventors: Björn Dipl.-Ing. Barrois (FH); Marcus Konrad; Lars Dr. Krüger; Christian Dr.rer.nat. Wöhler
Original assignee: Daimler AG
Current assignee: Mercedes Benz Group AG
Priority date: 2007-10-09
Filing date: 2008-04-18
Publication date: 2008-11-20
Also published as: DE102007048318A1

Abstract

Die Erfindung betrifft ein Verfahren zur Anpassung eines Objektmodells (OM) an eine dreidimensionale Punktwolke (PW), bei dem die Punktwolke (PW) mittels eines Stereo-Verfahrens (S1) aus zwei Bildern (B1, B2) erzeugt und ein Clustering-Verfahren (S2) auf die Punktwolke (PW) angewandt wird, um zu jeweils einem Cluster (CL) gehörige Punkte zu identifizieren, und wobei anschließend eine Modellanpassung (S3) durchgeführt wird, bei der mindestens ein Objektmodell (OM) mindestens einem Cluster (CL) überlagert und eine optimale Position des Objektmodells (OM) bezüglich des Clusters (CL) ermittelt wird und wobei eine Korrektur (S4) von Fehlzuordnungen von Punkten mittels des angepassten Objektmodells (OM) durchgeführt wird, wobei mindestens zwei Itering-Verfahren (S2), der Modellanpassung (S3) und der Korrektur (S4) von Fehlzuordnungen durchgeführt werden, wobei ab der zweiten Iteration aus der vorherigen Iteration eine Wahrscheinlichkeit des Aufenthaltsortes für mindestens einen der Punkte in der Punktwolke (PW, PW') bestimmt und bei der Bildung von Korrespondenzen im Stereo-Verfahren (S1) berücksichtigt wird.

Description

Die Erfindung betrifft ein Verfahren zur Anpassung eines Objektmodells an eine dreidimensionale Punktwolke, bei dem die Punktwolke mittels eines Stereo-Verfahrens aus zwei Bildern erzeugt und ein Clustering-Verfahren auf die Punktwolke angewandt wird, um zu jeweils einem Cluster gehörige Punkte zu identifizieren, und wobei anschließend eine Modellanpassung durchgeführt wird, bei der mindestens ein Objektmodell mindestens einem Cluster überlagert und eine optimale Position des Objektmodells bezüglich des Clusters ermittelt wird, und wobei eine Fehlzuordnung von Punkten mittels des angepassten Objektmodells korrigiert wird.
Zur Identifizierung von Objekten und ihrer dreidimensionalen Lagebestimmung werden Objektmodelle verwendet. Bei der Anpassung eines Objektmodells an eine 3D-Punktwolke kommt es bei bekannten Verfahren (Schmidt, J., Wähler, C, Krüger, L, Gövert, T., Hermes, C, 2007. 3D Scene Segmentation and Object Tracking in Multiocular Image Sequences. Proc. Int. Conf. an Computer Vision Systems (ICVS), Bielefeld, Germany.) oftmals zu Mehrdeutigkeiten (falsch positive Zuordnungen). Das Objekt wird in der Punktwolke mehrfach gefunden, obwohl es nicht so oft bzw. gar nicht vorhanden ist. Ein weiteres Problem, welches sich auf die Modellanpassung bezieht, ist die Ungenauigkeit der Anpassung. Derzeit übliche Stereoverfahren basieren meist auf der Suche von Merkmalen (Kanten, Punkte, Ecken, Pixelblöcke, usw.) in einem linken und einem rechten Bild und der anschließenden Zuordnung gleicher/ähnlicher Merkmale zueinander. Alternativ werden oftmals auch die Inhalte lokaler Bildfenster hinsichtlich ihrer Ähnlichkeit untersucht. Der so genannte Disparitätswert wird dann ermittelt, indem man den Versatz der zugeordneten Merkmale oder Bildfenster im linken und im rechten Bild zueinander bestimmt. Unter der Voraussetzung eines kalibrierten Kamerasystems kann durch Triangulation anschließend aus dem Disparitätswert dem zugehörigen Bildpunkt ein Tiefenwert zugeordnet werden. In manchen Fällen kommt es zu falschen Tiefenwerten aufgrund fehlerhafter Zuordnung. Dies geschieht häufig bei sich wiederholenden Strukturen im Bild, wie z. B. Finger der Hand, Wald, etc. bei kantenbasierten Stereoverfahren. Die aus der Fehlzuordnung entstehenden 3D-Punkte bezeichnet man als Fehlkorrespondenzen bzw. Ausreißer. Abhängig von der Wahl von Merkmalen tritt dieser Effekt mehr oder wenig häufig auf, ist aber ohne weitere Annahmen grundsätzlich nie auszuschließen. Diese Fehlkorrespondenzen beeinflussen die Anpassung des Objektmodells negativ, da sie zu einer Verschlechterung der Repräsentation der Szene durch die 3D-Punktwolke führen.
In der Literatur sind verschiedene Verfahren bekannt, die sich mit dem Problem der Fehlkorrespondenzen beschäftigen. Ein Großteil der Methoden versucht, die Ausreißer zu erkennen, um sie anschließend zu eliminieren. Nachteil hierbei ist die geringer werdende Anzahl an 3D-Punkten bzw. der dadurch verursachte Verlust an Information. Andere Verfahren [Hirschmuller, H., 2005. Accurate and Efficient Stereo Processing by Semi-Global Matching and Mutual Information, Proc. IEEE Conf. an Computer Vision and Pattern Recognition, San Diego, USA.] wiederum versuchen, beispielsweise durch Annahme von abschnittsweise glatten Oberflächen das Problem zu unterdrücken. Durch solche Glattheitsannahmen werden feine Strukturen nicht mehr erkennbar, was zu einem Informationsverlust führt. Außerdem liefern diese Verfahren nur dort gute Ergebnisse, wo wirklich mit glatten Oberflächen zurechnen ist.
Es ist eine Aufgabe der Erfindung, ein verbessertes Verfahren zur Anpassung eines Objektmodells an eine dreidimensionale Punktwolke anzugeben.
Die Aufgabe wird erfindungsgemäß gelöst durch ein Verfahren mit den Merkmalen des Anspruchs 1.
Vorteilhafte Weiterbildungen sind Gegenstand der Unteransprüche.
Bei einem erfindungsgemäßen Verfahren zur Anpassung eines Objektmodells an eine dreidimensionale Punktwolke wird die Punktwolke mittels eines Stereo-Verfahrens aus zwei Bildern erzeugt und ein Clustering-Verfahren auf die Punktwolke angewandt, um zu jeweils einem Cluster gehörige Punkte zu identifizieren.
Zur Erzeugung der dreidimensionalen Punktwolke kann ein beliebiges Stereoverfahren eingesetzt werden, beispielsweise ein raum-zeitliches Stereoverfahren, wie es in [Schmidt, J. Wähler, C., Krüger, L., Gövert, T. Hermes, C. 2007. 3D Scene Segmentation and Object Tracking in Multiocular Image Sequences. Proc. Int. Conf. On Computer Vision Systems (ICVS), Bielefeld, Germany] beschrieben ist. In dieser Schrift ist auch ein Clustering-Verfahren beschrieben, das beispielsweise im erfindungsgemäßen Verfahren eingesetzt werden kann.
Beim Clustering werden Punkte der Punktwolke, von denen angenommen wird, dass sie zu demselben Objekt gehören, zu so genannten Clustern zusammengefasst.
Auf das Clustering folgend findet eine Modellanpassung statt, bei der mindestens ein Objektmodell mindestens einem Cluster überlagert und eine optimale Position des Objektmodells bezüglich des Clusters ermittelt wird. Hierbei kann insbesondere ein Modellanpassungsverfahren eingesetzt werden, wie es in [Zhang, Z., 1992. Iterative Point Matching for Registration of Free-Form Curves, INRIA Technical Report 1658] beschrieben ist.
Infolge der Modellanpassung können einem Cluster fälschlicherweise zugeordnete Punkte identifiziert und eliminiert werden. Ebenso können fälschlicherweise außerhalb des betrachteten Clusters isoliert oder in einem anderen Cluster liegende Punkte, so genannte Ausreißer, als dem betrachteten Cluster zugehörig identifiziert und die Zuordnung entsprechend korrigiert werden.
Erfindungsgemäß werden mindestens zwei Iterationen mit dem Stereo-Verfahren, dem Clustering-Verfahren, der Modellanpassung und der Korrektur von Fehlzuordnungen durchgeführt, wobei nach der Korrektur der Fehlzuordnungen in das Stereoverfahren rückgekoppelt wird, um die Korrespondenzzuordnung an dieser Stelle nicht nur für diesen Punkt, sondern gegebenenfalls für weitere betroffene Punkte zu verbessern. Dabei wird ab der zweiten Iteration für mindestens einen der Punkte, insbesondere für einen in der vorherigen Iteration als fehlzugeordnet identifizierten und korrigierten Punkt eine Wahrscheinlichkeit seines Aufenthaltsortes in der dreidimensionalen Punktwolke bestimmt, da er sich möglichst auf der Oberfläche des dem Objektmodell ähnelnden Objekts bzw. Clusters befinden muss. Bei der Bildung von Korrespondenzen im Stereo-Verfahren wird nun nicht nur die Ähnlichkeit von Bildbereichen sondern auch die Wahrscheinlichkeit des Aufenthaltsortes berücksichtigt, wodurch sich die Qualität der Punktwolke verbessert, da weniger Fehlzuordnungen auftreten.
Beispielsweise wird bei Betrachtung von Fingern einer Hand, die einander sehr ähnlich sind, ein Punkt mit höherer Wahrscheinlichkeit dem richtigen Finger anstatt einem benachbarten Finger zugeordnet.
Ein vorteilhaftes Ausführungsbeispiel der erfindungsgemäßen Lösung besteht darin, Bildbereiche herauszusegmentieren, die repetitive Strukturen zeigen, an denen besonders häufig durch Stereoverfahren Fehlzuordnungen vorgenommen werden, was zu einer stark fehlerbehafteten Tiefenkarte der Szene führt. Repetitive Strukturen im Bild werden beispielsweise durch die Ermittlung von signifikanten lokalen Maxmima in durch eine Fouriertransformation auf Bildregionen gewonnenen Amplitudenspektren detektiert. Die zu den so markierten Bildpixeln gehörigen 3D-Punkte bilden hierbei einen Cluster, d. h. das Clustering erfolgt in diesem Ausführungsbeispiel durch den beschriebenen Detektor für repetitive Bildstrukturen. Das Modell der Szene besteht vorzugsweise aus einer oder mehreren Ebenen. Die Frequenzen, an denen im Amplitudenspektrum Maxima auftreten, werden verwendet, um auf Basis der Kameraparameter Sehstrahlen zu modellieren, die wiederum eine Schar von Ebenen definieren, die parallel zur realen Objektebene liegen. Der Normalenvektor dieser Ebenenschar definiert daher den Normalenvektor der Objektebene. Unter Zuhilfenahme der initialen Stereoanalyse wird die Objektebene z. B. nach Transformation der Ebenenschar in den durch die Koordinaten u (horizontale Bildkoordinate), v (vertikale Bildkoordinate) und d (Disparität) aufgespannten Disparitätsraum anhand der maximalen Häufung von 3D-Punkten in diesem (uvd)-Raum ermittelt (vgl. schwarze Punkte in 3).
Auch kann zusätzlich oder alternativ aus mindestens einem der beiden Bilder eine so genannte Wahrscheinlichkeitskarte erstellt werden, die im Folgenden, wie in der Literatur üblich, als Attention-Map bezeichnet wird. Dies ist im Detail in [Tanaka, M., Hotta, K., Kurita, T., Mishima, T., 2008. Dynamic Attention Map by Ising Model for Human Face Detection, Int. Conf. On Pattern Recognition, Brisbane, Australia.] beschrieben. Zur Erstellung der Attention-Map wird ein Klassifikator benutzt, beispielsweise der in [Wähler, C., Anlauf, J. K., 1999. A Time Delay Neural Network Algorithm for Estimating Image-pattern Shape and Motion, Image and Vision Computing 17, pp. 281–294] beschriebene TDNN. Dieser Klassifikator wird zuvor mit Beispielbildern eines Beispielobjekts trainiert. Mit der Attention-Map kann eine Aussage darüber getroffen werden, ob sich ein dem Beispielobjekt ähnliches Objekt in der Szene befindet bzw. wie viele dieser Objekte in der Szene vorhanden sind. Die Attention-Map erlaubt darüber hinaus eine Aussage darüber, wie wahrscheinlich es ist, dass sich ein solches Objekt an einem bestimmten Ort befindet.
Die Attention-Map kann nun unterstützend beim Clustering-Verfahren und/oder bei der Modellanpassung berücksichtigt werden. Beim Clustering-Verfahren dient die Attention-Map der Selektion geeigneter Cluster für die nachfolgende Modellanpassung. Bei der Modellanpassung kann die Attention-Map insbesondere zur Berechnung einer initialen Pose des Modells benutzt werden, von der ausgehend die Modellanpassung vorgenommen wird. Hierdurch verbessert sich das Konvergenzverhalten der Modellanpassung. Eine gute Initialisierung führt bei der Modellanpassung zudem dazu, dass das Problem von lokalen Minima umgangen wird, die zu einer suboptimalen Anpassung führen können.
Im Folgenden wird ein Ausführungsbeispiel der Erfindung anhand einer Zeichnung näher erläutert.
Dabei zeigt:
1 ein Ablaufdiagramm eines Verfahrens zur Anpassung eines Objektmodells an eine dreidimensionale Punktwolke.
In 1 ist ein Ablaufdiagramm eines Verfahrens zur Anpassung eines Objektmodells OM an eine dreidimensionale Punktwolke PW gezeigt. Zunächst werden zwei stereoskopisch aufgenommene Bilder B1, B2 einem Stereo-Verfahren S1 zugeführt. Dieses bildet Korrespondenzpaare aus Punkten beider Bilder B1, B2. Das Resultat ist eine dreidimensionale Punktwolke PW. Mit einem Clusteringverfahren S2 wird die Punktwolke PW segmentiert, das heißt Cluster CL mit zusammengehörigen Punkten gebildet.
Auf das Clusteringverfahren S2 folgend findet eine Modellanpassung S3 statt, bei der mindestens ein Objektmodell OM mindestens einem Cluster CL überlagert und eine optimale Position des Objektmodells OM bezüglich des Clusters CL ermittelt wird.
Mit den nun in ihrer Lage und Pose identifizierten Objekten O können während einer Korrektur S4 von Fehlzuordnungen einem Cluster CL fälschlicherweise zugeordnete Punkte identifiziert und eliminiert werden. Ebenso können fälschlicherweise außerhalb des betrachteten Clusters CL isoliert oder in einem anderen Cluster CL liegende Punkte, so genannte Ausreißer, als dem betrachteten Cluster CL zugehörig identifiziert und die Zuordnung entsprechend korrigiert werden, wobei eine korrigierte Punktwolke PW' und korrigierte Cluster CL' entstehen.
Es werden mindestens zwei Iterationen des erfindungsgemäßen Verfahrens durchgeführt. Dabei wird nach der Korrektur der Fehlzuordnungen S4 in das Stereoverfahren S1 zurückgekoppelt. Dabei wird ab der zweiten Iteration für mindestens einen der Punkte, insbesondere für einen in der vorherigen Iteration als fehlzugeordnet identifizierten und korrigierten Punkt eine Wahrscheinlichkeit seines Aufenthaltsortes in der dreidimensionalen Punktwolke PW' bestimmt. Bei der Bildung von Korrespondenzen im Stereo-Verfahren S1 wird nun nicht nur die Ähnlichkeit von Bildbereichen sondern auch die Wahrscheinlichkeit des Aufenthaltsortes berücksichtigt, wodurch sich die Qualität der Punktwolke PW verbessert, da weniger Fehlzuordnungen auftreten.
In 2 ist eine zweite Ausführungsform des Verfahrens zur Anpassung des Objektmodells OM an die dreidimensionale Punktwolke PW gezeigt. Das Verfahren entspricht dem in 1 Gezeigten. Zusätzlich werden jedoch die Schritte Clusteringverfahren S2 und/oder Modellanpassung S3 mittels einer Wahrscheinlichkeitskarte AM unterstützt, die den Gepflogenheiten in der Literatur entsprechend im Folgenden als Attention-Map AM bezeichnet wird.
Die Attention-Map AM wird in einem Erstellungsschritt S6 aus mindestens einem der beiden Bilder B1, B2 erstellt. Zur Erstellung der Attention-Map AM wird ein Klassifikator KL benutzt. Dieser Klassifikator KL wird zuvor mit Beispielbildern eines Beispielobjekts BO in einem Trainingsschritt S5 trainiert. Mit der Attention-Map AM kann eine Aussage darüber getroffen werden, ob sich ein dem Beispielobjekt BO ähnliches Objekt O in der Szene befindet bzw. wie viele dieser Objekte O in der Szene vorhanden sind. Die Attention-Map AM erlaubt darüber hinaus eine Aussage darüber, wie wahrscheinlich es ist, dass sich ein solches Objekt O an einem bestimmten Ort befindet.
Beim Clustering-Verfahren S2 dient die Attention-Map AM der Selektion geeigneter Cluster CL für die nachfolgende Modellanpassung S3. Bei der Modellanpassung S3 kann die Attention-Map AM insbesondere zur Berechnung einer initialen Pose des Objektmodells OM benutzt werden, von der ausgehend die Modellanpassung S3 vorgenommen wird.

AM: Attention-Map, Wahrscheinlichkeitskarte
B1, B2: Bild
BO: Beispielobjekt
CL, CL': Cluster
O: Objekt
OM: Objektmodell
PW, PW': Punktwolke
S1: Stereo-Verfahren
S2: Clusteringverfahren
S3: Modellanpassung
S4: Korrektur von Fehlzuordnungen
S5: Trainingsschritt
S6: Erstellungsschritt der Attention-Map

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

- Schmidt, J., Wähler, C, Krüger, L, Gövert, T., Hermes, C, 2007. 3D Scene Segmentation and Object Tracking in Multiocular Image Sequences. Proc. Int. Conf. an Computer Vision Systems (ICVS), Bielefeld, Germany. [0002]
- Hirschmuller, H., 2005. Accurate and Efficient Stereo Processing by Semi-Global Matching and Mutual Information, Proc. IEEE Conf. an Computer Vision and Pattern Recognition, San Diego, USA. [0003]
- Schmidt, J. Wähler, C., Krüger, L., Gövert, T. Hermes, C. 2007. 3D Scene Segmentation and Object Tracking in Multiocular Image Sequences. Proc. Int. Conf. On Computer Vision Systems (ICVS), Bielefeld, Germany [0008]
- Zhang, Z., 1992. Iterative Point Matching for Registration of Free-Form Curves, INRIA Technical Report 1658 [0010]
- Tanaka, M., Hotta, K., Kurita, T., Mishima, T., 2008. Dynamic Attention Map by Ising Model for Human Face Detection, Int. Conf. On Pattern Recognition, Brisbane, Australia. [0015]
- Wähler, C., Anlauf, J. K., 1999. A Time Delay Neural Network Algorithm for Estimating Image-pattern Shape and Motion, Image and Vision Computing 17, pp. 281–294 [0015]

Claims

Verfahren zur Anpassung eines Objektmodells (OM) an eine dreidimensionale Punktwolke (PW), bei dem die Punktwolke (PW) mittels eines Stereo-Verfahrens (S1) aus zwei Bildern (B1, B2) erzeugt und ein Clustering-Verfahren (S2) auf die Punktwolke (PW) angewandt wird, um zu jeweils einem Cluster (CL) gehörige Punkte zu identifizieren, und wobei anschließend eine Modellanpassung (S3) durchgeführt wird, bei der mindestens ein Objektmodell (OM) mindestens einem Cluster (CL) überlagert und eine optimale Position des Objektmodells (OM) bezüglich des Clusters (CL) ermittelt wird, und wobei eine Korrektur (S4) von Fehlzuordnungen von Punkten mittels des angepassten Objektmodells (OM) durchgeführt wird, dadurch gekennzeichnet, dass mindestens zwei Iterationen mit dem Stereo-Verfahren (S1), dem Clustering-Verfahren (S2), der Modellanpassung (S3) und der Korrektur (S4) von Fehlzuordnungen durchgeführt werden, wobei ab der zweiten Iteration aus der vorherigen Iteration eine Wahrscheinlichkeit des Aufenthaltsortes für mindestens einen der Punkte in der Punktwolke (PW, PW') bestimmt und bei der Bildung von Korrespondenzen im Stereo-Verfahren (S1) berücksichtigt wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass ein mittels mindestens eines Beispielobjekts (BO) trainierter Klassifikator (KL) zur Erstellung einer Wahrscheinlichkeitskarte (AM) verwendet wird, wobei die Wahrscheinlichkeitskarte (AM) auf zumindest eines der Bilder (B1, B2) angewandt und dabei eine Anzahl und/oder Aufenthaltswahrscheinlichkeit mindestens eines dem Beispielobjekt (BO) ähnelnden Objekts (O) im Bild (B1, B2) bestimmt wird, wobei die Wahrscheinlichkeitskarte (AM) beim Clustering-Verfahren (S2) und/oder bei der Modellanpassung (S3) berücksichtigt wird.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass mittels der Wahrscheinlichkeitskarte (AM) eine initiale Pose des Objektmodells (OM) bestimmt wird, von der ausgehend die Modellanpassung (S3) vorgenommen wird.