DE112011103452T5

DE112011103452T5 - Verfahren zum Angleichen von Pixeln einer Entfernungsdarstellung

Info

Publication number: DE112011103452T5
Application number: DE112011103452T
Authority: DE
Inventors: Frédéric Garcia; Bruno Mirbach
Original assignee: IEE International Electronics and Engineering SA
Current assignee: IEE International Electronics and Engineering SA
Priority date: 2010-10-15
Filing date: 2011-10-07
Publication date: 2013-08-14
Also published as: CN103299343A; WO2012049098A1; CN103299343B; LU91745B1; US9025862B2; US20130272600A1

Abstract

Ein Verfahren zum Angleichen der Pixel (10-1, 10-2) einer ersten Entfernungsdarstellung einer Szene (18), wie sie von einem ersten Sichtpunkt (14) gesehen wird, an Pixel (12-1, 12-2) einer zweiten Entfernungsdarstellung der Szene, wie sie von einem zweiten Sichtpunkt (16) gesehen wird, umfasst die folgenden Schritte: Bereitstellen der ersten Entfernungsdarstellung als ein Gitter von Quellpixeln (10), auf das die Szene gemäß einer ersten, dem ersten Sichtpunkt zugeordneten Projektion abgebildet wird, wobei jedes Quellpixel einen Punkt in der Szene aufweist, der gemäß der ersten Projektion auf dieses projiziert wird und einen zugeordneten Entfernungswert hat, der für diesen Punkt in der Szene bestimmt wurde, Bereitstellen eines Gitters von Zielpixeln (12) für die zweite Entfernungsdarstellung und eine zweite, dem zweiten Sichtpunkt zugeordnete Projektion; und für jedes der Zielpixel a) Bestimmen welches Quellpixel den selben Punkt (P1, P2) in der Szene gemäß der ersten Projektion auf sich projiziert aufweisen würde wie das Zielpixel gemäß der zweiten Projektion, wenn die abgebildete Szene eine ebene Oberfläche mit einem Oberflächenabstand von dem ersten Sichtpunkt wäre, b) Bestimmen einer Tiefenkoordinate des Punktes in der Szene, den das in Schritt a) bestimmte Quellpixel tatsächlich gemäß der ersten Projektion auf sich projiziert aufweist, c) wenn die Tiefenkoordinate größer als ein Schwellenwert ist, der wiederum größer als der Oberflächenabstand ist, Wiederholen der Schritte a), b) und c) mit einem vergrößerten Oberflächenabstand in Schritt a) und einem erhöhten Schwellenwert in Schritt c), und andernfalls Zuordnen des Zielpixels zu dem in Schritt a) bestimmten Quellpixel.

Description

Technisches Gebiet
Die vorliegende Erfindung betrifft im Allgemeinen die digitale Bildverarbeitung, insbesondere das Transformieren einer Entfernungs-(oder Abstands-)darstellung, die eine Szene darstellt, wie sie von einem ersten Sichtpunkt gesehen wird, in eine Entfernungsdarstellung, die die gleiche Szene darstellt, wie sie von einem zweiten, versetzten Sichtpunkt gesehen wird. Das Verfahren gemäß der Erfindung kann z. B. zur Fusion einer Entfernungsdarstellung (3D-Bild) und einer herkömmlichen Darstellung (2D-Bild) verwendet werden, die von verschiedenen Sichtpunkten erfasst wurden.
Stand der Technik
In den letzten Jahren kamen 3D-Kameras auf Basis des Laufzeit-Prinzips (Time-of-Flight, TOF) in den Handel. Verglichen mit 2D-Kameras messen sie für jedes Pixel einen radialen Abstand eines Punktes in der Szene zu der Kamera, während 2D-Kameras nur ein Grau- oder Farbbild der Szene liefern. Andererseits haben TOF-Kameras eine viel geringere Auflösung als übliche 2D-Kameras, und die Entfernungsmessung wird von einem Rauschen beeinträchtigt. Daher laufen viele Aktivitäten auf dem Gebiet der Forschung und Entwicklung mit dem Ziel einer Fusion von Daten einer 2D- und einer 3D-Kamera, um die kombinierten Stärken der verschiedenen Sensortechnologien zu nutzen. Im Zusammenhang mit dem vorliegenden Dokument bedeutet die Datenfusion eine Fusion von Rohdaten, d. h. ein Vorgehen auf niedrigerer Ebene im Gegensatz zu höheren Fusionsebenen, in denen die Fusion Daten nach der Verarbeitung behandelt (Merkmals- oder Entscheidungsfusion). Eine mögliche Anwendung ist z. B. das Image Matting (Trennung von Hintergrund und Vordergrund). Bei dieser Erscheinung können der Hintergrund und/oder der Vordergrund eines 2D-Bildes basierend auf den Entfernungsinformationen des 3D-Bildes identifiziert werden (siehe z. B. [1]). Andere Forschungsaktivitäten zielen auf die Verbesserung der Genauigkeit und Auflösung einer 3D-Kamera durch Fusion der Entfernungsdaten mit einem hochaufgelösten 2D-Bild ab (siehe z. B. [2] und [3]).
Die Rohdatenfusion erfordert eine genaue Pixelanpassung zwischen den aufgezeichneten Daten der individuellen Sensoren. Diese Anpassung, die auch als Datenangleichung bezeichnet wird, umfasst das Abbilden der beiden individuellen Datensätze auf einem gemeinsamen Bildkoordinatengitter, das in Bezug auf einen einheitlichen Bezugsrahmen definiert ist. Die Beziehung zwischen den individuellen Sensorbezugsrahmen und dem einheitlichen Bezugsrahmen (der mit einem der Sensorbezugssysteme zusammenfallen kann) bestimmt in diesem Fall die Abbildung der beiden Datensätze auf dem gemeinsamen Bildgitter, d. h. die Datenangleichung.
Ein besonderes Problem tritt auf, wenn die Bezugsrahmen der beiden Sensoren nicht kozentrisch sind, d. h. wenn die beiden Kameras zueinander verschoben werden, was typischerweise der Fall ist. Aufgrund einer relativen Verschiebung der beiden Kameras unterscheidet sich die Position der Projektion eines 3D-Punktes der Szene auf die individuellen Sensoren um eine Verschiebung, die auf dem Gebiet des stereoskopischen Sehens als binokulare Disparität bekannt ist. Diese Disparitätsverschiebung hängt von dem Abstand von dem abgebildeten Punkt in der Szene zu der Kamera ab. Die Korrespondenz der Pixel der 2D- und der 3D-Kamera ist daher keine feste Beziehung sondern hängt vielmehr von den Objekten in der Szene ab. Somit hängt die Abbildung der Daten auf dem gemeinsamen Gitter von den Abständen in der Szene ab und muss immer neu berechnet werden, wenn sich die Szene ändert, was typischerweise bei jedem Rahmen der Datenerfassung der Fall ist.
Beim stereoskopischen Sehen ist das Problem als Korrespondenzproblem bekannt. Die Lösung hierfür liefert eine sogenannte Disparitätskarte, die die Berechnung der Abstände von Objektpunkten ermöglicht [6, 7]. Die Erkennung von entsprechenden Punkten erfolgt typischerweise durch das Feature Matching oder die Korrelationsanalyse von zwei Stereobildern. Diese Verfahren sind rechnerisch anspruchsvoll und können bei Schatteneffekten, unstrukturierten Szenen oder periodischen Mustern versagen.
Das Angleichen von 2D-Kameradaten an Daten von einem 3D-Sensor erfordert auch eine Auseinandersetzung mit dem Korrespondenzproblem. Neben der Tatsache, dass Techniken des stereoskopischen Sehens rechnerisch anspruchsvoll sind, wird ihre Anwendung erschwert, wenn nicht gar unmöglich, wenn sich die Auflösungen und die Datenarten der beiden Sensordatensätze unterscheiden. Dies ist jedoch bei einem Sensorsystem der Fall, das aus einem 3D-Sensor mit niedriger Auflösung und einem 2D-Kamerasystem mit hoher Auflösung besteht.
Es sei angemerkt, dass das Korrespondenzproblem beim stereoskopischen Sehen gelöst wird (durch Feature Matching oder Korrelationsanalyse), um die Abstände der entsprechenden Punkte in der Szene zu bestimmen. Im Fall einer Datenfusion eines 2D- und eines 3D-Bildes der gleichen Szene besteht das Ziel nicht darin, die Abstände basierend auf der Disparitätskarte zu extrahieren. Da die von der 3D-Kamera erfassten Daten nämlich Abstandsinformationen der Szene enthalten, können die Disparitäten zwischen den Projektionen auf die verschiedenen Sensoren geschätzt werden. Die Disparitätskarte kann schließlich dazu verwendet werden, entsprechende Pixel in den beiden Bildern zu erkennen.
Aufgabenstellung
Eine Aufgabe der vorliegenden Erfindung besteht darin, ein rechnerisch vorteilhaftes Verfahren zum Transformieren einer Entfernungsdarstellung zur Verfügung zu stellen, die eine Szene darstellt, wie sie von einem ersten Sichtpunkt gesehen wird, in eine Entfernungsdarstellung, die die gleiche Szene darstellt, wie sie von einem zweiten, versetzten Sichtpunkt gesehen wird. Diese Aufgabe wird durch ein Verfahren nach Anspruch 1 gelöst.
Allgemeine Beschreibung der Erfindung
Gemäß der Erfindung wird ein vorzugsweise durch Computer, Software oder Hardware umgesetztes Verfahren zum Angleichen der Pixel einer ersten Entfernungsdarstellung einer Szene, wie sie von einem ersten Sichtpunkt gesehen wird, an Pixel einer zweiten Entfernungsdarstellung der Szene, wie sie von einem zweiten Sichtpunkt gesehen wird, vorgeschlagen. Das Verfahren umfasst die folgenden Schritte:

– Bereitstellen der ersten Entfernungsdarstellung als ein Gitter von Pixeln, die nachstehend als ”Quellpixel” bezeichnet werden, auf das die Szene gemäß einer ersten, dem ersten Sichtpunkt zugeordneten Projektion abgebildet wird, wobei jedes Quellpixel einen Punkt in der Szene aufweist, der gemäß der ersten Projektion auf dieses projiziert wird und einen zugeordneten Entfernungswert hat, der für diesen Punkt in der Szene bestimmt wurde;
– Bereitstellen eines Gitters von Pixeln, die hier nachstehend als ”Zielpixel” bezeichnet werden, für die zweite Entfernungsdarstellung und eine zweite, dem zweiten Sichtpunkt zugeordnete Projektion (wobei die zweite Projektion die Perspektive von dem zweiten Sichtpunkt beschreibt); und
– für jedes der Zielpixel a) Bestimmen welches Quellpixel den selben Punkt in der Szene gemäß der ersten Projektion auf sich projiziert aufweisen würde wie das Zielpixel gemäß der zweiten Projektion, wenn die abgebildete Szene eine ebene Oberfläche mit einem bestimmten Abstand (hier nachstehend als ”Oberflächenabstand” bezeichnet) von dem ersten Sichtpunkt wäre; b) Bestimmen einer Tiefenkoordinate des Punktes in der Szene, den das in Schritt a) für das Quellpixel bestimmte Quellpixel tatsächlich gemäß der ersten Projektion auf sich projiziert aufweist, und zwar basierend auf dem Entfernungswert dieses Quellpixels; c) wenn die Tiefenkoordinate größer als ein Schwellenwert ist, der wiederum größer als der Oberflächenabstand ist, Wiederholen der Schritte a), b) und c) mit einem vergrößerten Oberflächenabstand in Schritt a) und einem erhöhten Schwellenwert in Schritt c), und andernfalls Zuordnen des Zielpixels zu dem in Schritt a) bestimmten Quellpixel.

Wie er hier verwendet wird, bezeichnet der Begriff ”Pixel” ein Bildelement. Jedes Pixel ist durch seine Position und seinen Wert definiert. Das entsprechende Bild kann durch graphische Darstellung der Werte der Pixel an den jeweiligen Pixelpositionen visualisiert werden. Ein ”Bild” oder eine ”Darstellung”, wie hier verwendet, bezeichnet einen Satz von Pixeln mit seinen zugeordneten Pixelwerten. Ein Bild kann z. B. als eine Reihe oder Matrix von Pixelwerten gespeichert werden, vorausgesetzt, die Beziehung zwischen der Position des Pixelwertes in der Reihe oder Matrix und der Position des Pixels sind bekannt. Eine derartige Beziehung wird typischerweise durch einen Standard festgelegt (der als ein Bilddateiformat bezeichnet wird).
Im Zusammenhang mit der vorliegenden Erfindung werden die Positionen der Bilder und ihrer Pixel relativ zu den Sichtpunkten sowie die Positionen der Sichtpunkte relativ zueinander, die Brennweiten usw. als bekannt und zeitlich gleichbleibend angenommen. Die Geometrie der Szene kann sich jedoch von einem Rahmen zum nächsten ändern.
Wie die Fachleute erkennen werden, besteht eine mögliche Anwendung des vorliegenden Verfahrens in der Angleichung der Pixel eines 2D-Bildes und eines 3D-Bildes der gleichen Szene. Das vorstehend erwähnte Gitter von Zielpixeln kann so ausgewählt werden, dass es dem Gitter von Pixeln des 2D-Bildes entspricht. Alternativ könnten die Pixel des 2D- und des 3D-Bildes mit einem gemeinsamen Pixelgitter mit dem gleichen Sichtpunkt wie das 2D-Bild angeglichen werden (jedoch gegebenenfalls mit einer anderen Ausrichtung).
Die erste Entfernungsdarstellung (oder das erste 3D-Bild) stammt vorzugsweise von einem Entfernungsdarsteller, z. B. einer Entfernungskamera oder einem Abtast-Bildgerät, die/das nach dem Laufzeitprinzip arbeitet. Die erste Darstellung kann die ursprüngliche Entfernungsdarstellung sein (wie sie erfasst wurde), oder sie kann von dem ursprünglichen Bild nach Verzerrungskorrektur und/oder Bildentzerrung erhalten werden.
Das Verfahren der Erfindung berücksichtigt, dass die Korrespondenz zwischen den Quellpixeln und den Zielpixeln von dem Inhalt der abgebildeten Szene abhängt. In Schritt a) wird nämlich bestimmt, welche Quellpixel einem gegebenen Zielpixel entsprechen, unter der Annahme, dass die abgebildete Szene eine ebene Oberfläche mit einem bestimmten Abstand von dem ersten Sichtpunkt ist. Für das gefundene Quellpixel wird diese Annahme in Schritt c) gültig oder ungültig gesetzt.
Die Aktion in Schritt c) des Zuordnens des Zielpixels zu dem in Schritt a) bestimmten Quellpixel stellt die Korrespondenz dieser beiden Pixel her, d. h. diese Pixel ”schauen” auf den gleichen Punkt in der Szene oder stellen diesen dar. Diese Zuordnung oder Korrespondenz könnte z. B. in einer Korrespondenztabelle zum anschließenden oder späteren Gebrauch gespeichert werden. Es ist jedoch auch möglich, die Korrespondenz sofort zu verwenden, ohne sie als solche zu speichern. Das Zuordnen des Zielpixels zu dem in Schritt a) bestimmten Quellpixel könnte z. B. das Bestimmen und Zuordnen mit dem Zielpixel des Abstands von dem zweiten Sichtpunkt zu dem Punkt in der Szene, den das in Schritt a) bestimmte Quellpixel gemäß der ersten Projektion tatsächlich darauf projiziert hat, aufweisen oder daraus bestehen. Alternativ oder zusätzlich kann das Zuordnen des Zielpixels zu dem in Schritt a) bestimmten Quellpixel das Zuordnen der in Schritt b) bestimmten Tiefenkoordinate zu dem Zielpixel aufweisen oder daraus bestehen.
Vorzugsweise wird die Iteration der Schritte a), b) und c) für alle Zielpixel mit einer vorbestimmten Reihe von Oberflächenabständen und einer vorbestimmten Reihe von Schwellenwerten durchgeführt. Die Iteration hält an, sobald die aktuelle Tiefenkoordinate (in Schritt b) berechnet) den entsprechenden Schwellenwert nicht überschreitet (der in dem Intervall zwischen dem aktuellen und dem nächsten Oberflächenabstandswert in der Reihe liegt). Wenn dies geschieht, hat man das Quellpixel gefunden, das dem in Frage stehenden Zielpixel entspricht, und zwar unter Berücksichtigung der abstandsabhängigen Disparität. Vorzugsweise entspricht die Reihe von Oberflächenabständen einer arithmetischen Folge von binokularen Disparitätswerten (bzw. wird in diese übertragen), wobei die übliche Differenz zwischen diesen (d. h. die konstante Differenz zwischen irgendwelchen zwei aufeinanderfolgenden Gliedern der Folge) gleich oder im Wesentlichen gleich der Maschengröße (Pixelgröße) des Gitters von Zielpixeln ist. Diese Wahl ist vorteilhaft, wenn das Zielpixelgitter eine gleichmäßige Maschengröße aufweist, da kleinere Disparitätsdifferenzen nicht aufgelöst werden können und größere ein falsches (suboptimales) einem gegebenen Zielpixel zuzuordnendes Quellpixel verursachen könnte.
Am meisten bevorzugt wird Schritt a) unter Verwendung einer dem Oberflächenabstand zugeordneten Nachschlagetabelle durchgeführt. Da die hypothetischen Oberflächenabstände vorher bekannt sind (und nicht in Laufzeit berechnet werden müssen), ist es möglich, die Korrespondenz zwischen Zielpixeln und Quellpixeln für jeden Oberflächenabstand in einer besonderen Nachschlagetabelle zu speichern. Somit hat man für jede der Reihen von Oberflächenabständen eine zugeordnete Nachschlagetabelle. Die Nachschlagetabellen berücksichtigen die jedem Oberflächenabstand zugeordnete Disparität. Vorzugsweise werden die den Quellpixeln zugeordneten Tiefenkoordinaten zuvor berechnet, d. h. bevor die Iteration durch die Schritte a)–c) beginnt, und in einer Matrix gespeichert (was ein ”Tiefenkoordinatenbild” ergibt). Das Bestimmen der Tiefenkoordinate, die das für das Quellpixel in Schritt a) bestimmte Quellpixel gemäß der ersten Projektion tatsächlich auf dieses projiziert hat, kann somit erhalten werden, indem einfach die zuvor gespeicherte, diesem Quellpixel zugeordnete Tiefenkoordinate in einem Dereferenzierungsschritt nachgeschlagen wird.
Nach einer bevorzugten Ausführungsform der Erfindung wird die zweite Entfernungsdarstellung mit einer höheren Auflösung als die erste Entfernungsdarstellung ausgewählt. Dies ist besonders vorteilhaft bei einer Anwendung, bei der das endgültige Ziel darin besteht, ein 3D-Bild mit geringer Auflösung an ein 2D-Bild der gleichen Szene mit hoher Auflösung anzugleichen.
Vorteilhafterweise befinden sich das Gitter von Pixeln der ersten Entfernungsdarstellung und das Gitter von Zielpixeln in einer gemeinsamen Bildebene. Das Gitter von Pixeln der ersten Entfernungsdarstellung und das Gitter von Zielpixeln sind vorzugsweise gleichmäßige rechteckige Gitter. Obwohl eine derartige geometrische Konfiguration wegen ihrer Einfachheit bevorzugt wird, sind auch andere Konfigurationen möglich. Da für einen gegebenen Oberflächenabstand eine andere geometrische Konfiguration nur in eine andere Korrespondenz zwischen den Quellpixeln und Zielpixeln übertragen wird, die einmal berechnet und dann in einer Nachschlagetabelle gespeichert wird, hat die Auswahl der geometrischen Konfiguration keinen oder nur einen leichten Einfluss auf die Berechnungszeit in Laufzeit.
Trotzdem kann man mit einer geometrischen Konfiguration einen bemerkenswerten Vorteil erlangen, wobei das Gitter von Pixeln der ersten Entfernungsdarstellung zwei Gitterachsen aufweist, das Gitter von Zielpixeln auch zwei Gitterachsen aufweist und eine der Gitterachsen des Gitters von Pixeln der ersten Entfernungsdarstellung und eine der Gitterachsen des Gitters von Zielpixeln parallel zu einer durch den ersten und den zweiten Sichtpunkt hindurchgehenden Linie sind. In diesem Fall können nämlich die Nachschlagetabellen für die verschiedenen Oberflächenabstände teilweise identisch werden. Dies ermöglicht eine Verringerung des Speicherplatzes durch Verwendung einer einzigen komprimierten Nachschlagetabelle, die der Reihe von Oberflächenabständen zugeordnet ist und für jeden Oberflächenabstand ein anderes Nachschlageschema verwendet.
Eine bevorzugte Ausführungsform des Verfahrens umfasst das Bereitstellen eines zweidimensionalen Bildes der Szene, wie sie von dem zweiten Sichtpunkt gesehen wird (z. B. durch Erfassen eines solchen Bildes mit einer 2D-Kamera) und das Abbilden des zweidimensionalen Bildes auf dem Gitter von Zielpixeln über eine Verzerrungskorrektur und/oder eine projektive Transformation. Dies entspricht dem Fall, in dem ein 2D-Bild und ein 3D-Bild auf einem Pixelgitter abgebildet werden, das nicht zu dem Pixelgitter des 2D-Bildes identisch ist. Wenn die Entfernungsdarstellung direkt auf das Pixelgitter des 2D-Bildes abgebildet werden soll, wird in Schritt a) jegliche Verzerrungskorrektur oder notwendige projektive Transformation berücksichtigt.
Eine Ausgestaltung der vorliegenden Erfindung betrifft ein Computerprogramm, das Befehle aufweist, die einen Prozessor veranlassen, das vorstehend beschriebene Verfahren auszuführen, wenn das Programm auf einem Prozessor ausgeführt wird. Ein derartiges Computerprogramm kann als Teil eines Computerprogrammproduktes bereit gestellt werden, das einen Träger, z. B. eine Datenspeichervorrichtung (wie eine Festplatte, eine optische Speicherplatte, einen Memorystick oder eine Speicherkarte, oder dergleichen) oder ein Trägersignal umfasst (z. B. ein digitales oder analoges Kommunikationssignal), das das Computerprogramm enthält.
Kurze Beschreibung der Zeichnungen
Weitere Einzelheiten und Vorteile der vorliegenden Erfindung werden aus der folgenden ausführlichen Beschreibung einer nicht einschränkenden Ausführungsform anhand der beigefügten Zeichnungen ersichtlich, wobei:
1 eine Illustration des Lochkameramodells ist: Die Bildebene ist in dem Abstand der Brennweite vor dem Projektionszentrum O senkrecht zu der optischen Achse (oder Hauptachse) des Systems angeordnet. Die Bildkoordinaten (x, y) werden durch Schneiden der Linie zwischen O und P mit der Bildebene erhalten. In einem reellen optischen System erfordert die Berechnung von Bildkoordinaten aus dem Pixelindex oder den Pixelindizes die Kenntnis der internen Kameraparameter, d. h. die Brennweite, die Position der optischen Achse sowie Verzerrungskoeffizienten.
2 ist eine Illustration der Bildebenen eines Stereokamerasystems. Projektive Transformationen ermöglichen, diese koplanar zu gestalten, so dass die x-Achse beider Bilder parallel zu der Linie durch die Projektionszentren O_l und O_r ist (Bildentzerrung).
3 veranschaulicht die Disparitätsverschiebung einer Stereokamera mit der Grundlinie b. Die optischen Achsen der beiden Kameras sind parallel. Die Positionen x_l, x_r der Projektionen eines Punktes P in der Szene auf die beiden Bildebenen unterscheiden sich um eine Disparität p = x_l – x_r, die von dem Abstand Z des Punktes P zu der Grundlinie abhängt;
4 ist ein Flussdiagramm, das eine mögliche Folge von Transformationen der Pixelkoordinaten eines 3D-Bildgeräts und einer 2D-Kamera in einen gemeinsamen Bezugsrahmen zeigt.
5 ist eine Illustration der Transformation eines rechteckigen Gitters von Pixelkoordinaten unter den in den Schritten A1 und A2 von 4 erwähnten Transformationen: (a) das ursprüngliche rechteckige Gitter, das den Pixelkoordinaten auf dem Bildgerät entspricht; (b) die Bildkoordinaten in dem Bezugssystem des Bildgeräts, die durch Verzerrungskorrektur aus (a) erhalten wurden; (c) Koordinaten nach Schritt A2, die projektive Transformation, die für die Ausrichtung des Kamerasystems in Bezug auf das Bezugssystem sorgt.
6 ist eine Illustration der Transformation eines rechteckigen Gitters von Pixelkoordinaten unter den in den Schritten B1 bis B3 erwähnten Transformationen: (a) das ursprüngliche rechteckige Gitter, das den Pixelkoordinaten auf dem Bildgerät entspricht; (b) die Bildkoordinaten in dem Bezugssystem des Bildgeräts, die durch Verzerrungskorrektur aus (a) erhalten wurden; (c) die Koordinaten nach der Disparitätskorrektur, die von den Abständen in der Szene abhängt; (d) Koordinaten nach Schritt B2, die projektive Transformation, die für die Ausrichtung des Kamerasystems in Bezug auf das Bezugssystem sorgt.
7 ist eine Illustration davon, wie Nachschlagetabellen aufgebaut sein können, um die Korrespondenz von Pixeln von zwei Bildern herzustellen.
8 ist ein Schema der Abbildung eines 3D-Bildes und eines 2D-Bildes auf einem gemeinsamen Zielgitter.
9 ist ein Flussdiagramm einer Folge von Transformationen der Pixelkoordinaten eines 3D-Bildes und einer 2D-Kamera in einen gemeinsamen Bezugsrahmen, der eine Alternative zu der Folge von 4. ist
10 ist eine schematische Illustration der Abbildung von 3D-Bildpixeln auf ein Zielgitter, wobei die Szene von einer anderen Perspektive aus gesehen wird.
Ausführliche Beschreibung einer bevorzugten Ausführungsform
Einführung – Stereoskopisches Sehen
Das Angleichen der Daten von zwei 2D-Kameras aufeinander ist das Hauptthema auf dem Gebiet des stereoskopischen Sehens. Da dieses Gebiet mit bestehenden industriellen Produkten gut eingeführt und entwickelt ist, wird der Stand der Technik nur kurz mit Betonung auf die Unterschiede zur Erfindung zusammengefasst. Für weitere Einzelheiten über das stereoskopische Sehen wird der interessierte Leser auf Lehrbücher wie [5, 6] verwiesen.
Im Folgenden betrachten wir zwei Datensätze I_A(i, j) und I_B(k, l) aus der gleichen Szene, die in den Kamerabezugsrahmen A bzw. B aufgezeichnet wurde. Die Daten werden in Form von Matrizen gespeichert, wobei sich die Indizes i = 1, ..., M, j = 1, ..., N bzw. k = 1, ..., K, l = 1, ..., L auf die Pixel der entsprechenden Kamera beziehen. Die Datentypen von I_A und I_B können digitalisierte Grau- oder Farbwerte sein.
Die Lösung des Korrespondenzproblems, welches darin besteht, Paare {(m, n), (kl)} von Pixeln von beiden Bildern zu finden, die dem gleichen Punkt in der Szene entsprechen, ist das Hauptthema beim stereoskopischen Sehen. Die Lösung kann typischerweise in zwei Schritte unterteilt werden.

1. Die Pixelkoordinaten werden in ein einheitliches Bildbezugssystem transformiert. Diese Transformation umfasst zwei Schritte i. Zunächst werden die Pixelkoordinaten jeder Kamera in die Bildebene von dieser transformiert. Diese Bildebene kann als eine Ebene senkrecht zur optischen Achse der Kamera gesehen werden, und zwar mit einem Abstand Z = f (wobei f die Brennweite ist) von dem Projektionszentrum, d. h. die Bildebene ist parallel zu der x-y-Ebene des Kamerabezugsrahmens. Die Transformation von Pixel- zu Bildkoordinaten korrigiert die Verzerrung der Linse und bearbeitet eine Verschiebung der optischen Achse. Auf dieser Stufe entsprechen die Bildkoordinaten der perspektivischen Projektion der entsprechenden 3D-Punkte in der Szene auf die Bildebene, wobei das Projektionszentrum das Zentrum des Kamerabezugssystems ist (siehe 1). Im Gegensatz zu den unverzerrten Bildkoordinaten werden die ursprünglichen Pixelkoordinaten auf dem Bildgerät oft als verzerrte Bildkoordinaten bezeichnet. ii. Eine zweite, sogenannte projektive Transformation transformiert die beiden Bildebenen derart, dass sie koplanar werden und dass eine der Ebenenachsen (typischerweise die x-Achse) parallel zu der Linie durch die Projektionszentren ist (siehe 2). Diese Transformation in einen einheitlichen Bezugsrahmen erfordert die Kenntnis der relativen Position und Ausrichtung der Kameras, kann jedoch auch direkt in einem Kalibrierungsverfahren bestimmt werden. Die Koordinaten-Transformationen der Schritte i. und ii. definieren eine sogenannte Bildentzerrung. Dies ist eine Transformation der Bilder, die unter Verwendung von zwei Nachschlagetabellen in Echtzeit ausgeführt werden kann. Nach der vollständigen Bildentzerrung werden Paare von sogenannten zugehörigen Epipolarlinien kolinear parallel zu der x-Achse der gemeinsamen Bildebene. Auf diese Weise reduziert sich die Suche nach dem entsprechenden Pixel auf eine eindimensionale Suche auf einer Abtastzeile, die in Echtzeit ausgeführt werden kann.
2. Sobald ein Paar von entsprechenden Pixeln {(m, n), (k, n)} an den Positionen x_l(m, n) und x_r(k, n) bestimmt wurde, wird der Abstand des entsprechenden 3D Punktes in der Szene leicht nach der folgenden Formel berechnet (vergleiche 3)
wobei die Differenz ρ = x_l – x_r als ”binokulare Disparität” bezeichnet wird.

Als Alternative zu Schritt ii. kann eine sogenannte essentielle Matrix erstellt werden, die die Beziehung zwischen zugehörigen Epipolarlinien beschreibt. Man kann noch einen Schritt weiter gehen und die Verschiebung der optischen Achse und eine Bildmaßstabstransformation auf Grund der Brennweite in die Transformation, die die Epipolarlinien betrifft, einschließen; in diesem Fall spricht man von einer Fundamentalmatrix (für Einzelheiten siehe [5, 6]).
Unabhängig davon, welche Transformation in Schritt 1. gewählt wird, basiert die Korrespondenzsuche nach entsprechenden Punkten (Schritt 2.) entweder auf der Korrelationsanalyse oder einem Feature Matching. Beide Verfahren setzen voraus, dass die beiden Bilder die gleiche Art von Daten enthalten. Die Korrespondenz zwischen zwei verschiedenen Sensoren, z. B. eine 2D-Kamera, die eine Matrix I_A mit Grau- oder Farbwerten bereitstellt, und eine 3D-Kamera, die eine Matrix R_B mit Abstandswerten bereitstellt, kann nicht unter Verwendung dieses Verfahrens des stereoskopischen Sehens hergestellt werden. Außerdem hat das Verfahren Probleme, im Fall von Schatteneffekten, unstrukturierten Szenen oder periodischen Mustern in den Bildern entsprechende Pixel zu finden.
Angleichen eines 2D- und 3D-Bildes einer Szene
Die Erfindung wird nun anhand des Beispiels des Angleichens der Pixel eines 3D-Bildgeräts und einer 2D-Kamera auf ein gemeinsames Bildgitter in einem einheitlichen Bezugsrahmen veranschaulicht.
Das Angleichen der Daten I_A, entsprechend dem Bezugsrahmen A der 2D-Kamera, und R_B, entsprechend dem Bezugsrahmen B der 3D-Kamera, erfordert die Erstellung der Transformationen von Pixelkoordinaten beider Sensoren auf einen einheitlichen Bezugsrahmen, wobei die abstandsabhängige Disparitätsverschiebung berücksichtigt wird. Diese Transformationen werden unten genauer beschrieben. Die Datenangleichung selber entspricht einer Abbildung der Daten von beiden Sensoren auf einem gemeinsamen Koordinatengitter in dem einheitlichen Bezugsrahmen. Durch Zuordnen eines Paares von Werten aus dem Datensatz I_A bzw. R_B zu jedem Gitterpunkt werden die Daten der beiden Sensoren Pixel um Pixel ausgerichtet.
Erstellen einer Transformation in einen gemeinsamen Bezugsrahmen unter Verwendung von Entfernungsinformationen zur Disparitätsberechnung
Schritt A1/B1: Verzerrungskorrektur
Der erste Schritt zur Transformation der Koordinaten der 2D-Kamera und der 3D-Kamera in einen einheitlichen Bezugsrahmen besteht darin, die Pixelkoordinaten beider Sensoren in ihren eigenen Kamerabezugsrahmen zu transformieren, wie in Schritt 1.i. für Systeme zum stereoskopischen Sehen beschrieben ist. Als Ergebnis erhält man zwei Sätze von Koordinaten {(u^A(m, n), v^A(m, n)), m = 1, ..., M; n = 1, ..., N} und {(x^B(k, l), y^B(k, l)), k = 1, ..., K; l = 1, ..., L} für die 2D bzw. 3D-Kamera. Wir bezeichnen diese Transformationen als Schritt A1 bzw. B1. Auf dieser Stufe wurde die Verzerrung der Linsen korrigiert und eine Verschiebung der optischen Achse korrigiert, das heißt, die reellen Kamerasysteme wurden an den neuen Bildkoordinaten auf Lochkameras mit Pixelkoordinaten abgebildet.
Es sei angemerkt, dass diese Transformation durch die sogenannten internen Kameraparameter bestimmt wird, die festgelegt sind (d. h. unabhängig von dem Inhalt der Szene).
Die unverzerrten Bildkoordinaten {(x^B(k, l), y^B(k, l)), k = 1, ..., K; l = 1, ..., L} der 3D-Kamera ermöglichen eine Berechnung der 3D-Koordinaten {X^B(k, l), Y^B(k, l), Z^B(k, l)), k = 1, ..., K; l = 1, ..., L} der Szene aus den Entfernungsmessungen {R^B(k, l), k = 1, ..., K; l = 1, ..., L}. R^B(k, l) ist der Entfernungswert, der dem Pixel (k, l) mit ”unverzerrten” Koordinaten (x^B(k, l), y^B(k, l)) zugeordnet ist durch einfaches Multiplizieren der Entfernungswerte mit Maßstabsfaktoren {(e B / x(k, l), e B / y(k, l), e B / z(k, l)), k = 1, ..., K; l = 1, ..., L} , die durch die unverzerrten Bildkoordinaten bestimmt werden.
Für k = 1, ..., K; l = 1, ..., L, erhält man:
Da die unverzerrten Bildkoordinaten unabhängig von den gemessenen Abstandswerten und somit von dem Szeneninhalt sind, können sie vorausberechnet werden und ermöglichen daher eine schnelle Transformation einer Entfernungsdarstellung in 3D-Koordinatenbilder (siehe auch [4]).
Schritt 62: Disparitätskorrektur
Bei einer möglichen Umsetzung der Erfindung besteht der nächste Schritt bei der Koordinatentransformation darin, die Disparität der binokularen Disparitätsverschiebung ρ der 3D-Kamera unter Verwendung der Entfernungsmessungen der 3D-Kamera zu korrigieren. b sei die bekannte Translation der 2D-Kamera zur 3D-Kamera und Z_B(k, l) die Z-Koordinate eines Pixels (k, l), berechnet aus der entsprechenden Entfernungsmessung R_B(k, l) nach Formel (2). Die entsprechende binokulare Disparität ρ dieses Pixels kann folgendermaßen berechnet werden (vergleiche Formel (1)):
Wir beschreiben hier nur den Fall einer Translation der beiden Kamerasysteme entlang der x-Achse der 3D-Kamera. Die Verallgemeinerung des Ansatzes zu einer beliebigen Verschiebung in allen 3 Dimensionen ist jedoch klar. Durch Korrigieren der Bildkoordinaten der 3D-Kamera durch die Disparitätsverschiebung ergeben sich neue 3D-Bildkoordinaten x'^B(k, l) = x^B(k, l) – ρ(k, l) y'^B(k, l) = y^B(k, l) die sich auf einen Bezugsrahmen beziehen, der der gleiche ist wie der 3D-Kamerabezugsrahmen B, jedoch in das Zentrum des 2D-Kamerabezugsrahmens A verschoben. Wir bezeichnen diese Disparitätsverschiebung als Schritt B2 in der Koordinatentransformation. Es ist wichtig anzumerken, dass diese Transformation von dem Inhalt der Szene abhängt und sich daher von Rahmen zu Rahmen, den die Kamera einfängt, verändern kann. Die radialen Abstände {R_B(k, l)} sind unter der Disparitätsverschiebung nicht gleichbleibend sondern müssen unter Verwendung der transformierten Pixelkoordinaten neu berechnet werden, was jedoch effizient unter Verwendung einiger vorausberechneter Faktoren erfolgen kann, wie sie in [4] zur Berechnung von Koordinaten aus radialen Abständen nach Formel (2) beschrieben sind. Wir bezeichnen die transformierten radialen Abstände nachstehend als {R'_B(k, l)}. In der Praxis kann jedoch, wenn die Abstände im Vergleich zur Disparitätsverschiebung groß sind, diese Transformation von radialen Abständen vernachlässig bar sein.
Schritt A2/B3: Transformation in ein einheitliches Bezugssystem
Die nächsten Schritte (A2 bzw. B3) umfassen das Transformieren dieser Koordinaten in einen einheitlichen Bezugsrahmen C durch eine sogenannte projektive Transformation. Eine solche projektive Transformation ist stets möglich, wenn die Projektionszentren zusammenfallen [6]. Die projektive Transformation sorgt für die Ausrichtungen der Kameras in Bezug auf das einheitliche Bezugsystem. Wir bezeichnen die Transformationen von dem 2D-Kamerabezugsrahmen A bzw. dem 3D-Kamerabezugsrahmen B in den einheitlichen Bezugsrahmen C als T_AC und T_BC. Die Ergebnisse der Transformationen sind dann zwei Sätze von Pixelkoordinaten {u^C(m, n), v^C(m, n), m = 1, ..., M; n = 1, ..., N} und {x^C(k, l), y^C(k, l), k = 1, ..., K; l = 1, ..., L} in Bezug auf den gemeinsamen einheitlichen Bezugsrahmen C.
Diese Transformation ist analog zu Schritt 1.ii. für stereoskopisches Sehen mit zwei Unterschieden.

– Die Disparitätskorrektur wurde vor dieser Transformation unter Verwendung der Entfernungsinformationen vorgenommen. Dies stellt sicher, dass die projektive Transformation unabhängig vom Abstand ist. Die Transformation kann leicht durch ein Kalibrierungsverfahren auf Grundlage von vier Bezugspunkten bestimmt werden (siehe [6]).
– Es kann jeder Rahmen als der einheitliche Bezugsrahmen gewählt werden, vorausgesetzt, er hat das gleiche Projektionszentrum wie A. Es gibt keine weitere, durch die relative Ausrichtung der beiden Kamerasysteme bestimmte Begrenzung. Eine Option könnte darin liegen, C identisch zu A zu wählen (in welchem Fall T_AC die Identitätstransformation ist). Eine solche Wahl würde den Kalibrierungsaufwand reduzieren.

4 zeigt die verschiedenen Koordinatentransformationen in einem Flussdiagramm. In den 5 und 6 ist die Transformation eines Gitters von Pixelkoordinaten für den 2D- bzw. 3D-Sensor unter den entsprechenden Transformationen veranschaulicht. Es sollte angemerkt werden, dass der radiale Abstand R'_B, der zwischen einem Punkt in der Szene und dem Projektionszentrum der 2D-Kamera gemessen wird, unter einer projektiven Transformation gleichbleibend ist. Daher müssen sie nicht transformiert werden, wenn die projektive Transformation ausgeführt wird.
Datenangleichung
Der letzte Schritt beim Angleichen der beiden Datensätze I_A und R'_B der 2D- bzw. 3D-Kamera besteht darin, diese Pixel um Pixel in dem einheitlichen Bildbezugsrahmen C anzupassen.
Definieren wir nun in dem einheitlichen Bezugsrahmen C ein Maschengitter (ξ^C(i, j), Ψ^C(i, j), i = 1, ..., Ξ; j = 1, ..., Ψ} von virtuellen Pixelkoordinaten, auf die I_A und R'_B abgebildet werden, was zu entzerrten Bildern I_C bzw. R_C führt. Vorzugsweise wählt man die Größe und die Auflösung dieses Maschengitters ähnlich zu denjenigen der 2D-Kamera, die typischerweise eine viel höhere Auflösung als das 3D-Bildgerät hat. Die Entzerrung basiert auf dem Nächste-Nachbarn-Prinzip: für jedes der Pixel (i, j) des Maschengitters bestimmte man das Pixel (m, n) von I_A, dessen Koordinaten (u^C(m, n), v^C(m, n)) den Maschengitter-Punktkoordinaten (ζ^C(i, j), Ψ^C(i, j)) am nächsten kommen. Die Abbildung (i, j) → (m, n) ≕ L_AC(i, j) wird dann als eine Nachschlagetabelle (LUT) L_AC gespeichert, die die Erzeugung des entzerrten Bildes I_C aus dem Originalbild I_A ermöglicht, und zwar unter Verwendung von: I_C(i, j) ≕ I_A(L_AC(i, j)) für alle (i, j).
Auf die gleiche Weise kann die zweite LUT L_BC erstellt werden, die das Bild R'_B so entzerrt, dass es ein Bild R_C auf dem gleichen Maschengitter wird: R_c(i, j) ≕ R'_B(L_BC(i, j))
R_C ist somit auf I_C Pixel-ausgerichtet. In Analogie zur Erstellung der L_AC wird die L_BC erstellt, indem für jedes Pixel (i, j) des Maschengitters das Pixel (k, l) von R'_B gesucht wird, dessen Koordinaten (x^C(k, l), y^C(k, l)) den Maschengitter-Koordinaten (ζ^C(i, j), Ψ^C(i, j)) am nächsten sind. Es sei angemerkt, dass diese Bildentzerrung ein Upsampling des 3D-Bildes R'_B auf die durch das Maschengitter definierte gewünschte Auflösung umfasst. Die Bestimmung der Nachschlagetabellen ist in 7 veranschaulicht. Es sind die Bildkoordinaten (x^C, y^C) (als x) und (u^C, v^C) (als +) der 2D-Kamera bzw. des 3D-Bildgerätes in dem gemeinsamen Bezugsrahmen zusammen mit einem Maschengitter von synthetischen Pixelkoordinaten (ζ^C, Ψ^C) (Zielgitter) gezeigt. Das linke Bild zeigt einen vollständigen Bezugsrahmen mit dem gesamten Maschengitter und allen Pixelkoordinaten. Das rechte Bild zeigt eine vergrößerte Ansicht eines Ausschnitts des linken Bildes. Für jeden Maschengitterpunkt (i, j) wird ein Paar von Pixeln (Pixel (k, l) aus dem 3D-Bildgerät und Pixel (m, n) aus der 2D-Kamera) bestimmt, deren Koordinaten den Maschengitter-Punktkoordinaten am nächsten kommen. Die Indizes (k, l) und (m, n) werden in den Nachschlagetabellen L_BC bzw. L_AC an der Position (i, j) gespeichert. Es ist ersichtlich, dass ein Pixel aus dem Bildgerät mit geringer Auflösung auf mehreren Pixeln des Zielgitters mit hoher Auflösung abgebildet wird. 8 ist eine Zeichnung der Datenabbildung selber. Ein Pixel des 2D-Bildes sowie ein Pixel der Entfernungsdarstellung wird auf einem Zielpixel (i, j) eines Ziel-Maschengitters abgebildet. Die entsprechenden Indizes werden in zwei Nachschlagetabellen gespeichert: (m, n) ≕ L_AC(i, j) (k, l) ≕ L_BC(i, j)
Wenn dies gewünscht ist, können die 3D-Koordinaten {X_C(i, j), Y_C(i, j), Z_C(i, j), i = 1, ..., Ξ; j = 1, ..., Ψ} in Bezug auf den einheitlichen Bezugsrahmen unter Verwendung von Formel (2) und basierend auf der abgebildeten Entfernungsdarstellung R_C und den Pixelkoordinaten des gemeinsamen Maschengitters berechnet werden. Diese 3D-Koordinaten können unter Verwendung von einigen vorausberechneten Einheitsvektoren auf die gleiche Weise erhalten werden wie in Formel (2) (siehe [4]).
Umsetzung des Angleichens
Die Bildentzerrung unter Verwendung von Nachschlagetabellen kann in Echtzeit in einem eingebetteten System zum maschinellen Sehen vorgenommen werden. Die Berechnung der Nachschlagetabelle selber ist jedoch rechnerisch sehr anspruchsvoll, da für jedes Zielpixel in dem Maschengitter eine Suche in allen Pixeln der Quellbilder I_A und R_B vorgenommen werden muss. Während die L_AC a priori aus den internen und externen Kameraparametern berechnet werden kann, hängt die L_BC von der Szene und somit von der Entfernungsdarstellung selber ab, so dass sie im Prinzip für jeden Rahmen in Laufzeit neu berechnet werden muss.
Eine Lösung, wie mit der Echtzeitleistung in dynamischen Szenen umgegangen werden kann, kann gegeben sein, wenn ein Satz {L_BC,ω; ω = 0, ..., Ω – 1} von LUTs betrachtet wird, wobei jede LUT L_BC,ω eine andere Disparität ρ_ω angeht, die einer ebenen Oberfläche mit einem festen Abstand entspricht
Wir wählen die diskreten Disparitäten ρ_K als Multiple der Pixelgröße δ in dem abgebildeten Bild R_C, d. h. der Maschengitterauflösung: ρ_ω = k·sign(b)·δ, ω = 0, ..., Ω – 1
Durch Teilen der Z-Entfernung der TOF-Kamera in Ω-Intervalle [ζ_ω+1, ζ_ω] um Z_ω mit
sieht man, dass für jedes Pixel der Entfernungskamera mit einem Z-Wert im Intervall [ζ_ω+1, ζ_ω], die nach Formel (1) berechnete Disparität ρ dem Wert ρ_ω bis zu einem Fehler von weniger als δ/2 gleicht, d. h. der halben Pixelgröße in dem 3D-Bild R_C mit hoher Auflösung. Die maximale binokulare Disparität |ρ_Ω-1| = (Ω – 1) δ, die zu betrachten ist, ist durch Z_min, die minimale Z-Messungsentfernung des Entfernungssensors, gegeben, und zwar über die Ungleichung:
Die Abbildung aus der Quellen-Entfernungsdarstellung auf das Ziel, die entzerrte und hochgesampelte Entfernungsdarstellung R_C, wird nach dem folgenden Algorithmus durchgeführt:
Die Schleifenvariable ω wird Oberflächenabständen Z_ω und Schwellenwerten ζ_ω wie hier oben definiert zugeordnet. Die while-Schleife führt folgendes für jedes ω aus, bis die Schleife angehalten wird:

a) Durch Auswertung von L_BC,ω(i, j) wird bestimmt, welches der Quellpixel {(k, l), k = 1, ..., K, l = 1, ..., L} des Gitters von Quellpixeln auf den gleichen Punkt in der Szene ”schauen” würde (den selben Punkt in der Szene gemäß der ersten Projektion auf sich projiziert aufweisen würde, die das Zielbild mit der Szene verknüpft) wie das Zielpixel (i, j) ”schauen würde” (auf dieses gemäß der Projektion, die das Zielbild mit der Szene verknüpft, projiziert hätte), wenn die abgebildete Szene eine ebene Oberfläche mit einem Abstand Z_ω von dem Projektionszentrum des 3D-Kamerabezugsrahmens B wäre.
b) Durch Auswerten von Z_B(L_BC,ω(i, j)) bestimmt man die Tiefenkoordinate des Punktes in der Szene, den das in Schritt a) bestimmte Quellpixel tatsächlich anschaut.
c) Die Iteration wird fortgesetzt, bis die Schleifenvariable ω 1 oder Z_B(L_BC,ω(i, j)) ≤ ζ_ω erreicht. Wenn letztere Bedingung erfüllt ist, gleicht der Oberflächenabstand Z_ω zumindest in etwa der Tiefenkoordinate des Punktes in der Szene, auf den das in Schritt a) bestimmte Quellpixel tatsächlich schaut. Mit der vorstehenden Auswahl der Schwellenwerte ζ_ω ist die Toleranz derart, dass der Fehler in der resultierenden Disparität kleiner als die halbe Pixelgröße in dem Zielbild ist. Dies bedeutet, dass, selbst wenn die Oberflächenabstände Z_ω nahe beieinander gewählt würden, man kein besseres Angleichen der Pixel erhalten würde.

10 ist eine Illustration der Schritte a)–c) anhand des Beispiels von entzerrten 2D- und 3D-Bildern. Das 3D-Bild ist als ein Gitter 10 von Quellpixeln 10-1, 10-2 usw. dargestellt. Die Schritte a)–c) stellen die Korrespondenz zwischen dem Gitter 10 von Quellpixeln und dem Gitter 12 von Zielpixeln 12-1, 12-2, usw. her. Die Projektionszentren (Sichtpunkte) des Quellbildes und des Zielbildes sind bei Bezugszeichen 14 bzw. 16 gezeigt. Der Algorithmus wird in Bezug auf Zielpixel 12-2 erklärt. In Schritt a) ergibt L_BC,ω(Zielpixel 12-2) das Quellpixel 10-1, da diese Pixel auf den gleichen Punkt P₁ schauen würden, wenn die abgebildete Szene 18 aus einer Wand mit einem Abstand Z_ω von dem Sichtpunkt 14 bestehen würde. Pixel 10-1 schaut jedoch tatsächlich auf den Szenenhintergrund 20. Demnach ist die Tiefenkoordinate Z_B(Pixel 10-1) viel größer als der Schwellenwert ζ_ω. Dies bedeutet, dass bei Punkt P₁ die Szene 18 tiefer ist als ζ_ω und dass das Quellpixel 10-1 somit nicht dem Zielpixel 12-2 für diese besondere Szene 18 entspricht. Demnach müssen die Schritte a)–c) für ω – 1 wiederholt werden. Für ω – 1 ergibt L_BCω-1(Zielpixel 12-2) das Quellpixel 10-2, da diese Pixel auf den gleichen Punkt P₂ schauen würden, wenn die abgebildete Szene 18 aus einer Wand mit einem Abstand Z_ω-1 von dem Sichtpunkt 14 bestehen würde. Da das Pixel 10-2 tatsächlich auf das Szenenobjekt 22 schaut, ergibt sich Z_B(Pixel 10-2) = Z_B(L_BC,ω-1(Zielpixel 12-2)) < ζ_ω-1 und die Iteration hält an. Dadurch wird die Korrespondenz des Pixels 12-2 des Zielgitters und des Pixels 10-2 des Quellgitters hergestellt. Es muss nur noch der Abstand R'_B(Pixel 10-2) von dem zweiten Sichtpunkt 16 zu dem Punkt auf dem Objekt 22, auf den das Pixel 10-2 schaut, berechnet (oder nachgeschlagen) werden. Der somit erhaltene Abstandswert wird dem Pixel 12-2 zugeordnet.
Es sollte angemerkt werden, dass die Abstandsdarstellung {R_B(k, l)} in die Abstandsdarstellung {R'_B(k, l)} umgewandelt werden kann, bevor die Iteration der Schritte a)–c) beginnt. Dies liegt daran, dass die Positionen der Sichtpunkte relativ zueinander bekannt sind. Jeder Abstandswert R_B(k, l) stellt den Abstand von dem ersten Sichtpunkt zu dem Punkt in der Szene dar, auf den das Quellpixel (k, l) schaut (gemäß der ersten Projektion). Dies ermöglicht die Berechnung des Positionsvektors P(k, l) des Punktes in der Szene, z. B. als P(k, l) = (X_B(k, l), Y_B(k, l), Z_B(k, l)) unter Verwendung der Formel (2) und gegebenenfalls einer Verzerrungskorrektur. Mit der Position P _O2 des zweiten Sichtpunktes relativ zu dem ersten Sichtpunkt kann man R'_B(k, l) als Modulus von P(k, l) – P _O2 (d. h. R'_B(k, l) = ||P(k, l) – P _O2||) berechnen. Wenn für alle Punkte in der Szene gilt R_B(k, l) = ||P(k, l)|| >> ||P _O2|| = |b,| was bei vielen praktischen Anwendungen durchaus der Fall sein kann, kann die Korrektur der Abstandswerte vernachlässigt und in Schritt c) R'_B(k, l) = R_B(k, l) verwendet werden.
Die Tatsache, dass die while-Schleife über die diskreten Disparitäten, die mit ω markiert sind, in absteigender Folge durchgeführt wird, ist der Grund für die Schatteneffekte. Wenn zwei Objektpunkte in der Szene, die auf verschiedenen Pixeln in dem Quellbild abgebildet sind, auf das gleiche Zielpixel abzubilden wären, würde der 3D-Punkt mit dem kleineren Abstand (und somit der größeren Disparität) in der Abbildung beibehalten. Es ist nämlich gerade dieser Punkt, der die anderen überschattet, und nicht umgekehrt.
Speicheroptimierte Verwirklichung der Datenangleichung
Der Algorithmus kann in Echtzeit durch eine geeignete Berechnungseinheit durchgeführt werden, wie sie in Anwendungen des maschinellem Sehens verwendet werden.
Der einzige Nachteil hier besteht darin, dass eine Anzahl Ω von Nachschlagetabellen gespeichert werden muss, was Speicherplatz belegt.
Dieser kann erheblich reduziert werden, wenn die projektive Transformation in Schritt B3, die die Pixelkoordinaten des 3D-Sensors aus dem 3D-Bezugssystem abbildet, nahe einer reinen Translation ist, d. h. keine Maßstabstransformation oder Drehung enthält. Diese Situation trifft typischerweise bei einem System mit zwei Kameras zu, die parallel gut ausgerichtet sind und eine bekannte Brennweite aufweisen. Sollte dies nicht zutreffen, kann eine solche Geometrie durch Anwenden einer projektiven Transformation vor Berechnen der binokularen Disparitätsverschiebung erreicht werden, d. h. bevor die Schritte B2 und B3 in der Folge der Koordinatentransformationen der 3D-Kamera ausgetauscht werden (siehe 9). Wie in Schritt 1.ii. für ein System für stereoskopisches Sehen beschrieben wurde, bilden die projektiven Transformationen T_AG und T_BC die Koordinaten der beiden Kamerasysteme auf zwei koplanaren Bildebenen mit x-Achsen ab, die parallel zu der Linie liegen, die die Projektionszentren der beiden Kameras verbindet. Diese Umsetzung der Transformationskette hat somit eine geringere Flexibilität beim Auswählen des gemeinsamen Bezugsrahmens als die erste, in 4 gezeigte Umsetzung. Außerdem kann das Kalibrierungsverfahren zur Bestimmung der Transformationen komplizierter sein.
Da die projektive Transformation des 3D-Bildes nicht das Projektionszentrum beeinträchtigt, bleiben die radialen Abstände R_B(k, l) unter dieser Transformation unveränderlich. Die Z-Koordinaten müssen jedoch nach Formel (2) aus den radialen Abständen und den transformierten Koordinaten (x^C(k, l), y^C(k, l)) neu berechnet werden. Dies kann jedoch unter Verwendung von einigen vorausberechneten Einheitsvektoren wie in der Berechnung von Z_B(k, l) erfolgen (siehe [4]).
Auf Grund dieser Koordinatenauswahl liegt die Disparität in der x-Richtung und kann aus den transformierten z-Koordinaten Z'_c(k, l) unter Verwendung der Formel (3) berechnet werden. Die Koordinaten (x^C(k, l), y^C(k, l), die für zwei verschiedene Z_C-Werte Z_ω und Z_ω+1 berechnet wurden (siehe Gleichung (3)), unterscheiden sich genau um eine Pixelgröße δ in x-Richtung, wobei das Zeichen der Differenz von dem Zeichen der Verschiebung b der 3D-Kamera zur 2D-Kamera abhängt (in Bezug auf die x-Achse). Da keine weitere Maßstabstransformation oder Drehung auf die Koordinaten (x^C(k, l), y^C(k, l)) angewandt wird, werden die entsprechenden Nachschlagetabellen L_BC,ω+1 und L_BC,ω über L_BCω in Bezug gesetzt über L_BC,ω+1(i, j) = L_BC,ω(i, j – s) wobei s = Zeichen(b), und wobei i und j die Pixel in den Y- bzw. X-Richtungen anzeigen.
Folglich reicht es aus, eine einzige Nachschlagetabelle zu speichern, die nachfolgend als L_BC,0 bezeichnet wird und auf einem erweiterten Maschengitter von einer Größe M × (N + K – 1) berechnet wird, die alle Ω Nachschlagetabellen definiert über L_BC,ω(i, j) = L_BC,0(i, j – sω) wobei i = 1, ..., M, j = 1, ..., N, und ω = 0, ..., Ω – 1.
Der vorstehende Algorithmus wird dann
Es sollte angemerkt werden, dass dieser Algorithmus die radiale Abstandsdarstellung R_B nicht direkt auf die neue Entfernungsdarstellung R_C abbildet, sondern stattdessen die Darstellung Z'_C von Z-Werten auf eine neue Darstellung Z_C, da die Z-Werte unter der Disparitätsverschiebung in der X-Richtung gleichbleibend sind (Die Differenz zwischen den beiden Bildern Z'_C und Z_C sind nicht die Z-Werte selber, sondern die Zuordnung der Werte zu Pixelpositionen). Die radiale Abstandsdarstellung kann durch Multiplizieren der Werte mit einem vorausberechneten Faktor, der durch die Pixelkoordinaten des gemeinsamen Gitters gegeben ist (siehe Formel (2)), direkt von Z_C erhalten werden.
Verweise

[1] R. Crabb C. Tracey, A. Puranik und J. Davis, "Real-time Foreground Segmentation via Range and Color Imaging, Proceedings of the First International Workshop on Internet Vision" (zusammen mit CVPR), Anchorage, Alaska, 2008
[2] D. Chan, H. Buisman, C. Theobalt und S. Thrun, "A noise-aware filter for real-time depth upsampling, Workshop on Multi-camera and Multi-modal Sensor Fusion Algorithms and Applications", ECCV, 2008.
F. Garcia, B. Mirbach, B. Ottersten, F. Grandidier und A. Cuesta, "Pixel weighted average strategy for depth sensor data fusion, Proceedings of the International Conference of Computer Vision" (ICIP 2010)
[4] B. Mirbach, M. Castillo-Franco und R. Ginhoux, "Method For Determining The Position Of An Object From A Digital Image; WO 2006/058872
[5] E. Trucco und A. Verri, "Introductory Techniques for 3-D Computer Vision, Prentice Hall PTR, Upper Saddle River, NJ, USA, 1998, Kapitel 7
[6] R. Hartley and A. Zisserman, "Multiple View Geometry in Computer Vision", Cambridge University Press, zweite Ausgabe, 2003

Bezugszeichenliste

10: Gitter von Quellpixeln
10-1, 10-2: Quellpixel
12: Gitter von Zielpixeln
12-1, 12-2: Zielpixel
14: Erster Sichtpunkt (erstes Projektionszentrum)
16: Zweiter Sichtpunkt (zweites Projektionszentrum)
18: Szene
20: Szenenhintergrund
22: Szenenobjekt
P₁, P₂: Punkte in der Szene

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

WO 2006/058872 [0074]

Zitierte Nicht-Patentliteratur

R. Crabb C. Tracey, A. Puranik und J. Davis, ”Real-time Foreground Segmentation via Range and Color Imaging, Proceedings of the First International Workshop on Internet Vision” (zusammen mit CVPR), Anchorage, Alaska, 2008 [0074]
D. Chan, H. Buisman, C. Theobalt und S. Thrun, ”A noise-aware filter for real-time depth upsampling, Workshop on Multi-camera and Multi-modal Sensor Fusion Algorithms and Applications”, ECCV, 2008 [0074]
F. Garcia, B. Mirbach, B. Ottersten, F. Grandidier und A. Cuesta, ”Pixel weighted average strategy for depth sensor data fusion, Proceedings of the International Conference of Computer Vision” (ICIP 2010) [0074]
[4] B. Mirbach, M. Castillo-Franco und R. Ginhoux, ”Method For Determining The Position Of An Object From A Digital Image [0074]
[5] E. Trucco und A. Verri, ”Introductory Techniques for 3-D Computer Vision, Prentice Hall PTR, Upper Saddle River, NJ, USA, 1998, Kapitel 7 [0074]
[6] R. Hartley and A. Zisserman, ”Multiple View Geometry in Computer Vision”, Cambridge University Press, zweite Ausgabe, 2003 [0074]

Claims

Verfahren zum Angleichen von Quellpixeln (10-1, 10-2) einer ersten Entfernungsdarstellung einer Szene (18), wie sie von einem ersten Sichtpunkt (14) gesehen wird, an Zielpixel (12-1, 12-2) einer zweiten Entfernungsdarstellung der Szene, wie sie von einem zweiten Sichtpunkt (16) gesehen wird; wobei das Verfahren aufweist: Bereitstellen der ersten Entfernungsdarstellung als ein Gitter von Quellpixeln (10), auf das die Szene (18) gemäß einer ersten, dem ersten Sichtpunkt (14) zugeordneten Projektion abgebildet wird, wobei jedes Quellpixel (10-1, 10-2) einen Punkt in der Szene (18) aufweist, der gemäß der ersten Projektion auf dieses projiziert wird und einen zugeordneten Entfernungswert hat, der für diesen Punkt in der Szene (18) bestimmt wurde; Bereitstellen eines Gitters von Zielpixeln (12) für die zweite Entfernungsdarstellung und eine zweite, dem zweiten Sichtpunkt (16) zugeordnete Projektion; und für jedes der Zielpixel (12-1, 12-2), a) Bestimmen welches Quellpixel (10-1, 10-2) den selben Punkt (P₁, P₂) in der Szene gemäß der ersten Projektion auf sich projiziert aufweisen würde wie das Zielpixel (12-1, 12-2) gemäß der zweiten Projektion, wenn die abgebildete Szene eine ebene Oberfläche mit einem Oberflächenabstand von dem ersten Sichtpunkt (14) wäre; b) Bestimmen einer Tiefenkoordinate des Punktes in der Szene, den das in Schritt a) bestimmte Quellpixel (10-1, 10-2) tatsächlich gemäß der ersten Projektion auf sich projiziert aufweist; c) wenn die Tiefenkoordinate größer als ein Schwellenwert ist, der wiederum größer als der Oberflächenabstand ist, Wiederholen der Schritte a), b) und c) mit einem vergrößerten Oberflächenabstand in Schritt a) und einem erhöhten Schwellwert in Schritt c), und andernfalls Zuordnen des Zielpixels (12-1, 12-2) zu dem in Schritt a) bestimmten Quellpixel (10-1, 10-2).
Verfahren nach Anspruch 1, wobei das Zuordnen des Zielpixels (12-1, 12-2) zu dem in Schritt a) bestimmten Quellpixel (10-1, 10-2) das Bestimmen des Abstands von dem zweiten Sichtpunkt (16) zu dem Punkt in der Szene, den das in Schritt a) bestimmte Quellpixel (10-1, 10-2) gemäß der ersten Projektion tatsächlich auf sich projiziert aufweist, und das Zuordnen von diesem zu dem Zielpixel (12-1, 12-2) aufweist oder daraus besteht.
Verfahren nach Anspruch 1 oder 2, wobei das Zuordnen des Zielpixels (12-1, 12-2) zu dem in Schritt a) bestimmten Quellpixel (10-1, 10-2) das Zuordnen der Tiefenkoordinate zu dem Zielpixel (12-1, 12-2) aufweist oder aus diesem besteht.
Verfahren nach einem der Ansprüche 1 bis 3, wobei die Iteration der Schritte a), b) und c) mit einer vorbestimmten Reihe von Oberflächenabständen und einer vorbestimmten Reihe von Schwellenwerten durchgeführt wird.
Verfahren nach Anspruch 4, wobei die Reihe von Oberflächenabständen eine arithmetische Folge von binokularen Disparitätswerten entspricht, wobei der übliche Unterschied der arithmetischen Folge gleich oder im Wesentlichen gleich einer Maschengröße des Gitters von Zielpixeln (12-1, 12-2) ist.
Verfahren nach einem der Ansprüche 1 bis 5, wobei Schritt a) unter Verwendung einer dem Oberflächenabstand zugeordneten Nachschlagetabelle durchgeführt wird.
Verfahren nach einem der Ansprüche 1 bis 6, wobei die erste Entfernungsdarstellung verzerrungskorrigiert ist.
Verfahren nach einem der Ansprüche 1 bis 7, wobei die zweite Entfernungsdarstellung eine höhere Auflösung als die erste Entfernungsdarstellung hat.
Verfahren nach einem der Ansprüche 1 bis 8, wobei sich das Gitter von Quellpixeln (10) und das Gitter von Zielpixeln (12) in einer gemeinsamen Bildebene befinden.
Verfahren nach Anspruch 9, wobei das Gitter von Quellpixeln (10) und das Gitter von Zielpixeln (12) gleichmäßige rechteckige Gitter sind.
Verfahren nach Anspruch 10, wobei das Gitter von Quellpixeln (10) zwei Gitterachsen aufweist, wobei das Gitter von Zielpixeln (12) auch zwei Gitterachsen aufweist, und wobei eine der Gitterachsen des Gitters von Quellpixeln und eine der Gitterachsen des Gitters von Zielpixeln zu einer durch den ersten (14) und den zweiten (16) Sichtpunkt hindurchgehenden Linie parallel sind.
Verfahren nach Anspruch 11 in Abhängigkeit von Anspruch 5, wobei Schritt a) unter Verwendung einer einzigen Nachschlagetabelle durchgeführt wird, die der Reihe von Oberflächenabständen zugeordnet ist.
Verfahren nach einem der Ansprüche 1 bis 12, aufweisend Bereitstellen eines zwei-dimensionalen Bildes der Szene (18), wie sie von dem zweiten Sichtpunkt (16) gesehen wird; wobei das zwei-dimensionale Bild über eine Verzerrungskorrektur und/oder eine projektive Transformation auf dem Gitter von Zielpixeln (12) abgebildet wird.
Computerprogramm, aufweisend Befehle zum Veranlassen eines Prozessors, das Verfahren nach einem der Ansprüche 1 bis 13 auszuführen, wenn es in dem Prozessor ausgeführt wird.