DE102021203927A1 - Method and device for evaluating stereo image data from a camera system based on signatures - Google Patents
Method and device for evaluating stereo image data from a camera system based on signatures Download PDFInfo
- Publication number
- DE102021203927A1 DE102021203927A1 DE102021203927.8A DE102021203927A DE102021203927A1 DE 102021203927 A1 DE102021203927 A1 DE 102021203927A1 DE 102021203927 A DE102021203927 A DE 102021203927A DE 102021203927 A1 DE102021203927 A1 DE 102021203927A1
- Authority
- DE
- Germany
- Prior art keywords
- signatures
- image data
- hash
- hashkeys
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000003287 optical effect Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- BUHVIAUBTBOHAG-FOYDDCNASA-N (2r,3r,4s,5r)-2-[6-[[2-(3,5-dimethoxyphenyl)-2-(2-methylphenyl)ethyl]amino]purin-9-yl]-5-(hydroxymethyl)oxolane-3,4-diol Chemical compound COC1=CC(OC)=CC(C(CNC=2C=3N=CN(C=3N=CN=2)[C@H]2[C@@H]([C@H](O)[C@@H](CO)O2)O)C=2C(=CC=CC=2)C)=C1 BUHVIAUBTBOHAG-FOYDDCNASA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
Abstract
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Auswertung von Stereobilddaten eines Kamerasystems, beispielsweise einer fahrzeuggebundenen Umfelderfassungskamera, und kann in einem System zum assistierten oder automatisierten Fahren eingesetzt werden.Das Verfahren Auswertung von Stereobilddaten umfasst die Schritte:a) Empfangen der Stereobilddaten;b) Generieren von lokalen Signaturen (411, 412, 413, 421, 422) in ersten und zweiten Bildern (21, 22; 31, 32; 41, 42) der Stereobilddaten;c) Bilden von Hashkeys auf der Grundlage von einer oder mehreren Signaturen (411, 412, 413, 421, 422) sobald eine Stärke der Signatur einen vorgegebenen Schwellwert überschreitet;d) Speichern der Hashkeys in einer Hashtable für das erste und das zweite Bild (21, 22; 31, 32; 41, 42) mittels einer Hashfunktion derart, dass die Hashkeys von unterschiedlichen Signaturen (411, 412, 413, 421, 422) in der Hashtable voneinander entfernt abgelegt werden, wobei die Hashkeys von weniger unterschiedlichen Signaturen näher beieinander abgelegt werden und die Hashkeys von stärker unterschiedlichen Signaturen weiter entfernt voneinander abgelegt werden;e) Durchführen einer Hashkey-Korrespondenzsuche durch Matchen der Hashtable des ersten und des zweiten Bildes (21, 22; 31, 32; 41, 42) derart, dass eine eindeutige Zuordnung der Signaturen (411, 412, 413, 421, 422) aus erstem und zweitem Bild (21, 22; 31, 32; 41, 42) resultiert;f) Ausgabe von 3D-Informationen auf der Grundlage der zugeordneten Signaturen (411, 412, 413, 421, 422).Ein wesentlicher Vorteil besteht in der Effizienz: Durch den verwendeten Hashing-Mechanismus können die Korrespondenzen schnell bestimmt werden.The invention relates to a method and a device for evaluating stereo image data from a camera system, for example a vehicle-mounted environment detection camera, and can be used in a system for assisted or automated driving. The method evaluating stereo image data comprises the steps: a) receiving the stereo image data; b) generating local signatures (411, 412, 413, 421, 422) in first and second images (21, 22; 31, 32; 41, 42) of the stereo image data; c) forming hash keys based on one or more signatures ( 411, 412, 413, 421, 422) as soon as the strength of the signature exceeds a predetermined threshold; Hash function such that the hashkeys of different signatures (411, 412, 413, 421, 422) are stored in the hashtable at a distance from each other, with the hashkeys of less different n signatures are stored closer together and the hashkeys of more strongly different signatures are stored further away from each other;e) performing a hashkey correspondence search by matching the hashtable of the first and second images (21, 22; 31, 32; 41, 42) in such a way that the signatures (411, 412, 413, 421, 422) from the first and second images (21, 22; 31, 32; 41, 42) are unambiguously assigned; f) outputting 3D information on the basis of the assigned signatures (411, 412, 413, 421, 422). A major advantage is efficiency: the hashing mechanism used means that the correspondence can be determined quickly.
Description
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Auswertung von Stereobilddaten eines Kamerasystems, beispielsweise einer fahrzeuggebundenen Umfelderfassungskamera, und kann in einem System zum assistierten oder automatisierten Fahren eingesetzt werden.The invention relates to a method and a device for evaluating stereo image data from a camera system, for example a vehicle-mounted environment detection camera, and can be used in a system for assisted or automated driving.
Heutige Fahrzeuge sind mit kamerabasierten Fahrerassistenzsystemen ausgestattet, welche der Erkennung von Objekten zur Vermeidung von Kollisionen und der Erkennung von Straßenbegrenzungen zum Halten des Fahrzeuges in der Spur dienen.Today's vehicles are equipped with camera-based driver assistance systems, which are used to recognize objects to avoid collisions and to recognize road boundaries to keep the vehicle in lane.
Eine Mono- oder Stereokamera-basierte Tiefenschätzung mit unterschiedlichen Kamerasystemen gewinnt an Bedeutung. Durch die Tiefenschätzung profitiert die Erkennung von Objekten und das Verständnis der aktuellen Fahrzeugumgebungssituation.A mono or stereo camera-based depth estimation with different camera systems is gaining in importance. The depth estimation benefits the recognition of objects and the understanding of the current situation surrounding the vehicle.
Diese Tiefenschätzung erfolgt klassisch auf feature-basierten (merkmalsbasierten) Ansätzen zur Korrespondenzsuche in rektifizierten Bildern oder mit neuronalen Netzen, welche mit trainierten Features die Tiefe aus Bildpaaren berechnen. Anhand eines Versatzes von Bildmerkmalen (Features) bei zwei Bildern, die aus unterschiedlichen Kamerapositionen erfasst wurden, kann der räumliche Abstand zu dem realen Objekt, das diesem Bildmerkmal entspricht, berechnet oder zumindest geschätzt werden.This depth estimation is done classically on feature-based (feature-based) approaches for correspondence search in rectified images or with neural networks, which calculate the depth from image pairs with trained features. Based on an offset of image features (features) in two images that were captured from different camera positions, the spatial distance to the real object that corresponds to this image feature can be calculated or at least estimated.
In heutigen und zukünftigen Systemen wird aufgrund von sicherheitskritischen Anwendungen gerade im Bereich der Tiefenschätzung davon ausgegangen, dass eine Kombination aus klassischer und CNN-basierter Tiefenschätzung, oder mindestens eine klassische oder CNN-basierte Tiefenschätzung realisiert wird. CNN ist die Abkürzung für Convolutional Neural Network („faltendes neuronales Netzwerk“).In current and future systems, due to safety-critical applications, especially in the area of depth estimation, it is assumed that a combination of classic and CNN-based depth estimation, or at least one classic or CNN-based depth estimation, is implemented. CNN is short for Convolutional Neural Network.
Mit Stereokameras kann nicht nur ein 2-dimensionales Abbild der Umgebung aufgenommen werden, sondern auch - wegen der Aufnahme der Umgebung aus zwei unterschiedlichen Positionen durch die beiden versetzt angeordneten Kameramodule der Stereokamera - die Entfernung zu erkannten Mustern (bzw. Bildmerkmalen) bestimmt werden. So lässt sich die 3D-Geometrie von erfassten Objekten rekonstruieren. Eine etablierte Methode beruht auf dem „Semi Global Matching“ (SGM)-Verfahren.
H. Hirschmüller, „Accurate and efficient stereo processing by semiglobal matching and mutual information,“ in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.807-814 sowie
H. Hirschmüller, S. Gehrig: „Stereo Matching in the Presence of Sub-Pixel Calibration Errors“, International Conference on Vision and Pattern Recognition, CVPR 2009, zeigen SGM-Verfahren.With stereo cameras, not only can a 2-dimensional image of the environment be recorded, but also - due to the recording of the environment from two different positions by the two offset camera modules of the stereo camera - the distance to recognized patterns (or image features) can be determined. In this way, the 3D geometry of detected objects can be reconstructed. An established method is based on the "Semi Global Matching" (SGM) procedure.
H. Hirschmüller, "Accurate and efficient stereo processing by semiglobal matching and mutual information," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2005, pp.807-814 and
H. Hirschmüller, S. Gehrig: "Stereo Matching in the Presence of Sub-Pixel Calibration Errors", International Conference on Vision and Pattern Recognition, CVPR 2009, show SGM methods.
Um die Korrespondenzsuche zu vereinfachen ist eine präzise Rektifizierung der Kamerabilder erforderlich. Bei perfekter Rektifizierung kann die Korrespondenzsuche auf Bildzeilen durchgeführt werden - also in einer Dimension. Dies erfordert allerdings eine präzise Kalibrierung der beiden Kameramodule. Muss die Korrespondenz-Suche im Bildbereich (also zweidimensional) durchgeführt werden, steigen die Rechenanforderungen stark an.In order to simplify the correspondence search, precise rectification of the camera images is required. With perfect rectification, the search for correspondence can be carried out on image lines - i.e. in one dimension. However, this requires precise calibration of the two camera modules. If the correspondence search has to be carried out in the image area (i.e. two-dimensionally), the computing requirements increase significantly.
Es ist eine Aufgabe der Erfindung Lösungen für eine verbesserte Auswertung von Stereobilddaten bereitzustellen, die eine zuverlässige 3D Rekonstruktion der Kameraumgebung ermöglicht.It is an object of the invention to provide solutions for an improved evaluation of stereo image data that enables a reliable 3D reconstruction of the camera environment.
Ein Ausgangspunkt für die Lösung besteht in einer Verwendung einer abstrahierten und komprimierten Repräsentation der zwei Bilder der StereokameraA starting point for the solution is to use an abstracted and compressed representation of the two images from the stereo camera
Ein Beispiel einer abstrahierten und komprimierten Repräsentation von Bilddaten zeigt die Veröffentlichung
- Das beschriebene System besteht aus einer Anzahl von zufälligen, unabhängig voneinander generierten Processing Kernels. Die Kernel bilden Datensegmente auf parallelen Datenströmen als kompakte Signaturen in einen hochdimensionalen Raum ab. Dieses Vorgehen ist in
WO 2007/049282 A1 - Das System gemäß
WO2009/026433A1 - Ein echtzeitfähiges Matching zwischen den Signaturen auf den Videodaten und den Signaturen in der Datenbank ist dann mit Berechnungsaufwand <= log(N) möglich Für das Video Signatur-Matching werden L Kernel verwendet. Jeder Kernel erzeugt auf den Bilddaten zwei Signaturen eine „Signature S“ und eine „Robust Signature RS“. Die Kernelfunktionen sind als einfache Look-up-Tables(gewichtete Summen) ausgelegt: V_i = SUMME_j(w_ij*k_j).
- Durch die Summation sind die Kernelfunktionen robust gegenüber „einfachem Rauschen“ (Gauss, Scratch, ..). Dagegen sind die Kernel (aus Laufzeitgründen) explizit nicht scale-, crop-, shift-, und rotations-invariant.
- Der Kernel-Output wird mit Schwellwerten Th_i beaufschlagt. Je ein hoher Schwellwert für die Generierung der robusten Signaturen „RS“ und ein niedriger Schwellwert für die Generierung „schwacher“ Signaturen „S“.
- Zur Abbildung von scale, distortion, crop, shift und rotation wird die Anzahl der Kernel um die entsprechende Anzahl Rotations-Stufen, Shift-Stufen u. Scale-Stufen erhöht.
- The system described consists of a number of random, independently generated processing kernels. The kernels map data segments on parallel data streams as compact signatures in a high-dimensional space. This approach is in
WO 2007/049282 A1 - The system according to
WO2009/026433A1 - A real-time matching between the signatures on the video data and the signatures in the database is then possible with calculation effort <= log(N) For video signature matching who uses the L kernel. Each kernel creates two signatures on the image data, a "Signature S" and a "Robust Signature RS". The kernel functions are designed as simple look-up tables (weighted sums): V_i = SUM_j(w_ij*k_j).
- Due to the summation, the kernel functions are robust against "simple noise" (Gauss, scratch, ..). In contrast, the kernels (due to runtime reasons) are explicitly not scale, crop, shift, and rotation invariant.
- Threshold values Th_i are applied to the kernel output. A high threshold for the generation of the robust signatures "RS" and a low threshold for the generation of "weak" signatures "S".
- To map scale, distortion, crop, shift and rotation, the number of kernels is increased by the corresponding number of rotation levels, shift levels and scale levels.
Die zugrundeliegende Veröffentlichung
- Die Signaturen bestehen aus binären Einträgen für
gefunden wurde
Diese Einträge werden aneinandergehängt und ergeben die Signatur:
[000100000010000000000000100000] für ein Einzelfeature.
Objekte bestehen aus mehreren Features, die überlagert werden. Die Signaturen können in realen Bildern mit mehr als 10 Pixeln sehr groß werden.The underlying release
- The signatures consist of binary entries for
was found
These entries are concatenated and result in the signature:
[000100000010000000000000100000] for a single feature.
Objects are made up of multiple features that are overlaid. The signatures can become very large in real images with more than 10 pixels.
Allerdings sind die „1“ nicht sehr häufig. Die meisten binären Einträge sind „0“. Somit ist beispielsweise die Binärdarstellung sehr gut geeignet für schnelle Hash-Matching Algorithmen.However, the "1" is not very common. Most binary entries are "0". Thus, for example, the binary representation is very well suited for fast hash matching algorithms.
Ein Aspekt der Erfindung betrifft ein recheneffizientes Verfahren zur Korrespondenzbestimmung in Stereobilddaten eines Kamerasystems.One aspect of the invention relates to a computationally efficient method for determining correspondence in stereo image data of a camera system.
Ein weiterer Aspekt der Erfindung betrifft eine Vorrichtung, die derart konfiguriert ist, ein solches recheneffizientes Verfahren auszuführen.A further aspect of the invention relates to a device which is configured in such a way to carry out such a computationally efficient method.
Ein Verfahren Auswertung von Stereobilddaten umfasst die Schritte:
- a) Empfangen der Stereobilddaten;
- b) Generieren von lokalen Signaturen in ersten und zweiten Bildern der Stereobilddaten;
- c) Bilden von Hashkeys auf der Grundlage von einer oder mehreren Signaturen sobald eine Stärke der Signatur einen vorgegebenen Schwellwert überschreitet;
- d) Speichern der Hashkeys in einer Hashtable für das erste und das zweite Bild mittels einer Hashfunktion derart, dass die Hashkeys von unterschiedlichen Signaturen in der Hashtable voneinander entfernt abgelegt werden, wobei die Hashkeys von weniger unterschiedlichen Signaturen näher beieinander abgelegt werden und die Hashkeys von stärker unterschiedlichen Signaturen weiter entfernt voneinander abgelegt werden;
- e) Durchführen einer Hashkey-Korrespondenzsuche durch Matchen der Hashtable des ersten und des zweiten Bildes derart, dass eine eindeutige Zuordnung der Signaturen aus erstem und zweitem Bild resultiert;
- f) Ausgabe der 3D-Informationen auf der Grundlage der zugeordneten Signaturen.
- a) receiving the stereo image data;
- b) generating local signatures in first and second images of the stereo image data;
- c) forming hash keys based on one or more signatures as soon as a strength of the signature exceeds a predetermined threshold value;
- d) Storing the hashkeys in a hashtable for the first and the second image using a hash function such that the hashkeys from different signatures are stored away from each other in the hashtable, with the hashkeys from less different signatures being stored closer together and the hashkeys from stronger different signatures are placed further apart;
- e) performing a hash key correspondence search by matching the hash table of the first and second images in such a way that the signatures from the first and second images are unambiguously assigned;
- f) Output of the 3D information based on the assigned signatures.
Die Stereobilddaten können beispielsweise von einer Stereokamera mit zwei Kameramodulen zum selben Zeitpunkt (bzw. ungefähr gleichzeitig) erfasst worden sein, wobei die beiden Kameramodule so ausgerichtet sind, dass sie einen überlappenden Bereich der Kameraumgebung abbilden. In diesem überlappenden Bereich werden Korrespondenzen zwischen gleichen Bildobjekten bzw. Strukturen im Bild hergestellt.The stereo image data can, for example, have been captured by a stereo camera with two camera modules at the same time (or approximately simultaneously), with the two camera modules being aligned in such a way that they image an overlapping area of the camera environment. Correspondences between the same image objects or structures in the image are established in this overlapping area.
Alternativ können die Stereobilddaten als zeitlich nacheinander erfasste Einzelbilder von einer bewegten Monokamera erfasst worden sein.Alternatively, the stereo image data can have been captured by a moving mono camera as individual images captured one after the other.
Eine Stereokamera kann innerhalb eines Gehäuses angeordnet sein, so dass beide Kameramodule bzw. Optroniken mechanisch starr miteinander verbunden sind. Alternativ können die Kameramodule wie in
Vorstellbar sind jedoch auch unterschiedliche Komponenten, wie beispielsweise
Eine Stereoauswertung ist grundsätzlich im „Überlappungsbereich“ der Bildbereiche zweier Kameramodule möglich.
Eine Stereokamera, die in oder an einem Fahrzeug befestigt ist (fahrzeuggebundene Stereokamera) kann beispielsweise hinter der Windschutzscheibe im Inneren des Fahrzeugs angeordnet sein und zwei Kameramodule umfassen, die den vor dem Fahrzeug liegenden Bereich der Fahrzeugumgebung durch die Windschutzscheibe erfassen und abbilden können.A stereo camera can be arranged within a housing, so that both camera modules or optronics are mechanically rigidly connected to one another. Alternatively, the camera modules can be used as in
However, different components are also conceivable, such as, for example
A stereo evaluation is basically possible in the "overlap area" of the image areas of two camera modules.
A stereo camera that is fixed in or on a vehicle (vehicle-mounted stereo camera) can be arranged, for example, behind the windshield inside the vehicle and can include two camera modules that can capture and image the area of the vehicle environment in front of the vehicle through the windshield.
Alternativ zu einer Stereokamera mit zwei separaten Kameramodulen kann auch eine bewegte Monokamera Stereobildpaare bzw. Stereobilddaten liefern. Zeitlich aufeinanderfolgend erfasste Einzelbilder weisen aufgrund der Bewegung der Monokamera unterschiedliche Perspektiven auf. Auch dies ermöglicht eine „Bewegungsstereo“-Auswertung und somit eine Tiefenschätzung bzw. (teilweise) 3D-Rekonstruktion der von der Monokamera erfassten Umgebung. Eine Monokamera wird aktiv bewegt, z.B. durch ein kurzes Stück Fahren oder eine Kurvenfahrt eines Fahrzeugs, in oder an dem die Monokamera befestigt ist.As an alternative to a stereo camera with two separate camera modules, a moving mono camera can also supply stereo image pairs or stereo image data. Individual images recorded in chronological succession have different perspectives due to the movement of the mono camera. This also enables a "motion stereo" evaluation and thus a depth estimation or (partial) 3D reconstruction of the surroundings captured by the mono camera. A mono camera is actively moved, e.g. by driving a short distance or cornering a vehicle in or on which the mono camera is attached.
In einer Ausführungsform wird für eine eindeutige Zuordnung der Signaturen (bzw. der Pixel) die räumliche Konstellation der Signaturen / Hashkeys berücksichtigt, also die räumliche (2D) Position im Bild.In one embodiment, the spatial constellation of the signatures/hashkeys, ie the spatial (2D) position in the image, is taken into account for an unambiguous assignment of the signatures (or the pixels).
Gemäß einem Ausführungsbeispiel werden die Signaturen entlang einer Stereo-Epipolarlinien-Richtung sortiert, also entlang der Linien, die auch beim klassischen SGM-Verfahren als Suchrichtung genutzt werden. Eine Epipolarlinie geht durch einen Bildpunkt und den Epipol in der jeweiligen Bildebene. Die Verbindungslinie der Projektionszentren eines Objektes in den beiden Kameras einer Stereokamera durchstoßen die jeweilige Bildebene in ihrem Epipol.According to one exemplary embodiment, the signatures are sorted along a stereo-epipolar line direction, ie along the lines that are also used as the search direction in the classic SGM method. An epipolar line goes through a pixel and the epipole in the respective image plane. The line connecting the projection centers of an object in the two cameras of a stereo camera pierces the respective image plane in its epipole.
In einer Ausführungsform erfolgt das Matchen anhand der Hashtables derart, dass die Hashkeys einander zugeordnet werden, die einander am ähnlichsten sind, für den Fall, dass keine vollständige Übereinstimmung zweier Hashkeys gefunden wird.In one embodiment, the matching is carried out using the hash tables in such a way that the hash keys that are most similar to one another are assigned to one another in the event that no complete match between two hash keys is found.
Gemäß einem Ausführungsbeispiel kann eine Metrik dazu verwendet werden, um die Hashkeys zu bestimmen, die einander am ähnlichsten sind.According to one embodiment, a metric can be used to determine the hash keys that are most similar to each other.
In einer Ausführungsform wird die Hamming-Distanz (auch Hamming-Abstand) als Metrik verwendet. Die Hamming-Distanz ist ein Maß für die Unterschiedlichkeit von Zeichenketten.In one embodiment, the Hamming distance (also Hamming distance) is used as a metric. The Hamming distance is a measure of the distinctness of character strings.
Gemäß einem Ausführungsbeispiel werden im Rahmen der Hashkey-Korrespondenzsuche mittels eines Nachbarschaftsvergleichs vermeintliche Korrespondenzen (also vollständige oder weitgehende Übereinstimmungen einer Signatur aus dem erstem mit einer Signatur aus dem zweiten Bild) aussortiert, die keine eindeutige Zuordnung der benachbarten (nebeneinanderliegenden) Signaturen erlauben. Mit anderen Worten ist damit die Bedingung gemeint, dass eine Signatur im ersten Bild nur zu einer benachbarten (d.h. im selben Bildbereich) liegenden Signatur im zweiten Bild liegen kann, um als valide Korrespondenz zu gelten.According to one embodiment, as part of the hashkey correspondence search, a neighborhood comparison is used to sort out supposed correspondences (i.e. complete or extensive matches of a signature from the first image with a signature from the second image) that do not allow a clear assignment of the neighboring (side-by-side) signatures. In other words, this means the condition that a signature in the first image can only be located next to a signature in the second image that is adjacent (i.e. in the same image area) in order to be considered valid correspondence.
In einer Ausführungsform sind das erste und das zweite Bild gleichzeitig von zwei Kameramodulen einer Stereokamera erfasst worden sind. Als „gleichzeitig“ kann hierbei jeder Zeitpunkt angesehen werden, der vor dem Zeitpunkt liegt, zu dem ein Kameramodul das folgende Bild erfasst.In one embodiment, the first and the second image have been captured simultaneously by two camera modules of a stereo camera. Any point in time that lies before the point in time at which a camera module captures the following image can be regarded as “simultaneously”.
In einer alternativen Ausführungsform sind das erste und das zweite Bild zeitlich nacheinander von einer bewegten Monokamera erfasst worden.In an alternative embodiment, the first and the second image have been captured one after the other by a moving mono camera.
Gemäß einem Ausführungsbeispiel mit einer bewegten Monokamera kann der optische Fluss für eine Signatur durch das Matchen der Hashtables für das erste und das zweite Bild bestimmt werden.According to an embodiment with a moving mono camera, the optical flow for a signature can be determined by matching the hash tables for the first and the second image.
Ein weiterer Aspekt betrifft eine Verwendung des Verfahrens zur Ermittlung der Stereo-Epipolarlinien, die im Rahmen einer Auto-Kalibrierung der Kamera verwendet werden können. Dafür wird die Richtung lokaler Epipolarlinien aus der Differenz der Disparitäten in x- und y- Richtung benachbarter Pixel bestimmt. Somit kann in einem kleinen Bildbereich durch die Kurvenschar aus lokalen Epipolarlinien die Kalibrierung der Stereokamera durchgeführt werden.A further aspect relates to the use of the method for determining the stereo epipolar lines that can be used as part of an auto-calibration of the camera. For this purpose, the direction of local epipolar lines is determined from the difference in the disparities in the x and y directions of neighboring pixels. The calibration of the stereo camera can thus be carried out in a small image area by the family of curves from local epipolar lines.
Eine Vorrichtung zur Auswertung von Stereobilddaten umfasst
- - eine Empfangseinheit, konfiguriert zum Empfangen von der Stereobilddaten;
- - eine Stereobilddatenverarbeitungseinheit, konfiguriert zum;
- b) Generieren von lokalen Signaturen in ersten und zweiten Bildern der Stereobilddaten;
- c) Bilden von Hashkeys auf der Grundlage von einer oder mehreren Signaturen sobald eine Stärke der Signatur einen vorgegebenen Schwellwert überschreitet;
- d) Speichern der Hashkeys in einer Hashtable für das erste und das zweite Bild mittels einer Hashfunktion derart, dass die Hashkeys von unterschiedlichen Signaturen in der Hashtable voneinander entfernt abgelegt werden, wobei die Hashkeys von weniger unterschiedlichen Signaturen näher beieinander abgelegt werden und die Hashkeys von stärker unterschiedlichen Signaturen weiter entfernt voneinander abgelegt werden;
- e) Durchführen einer Hashkey-Korrespondenzsuche durch Matchen der Hashtable des ersten und des zweiten Bildes derart, dass eine eindeutige Zuordnung der Signaturen aus erstem und zweitem Bild resultiert; und
- - eine Ausgabeeinheit, konfiguriert zur Ausgabe der 3D-Informationen auf der Grundlage der zugeordneten Signaturen.
- - a receiving unit configured to receive the stereo image data;
- - a stereo image data processing unit configured to;
- b) generating local signatures in first and second images of the stereo image data;
- c) forming hash keys based on one or more signatures as soon as a strength of the signature exceeds a predetermined threshold value;
- d) Storing the hashkeys in a hashtable for the first and the second image using a hash function such that the hashkeys from different signatures are stored away from each other in the hashtable, with the hashkeys from less different signatures being stored closer together and the hashkeys from stronger different signatures are placed further apart;
- e) performing a hash key correspondence search by matching the hash table of the first and second images in such a way that the signatures from the first and second images are unambiguously assigned; and
- - an output unit configured to output the 3D information based on the associated signatures.
Die Vorrichtung kann insbesondere einen Mikrocontroller oder -prozessor, eine Zentrale Verarbeitungseinheit (CPU), ein Grafische Verarbeitungseinheit (GPU), einen Digital Signal Processor (DSP), einen ASIC (Application Specific Integrated Circuit), einen FPGA (Field Programmable Gate Array) und dergleichen mehr sowie Software zur Durchführung der entsprechenden Verfahrensschritte umfassen.The device can in particular have a microcontroller or processor, a central processing unit (CPU), a graphics processing unit (GPU), a digital signal processor (DSP), an ASIC (Application Specific Integrated Circuit), an FPGA (Field Programmable Gate Array) and The like include more and software for performing the corresponding method steps.
Die Erfindung betrifft weiterhin ein Computer Programmelement, welches, wenn damit eine Vorrichtung bzw. einzelne Einheiten der Vorrichtung programmiert wird bzw. werden, die Vorrichtung dazu anweist, ein Verfahren zur Auswertung von Bilddaten der Stereokamera durchzuführen.The invention also relates to a computer program element which, when a device or individual units of the device is or are programmed with it, instructs the device to carry out a method for evaluating image data from the stereo camera.
Die Erfindung betrifft weiterhin ein Computerlesbares Speichermedium, auf dem ein solches Programmelement gespeichert ist.The invention further relates to a computer-readable storage medium on which such a program element is stored.
Die vorliegende Erfindung kann somit in digitalen elektronischen Schaltkreisen, Computer-Hardware, Firmware oder Software implementiert sein.The present invention can thus be implemented in digital electronic circuitry, computer hardware, firmware or software.
Ein wesentlicher Vorteil des Verfahrens bzw. der Vorrichtung besteht in der Effizienz. Durch den verwendeten Hashing-Mechanismus können die Korrespondenzen schneller bestimmt werden als mit klassischen, korrelationsbasierten Verfahren, die den Bildraum in zwei Dimensionen einer örtlichen Nachbarschaft systematisch abtasten müssen.A significant advantage of the method and the device is its efficiency. Thanks to the hashing mechanism used, the correspondences can be determined faster than with classic, correlation-based methods that have to systematically scan the image space in two dimensions of a local neighborhood.
Im Folgenden werden Ausführungsbeispiele und Figuren näher erläutert.Exemplary embodiments and figures are explained in more detail below.
Es zeigen:
-
1 schematisch eine Erfassung von Stereobilddaten von Objekten durch eine Stereokamera, -
2 zwei von der Stereokamera zeitgleich erfasste Bilder, -
3 ein erstes und ein zweites Bild einer Stereokamera mit Korrespondenzen, -
4 ein Beispiel einer Korrespondenzsuche, -
5 die Generierung von Signaturen und das Befüllen der Hashtable für ein Bild, und -
6 schematisch das Matchen von Signaturen aus zwei Bildern durch das Vergleichen von Einträgen in Hashtables.
-
1 schematically a recording of stereo image data of objects by a stereo camera, -
2 two images captured simultaneously by the stereo camera, -
3 a first and a second image of a stereo camera with correspondence, -
4 an example of a correspondence search, -
5 generating signatures and populating the hashtable for an image, and -
6 Schematically the matching of signatures from two images by comparing entries in hashtables.
Als Ausführungsbeispiel wird in der folgenden Beschreibung der Figuren von Stereobilddaten einer Stereokamera ausgegangen.
Bei der Anwendung für eine Monokamera werden Bilder, die zu unterschiedlichen Zeiten und an unterschiedlichen Orten aufgenommen wurden, miteinander korreliert. Hier ist als zusätzliche Information die zurückgelegte Entfernung zwischen den beiden Aufnahmen erforderlich, die beispielsweise über die Odometrie des Fahrzeugs bereitgestellt werden kann. Alternativ ist auch eine Autokalibrierung wie für ein Stereokamerasystem möglich, wenn ausreichend Korrespondenzen zwischen den beiden Aufnahmen hergestellt werden können.As an exemplary embodiment, stereo image data from a stereo camera is assumed in the following description of the figures.
When used for a mono camera, images taken at different times and in different places are correlated with one another. Here, the distance traveled between the two recordings is required as additional information, which can be provided, for example, via the vehicle's odometry. Alternatively, an auto-calibration as for a stereo camera system is also possible if sufficient correspondence between the two recordings can be established.
Das linke Stereokameramodul 11 befindet sich eine Basisbreite b entfernt vom rechten Stereokameramodul 12. Die optische Achse des linken Stereokameramoduls 11 ist durch die Gerade a1 schematisch repräsentiert, die optische Achse des rechten Stereokameramoduls 12 durch die Gerade a2. Der Erfassungs- oder Sichtbereich des linken Stereokameramoduls 11 ist durch die gepunktet dargestellten Geraden s1 symbolisiert, derjenige des rechten Stereokameramoduls 12 durch die gepunkteten Geraden s2. Die Entfernung des kreisförmigen Objekts 3 zur Stereokamera 11, 12 (senkrecht zur Strecke, die die Basisbreite b angibt) beträgt z.
The left
Die beiden Objekte 3, 4 sind aufgrund der unterschiedlichen Position der beiden Kameramodule in horizontaler Richtung in beiden Bildern 21, 22 unterschiedlich. Im ersten (links dargestellten) Bild 21 des linken Stereokameramoduls 11 erscheinen beide Objekte 3, 4 weiter rechts. Der horizontale Bildabstand des kreisförmigen Objekts 3 im ersten Bild 21 gemessen vom linken Bildrand beträgt dL.
The two
Im zweiten (rechts dargestellten) Bild 22 des rechten Stereokameramoduls erscheinen beide Objekte 3, 4 weiter links als im ersten Bild 21. Der horizontale Bildabstand des kreisförmigen Objekts 3 im zweiten Bild 22 gemessen vom linken Bildrand beträgt dR.In the second image 22 (shown on the right) of the right stereo camera module, both
Die Verschiebung des kreisförmigen Objekts 3 zwischen erstem und zweitem Bild 21, 22 ist die Disparität d, es gilt:
Stereo-Algorithmen bestimmen Korrespondenzen zu gleichen Objekten 3, 4. Aus den Verschiebungen dL und dR, in denen das Objekt 3 in den Bildern erscheint, wird die Disparität d bestimmt. Aus der Disparität d kann auf die Tiefe z des Objekts 3 zurückgeschlossen werden.Stereo algorithms determine correspondences to the
Um die Korrespondenzsuche zu vereinfachen, ist eine präzise Rektifizierung der Kamerabilder 31, 32 erforderlich. Bei perfekter Rektifizierung kann die Suche nach Korrespondenzen 33 auf Bildzeilen durchgeführt werden - also in einer Dimension. Dies erfordert allerdings eine präzise Kalibrierung der beiden Kameramodule 11, 12. Muss die Korrespondenz-Suche in einem Bildbereich (also zweidimensional) durchgeführt werden, steigen die Rechenanforderungen stark an.
In order to simplify the search for correspondence, a precise rectification of the
Zunächst werden lokale Signaturen im ersten Bild 31 generiert. Zur Veranschaulichung ist in
Eine oder mehrere Signaturen bilden einen Hashkey, sobald die Stärke der Signatur einen Schwellwert überschreitet.First, local signatures in the
One or more signatures form a hashkey as soon as the strength of the signature exceeds a threshold.
Der Hashkey wird über eine Hashfunktion in eine Hashtable eingetragen. Dabei werden Attribute wie Signaturtyp, Ausprägung (Feature#) und Position (Pos x,y) gespeichert. Unter einem ganzzahligen Index können in der Hashtable die Signaturen als Digitalwert unter Berücksichtigung der Position im Bild eingetragen werden. Die Hashtable ist sehr groß ausgelegt, so dass die Belegung mit Einträgen sehr gering ist (Englisch: „sparse representation“). Die Hashfunktion sorgt dafür, dass unterschiedliche Signaturen weit voneinander entfernt abgelegt sind und ähnliche Signaturen dicht beieinander liegen.The hash key is entered into a hash table using a hash function. Attributes such as signature type, feature (Feature#) and position (Pos x,y) are saved. The signatures can be entered in the hashtable as a digital value under an integer index, taking into account the position in the image. The Hashtable is designed very large, so that the allocation of entries is very small (English: "sparse representation"). The hash function ensures that different signatures are stored far apart and similar signatures are close together.
Zunächst werden für das zweite Bild ebenfalls Signaturen und Hashkeys generiert und können beispielsweise in eine zweite Hashtable eingetragen werden. Alternativ kann unmittelbar für jede im zweiten Bild 32 generierte Signatur in der Hashtable des ersten Bildes mittels eines „Matchers“ (Korrespondezsuchers) nach passenden Einträgen gesucht werden.
Im Fall von zwei generierten Hashtables lassen sich durch eine Abfrage der Hashtable mit den Hashkeys aus dem zweiten Bild 32 effizient Korrespondenzen 33 für die Hashkeys aus dem ersten Bild 31 bestimmen. In vielen Fällen werden durch den „Matcher“ (Korrespondezsucher) keine perfekten Übereinstimmungen hergestellt. Es werden dann die ähnlichsten Korrespondenzen 33 herangezogen. Dazu wird eine geeignete Metrik (z.B. Hamming-Distanz) verwendet.
Durch die Hashkey-Korrespondenzsuche entsteht eine Vielzahl von möglichen Übereinstimmungen (d.h. möglichen Korrespondenzen 33) zwischen Positionen im ersten und zweiten Bild 31, 32. Als Abstandsmaß kann die Hamming-Distanz der digitalen Signaturen verwendet werden.First, signatures and hash keys are also generated for the second image and can be entered in a second hash table, for example. Alternatively, suitable entries can be searched for directly for each signature generated in the
In the case of two generated hash tables,
The hash key correspondence search produces a large number of possible matches (ie possible correspondences 33) between positions in the first and
Für eine eindeutige Zuordnung der Pixel ist es hilfreich, die räumliche Konstellation der Signatur/Keys zu beachten. Hierfür ist eine Sortierung der Signaturen entlang von Stereo-Epipolarlinien-Richtung zielführend.For a clear assignment of the pixels, it is helpful to consider the spatial constellation of the signature/keys. For this purpose, sorting the signatures along the stereo-epipolar line direction is expedient.
Durch einen Nachbarschaftsvergleich werden die Übereinstimmungen aussortiert, die keine eindeutige Zuordnung der benachbarten (nebeneinanderliegenden) Signaturen erlauben. Am Ende des Nachbarschaftsvergleichs ist eine eindeutige Zuordnung aller Signaturen zwischen den beiden Stereo-Bildern 31, 32 hergestellt. Damit ist die Sortierung der Signaturen entlang der Stereo-Epipolarlinien erreicht.A neighborhood comparison sorts out matches that do not allow a clear assignment of the neighboring (neighboring) signatures. At the end of the neighborhood comparison, all of the signatures between the two
Die Hashkeys enthalten unter anderem die Positionen der Features in den einzelnen Bildern. Für übereinstimmende Hashkeys kann der Matcher über die Positionen die zugehörige Disparität und aus dieser mit Hilfe der bekannten Kamera-Parameter die Distanz d bzw. die Entfernung z zum Feature bestimmt werden. Hierbei wird die Ähnlichkeit zwischen 2 Hashkeys über ein Ähnlichkeitsmaß, wie z.B. die Hamming-Distanz, ermittelt.The hashkeys contain, among other things, the positions of the features in the individual images. For matching hash keys, the matcher can determine the associated disparity via the positions and from this, using the known camera parameters, the distance d or the distance z to the feature can be determined. Here, the similarity between 2 hash keys is determined using a similarity measure, such as the Hamming distance.
ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents cited by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.
Zitierte PatentliteraturPatent Literature Cited
- WO 2009/026433 A1 [0010]WO 2009/026433 A1 [0010]
- WO 2007/049282 A1 [0010]WO 2007/049282 A1 [0010]
- WO 2007/049282 A2 [0011]WO 2007/049282 A2 [0011]
- DE 102016217450 A1 [0018]DE 102016217450 A1 [0018]
- WO 2017/028848 A1 [0018]WO 2017/028848 A1 [0018]
Claims (12)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102021203927.8A DE102021203927A1 (en) | 2021-04-20 | 2021-04-20 | Method and device for evaluating stereo image data from a camera system based on signatures |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102021203927.8A DE102021203927A1 (en) | 2021-04-20 | 2021-04-20 | Method and device for evaluating stereo image data from a camera system based on signatures |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102021203927A1 true DE102021203927A1 (en) | 2022-10-20 |
Family
ID=83447483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102021203927.8A Pending DE102021203927A1 (en) | 2021-04-20 | 2021-04-20 | Method and device for evaluating stereo image data from a camera system based on signatures |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102021203927A1 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007049282A2 (en) | 2005-10-26 | 2007-05-03 | Cortica Ltd. | A computing device, a system and a method for parallel processing of data streams |
WO2009026433A1 (en) | 2007-08-21 | 2009-02-26 | Cortica, Ltd. | Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof |
WO2017028848A1 (en) | 2015-08-14 | 2017-02-23 | Conti Temic Microelectronic Gmbh | Vehicle camera device for capturing the surroundings of a motor vehicle and driver assistance device for detecting objects with such a vehicle camera device |
DE102016217450A1 (en) | 2016-09-13 | 2018-03-15 | Conti Temic Microelectronic Gmbh | Stereo camera arrangement for a motor vehicle and motor vehicle with such a stereo camera arrangement |
-
2021
- 2021-04-20 DE DE102021203927.8A patent/DE102021203927A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007049282A2 (en) | 2005-10-26 | 2007-05-03 | Cortica Ltd. | A computing device, a system and a method for parallel processing of data streams |
WO2009026433A1 (en) | 2007-08-21 | 2009-02-26 | Cortica, Ltd. | Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof |
WO2017028848A1 (en) | 2015-08-14 | 2017-02-23 | Conti Temic Microelectronic Gmbh | Vehicle camera device for capturing the surroundings of a motor vehicle and driver assistance device for detecting objects with such a vehicle camera device |
DE102016217450A1 (en) | 2016-09-13 | 2018-03-15 | Conti Temic Microelectronic Gmbh | Stereo camera arrangement for a motor vehicle and motor vehicle with such a stereo camera arrangement |
Non-Patent Citations (1)
Title |
---|
https://de.wikipedia.org/w/index.php?title=Epipolargeometrie&oldid=205179625 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102014209137B4 (en) | Method and device for calibrating a camera system of a motor vehicle | |
DE112018000899T5 (en) | Joint 3D object detection and orientation estimation via multimodal fusion | |
DE102015121387B4 (en) | Obstacle detection device and obstacle detection method | |
DE102017208718A1 (en) | Method of detecting objects in an image of a camera | |
WO2005048195A2 (en) | Method for the analysis of correspondences in image data sets | |
DE102007013664A1 (en) | Tool e.g. blade, measuring and/or adjusting device, has rolling nut designed as roller ring transmission comprising set of roller-supported roller rings with variable upward gradient | |
DE102021002798A1 (en) | Process for camera-based environment detection | |
DE102018100909A1 (en) | Method of reconstructing images of a scene taken by a multifocal camera system | |
WO2018059631A1 (en) | Detection and validation of objects from sequential images from a camera by means of homographs | |
DE102019117559A1 (en) | Method and system for merging two-dimensional semantic information from images with a three-dimensional point cloud | |
DE102012023060A1 (en) | Method for detecting moving object in surrounding region of motor vehicle e.g.passenger car, involves determining vector values within the respective interval values, such movable object is detected based on histogram | |
DE102021203927A1 (en) | Method and device for evaluating stereo image data from a camera system based on signatures | |
DE102008046505B4 (en) | Process for image processing of stereo images | |
WO2019063246A1 (en) | Detection system, working method and training method for generating a 3d model with reference data | |
DE102020214622A1 (en) | Evaluation of image data from a stereo camera for object evaluation | |
DE102013018561A1 (en) | Method for data acquisition and data processing for lane identification of vehicle, involves filtering and discarding self-similarities of environment characteristics for non-relevant correspondence in generating road shape hypotheses | |
DE102014211709B4 (en) | Method for the computer-aided three-dimensional reconstruction of a surface of an object from digital image data | |
DE102019212022A1 (en) | Method and device for determining a parallax problem in sensor data from two sensors | |
EP3985608B1 (en) | Computer-implemented method for creating multidimensional object data structures | |
DE102019129101A1 (en) | A method and system for estimating a bounding box that includes a target vehicle | |
DE102004007049A1 (en) | Method for classifying an object with a stereo camera | |
DE202022001640U1 (en) | Vehicle surface analysis device | |
DE102017215051A1 (en) | Apparatus and method for reducing the influence of stray light and reflections on optical image recognition | |
DE102017217156B4 (en) | Method and device for controlling a driver assistance system using a stereo camera system with a first and a second camera | |
DE102021204411A1 (en) | Method and apparatus for determining disparity and vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06K0009620000 Ipc: G06V0030190000 |
|
R163 | Identified publications notified | ||
R081 | Change of applicant/patentee |
Owner name: CONTINENTAL AUTONOMOUS MOBILITY GERMANY GMBH, DE Free format text: FORMER OWNER: CONTI TEMIC MICROELECTRONIC GMBH, 85057 INGOLSTADT, DE |