DE102019117559A1 - Method and system for merging two-dimensional semantic information from images with a three-dimensional point cloud - Google Patents
Method and system for merging two-dimensional semantic information from images with a three-dimensional point cloud Download PDFInfo
- Publication number
- DE102019117559A1 DE102019117559A1 DE102019117559.3A DE102019117559A DE102019117559A1 DE 102019117559 A1 DE102019117559 A1 DE 102019117559A1 DE 102019117559 A DE102019117559 A DE 102019117559A DE 102019117559 A1 DE102019117559 A1 DE 102019117559A1
- Authority
- DE
- Germany
- Prior art keywords
- dimensional
- bordering
- point cloud
- objects
- distinct
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/004—Annotating, labelling
Abstract
Die vorliegende Erfindung betrifft das Verfahren und System zum Fusionieren von zweidimensionalen semantischen Informationen aus Bildern mit einer dreidimensionalen Punktwolke. Das Verfahren beginnt typischerweise mit dem Empfangen mehrerer sequenzieller Bilder von einem oder mehreren Vision-Kamera-Bildsensoren. Danach wird unter Verwendung von Bewegungs-Stereo-Techniken eine dreidimensionale Punktwolke auf der Basis der mehreren sequenziellen Bilder erzeugt. Die dreidimensionale Punktwolke wird geclustert, um distinkte Objekte zu trennen, die in der Tiefenebene nicht nahe sind, und auf jedes distinkte Objekt wird ein vorläufiges Label angewandt. Gleichzeitig werden die empfangenen Bilder unter Verwendung eines trainierten gefalteten neuronalen Netzwerks verarbeitet, um zweidimensionale Umrandungskästen mit Labels und Oberflächenkarten für ein oder mehrere detektierte Objekte auf den empfangenen Bildern zu produzieren. Ferner werden die semantischen Informationen, d. h. die zweidimensionalen Umrandungskästen mit Labels und Oberflächenkarten mit einem oder mehreren detektierten distinkten Objekten, mit der dreidimensionalen Punktwolke fusioniert.The present invention relates to the method and system for merging two-dimensional semantic information from images with a three-dimensional point cloud. The method typically begins with receiving multiple sequential images from one or more vision camera image sensors. Then, using motion stereo techniques, a three-dimensional point cloud is generated based on the multiple sequential images. The three-dimensional point cloud is clustered to separate distinct objects that are not close in the depth plane, and a tentative label is applied to each distinct object. At the same time, the received images are processed using a trained convoluted neural network to produce two-dimensional bounding boxes with labels and surface maps for one or more detected objects on the received images. Furthermore, the semantic information, i. H. the two-dimensional border boxes with labels and surface maps with one or more detected distinct objects, fused with the three-dimensional point cloud.
Description
Technisches GebietTechnical area
Die vorliegende Offenbarung betrifft das Fusionieren von zweidimensionalen semantischen Informationen aus Bildern mit einer dreidimensionalen Punktwolke. Insbesondere betrifft die vorliegende Offenbarung Computer-Vision-Techniken zur Verbesserung der Objektdetektionskonfidenz.The present disclosure relates to fusing two-dimensional semantic information from images with a three-dimensional point cloud. In particular, the present disclosure relates to computer vision techniques for improving object detection confidence.
Stand der TechnikState of the art
Selbstfahrende Fahrzeuge verwenden Bildverarbeitung und spezieller das Detektieren von Objekten/Hindernissen auf der Straße und von Ampeln/Schildern usw., um das Fahrzeug in einem dreidimensionalen Raum zu manövrieren.Self-driving vehicles use image processing and, more specifically, the detection of objects / obstacles on the road and traffic lights / signs, etc., to maneuver the vehicle in a three-dimensional space.
Aktuelle Techniken ermöglichen Detektion und/oder Klassifizierung von Objekten in einem zweidimensionalen Bild. Solche Techniken stellen gewöhnlich einen Umrandungskasten bereit, der das detektierte und/oder klassifizierte Objekt einschließt. Objektdetektion und/oder -klassifizierung umfasst einen zweistufigen Ansatz; d. h. als erstes stellt eine Objektdetektionstechnik eine Gruppe von Umrandungskästen um die Objekte bereit und als zweites legt ein Nachverarbeitungsalgorithmus wie NMS (Non Maximum Supression) die redundanten sich überlappenden Kästen zu einem Umrandungskasten pro Objekt zusammen.Current techniques enable detection and / or classification of objects in a two-dimensional image. Such techniques usually provide a border box that encloses the detected and / or classified object. Object detection and / or classification involves a two-step approach; d. H. First, an object detection technique provides a group of border boxes around the objects, and second, a post-processing algorithm such as NMS (Non Maximum Supression) combines the redundant, overlapping boxes into one border box per object.
Die existierenden NMS-Algorithmen versagen bei mehreren Objekten oder Gruppen von Objekten insbesondere unter schlechten Lichtbedingungen und existierende NMS-Algorithmen funktionieren nur am zweidimensionalen Raum. Ferner sind existierende Ansätze zur Detektion/Klassifizierung von Objekten nicht immun gegenüber Reflexionen auf Oberflächen von Gebäuden. Eine Anzahl von Patenten in der Technik haben versucht, dieses Problem zu lösen, wie etwa die aus
Deshalb werden ein Verfahren und System, das zuverlässige Detektion/Klassifizierung von Objekten in einem Bild bereitstellt, und eine Computer-Vision-Technik zur Verbesserung der Objektdetektionskonfidenz benötigt.Therefore, what is needed is a method and system that provides reliable detection / classification of objects in an image, and computer vision technology for improving object detection confidence.
Kurzfassungshort version
Ausführungsformen der vorliegenden Erfindung betreffen ein System und ein Verfahren zum Fusionieren von zweidimensionalen semantischen Informationen aus Bildern mit einer dreidimensionalen Punktwolke und wie in den angefügten Ansprüchen dargelegt.Embodiments of the present invention relate to a system and method for fusing two-dimensional semantic information from images with a three-dimensional point cloud and as set out in the appended claims.
Bei einer Ausführungsform wird ein Verfahren zum Fusionieren von zweidimensionalen semantischen Informationen aus Bildern mit einer dreidimensionalen Punktwolke bereitgestellt. Das Verfahren beginnt typischerweise mit dem Empfangen mehrerer sequenzieller Bilder von einem oder mehreren Bildsensoren. Danach wird unter Verwendung von Bewegungs-Stereo-Techniken eine dreidimensionale Punktwolke auf der Basis der mehreren sequenziellen Bilder erzeugt. Die dreidimensionale Punktwolke wird geclustert, um distinkte Objekte zu trennen, die in der Tiefenebene nicht nahe sind, und auf jedes distinkte Objekt wird ein vorläufiges Label angewandt. Die empfangenen Bilder werden gleichzeitig durch Verwendung eines trainierten gefalteten neuronalen Netzwerks verarbeitet, um zweidimensionale Umrandungskästen mit Labels und Oberflächenkarten für ein oder mehrere detektierte Objekte auf den empfangenen Bildern zu produzieren. Ferner werden die semantischen Informationen, d. h. die zweidimensionalen Umrandungskästen mit Labels und Oberflächenkarten mit ein oder mehreren detektierten distinkten Objekten, mit der dreidimensionalen Punktwolke fusioniert.In one embodiment, a method for fusing two-dimensional semantic information from images with a three-dimensional point cloud is provided. The method typically begins with receiving multiple sequential images from one or more image sensors. Then, using motion stereo techniques, a three-dimensional point cloud is generated based on the multiple sequential images. The three-dimensional point cloud is clustered to separate distinct objects that are not close in the depth plane, and a tentative label is applied to each distinct object. The received images are simultaneously processed using a trained convoluted neural network to produce two-dimensional bounding boxes with labels and surface maps for one or more detected objects on the received images. Furthermore, the semantic information, i. H. the two-dimensional border boxes with labels and surface maps with one or more detected distinct objects, fused with the three-dimensional point cloud.
Bei einer Ausführungsform umfasst das Fusionieren Folgendes: zweidimensionale Umrandungskästen mit Labels und Oberflächenkarten werden auf die dreidimensionale Punktwolke rückprojiziert, und es wird eine gefilterte Liste von Objekten mit A-posteriori-Wahrscheinlichkeit von mehr als einer vorbestimmten Schwelle unter Verwendung bedingter Zufallsfelder erhalten.In one embodiment, the fusing comprises: two-dimensional bounding boxes with labels and surface maps are projected back onto the three-dimensional point cloud and a filtered list of objects with posterior probability greater than a predetermined threshold is obtained using conditional random fields.
Das Verfahren umfasst ferner Erzeugen eines dreidimensionalen Umrandungskastens, der jedes der gefilterten distinkten detektierten Objekte einschließt, wobei das Erzeugen des dreidimensionalen Umrandungskastens Folgendes umfasst:
- für jedes gefilterte distinkte detektierte Objekt Erzeugen mehrerer infrage kommender dreidimensionaler Umrandungskästen, die mindestens teilweise das gefilterte distinkte detektierte Objekt in der dreidimensionalen Punktwolke einschließen, wobei die infrage kommenden dreidimensionalen Kästen auf der Basis eines oder mehrerer zweidimensionaler Umrandungskästen, die auf das distinkte detektierte Objekt zurückprojiziert werden, erzeugt werden,
- for each filtered distinct detected object generating a plurality of candidate three-dimensional border boxes which at least partially enclose the filtered distinct detected object in the three-dimensional point cloud, the three-dimensional boxes in question based on one or more two-dimensional border boxes which are projected back onto the distinct detected object , be generated,
Auswählen eines dreidimensionalen Umrandungskastens aus den mehreren infrage kommenden dreidimensionalen Umrandungskästen auf der Basis einer Optimierungstechnik, die den Schnitt über die Vereinigung des ausgewählten dreidimensionalen Umrandungskastens mit dem gefilterten distinkten detektierten Objekt maximiert, die Distanz zwischen dem ausgewählten dreidimensionalen Umrandungskasten und der Mitte des Clusters detektierter Objekte minimiert und der Konfidenz, die dem zweidimensionalen Kasten zugeordnet ist, auf dessen Basis der dreidimensionale Umrandungskasten erzeugt wird.Selecting a three-dimensional bordering box from the plurality of candidate three-dimensional bordering boxes based on an optimization technique that maximizes the intersection of the union of the selected three-dimensional bordering box with the filtered distinct detected object, the distance between the selected three-dimensional bordering box and the center of the cluster of detected objects is minimized and the confidence associated with the two-dimensional box on the basis of which the three-dimensional bordering box is generated.
Das System zum Fusionieren von zweidimensionalen semantischen Informationen aus Bildern mit einer dreidimensionalen Punktwolke umfasst mindestens einen Bildsensor zum Aufnehmen mehrerer sequenzieller Bilder von einem oder mehreren Bildsensoren, eine Bewegungs-Stereo-Einheit zum Erzeugen einer dreidimensionalen Punktwolke auf der Basis der mehreren sequenziellen Bilder unter Verwendung von Bewegungs-Stereo-Techniken, eine 3D-Clusterungseinheit zum Clustern in getrennte distinkte Objekte in der dreidimensionalen Punktwolke, die in der Tiefenebene nicht nahe sind, und eine 3D-Objektextraktionseinheit zum Anwenden eines vorläufigen Labels auf jedes distinkte Objekt, eine CNN-Klassifizierungseinheit zum gleichzeitigen Verarbeiten der empfangenen Bilder unter Verwendung eines trainierten gefalteten neuronalen Netzwerks zum Produzieren zweidimensionaler Umrandungskästen mit Labels und Oberflächenkarten für eine oder mehrere detektierte Objekte auf den empfangenen Bildern, eine 3D-Modellfilterungseinheit zum Fusionieren der zweidimensionalen Umrandungskästen mit Labels und Oberflächenkarten mit einem oder mehreren detektierten distinkten Objekten auf der dreidimensionalen Punktwolke.The system for fusing two-dimensional semantic information from images with a three-dimensional point cloud comprises at least one image sensor for recording multiple sequential images from one or more image sensors, a motion stereo unit for generating a three-dimensional point cloud on the basis of the multiple sequential images using Motion stereo techniques, a 3D clustering unit for clustering into separate distinct objects in the three-dimensional point cloud that are not close in the depth plane, and a 3D object extraction unit for applying a preliminary label to each distinct object, a CNN classification unit for simultaneous Processing the received images using a trained convoluted neural network to produce two-dimensional bounding boxes with labels and surface maps for one or more detected objects on the received images, a 3D model filter ungseinheit for fusing the two-dimensional border boxes with labels and surface maps with one or more detected distinct objects on the three-dimensional point cloud.
Außerdem wird ein Computerprogramm bereitgestellt, dass Programmanweisungen umfasst, um zu bewirken, dass ein Computerprogramm das obige Verfahren ausführt, das auf einem Aufzeichnungsmedium, Trägersignal oder Festwertspeicher verkörpert werden kann.In addition, a computer program is provided that comprises program instructions for causing a computer program to carry out the above method, which can be embodied on a recording medium, carrier signal or read-only memory.
FigurenlisteFigure list
Die Erfindung wird aus der folgenden Beschreibung einer Ausführungsform lediglich anhand eines Beispiels unter Bezugnahme auf die beigefügten Zeichnungen besser verständlich. Es zeigen:
-
1 ein Flussdiagramm einer Ausführungsform des erfindungsgemäßen Verfahrens oder Prozesses zum Fusionieren von zweidimensionalen semantischen Informationen aus Bildern mit einer dreidimensionalen Punktwolke; -
2 eine Funktionsblockdarstellung der Komponenten eines Systems, das das erfindungsgemäße Verfahren oder den erfindungsgemäßen Prozess zum Fusionieren von zweidimensionalen semantischen Informationen aus Bildern mit einer dreidimensionalen Punktwolke ausführt; und -
3 eine Architekturdarstellung der Vorrichtung, die das erfindungsgemäße Verfahren oder den erfindungsgemäßen Prozess zum Fusionieren von zweidimensionalen semantischen Informationen aus Bildern mit einer dreidimensionalen Punktwolke ausführt, gemäß einer der Ausführungsformen der beanspruchten Erfindung.
-
1 a flowchart of an embodiment of the method or process according to the invention for merging two-dimensional semantic information from images with a three-dimensional point cloud; -
2 a function block diagram of the components of a system that executes the inventive method or inventive process for merging two-dimensional semantic information from images with a three-dimensional point cloud; and -
3 an architectural representation of the device that executes the inventive method or inventive process for merging two-dimensional semantic information from images with a three-dimensional point cloud, according to one of the embodiments of the claimed invention.
Ausführliche Beschreibung der ZeichnungenDetailed description of the drawings
Bei einer Ausführungsform umfasst das Fusionieren Rückprojizieren der durch das CNN detektierten zweidimensionalen Objekte, d. h. zweidimensionaler Umrandungskästen mit Labels und Oberflächenkarten auf der dreidimensionalen Punktwolke. Ferner wird eine gefilterte Liste von Objekten unter Verwendung von konditionalen Zufallsfeldern mit A-posteriori-Wahrscheinlichkeit von mehr als einer vorbestimmten Schwelle erhalten.In one embodiment, the merging comprises back-projecting the two-dimensional objects detected by the CNN, ie two-dimensional border boxes with labels and surface maps on the three-dimensional point cloud. Furthermore, a filtered list of objects is generated using conditional random fields with A- posteriori probability of more than a predetermined threshold.
Bei einer beispielhaften Ausführungsform werden die Kraftfahrzeug-Szenenkontextmodelle verwendet, um Objekte zu extrahieren, z. B. werden die Kraftfahrzeug-Szenenkontextmodelle trainiert, dass eine Straße fast flach ist und die meisten Objekte vertikal auf ihr stehen. Somit wird zuerst die dreidimensionale Straßenebene extrahiert, und danach werden andere dreidimensionale Objekte extrahiert, die sich über der Straßenebene befinden. Die durch die CNN bereitgestellten Oberflächenkarten (Straßenoberfläche) stellen deshalb eine genaue Lokalisierung der detektierten Objekte auf der dreidimensionalen Punktwolke bereit. Ferner werden die durch das CNN bereitgestellten Umrandungskästen, die Objektinformationen aufweisen, auf die detektierten dreidimensionalen Objekte rückprojiziert. Diese Rückprojektion fusioniert die semantischen Informationen, d. h. der Umrandungskasten mit durch das CNN bereitgestellten Labels wird mit den aus der geclusterten dreidimensionalen Punktwolke erhaltenen distinkten dreidimensionalen Objekten fusioniert. Ferner wird eine gefilterte Liste von Objekten erhalten, indem die fusionierten Informationen unter Verwendung von konditionalen Zufallsfeldern weitergeleitet werden.In an exemplary embodiment, the automotive scene context models are used to extract objects, e.g. B. the motor vehicle scene context models are trained that a road is almost flat and most objects stand vertically on it. Thus, the three-dimensional street plane is extracted first, and then other three-dimensional objects located above the street plane are extracted. The surface maps (road surface) provided by the CNN therefore provide a precise localization of the detected objects on the three-dimensional point cloud. Furthermore, the border boxes provided by the CNN, which contain object information, are projected back onto the detected three-dimensional objects. This back projection fuses the semantic information, i.e. H. the border box with labels provided by the CNN is fused with the distinct three-dimensional objects obtained from the clustered three-dimensional point cloud. Furthermore, a filtered list of objects is obtained by forwarding the merged information using conditional random fields.
Zum Beispiel der Fall, bei dem ein Straßenmarkierungsobjekt durch ein CNN detektiert wird. Die Straßenmarkierung kann auf die Bodenoberfläche (3D) rückprojiziert werden, wodurch ein viel genauerer Ort gegeben wird, insbesondere in Bereichen mit geneigtem Boden, was die Klassifizierungskonfidenz der Bodenmarkierung aufgrund des Umstands verbessert, dass sie auf die bekannte Bodenoberfläche projiziert wird, um somit die Wahrscheinlichkeit zu vergrößern, dass sie eine Bodenmarkierung ist. Unter Verwendung des konditionalen Zufallsfelds wird deshalb die Detektions-/Klassifizierungskonfidenz der Bodenmarkierung vergrößert. Im Gegensatz dazu würde unter Verwendung des konditionalen Zufallsfelds der detektierten Bodenmarkierung, die auf eine andere Oberfläche, z. B. ein Gebäude, rückprojiziert wird, ähnlich ihre Klassifizierungskonfidenz verkleinert, da sie wahrscheinlich eine Reflexion ist, im Gegensatz zu einer echten Straßenmarkierung. Die Detektions-/Klassifizierungsgenauigkeit des Gesamtprozesses weist somit bei der Detektion/Klassifizierung der detektierten Objekte eine synergistische Verbesserung auf. Die Objekte mit Konfidenz von weniger als der Schwelle werden ferner verworfen, z. B. kann die auf ein Gebäude rückprojizierte Straßenmarkierung verworfen werden.For example, the case where a road marking object is detected by a CNN. The road marking can be back projected onto the ground surface (3D), giving a much more accurate location, especially in sloping ground areas, which improves the floor marking's classification confidence due to the fact that it is projected onto the known ground surface, thereby increasing the likelihood to enlarge that it is a floor marker. Using the conditional random field, the detection / classification confidence of the floor marking is therefore increased. In contrast, using the conditional random field of the detected floor marking, which is applied to another surface, e.g. B. a building, being back projected, similarly reduces its classification confidence as it is likely to be a reflection as opposed to a real road marking. The detection / classification accuracy of the overall process thus shows a synergistic improvement in the detection / classification of the detected objects. The objects with confidence less than the threshold are also discarded, e.g. B. the road marking projected back onto a building can be discarded.
Das Verfahren umfasst ferner Erzeugen eines dreidimensionalen Umrandungskastens, der jedes der gefilterten distinkten detektierten Objekte einschließt, wobei die Erzeugung der dreidimensionalen Umrandung anfänglich mit dem Erzeugen mehrerer infrage kommender dreidimensionaler Umrandungskästen beginnt, die das gefilterte distinkte detektierte Objekt in der dreidimensionalen Punktwolke mindestens teilweise einschließen. Die infrage kommenden dreidimensionalen Kästen werden jeweils auf der Basis eines oder mehrerer zweidimensionaler auf das distinkte detektierte Objekt rückprojizierter Umrandungskästen erzeugt. Zum Beispiel stellt das CNN mehrere Umrandungskästen bereit, die das Objekt einschließen, wodurch Höhe und Breite bereitgestellt werden. Die Tiefe wird aus der dreidimensionalen Punktwolke des Objekts wie zuvor besprochen erhalten. Dadurch wird ein infrage kommender dreidimensionaler Umrandungskasten bereitgestellt, der das detektierte Objekt einschließt. Für Fachleute ist erkennbar, dass das CNN mehrere Umrandungskästen für dasselbe Objekt ausgibt und daher für dasselbe Objekt mehrere dreidimensionale Umrandungskästen erhalten werden.The method further comprises creating a three-dimensional border box including each of the filtered distinct detected objects, wherein the creation of the three-dimensional border initially begins with the creation of a plurality of candidate three-dimensional border boxes that at least partially enclose the filtered distinct detected object in the three-dimensional point cloud. The three-dimensional boxes in question are each generated on the basis of one or more two-dimensional border boxes projected back onto the distinct detected object. For example, the CNN provides several border boxes that enclose the object, thereby providing height and width. The depth is obtained from the three-dimensional point cloud of the object as discussed previously. This provides a candidate three-dimensional border box that encloses the detected object. It will be recognized by those skilled in the art that the CNN outputs multiple border boxes for the same object and therefore multiple three-dimensional border boxes are obtained for the same object.
Aus den mehreren dreidimensionalen Umrandungskästen wird ein optimaler dreidimensionaler Umrandungskasten ausgewählt. Die Auswahl eines dreidimensionalen Umrandungskastens aus den mehreren infrage kommenden dreidimensionalen Umrandungskästen basiert auf einer Optimierungstechnik, die Schnitt über Vereinigung der ausgewählten dreidimensionalen Umrandungskasten mit dem gefilterten distinkten detektierten Objekt maximiert, die Distanz zwischen dem ausgewählten dreidimensionalen Umrandungskasten und der Mitte des Clusters der detektierten Objekte minimiert, und der Konfidenz, wie dem zweidimensionalen Umrandungskasten zugeordnet ist, auf dessen Basis der dreidimensionale Umrandungskasten erzeugt wird. Die Optimierungstechnik ist eine von Ant Colony, Gauss-Newton und Levenberg-Marquardt.An optimal three-dimensional border box is selected from the multiple three-dimensional border boxes. The selection of a three-dimensional bordering box from the several possible three-dimensional bordering boxes is based on an optimization technique that maximizes the intersection by combining the selected three-dimensional bordering box with the filtered distinct detected object, minimizing the distance between the selected three-dimensional bordering box and the center of the cluster of detected objects, and the confidence associated with the two-dimensional bordering box based on which the three-dimensional bordering box is generated. The optimization technique is one of Ant Colony, Gauss-Newton, and Levenberg-Marquardt.
Eine 3D-Modellfilterungseinheit 205 zum Fusionieren der zweidimensionalen Umrandungskästen mit Labels und Oberflächenkarten mit einem oder mehreren detektierten distinkten Objekten auf der dreidimensionalen Punktwolke. Ferner die 3D-Modellfilterungseinheit zum Filtern der distinkten Objekte auf der Basis der Rückprojektion unter Verwendung von konditionalen Zufallsfeldern zur Bereitstellung einer Liste von Objekten mit A-posteriori-Wahrscheinlichkeit von mehr als einer vorbestimmten Schwelle.A 3D
Eine Global-Glättungseinheit
Eine auf Fusionierung basierende NMS-Einheit (Non Maximum Suppression)
Aus den mehreren dreidimensionalen Umrandungskästen wird ein optimaler dreidimensionaler Umrandungskasten ausgewählt. Die Auswahl eines dreidimensionalen Umrandungskastens aus den mehreren infrage kommenden dreidimensionalen Umrandungskästen basiert auf einer Optimierungstechnik, die Schnitt über Vereinigung des ausgewählten dreidimensionalen Umrandungskastens mit dem gefilterten distinkten detektierten Objekt maximiert, die Distanz zwischen dem ausgewählten dreidimensionalen Umrandungskasten und der Mitte des Clusters der detektierten Objekte minimiert, und der Konfidenz, die dem zweidimensionalen Umrandungskasten zugeordnet ist, auf dessen Basis der ausgewählte dreidimensionale Umrandungskasten erzeugt wird. Die Optimierungstechnik ist eine von Ant Colony, Gauss-Newton und Levenberg-Marquardt.An optimal three-dimensional border box is selected from the multiple three-dimensional border boxes. The selection of a three-dimensional bordering box from the several possible three-dimensional bordering boxes is based on an optimization technique that maximizes the intersection by combining the selected three-dimensional bordering box with the filtered distinct detected object, minimizing the distance between the selected three-dimensional bordering box and the center of the cluster of detected objects, and the confidence associated with the two-dimensional bordering box based on which the selected three-dimensional bordering box is generated. The optimization technique is one of Ant Colony, Gauss-Newton, and Levenberg-Marquardt.
Das Fusionieren umfasst Rückprojektion der zweidimensionalen Umrandungskästen mit Labels und Oberflächenkarten auf der dreidimensionalen Punktwolke und Filtern der distinkten Objekte auf der Basis der Rückprojektion unter Verwendung von konditionalen Zufallsfeldern zur Bereitstellung einer Liste von Objekten mit A-posteriori-Wahrscheinlichkeit von mehr als einer vorbestimmten Schwelle.The fusing includes back-projecting the two-dimensional bordering boxes with labels and surface maps on the three-dimensional point cloud and filtering the distinct objects based on the back-projection using conditional random fields to provide a list of objects with a posteriori probability greater than a predetermined threshold.
Die gespeicherten Anweisungen veranlassen den Prozessor
- für jedes gefilterte distinkte detektierte Objekt Erzeugen mehrerer infrage kommender dreidimensionaler Umrandungskästen, die das gefilterte distinkte detektierte Objekt in der dreidimensionalen Punktwolke mindestens teilweise einschließen, wobei die infrage kommenden dreidimensionalen Kästen auf der Basis eines oder mehrerer auf das distinkte detektierte Objekt rückprojizierter zweidimensionaler Umrandungskästen erzeugt werden; und
- Auswählen eines dreidimensionalen Umrandungskastens aus den mehreren infrage kommenden dreidimensionalen Umrandungskästen auf der Basis einer Optimierungstechnik, die Schnitt über Vereinigung des ausgewählten dreidimensionalen Umrandungskastens mit dem gefilterten distinkten detektierten Objekt maximiert, die Distanz zwischen dem ausgewählten dreidimensionalen Umrandungskasten und der Mitte des Clusters detektierter Objekte minimiert, und der Konfidenz, die dem zweidimensionalen Umrandungskasten zugeordnet ist, auf dessen Basis der dreidimensionale Umrandungskasten erzeugt wird. Die Optimierungstechnik ist eine von Ant Colony, Gauss-Newton und Levenberg-Marquardt.
- for each filtered distinct detected object generating a plurality of candidate three-dimensional bordering boxes which at least partially enclose the filtered distinct detected object in the three-dimensional point cloud, the candidate three-dimensional boxes being generated on the basis of one or more two-dimensional bordering boxes projected back onto the distinct detected object; and
- Selecting a three-dimensional bordering box from the plurality of candidate three-dimensional bordering boxes based on an optimization technique that maximizes intersection through union of the selected three-dimensional bordering box with the filtered distinct detected object, minimizing the distance between the selected three-dimensional bordering box and the center of the cluster of detected objects, and the confidence associated with the two-dimensional bordering box based on which the three-dimensional bordering box is generated. The optimization technique is one of Ant Colony, Gauss-Newton, and Levenberg-Marquardt.
Ferner ist für Durchschnittsfachleute erkennbar, dass die verschiedenen beispielhaften logischen bzw. Funktionsblöcke, Module, Schaltungen, Einheiten und Prozessschritte, die in Verbindung mit den hier offenbarten Ausführungsformen beschrieben werden, als elektronische Hardware oder eine Kombination von Hardware und Software implementiert werden können. Um diese Austauschbarkeit von Hardware und einer Kombination von Hardware und Software deutlich zu veranschaulichen, wurden oben verschiedene beispielhafte Komponenten, Einheiten, Blöcke, Module, Schaltungen und Schritte allgemein über ihre Funktionalität beschrieben. Ob solche Funktionalität als Hardware oder eine Kombination von Hardware und Software implementiert wird, hängt von der Entwurfswahl von Durchschnittsfachleuten ab. Solche erfahrenen Techniker können die beschriebene Funktionalität auf vielfältige Weise für jede konkrete Anwendung implementieren, aber solche offensichtlichen Entwurfswahlen sollten nicht als Abweichung vom Schutzumfang der vorliegenden Erfindung gedeutet werden. Further, it will be apparent to those of ordinary skill in the art that the various exemplary logic blocks, modules, circuits, units, and process steps described in connection with the embodiments disclosed herein can be implemented as electronic hardware or a combination of hardware and software. In order to clearly illustrate this interchangeability of hardware and a combination of hardware and software, various exemplary components, units, blocks, modules, circuits and steps have been described above in general about their functionality. Whether such functionality is implemented in hardware or a combination of hardware and software depends on the design choices made by those of ordinary skill in the art. Such skilled technicians can implement the functionality described in a variety of ways for any particular application, but such obvious design choices should not be interpreted as a departure from the scope of the present invention.
Der in der vorliegenden Offenbarung beschriebene Prozess kann unter Verwendung verschiedener Mittel implementiert werden. Zum Beispiel kann der in der vorliegenden Offenbarung beschriebene Prozess in Hardware, Firmware, Software oder einer beliebigen Kombination davon implementiert werden. Bei einer Hardwareimplementierung können die Verarbeitungseinheiten oder Prozessor(en) in einem oder mehreren ASIC (anwendungsspezifische integrierte Schaltungen), DSP (digitalen Signalprozessoren), DSPD (digitalen Signalverarbeitungsvorrichtungen), PLD (programmierbaren Logikvorrichtungen), FPGA (Field Programmable Gate Arrays), Prozessoren, Controllern, Mikrocontrollern, Mikroprozessoren, elektronischen Vorrichtungen, anderen elektronischen Einheiten, die dafür ausgelegt sind, die hier beschriebenen Funktionen auszuführen, oder einer Kombination davon implementiert werden.The process described in the present disclosure can be implemented using various means. For example, the process described in the present disclosure can be implemented in hardware, firmware, software, or any combination thereof. In a hardware implementation, the processing units or processor (s) may be in one or more ASIC (application specific integrated circuits), DSP (digital signal processors), DSPD (digital signal processing devices), PLD (programmable logic devices), FPGA (field programmable gate arrays), processors, Controllers, microcontrollers, microprocessors, electronic devices, other electronic units designed to perform the functions described herein, or a combination thereof.
Bei einer Firmware- und/oder Softwareimplementierung können Softwarecodes in einem Speicher gespeichert und durch einen Prozessor ausgeführt werden. Speicher kann in der Prozessoreinheit oder außerhalb der Prozessoreinheit implementiert werden. Im vorliegenden Gebrauch bezieht sich der Ausdruck „Speicher“ auf eine beliebige Art von flüchtigen Speicher oder nichtflüchtigen Speicher.In a firmware and / or software implementation, software codes can be stored in memory and executed by a processor. Memory can be implemented in the processor unit or outside the processor unit. As used herein, the term “memory” refers to any type of volatile memory or non-volatile memory.
In der Patentschrift werden die Ausdrücke „umfassen, umfasst, enthalten und umfassend“ oder eine beliebige Varianten davon und die Ausdrücke aufweisen, aufweist, enthalten oder aufweisend“ oder eine beliebige Variante davon als völlig austauschbar betrachtet und sie sollten die größtmögliche Deutung erhalten und umgekehrt.In the specification, the terms “comprising, comprising, containing, and comprising” or any variants thereof and the terms including, including, including or comprising ”or any variant thereof are considered entirely interchangeable and should be given the widest possible interpretation and vice versa.
Die Erfindung ist nicht auf die oben beschriebenen Ausführungsformen beschränkt, sondern kann sowohl in Bezug auf Konstruktion als auch Detail variiert werden.The invention is not restricted to the embodiments described above, but can be varied both in terms of construction and detail.
ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN THE DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of the documents listed by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.
Zitierte PatentliteraturPatent literature cited
- US 9697606 [0004]US 9697606 [0004]
- US 10210401 [0004]US 10210401 [0004]
Claims (19)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102019117559.3A DE102019117559A1 (en) | 2019-06-28 | 2019-06-28 | Method and system for merging two-dimensional semantic information from images with a three-dimensional point cloud |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102019117559.3A DE102019117559A1 (en) | 2019-06-28 | 2019-06-28 | Method and system for merging two-dimensional semantic information from images with a three-dimensional point cloud |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102019117559A1 true DE102019117559A1 (en) | 2020-12-31 |
Family
ID=73747028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102019117559.3A Pending DE102019117559A1 (en) | 2019-06-28 | 2019-06-28 | Method and system for merging two-dimensional semantic information from images with a three-dimensional point cloud |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102019117559A1 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801200A (en) * | 2021-02-07 | 2021-05-14 | 文远鄂行(湖北)出行科技有限公司 | Data packet screening method, device, equipment and storage medium |
CN112926461A (en) * | 2021-02-26 | 2021-06-08 | 商汤集团有限公司 | Neural network training and driving control method and device |
CN113160324A (en) * | 2021-03-31 | 2021-07-23 | 北京京东乾石科技有限公司 | Bounding box generation method and device, electronic equipment and computer readable medium |
CN113936085A (en) * | 2021-12-17 | 2022-01-14 | 荣耀终端有限公司 | Three-dimensional reconstruction method and device |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6487303B1 (en) * | 1996-11-06 | 2002-11-26 | Komatsu Ltd. | Object detector |
US20120013713A1 (en) * | 2009-03-31 | 2012-01-19 | Hironori Sumitomo | Image integration unit and image integration method |
US20160093054A1 (en) * | 2014-09-29 | 2016-03-31 | General Electric Company | System and method for component detection |
US9697606B2 (en) * | 2014-04-25 | 2017-07-04 | Waymo Llc | Methods and systems for object detection using laser point clouds |
-
2019
- 2019-06-28 DE DE102019117559.3A patent/DE102019117559A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6487303B1 (en) * | 1996-11-06 | 2002-11-26 | Komatsu Ltd. | Object detector |
US20120013713A1 (en) * | 2009-03-31 | 2012-01-19 | Hironori Sumitomo | Image integration unit and image integration method |
US9697606B2 (en) * | 2014-04-25 | 2017-07-04 | Waymo Llc | Methods and systems for object detection using laser point clouds |
US20160093054A1 (en) * | 2014-09-29 | 2016-03-31 | General Electric Company | System and method for component detection |
Non-Patent Citations (1)
Title |
---|
Nevatia, R.: Depth measurement by motion stereo. Computer Graphics and Image Processing, Vol.5, No.2, June 1976, Seiten 203-214. * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801200A (en) * | 2021-02-07 | 2021-05-14 | 文远鄂行(湖北)出行科技有限公司 | Data packet screening method, device, equipment and storage medium |
CN112801200B (en) * | 2021-02-07 | 2024-02-20 | 文远鄂行(湖北)出行科技有限公司 | Data packet screening method, device, equipment and storage medium |
CN112926461A (en) * | 2021-02-26 | 2021-06-08 | 商汤集团有限公司 | Neural network training and driving control method and device |
CN112926461B (en) * | 2021-02-26 | 2024-04-19 | 商汤集团有限公司 | Neural network training and driving control method and device |
CN113160324A (en) * | 2021-03-31 | 2021-07-23 | 北京京东乾石科技有限公司 | Bounding box generation method and device, electronic equipment and computer readable medium |
CN113936085A (en) * | 2021-12-17 | 2022-01-14 | 荣耀终端有限公司 | Three-dimensional reconstruction method and device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102019117559A1 (en) | Method and system for merging two-dimensional semantic information from images with a three-dimensional point cloud | |
DE112019001310T5 (en) | SYSTEMS AND METHODS FOR REDUCING THE AMOUNT OF DATA STORAGE DURING MACHINE LEARNING | |
DE112018000899T5 (en) | Joint 3D object detection and orientation estimation via multimodal fusion | |
DE102014222617B4 (en) | Vehicle detection method and vehicle detection system | |
DE102015201951A1 (en) | System and method for mapping, locating and correcting a spatial position | |
DE102016114168A1 (en) | Method for detecting an object in a surrounding area of a motor vehicle with prediction of the movement of the object, camera system and motor vehicle | |
DE102021002798A1 (en) | Process for camera-based environment detection | |
DE112020000590T5 (en) | MAP AND PROCEDURE FOR CREATING A MAP | |
DE102018205879A1 (en) | Method, apparatus and computer readable storage medium with instructions for processing sensor data | |
DE102013227222A1 (en) | Apparatus and method for extracting a feature point for detecting an obstacle using a laser scanner | |
DE102018100909A1 (en) | Method of reconstructing images of a scene taken by a multifocal camera system | |
EP3520024A1 (en) | Detection and validation of objects from sequential images from a camera by means of homographs | |
DE102015003666A1 (en) | Method for processing acquired measured data of a sensor | |
DE102013017621A1 (en) | Method for evaluating stereoscopically captured frames, involves generating stereoscopically captured frames for evaluation of three-dimensional reconstruction of scene from captured frames as disparity image | |
DE102013018561A1 (en) | Method for data acquisition and data processing for lane identification of vehicle, involves filtering and discarding self-similarities of environment characteristics for non-relevant correspondence in generating road shape hypotheses | |
DE102012020778B4 (en) | Method of tagging a sequence of images taken in time sequence with integrated quality control | |
DE102020130513A1 (en) | COLLECTION AND CLASSIFICATION OF ROAD ATTRIBUTES FOR MAP EXTENSION | |
DE102019132012A1 (en) | Method and system for the detection of small unclassified obstacles on a road surface | |
DE102019129101A1 (en) | A method and system for estimating a bounding box that includes a target vehicle | |
DE102019111608A1 (en) | Method for determining the proper movement of a motor vehicle, electronic computing device and electronic vehicle guidance system | |
DE102019216607A1 (en) | Method and device for providing radar data | |
DE102021213757B3 (en) | Method for fusing image data in the context of an artificial neural network | |
DE102021213756B3 (en) | Method for fusing sensor data in the context of an artificial neural network | |
DE102019214143B3 (en) | Method for detecting a traffic map change with classifiers | |
DE102021204895A1 (en) | Method for three-dimensional position detection of objects using a camera system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R163 | Identified publications notified |