DE102020105701A1 - Method and system for generating a robust feature descriptor - Google Patents
Method and system for generating a robust feature descriptor Download PDFInfo
- Publication number
- DE102020105701A1 DE102020105701A1 DE102020105701.6A DE102020105701A DE102020105701A1 DE 102020105701 A1 DE102020105701 A1 DE 102020105701A1 DE 102020105701 A DE102020105701 A DE 102020105701A DE 102020105701 A1 DE102020105701 A1 DE 102020105701A1
- Authority
- DE
- Germany
- Prior art keywords
- sensor system
- feature descriptor
- dimensional image
- image data
- measurement data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Abstract
Die vorliegende Offenbarung betrifft ein Verfahren zum Erzeugen eines robusten Feature-Deskriptors, umfassend: Erfassen von zweidimensionalen Bilddaten durch ein erstes Sensorsystem; ein Erfassen von Tiefen-Messdaten durch das erste Sensorsystem oder ein zweites Sensorsystem; und ein Kombinieren der zweidimensionalen Bilddaten und der Tiefen-Messdaten, um einen Feature-Deskriptor zu erzeugen.The present disclosure relates to a method for generating a robust feature descriptor, comprising: acquiring two-dimensional image data by a first sensor system; acquisition of depth measurement data by the first sensor system or a second sensor system; and combining the two-dimensional image data and the depth measurement data to generate a feature descriptor.
Description
Die vorliegende Offenbarung betrifft ein Verfahren zum Erzeugen eines robusten Feature-Deskriptors, ein Fahrassistenzverfahren, ein Speichermedium zum Ausführen der Verfahren, ein System zum Erzeugen eines robusten Feature-Deskriptors und ein Fahrzeug mit dem System. Die vorliegende Offenbarung betrifft insbesondere ein Erfassen einer Dynamik in einem dreidimensionalen Umfeld zur Verwendung in Fahrassistenzsystemen zur Erhöhung einer Zuverlässigkeit und Sicherheit der Fahrassistenzsysteme, wie zum Beispiel Fahrassistenzsystemen zum (teil)autonomen Fahren.The present disclosure relates to a method for generating a robust feature descriptor, a driver assistance method, a storage medium for carrying out the method, a system for generating a robust feature descriptor and a vehicle with the system. The present disclosure relates in particular to the detection of dynamics in a three-dimensional environment for use in driver assistance systems to increase the reliability and safety of the driver assistance systems, such as, for example, driver assistance systems for (partially) autonomous driving.
Stand der TechnikState of the art
Die Entwicklung von Fahrassistenzfunktionen beispielsweise zum (teil-)autonom Fahren gewinnt stetig an Bedeutung. Um eine möglichst präzise Umgebungswahrnehmung für Fahrerassistenzsysteme zu ermöglichen können Sensormessungen von diversen Sensortypen, wie z.B. Kameras, LiDAR und Radaren verwendet werden. Jeder Sensortyp unterliegt anderen physikalischen Messprinzipien. Das Fahrzeugumfeld besteht in der Realität aus sehr vielen unterschiedlichen Objekten/Subjekten wie verschiedenen Fahrzeugtypen, Menschen und Tieren, statischen Objekten wie Mülltonnen, Verkehrsleitsystemen, natürlichen Objekten und Terrain. Da die Wahrnehmung all dieser Objekte/Subjekte jeweils auch abhängig von dem verwendeten Messprinzip ist, ist es schwierig, eine präzise Umgebungswahrnehmung sicherzustellen.The development of driver assistance functions, for example for (partially) autonomous driving, is becoming increasingly important. In order to enable driver assistance systems to perceive the environment as precisely as possible, sensor measurements from various sensor types, such as cameras, LiDAR and radars, can be used. Each type of sensor is subject to different physical measuring principles. In reality, the vehicle environment consists of many different objects / subjects such as different vehicle types, people and animals, static objects such as garbage cans, traffic control systems, natural objects and terrain. Since the perception of all these objects / subjects is also dependent on the measuring principle used, it is difficult to ensure a precise perception of the surroundings.
Offenbarung der ErfindungDisclosure of the invention
Es ist eine Aufgabe der vorliegenden Offenbarung ein Verfahren zum Erzeugen eines robusten Feature-Deskriptors, ein Fahrassistenzverfahren, ein Speichermedium zum Ausführen der Verfahren, ein System zum Erzeugen eines robusten Feature-Deskriptors und ein Fahrzeug mit dem Systemanzugeben, die eine Erzeugung eines robusten Feature-Deskriptors ermöglichen, um zum Beispiel eine Dynamik in einem Fahrzeugumfeld präzise modellieren können. Insbesondere ist es eine Aufgabe der vorliegenden Offenbarung, eine Zuverlässigkeit von Fahrassistenzsystemen durch eine Umfelderfassung zu erhöhen.It is an object of the present disclosure to indicate a method for generating a robust feature descriptor, a driver assistance method, a storage medium for carrying out the method, a system for generating a robust feature descriptor and a vehicle with the system that is capable of generating a robust feature. Descriptors enable, for example, to precisely model dynamics in a vehicle environment. In particular, it is an object of the present disclosure to increase the reliability of driver assistance systems by detecting the surroundings.
Diese Aufgaben werden durch den Gegenstand der unabhängigen Ansprüche gelöst. Vorteilhafte Ausgestaltungen sind in den Unteransprüchen angegeben.These objects are achieved by the subject matter of the independent claims. Advantageous refinements are given in the subclaims.
Gemäß einem unabhängigen Aspekt der vorliegenden Offenbarung ist ein Verfahren zum Erzeugen eines robusten Feature-Deskriptors angegeben. Das Verfahren umfasst ein Erfassen von zweidimensionalen Bilddaten durch ein erstes Sensorsystem; ein Erfassen von Tiefen-Messdaten durch das erste Sensorsystem oder ein zweites Sensorsystem; und ein Kombinieren der zwei-dimensionalen Bilddaten und der Tiefen-Messdaten, um basierend auf der Kombination einen Feature-Deskriptor zu erzeugen.According to an independent aspect of the present disclosure, a method for generating a robust feature descriptor is provided. The method comprises capturing two-dimensional image data by a first sensor system; acquisition of depth measurement data by the first sensor system or a second sensor system; and combining the two-dimensional image data and the depth measurement data to generate a feature descriptor based on the combination.
Das Erfassen von zweidimensionalen Bilddaten und das Erfassen von Tiefen-Messdaten kann entweder nacheinander oder gleichzeitig erfolgen.The acquisition of two-dimensional image data and the acquisition of depth measurement data can take place either one after the other or at the same time.
Erfindungsgemäß werden ein zweidimensionales Bild (z.B. ein RGB-Bild) und Tiefeninformationen kombiniert, um einen (z.B. CCN-basierten) Feature-Deskriptor zu bestimmen. Hierdurch kann insbesondere eine verbesserte Genauigkeit bei einem pixelweisen Matching für die Flussschätzung ermöglicht werden.According to the invention, a two-dimensional image (e.g. an RGB image) and depth information are combined in order to determine a (e.g. CCN-based) feature descriptor. In this way, in particular, improved accuracy in the case of pixel-by-pixel matching for the flow estimation can be made possible.
In einigen Ausführungsformen werden die zwei-dimensionalen Bilddaten und die Tiefen-Messdaten durch verschiedene Sensorsysteme erfasst, d.h. das erste Sensorsystem bzw. das zweite Sensorsystem. Alternativ umfasst das Verfahren ein gleichzeitiges Erfassen von Bild- und Tiefenmessdaten durch ein einziges Sensorsystem (z.B. RGB-D Kamera).In some embodiments, the two-dimensional image data and the depth measurement data are acquired by different sensor systems, i.e. the first sensor system and the second sensor system, respectively. Alternatively, the method includes the simultaneous acquisition of image and depth measurement data by a single sensor system (e.g. RGB-D camera).
Vorzugsweise verwendet das Verfahren ein neuronales Netz, und insbesondere ein Convolutional Neural Network, CNN. CNN-basierte Lösungen führen zu einer höheren Genauigkeit im Vergleich zu handgefertigten Systemen.The method preferably uses a neural network, and in particular a convolutional neural network, CNN. CNN-based solutions result in higher accuracy compared to handcrafted systems.
Vorzugsweise teilen sich die zweidimensionalen Bilddaten und die Tiefen-Messdaten dasselbe rezeptive Feld. Dies wird insbesondere durch die frühe Fusion der zweidimensionalen Bilddaten und der Tiefen-Messdaten ermöglicht.The two-dimensional image data and the depth measurement data preferably share the same receptive field. This is made possible in particular by the early fusion of the two-dimensional image data and the depth measurement data.
Vorzugsweise umfasst das Verfahren weiter ein Trainieren des neuronalen Netzes unter Verwendung eines Triplett-basierten Netzwerks, wobei korrespondierende Bildpunkte in den Feature-Karten so kodiert werden, dass sie im Abbildungs-Raum näher liegen als nichtkorrespondierende Bildpunkte.The method preferably further comprises training the neural network using a triplet-based network, with corresponding pixels in the feature maps being encoded in such a way that they are closer in the mapping space than non-corresponding pixels.
Vorzugsweise umfasst das Kombinieren der zweidimensionalen Bilddaten und der Tiefen-Messdaten ein Verketten der Tiefe als kartesische 3D-Koordinaten mit einem RGB-Bild.The combining of the two-dimensional image data and the depth measurement data preferably comprises a linking of the depth as Cartesian 3D coordinates with an RGB image.
Gemäß einem weiteren unabhängigen Aspekt der vorliegenden Offenbarung ist ein Fahrassistenzverfahren für ein Fahrzeug, insbesondere Kraftfahrzeug, angegeben. Das Fahrassistenzverfahren umfasst ein Ansteuern einer Fahrfunktion zum automatisierten Fahren unter Verwendung des mit dem oben beschriebenen Verfahren erzeugten robusten Feature-Deskriptors. Insbesondere können die Feature-Deskriptoren das dichte 3D-Bewegungsfeld einer Szene abschätzen, die sich ganz oder teilweise in Bezug zum Beispiel auf eine Kamera bewegt.According to a further independent aspect of the present disclosure, a driver assistance method for a vehicle, in particular a motor vehicle, is specified. The driver assistance method comprises activating a driving function for automated driving using the robust feature descriptor generated with the method described above. In particular, the Feature descriptors estimate the dense 3D field of motion of a scene that moves in whole or in part with respect to, for example, a camera.
Gemäß einem weiteren Aspekt wird ein Software (SW) Programm beschrieben. Das SW Programm kann eingerichtet werden, um auf einem oder mehreren Prozessoren ausgeführt zu werden, und um dadurch das in diesem Dokument beschriebene Verfahren zum Erzeugen eines robusten Feature-Deskriptors und/oder das Fahrassistenzverfahren für ein Fahrzeug auszuführen.According to a further aspect, a software (SW) program is described. The SW program can be set up to be executed on one or more processors, and thereby to execute the method described in this document for generating a robust feature descriptor and / or the driver assistance method for a vehicle.
Gemäß einem weiteren Aspekt wird ein Speichermedium beschrieben. Das Speichermedium kann ein SW Programm umfassen, welches eingerichtet ist, um auf einem oder mehreren Prozessoren ausgeführt zu werden, und um dadurch das in diesem Dokument beschriebene Verfahren zum Erzeugen eines robusten Feature-Deskriptors und/oder das Fahrassistenzverfahren für ein Fahrzeug auszuführen.According to a further aspect, a storage medium is described. The storage medium can comprise a SW program which is set up to be executed on one or more processors and thereby to execute the method described in this document for generating a robust feature descriptor and / or the driver assistance method for a vehicle.
Gemäß einem weiteren unabhängigen Aspekt der vorliegenden Offenbarung ist ein System zum Erzeugen eines robusten Feature-Deskriptors angegeben. Das System umfasst wenigstens eine Prozessoreinheit, die eingerichtet ist, um: zweidimensionale Bilddaten, die durch ein erstes Sensorsystem erfasst werden, zu empfangen; Tiefen-Messdaten, die durch das erste Sensorsystem oder ein zweites Sensorsystem erfasst werden, zu empfangen; und die zwei-dimensionalen Bilddaten und die Tiefen-Messdaten zu kombinieren, um basierend auf der Kombination einen Feature-Deskriptor zu erzeugen.According to a further independent aspect of the present disclosure, a system for generating a robust feature descriptor is provided. The system comprises at least one processor unit which is set up to: receive two-dimensional image data that are acquired by a first sensor system; Receive depth measurement data acquired by the first sensor system or a second sensor system; and combine the two-dimensional image data and the depth measurement data to generate a feature descriptor based on the combination.
Das System ist insbesondere eingerichtet, das in diesem Dokument beschriebene Verfahren zum Erzeugen eines robusten Feature-Deskriptors auszuführen.In particular, the system is set up to carry out the method described in this document for generating a robust feature descriptor.
Gemäß einem weiteren unabhängigen Aspekt der vorliegenden Offenbarung ist ein Fahrzeug, insbesondere ein Kraftfahrzeug, angegeben. Das Fahrzeug umfasst das System zum Erzeugen eines robusten Feature-Deskriptors gemäß den in diesem Dokument beschriebenen Ausführungsformen.According to a further independent aspect of the present disclosure, a vehicle, in particular a motor vehicle, is specified. The vehicle comprises the system for generating a robust feature descriptor according to the embodiments described in this document.
Der Begriff Fahrzeug umfasst PKW, LKW, Busse, Wohnmobile, Krafträder, etc., die der Beförderung von Personen, Gütern, etc. dienen. Insbesondere umfasst der Begriff Kraftfahrzeuge zur Personenbeförderung.The term vehicle includes cars, trucks, buses, mobile homes, motorcycles, etc., which are used to transport people, goods, etc. In particular, the term includes motor vehicles for passenger transport.
Vorzugsweise umfasst das Fahrzeug das erste Sensorsystem und das zweite Sensorsystem. Das erste Sensorsystem und das zweite Sensorsystem können verschiedene Sensorsysteme sein, d.h. das erste Sensorsystem und das zweite Sensorsystem können unterschiedliche Messprinzipien verwenden.The vehicle preferably comprises the first sensor system and the second sensor system. The first sensor system and the second sensor system can be different sensor systems, i.e. the first sensor system and the second sensor system can use different measuring principles.
Das erste Sensorsystem kann eine oder mehrere Kameras, und insbesondere Bildkameras, umfassen. Das zweite Sensorsystem kann einen oder mehrere 3D-Sensoren umfassen, wie zum Beispiel einen oder mehrere LiDAR-Sensoren.The first sensor system can include one or more cameras, and in particular image cameras. The second sensor system can include one or more 3D sensors, such as one or more LiDAR sensors.
Vorzugsweise umfasst das Fahrzeug ein Fahrassistenzsystem, wie ein Fahrassistenzsystem zum automatisierten (teilautonomen oder autonomen) Fahren. Das Fahrassistenzsystem verwendet den robusten Feature-Deskriptor gemäß den in diesem Dokument beschriebenen Ausführungsformen zum Ausführen des automatisierten Fahrens.The vehicle preferably comprises a driver assistance system, such as a driver assistance system for automated (partially autonomous or autonomous) driving. The driver assistance system uses the robust feature descriptor according to the embodiments described in this document to carry out the automated driving.
Unter dem Begriff „automatisiertes Fahren“ kann im Rahmen des Dokuments ein Fahren mit automatisierter Längs- oder Querführung oder ein autonomes Fahren mit automatisierter Längs- und Querführung verstanden werden. Bei dem automatisierten Fahren kann es sich beispielsweise um ein zeitlich längeres Fahren auf der Autobahn oder um ein zeitlich begrenztes Fahren im Rahmen des Einparkens oder Rangierens handeln. Der Begriff „automatisiertes Fahren“ umfasst ein automatisiertes Fahren mit einem beliebigen Automatisierungsgrad. Beispielhafte Automatisierungsgrade sind ein assistiertes, teilautomatisiertes, hochautomatisiertes oder vollautomatisiertes Fahren. Diese Automatisierungsgrade wurden von der Bundesanstalt für Straßenwesen (BASt) definiert (siehe BASt-Publikation „Forschung kompakt“, Ausgabe 11/2012).In the context of the document, the term “automated driving” can be understood to mean driving with automated longitudinal or lateral guidance or autonomous driving with automated longitudinal and lateral guidance. The automated driving can be, for example, driving on the motorway for a longer period of time or driving for a limited time as part of parking or maneuvering. The term “automated driving” includes automated driving with any degree of automation. Exemplary degrees of automation are assisted, partially automated, highly automated or fully automated driving. These degrees of automation were defined by the Federal Highway Research Institute (BASt) (see BASt publication “Research compact”, edition 11/2012).
Beim assistierten Fahren führt der Fahrer dauerhaft die Längs- oder Querführung aus, während das System die jeweils andere Funktion in gewissen Grenzen übernimmt. Beim teilautomatisierten Fahren (TAF) übernimmt das System die Längs- und Querführung für einen gewissen Zeitraum und/oder in spezifischen Situationen, wobei der Fahrer das System wie beim assistierten Fahren dauerhaft überwachen muss. Beim hochautomatisierten Fahren (HAF) übernimmt das System die Längs- und Querführung für einen gewissen Zeitraum, ohne dass der Fahrer das System dauerhaft überwachen muss; der Fahrer muss aber in einer gewissen Zeit in der Lage sein, die Fahrzeugführung zu übernehmen. Beim vollautomatisierten Fahren (VAF) kann das System für einen spezifischen Anwendungsfall das Fahren in allen Situationen automatisch bewältigen; für diesen Anwendungsfall ist kein Fahrer mehr erforderlich.With assisted driving, the driver continuously performs the longitudinal or lateral guidance, while the system takes on the other function within certain limits. With partially automated driving (TAF), the system takes over the longitudinal and lateral guidance for a certain period of time and / or in specific situations, whereby the driver has to constantly monitor the system as with assisted driving. With highly automated driving (HAF), the system takes over the longitudinal and lateral guidance for a certain period of time without the driver having to permanently monitor the system; however, the driver must be able to take control of the vehicle within a certain period of time. With fully automated driving (VAF), the system can automatically cope with driving in all situations for a specific application; a driver is no longer required for this application.
Die vorstehend genannten vier Automatisierungsgrade entsprechen den SAE-Level 1 bis 4 der Norm SAE J3016 (SAE - Society of Automotive Engineering). Beispielsweise entspricht das hochautomatisierte Fahren (HAF) Level 3 der Norm SAE J3016. Ferner ist in der SAE J3016 noch der SAE-Level 5 als höchster Automatisierungsgrad vorgesehen, der in der Definition der BASt nicht enthalten ist. Der SAE-Level 5 entspricht einem fahrerlosen Fahren, bei dem das System während der ganzen Fahrt alle Situationen wie ein menschlicher Fahrer automatisch bewältigen kann; ein Fahrer ist generell nicht mehr erforderlich.The four degrees of automation mentioned above correspond to
FigurenlisteFigure list
Ausführungsbeispiele der Offenbarung sind in den Figuren dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
-
1 ein Flussdiagramm eines Verfahrens zum Erzeugen eines robusten Feature-Deskriptors gemäß Ausführungsformen der vorliegenden Offenbarung, -
2 eine deepRGBXYZ-Architektur gemäß Ausführungsformen der vorliegenden Offenbarung, -
3 ein Triplett-basiertes Netzwerk gemäß Ausführungsformen der vorliegenden Offenbarung, und -
4 ein Fahrzeug mit einem Fahrassistenzsystem zum automatisierten Fahren gemäß den Ausführungsformen der vorliegenden Offenbarung.
-
1 a flowchart of a method for generating a robust feature descriptor according to embodiments of the present disclosure, -
2 a deepRGBXYZ architecture in accordance with embodiments of the present disclosure, -
3 a triplet-based network in accordance with embodiments of the present disclosure, and -
4th a vehicle with a driver assistance system for automated driving according to the embodiments of the present disclosure.
Ausführungsformen der OffenbarungEmbodiments of the disclosure
Eine robuste Wahrnehmung einer Fahrzeugumgebung ist eine wesentliche Aufgabe für zuverlässige autonome Fahrfunktionen. Um dieses Ziel zu erreichen, müssen dynamische Veränderungen der Umgebung erfasst werden. Hierzu kann zum Beispiel die sogenannte dichte Szenenflussschätzung („dense scene flow estimation“) verwendet werden. Mit Hilfe der Szenenflussschätzung können eine 3D-Geometrie und das 3D-Bewegungsfeld berechnet werden, so dass eine umfassende Darstellung einer dynamischen Umgebung ermöglich wird. Der Szenenfluss kann zum Beispiel basierend auf dichten Pixelübereinstimmungen („dense pixel matching“) in Stereobildern berechnet werden. Damit kann in vielen Szenarien eine angemessene Qualität erreicht werden.A robust perception of a vehicle environment is an essential task for reliable autonomous driving functions. To achieve this goal, dynamic changes in the environment must be recorded. For example, the so-called dense scene flow estimation can be used for this purpose. With the help of the scene flow estimation, a 3D geometry and the 3D motion field can be calculated so that a comprehensive representation of a dynamic environment is made possible. The scene flow can, for example, be calculated based on dense pixel matching in stereo images. This means that adequate quality can be achieved in many scenarios.
Das pixelweise Matching bietet eine Basis für viele Aufgaben beim maschinellen Sehen (Computer Vision), wie z.B. bei der Bildabfrage, der Objekterkennung und der Flussschätzung. Insbesondere bei der Flussschätzung besteht eine Herausforderung in einer Ausrichtung von Szenen mit dynamischen Objekten. Hier spielen robuste lokale Feature-Deskriptoren eine wichtige Rolle, um durch einen Vergleich einer Entfernung von lokalen Deskriptoren (d.h. Feature-Maps) dichte, genaue Übereinstimmungen zu finden.Pixel-by-pixel matching provides a basis for many tasks in computer vision, such as image retrieval, object recognition and flow estimation. Particularly in the case of flow estimation, there is a challenge in aligning scenes with dynamic objects. Robust local feature descriptors play an important role here in order to find dense, accurate matches by comparing a distance from local descriptors (i.e. feature maps).
In den letzten Jahren wurden in vielen Anwendungen handgefertigte Deskriptoren verwendet, wie z.B. SIFT, DAISY und HOG. Zudem können durch tiefe neuronale Netze unverwechselbare und robuste Deskriptoren berechnet werden. Hier kann allerdings aufgrund eines bei der Berechnung der Deskriptoren verwendeten rezeptiven Felds eine Genauigkeit reduziert sein.In recent years, handcrafted descriptors have been used in many applications, such as SIFT, DAISY, and HOG. In addition, unmistakable and robust descriptors can be calculated through deep neural networks. Here, however, an accuracy can be reduced due to a receptive field used in the calculation of the descriptors.
Die vorliegende Offenbarung schlägt einen neuen Ansatz zum Bestimmen eines robusten Feature-Deskriptors vor, der eine im Vergleich zu den oben genannten Ansätzen verbesserte Genauigkeit beim Matching ermöglicht. Beim erfindungsgemäßen Ansatz werden ein zweidimensionales Bild (z.B. ein RGB-Bild) und Tiefeninformationen kombiniert, um einen CCN-basierten Feature-Deskriptor mit einem großen rezeptiven Feld zu bestimmen. Hierdurch kann insbesondere eine verbesserte Genauigkeit bei einem pixelweisen Matching für die Flussschätzung ermöglicht werden.The present disclosure proposes a new approach to determining a robust feature descriptor that enables improved accuracy in matching compared to the approaches mentioned above. In the inventive approach, a two-dimensional image (e.g., an RGB image) and depth information are combined to determine a CCN-based feature descriptor with a large receptive field. In this way, in particular, improved accuracy in the case of pixel-by-pixel matching for the flow estimation can be made possible.
Das Verfahren
Das erste Sensorsystem kann eine oder mehrere Kameras, und insbesondere Bildkameras, umfassen. Das zweite Sensorsystem kann einen oder mehrere 3D-Sensoren umfassen, wie zum Beispiel einen oder mehrere LiDAR-Sensoren.The first sensor system can include one or more cameras, and in particular image cameras. The second sensor system can include one or more 3D sensors, such as one or more LiDAR sensors.
Im Folgenden wird der erfindungsgemäße dichte Feature-Deskriptor anhand einer beispielhaften Ausführungsform im Detail erläutert.The dense feature descriptor according to the invention is explained in detail below using an exemplary embodiment.
Der erfindungsgemäße Ansatz basiert auf der Kombination von RGB-Bildern und Tiefeninformationen über den Bildbereich. Die 3D-Sensoren des zweiten Sensorsystems können eine Tiefenkarte zum Beispiel unter Verwendung von Musterprojektion, als Flugzeit oder als Punktwolke (LiDAR-Sensoren) „wahrnehmen“.The approach according to the invention is based on the combination of RGB images and depth information about the image area. The 3D sensors of the second sensor system can “perceive” a depth map, for example using pattern projection, as a flight time or as a point cloud (LiDAR sensors).
Im Falle der Erfassung der Bilddaten und der Tiefe durch zwei verschiedene Sensoren bzw. Sensorsysteme kann eine Synchronisation und eine Kalibrierung erforderlich sein. Zudem ist im Allgemeinen eine intrinsische Kalibrierung, z.B. die Hauptpunkte eines 2D-Bildsensors und eine Brennweite, bekannt. Dadurch ist die Ausrichtung und Projektion der Tiefeninformation in die Bildebene möglich.If the image data and the depth are recorded by two different sensors or sensor systems, a synchronization and a Calibration may be required. In addition, an intrinsic calibration, for example the main points of a 2D image sensor and a focal length, is generally known. This enables the depth information to be aligned and projected into the image plane.
Geometrische Darstellung und FusionsstrategieGeometric representation and fusion strategy
Eine geeignete Auswahl der geometrischen Darstellung der Tiefe ist eine Basis von Fusionsdesigns.A suitable selection of the geometric representation of the depth is a basis of fusion designs.
Eine beispielhafte geometrische Darstellung („HHA“) kodiert die Tiefe in drei Kanäle: horizontale Disparität, Höhe über dem Boden und den Winkel, den die lokale Oberflächennormale des Pixels mit der Gravitationsrichtung bildet. Die Schätzung der Gravitationsrichtung, der Oberflächennormale und des Bodens sind die Hauptkomponenten für eine hohe Qualität.An exemplary geometric representation (“HHA”) encodes the depth in three channels: horizontal disparity, height above the ground and the angle that the local surface normal of the pixel forms with the direction of gravity. The estimation of the direction of gravity, the surface normal and the ground are the main components for a high quality.
Andere beispielhafte Ansätze der geometrischen Darstellung arbeiten vollständig im 3D-Bereich unter Verwendung der Voxel-Darstellung, die ein starkes Potenzial bei der 3D-Objekterkennung aufweist.Other exemplary approaches to geometric representation work entirely in the 3D area using voxel representation, which has strong potential in 3D object recognition.
Unter Verwendung dieser Darstellungen kann ein tiefes Lernen durch Einbeziehung der kartesischen 3D-Position XYZ die Bildinformation ergänzen, um eine robuste Genauigkeit zu erzeugen. Das Lernen der kartesischen Koordinate in einem Pixel durch kanalweise Verkettung mit dem Bildtensor ermöglicht es dem Netzwerk, die Translationsinvarianz ganz oder teilweise zu lernen.Using these representations, deep learning by incorporating the 3D Cartesian position XYZ can supplement the image information to produce robust accuracy. Learning the Cartesian coordinate in a pixel through channel-wise concatenation with the image tensor enables the network to learn all or part of the translation invariance.
Die Ausführungsformen der vorliegenden Offenbarung folgen diesem Prinzip und verketten die Tiefe als kartesische 3D-Koordinaten mit dem RGB-Bild. Hierdurch wird eine Fusionsarchitektur bereitgestellt, wie sie beispielhaft in
Die in
Netzwerk-Archi tekturNetwork architecture
CNN-basierte Lösungen führen zu einer höheren Genauigkeit im Vergleich zu handgefertigten Systemen.CNN-based solutions result in higher accuracy compared to handcrafted systems.
Viele der Netzwerke verwenden ein Vielfaches an Maximal-Pooling und Schrittfaltungen, um die räumliche Kohärenz der nächstgelegenen Pixel in den resultierenden Feature-Karten darzustellen. Sie arbeiten effizient für Bildklassifikationsaufgaben, aber sie reduzieren die räumliche Auflösung erheblich und erzeugen spärliche Feature-Karten.Many of the networks use multiples of maximal pooling and step convolution to represent the spatial coherence of the closest pixels in the resulting feature maps. They work efficiently for image classification tasks, but they significantly reduce spatial resolution and produce sparse feature maps.
Einige Architekturen folgen den resultierenden Feature-Karten durch bilineare Interpolation, um die volle Auflösung der Feature-Responses wiederherzustellen, und andere bieten dekonvolutionäre Schichten.Some architectures follow the resulting feature maps through bilinear interpolation to restore full resolution of the feature responses, and others provide deconvolutionary layers.
Die Verwendung von dilatierten oder Atrous-Faltungen ist eine bessere Wahl für die Beibehaltung der vollen Auflösung der Feature-Responses. Sie unterscheiden sich von den Standardarchitekturen durch wechselnde Dilatationsraten der Faltungskerne. Dieses Prinzip zeigt Potenzial für die semantische Segmentierung sowie für das Lernen von Deskriptoren. Bei beiden Ansätzen handelt es sich um Stapelschichten mit steigenden Dilatationsraten.Using dilated or atrous folds is a better choice for maintaining full resolution of feature responses. They differ from the standard architectures in the changing rates of expansion of the convolution cores. This principle shows potential for semantic segmentation as well as for learning descriptors. Both approaches are stacked layers with increasing dilation rates.
Dieser Aufbau wird gemäß einigen Ausführungsformen der vorliegenden Offenbarung zur Entwicklung einer Fusion verwendet, um die Unterscheidbarkeit der Feature-Karten so weit wie möglich zu verbessern und die Bildregionen, denen es an vielen Details in ihren rezeptiven Feldern mangelt, mit Tiefeninformationen zu unterstützen. Dabei wird gleichzeitig das rezeptive Feld für die als XYZ dargestellte 3D-Information vergrößert, und die Kontextinformationen der 2D-Patches werden mit 3D-Hinweisen unterstützt. Durch die frühe Fusion teilen sich die 2D- und 3D-Informationen dasselbe rezeptive Feld.This structure is used in accordance with some embodiments of the present disclosure to develop a fusion in order to improve the distinguishability of the feature maps as much as possible and to support the image regions that lack many details in their receptive fields with depth information. At the same time, the receptive field for the 3D information displayed as XYZ is enlarged, and the context information of the 2D patches is supported with 3D hints. Due to the early fusion, the 2D and 3D information share the same receptive field.
In einer beispielhaften Ausführungsform können 5 Schichten gestapelt werden, wobei jede 4 parallele Faltungen mit 5 × 5 Kernen und mit den Dilatationsraten 1, 2, 3 und 4 anwendet. Die Größe des rezeptiven Feldes beträgt 81 Pixel, wie in
Trainingsdetails und VerlustfunktionTraining details and loss function
Beim Training des neuronalen Netzes kann ein Triplett-basiertes Netzwerk angewendet werden, wie in
Somit werden die 3D-Informationen als Input für das Training verwendet. Es werden Datensätze ausgewählt, die Tiefendaten und eine Optical Flow Ground Truth (Optikfluss-Grundwahrheit) bieten, um die Bilder in die benötigten Patches zu konvertieren. Die Optical Flow Ground Truth erleichtert somit aus zweiter Sicht das Sampling des positiven Patches, das in erster Sicht stark mit dem Referenz-Patch korreliert ist. Das negative Patch wird ebenfalls aus der zweiten Sicht gewonnen, jedoch mit veränderter Verschiebung, die mit dem positiven Patch semi-korreliert sein kann.Thus, the 3D information is used as input for the training. Datasets are selected that provide depth data and an Optical Flow Ground Truth to convert the images into the patches needed. From a second perspective, the Optical Flow Ground Truth thus facilitates the sampling of the positive patch, which in the first instance is strongly correlated with the reference patch. The negative patch is also obtained from the second view, but with a changed shift, which can be semi-correlated with the positive patch.
Eine Verlustfunktion (z.B. Thresholded Hinge Embedding Loss Function) kann zum Training der oben genannten Patches verwendet werden. Die Verlustfunktion versucht unter Berücksichtigung eines minimalen und maximalen Schwellwertes, den L2-Abstand zwischen Referenz-Patch und positivem Patch zu minimieren und den L2-Abstand zwischen Referenz-Patch und negativem Patch zu erhöhen.A loss function (e.g. Thresholded Hinge Embedding Loss Function) can be used to train the above-mentioned patches. The loss function tries to minimize the L2 distance between the reference patch and the positive patch and to increase the L2 distance between the reference patch and the negative patch, taking into account a minimum and maximum threshold value.
Beim automatisierten Fahren erfolgt die Längs- und Querführung des Fahrzeugs
Zur Planung und Durchführung des automatisierten Fahrens werden Umfeldinformationen einer Umfeldsensorik, die das Fahrzeugumfeld beobachtet, vom Fahrerassistenzsystem
Insbesondere kann das Fahrzeug
Erfindungsgemäß werden ein zweidimensionales Bild (z.B. ein RGB-Bild) und Tiefeninformationen kombiniert, um einen (z.B. CCN-basierten) Feature-Deskriptor zu bestimmen. Hierdurch kann insbesondere eine verbesserte Genauigkeit bei einem pixelweisen Matching für die Flussschätzung ermöglicht werden.According to the invention, a two-dimensional image (e.g. an RGB image) and depth information are combined in order to determine a (e.g. CCN-based) feature descriptor. In this way, in particular, improved accuracy in the case of pixel-by-pixel matching for the flow estimation can be made possible.
Obwohl die Erfindung im Detail durch bevorzugte Ausführungsbeispiele näher illustriert und erläutert wurde, so ist die Erfindung nicht durch die offenbarten Beispiele eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen. Es ist daher klar, dass eine Vielzahl von Variationsmöglichkeiten existiert. Es ist ebenfalls klar, dass beispielhaft genannte Ausführungsformen wirklich nur Beispiele darstellen, die nicht in irgendeiner Weise als Begrenzung etwa des Schutzbereichs, der Anwendungsmöglichkeiten oder der Konfiguration der Erfindung aufzufassen sind. Vielmehr versetzen die vorhergehende Beschreibung und die Figurenbeschreibung den Fachmann in die Lage, die beispielhaften Ausführungsformen konkret umzusetzen, wobei der Fachmann in Kenntnis des offenbarten Erfindungsgedankens vielfältige Änderungen beispielsweise hinsichtlich der Funktion oder der Anordnung einzelner, in einer beispielhaften Ausführungsform genannter Elemente vornehmen kann, ohne den Schutzbereich zu verlassen, der durch die Ansprüche und deren rechtliche Entsprechungen, wie etwa weitergehenden Erläuterungen in der Beschreibung, definiert wird.Although the invention has been illustrated and explained in more detail by preferred exemplary embodiments, the invention is not restricted by the disclosed examples and other variations can be derived therefrom by the person skilled in the art without departing from the scope of protection of the invention. It is therefore clear that there is a multitude of possible variations. It is also clear that embodiments cited by way of example really only represent examples that are not to be interpreted in any way as a limitation, for example, of the scope of protection, the possible applications or the configuration of the invention. Rather, the preceding description and the description of the figures enable the person skilled in the art to specifically implement the exemplary embodiments, whereby the person skilled in the art, with knowledge of the disclosed inventive concept, can make various changes, for example with regard to the function or the arrangement of individual elements mentioned in an exemplary embodiment, without the To leave the scope of protection that is defined by the claims and their legal equivalents, such as further explanations in the description.
Claims (10)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102020105301.0 | 2020-02-28 | ||
DE102020105301 | 2020-02-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102020105701A1 true DE102020105701A1 (en) | 2021-09-02 |
Family
ID=77271274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102020105701.6A Pending DE102020105701A1 (en) | 2020-02-28 | 2020-03-03 | Method and system for generating a robust feature descriptor |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102020105701A1 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190371052A1 (en) | 2018-05-31 | 2019-12-05 | Toyota Research Institute, Inc. | Inferring locations of 3d objects in a spatial environment |
-
2020
- 2020-03-03 DE DE102020105701.6A patent/DE102020105701A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190371052A1 (en) | 2018-05-31 | 2019-12-05 | Toyota Research Institute, Inc. | Inferring locations of 3d objects in a spatial environment |
Non-Patent Citations (2)
Title |
---|
LIAO, W., et al.. Triplet-based deep similarity learning for person re-identification. In: Proceedings of the IEEE International Conference on Computer Vision Workshops. 2017. S. 385-393. doi: 10.1109/ICCVW.2017.52 (URL: https://openaccess.thecvf.com/content_ICCV_2017_workshops/papers/w6/Liao_Triplet-Based_Deep_Similarity_ICCV_2017_paper.pdf) |
OUYANG, Z. [et al.]: Multiview CNN model for sensor fusion based vehicle detection. In: Proceedings / Advances in multimedia information processing PCM 2018 : 19th Pacific-Rim conference on multimedia, Hefei, China, September 21-22, 2018. Berlin, Cham : Springer, 2018 (Lecture notes in computer science ; 11166). S. 459-470. doi: 10.1007/978-3-030-00764-5_42 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102016223422B4 (en) | Method for automatically determining extrinsic parameters of a vehicle camera | |
EP3292510B1 (en) | Method and apparatus for detecting and assessing road reflections | |
DE102014222617B4 (en) | Vehicle detection method and vehicle detection system | |
DE102016122190A1 (en) | Stixel estimation methods and systems | |
WO2015173092A1 (en) | Method and apparatus for calibrating a camera system in a motor vehicle | |
DE102017103540A1 (en) | Determine an angular position of a trailer without a target mark | |
DE102020116964A1 (en) | VISUAL ODOMETRY FOR VEHICLE | |
DE102014114221A1 (en) | Method for detecting an object in a surrounding area of a motor vehicle, driver assistance system and motor vehicle | |
DE102019132996A1 (en) | Estimating a three-dimensional position of an object | |
DE102021129544A1 (en) | SYSTEMS AND METHODS FOR DEPTH ESTIMATION IN A VEHICLE | |
WO2020048669A1 (en) | Method for determining a lane change indication of a vehicle, computer-readable storage medium, and vehicle | |
DE102017201796A1 (en) | Control device for determining a self-motion of a motor vehicle and motor vehicle and method for providing the control device | |
DE102020105701A1 (en) | Method and system for generating a robust feature descriptor | |
DE102018132676A1 (en) | Method for locating a vehicle in an environment | |
DE102014219418B4 (en) | Process for the stereo rectification of stereo camera images and driver assistance system | |
DE102021123503A1 (en) | Determination of an absolute initial position of a vehicle | |
DE102021101336A1 (en) | Method for evaluating sensor data from a distance sensor, determination device, computer program and electronically readable data carrier | |
DE102020111471A1 (en) | Method and system for image recognition for an automated vehicle | |
WO2021165129A1 (en) | Method and device for generating combined scenarios | |
DE102019129101A1 (en) | A method and system for estimating a bounding box that includes a target vehicle | |
WO2020119996A1 (en) | Transfer of additional information between camera systems | |
DE102019201633A1 (en) | Calibration of a sensor for a vehicle based on object-side and image-side identification indices of a reference object | |
DE102022112318B3 (en) | Method for determining extent information of a target object, motor vehicle, computer program and electronically readable data carrier | |
DE102022213414A1 (en) | VEHICLE, ELECTRONIC DEVICE AND CONTROL METHOD THEREOF | |
DE102022124085A1 (en) | Display of image data in a vehicle depending on sensor data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R163 | Identified publications notified | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06K0009620000 Ipc: G06V0030190000 |