DE102020105701A1

DE102020105701A1 - Method and system for generating a robust feature descriptor

Info

Publication number: DE102020105701A1
Application number: DE102020105701.6A
Authority: DE
Inventors: Ramy Battrawy; Oliver Wasenmüller; René Schuster; Qing Rao; Didier Stricker
Original assignee: Bayerische Motoren Werke AG
Current assignee: Bayerische Motoren Werke AG
Priority date: 2020-02-28
Filing date: 2020-03-03
Publication date: 2021-09-02

Abstract

Die vorliegende Offenbarung betrifft ein Verfahren zum Erzeugen eines robusten Feature-Deskriptors, umfassend: Erfassen von zweidimensionalen Bilddaten durch ein erstes Sensorsystem; ein Erfassen von Tiefen-Messdaten durch das erste Sensorsystem oder ein zweites Sensorsystem; und ein Kombinieren der zweidimensionalen Bilddaten und der Tiefen-Messdaten, um einen Feature-Deskriptor zu erzeugen.The present disclosure relates to a method for generating a robust feature descriptor, comprising: acquiring two-dimensional image data by a first sensor system; acquisition of depth measurement data by the first sensor system or a second sensor system; and combining the two-dimensional image data and the depth measurement data to generate a feature descriptor.

Description

Die vorliegende Offenbarung betrifft ein Verfahren zum Erzeugen eines robusten Feature-Deskriptors, ein Fahrassistenzverfahren, ein Speichermedium zum Ausführen der Verfahren, ein System zum Erzeugen eines robusten Feature-Deskriptors und ein Fahrzeug mit dem System. Die vorliegende Offenbarung betrifft insbesondere ein Erfassen einer Dynamik in einem dreidimensionalen Umfeld zur Verwendung in Fahrassistenzsystemen zur Erhöhung einer Zuverlässigkeit und Sicherheit der Fahrassistenzsysteme, wie zum Beispiel Fahrassistenzsystemen zum (teil)autonomen Fahren.The present disclosure relates to a method for generating a robust feature descriptor, a driver assistance method, a storage medium for carrying out the method, a system for generating a robust feature descriptor and a vehicle with the system. The present disclosure relates in particular to the detection of dynamics in a three-dimensional environment for use in driver assistance systems to increase the reliability and safety of the driver assistance systems, such as, for example, driver assistance systems for (partially) autonomous driving.

Stand der TechnikState of the art

Die Entwicklung von Fahrassistenzfunktionen beispielsweise zum (teil-)autonom Fahren gewinnt stetig an Bedeutung. Um eine möglichst präzise Umgebungswahrnehmung für Fahrerassistenzsysteme zu ermöglichen können Sensormessungen von diversen Sensortypen, wie z.B. Kameras, LiDAR und Radaren verwendet werden. Jeder Sensortyp unterliegt anderen physikalischen Messprinzipien. Das Fahrzeugumfeld besteht in der Realität aus sehr vielen unterschiedlichen Objekten/Subjekten wie verschiedenen Fahrzeugtypen, Menschen und Tieren, statischen Objekten wie Mülltonnen, Verkehrsleitsystemen, natürlichen Objekten und Terrain. Da die Wahrnehmung all dieser Objekte/Subjekte jeweils auch abhängig von dem verwendeten Messprinzip ist, ist es schwierig, eine präzise Umgebungswahrnehmung sicherzustellen.The development of driver assistance functions, for example for (partially) autonomous driving, is becoming increasingly important. In order to enable driver assistance systems to perceive the environment as precisely as possible, sensor measurements from various sensor types, such as cameras, LiDAR and radars, can be used. Each type of sensor is subject to different physical measuring principles. In reality, the vehicle environment consists of many different objects / subjects such as different vehicle types, people and animals, static objects such as garbage cans, traffic control systems, natural objects and terrain. Since the perception of all these objects / subjects is also dependent on the measuring principle used, it is difficult to ensure a precise perception of the surroundings.

Offenbarung der ErfindungDisclosure of the invention

Es ist eine Aufgabe der vorliegenden Offenbarung ein Verfahren zum Erzeugen eines robusten Feature-Deskriptors, ein Fahrassistenzverfahren, ein Speichermedium zum Ausführen der Verfahren, ein System zum Erzeugen eines robusten Feature-Deskriptors und ein Fahrzeug mit dem Systemanzugeben, die eine Erzeugung eines robusten Feature-Deskriptors ermöglichen, um zum Beispiel eine Dynamik in einem Fahrzeugumfeld präzise modellieren können. Insbesondere ist es eine Aufgabe der vorliegenden Offenbarung, eine Zuverlässigkeit von Fahrassistenzsystemen durch eine Umfelderfassung zu erhöhen.It is an object of the present disclosure to indicate a method for generating a robust feature descriptor, a driver assistance method, a storage medium for carrying out the method, a system for generating a robust feature descriptor and a vehicle with the system that is capable of generating a robust feature. Descriptors enable, for example, to precisely model dynamics in a vehicle environment. In particular, it is an object of the present disclosure to increase the reliability of driver assistance systems by detecting the surroundings.

Diese Aufgaben werden durch den Gegenstand der unabhängigen Ansprüche gelöst. Vorteilhafte Ausgestaltungen sind in den Unteransprüchen angegeben.These objects are achieved by the subject matter of the independent claims. Advantageous refinements are given in the subclaims.

Gemäß einem unabhängigen Aspekt der vorliegenden Offenbarung ist ein Verfahren zum Erzeugen eines robusten Feature-Deskriptors angegeben. Das Verfahren umfasst ein Erfassen von zweidimensionalen Bilddaten durch ein erstes Sensorsystem; ein Erfassen von Tiefen-Messdaten durch das erste Sensorsystem oder ein zweites Sensorsystem; und ein Kombinieren der zwei-dimensionalen Bilddaten und der Tiefen-Messdaten, um basierend auf der Kombination einen Feature-Deskriptor zu erzeugen.According to an independent aspect of the present disclosure, a method for generating a robust feature descriptor is provided. The method comprises capturing two-dimensional image data by a first sensor system; acquisition of depth measurement data by the first sensor system or a second sensor system; and combining the two-dimensional image data and the depth measurement data to generate a feature descriptor based on the combination.

Das Erfassen von zweidimensionalen Bilddaten und das Erfassen von Tiefen-Messdaten kann entweder nacheinander oder gleichzeitig erfolgen.The acquisition of two-dimensional image data and the acquisition of depth measurement data can take place either one after the other or at the same time.

Erfindungsgemäß werden ein zweidimensionales Bild (z.B. ein RGB-Bild) und Tiefeninformationen kombiniert, um einen (z.B. CCN-basierten) Feature-Deskriptor zu bestimmen. Hierdurch kann insbesondere eine verbesserte Genauigkeit bei einem pixelweisen Matching für die Flussschätzung ermöglicht werden.According to the invention, a two-dimensional image (e.g. an RGB image) and depth information are combined in order to determine a (e.g. CCN-based) feature descriptor. In this way, in particular, improved accuracy in the case of pixel-by-pixel matching for the flow estimation can be made possible.

In einigen Ausführungsformen werden die zwei-dimensionalen Bilddaten und die Tiefen-Messdaten durch verschiedene Sensorsysteme erfasst, d.h. das erste Sensorsystem bzw. das zweite Sensorsystem. Alternativ umfasst das Verfahren ein gleichzeitiges Erfassen von Bild- und Tiefenmessdaten durch ein einziges Sensorsystem (z.B. RGB-D Kamera).In some embodiments, the two-dimensional image data and the depth measurement data are acquired by different sensor systems, i.e. the first sensor system and the second sensor system, respectively. Alternatively, the method includes the simultaneous acquisition of image and depth measurement data by a single sensor system (e.g. RGB-D camera).

Vorzugsweise verwendet das Verfahren ein neuronales Netz, und insbesondere ein Convolutional Neural Network, CNN. CNN-basierte Lösungen führen zu einer höheren Genauigkeit im Vergleich zu handgefertigten Systemen.The method preferably uses a neural network, and in particular a convolutional neural network, CNN. CNN-based solutions result in higher accuracy compared to handcrafted systems.

Vorzugsweise teilen sich die zweidimensionalen Bilddaten und die Tiefen-Messdaten dasselbe rezeptive Feld. Dies wird insbesondere durch die frühe Fusion der zweidimensionalen Bilddaten und der Tiefen-Messdaten ermöglicht.The two-dimensional image data and the depth measurement data preferably share the same receptive field. This is made possible in particular by the early fusion of the two-dimensional image data and the depth measurement data.

Vorzugsweise umfasst das Verfahren weiter ein Trainieren des neuronalen Netzes unter Verwendung eines Triplett-basierten Netzwerks, wobei korrespondierende Bildpunkte in den Feature-Karten so kodiert werden, dass sie im Abbildungs-Raum näher liegen als nichtkorrespondierende Bildpunkte.The method preferably further comprises training the neural network using a triplet-based network, with corresponding pixels in the feature maps being encoded in such a way that they are closer in the mapping space than non-corresponding pixels.

Vorzugsweise umfasst das Kombinieren der zweidimensionalen Bilddaten und der Tiefen-Messdaten ein Verketten der Tiefe als kartesische 3D-Koordinaten mit einem RGB-Bild.The combining of the two-dimensional image data and the depth measurement data preferably comprises a linking of the depth as Cartesian 3D coordinates with an RGB image.

Gemäß einem weiteren unabhängigen Aspekt der vorliegenden Offenbarung ist ein Fahrassistenzverfahren für ein Fahrzeug, insbesondere Kraftfahrzeug, angegeben. Das Fahrassistenzverfahren umfasst ein Ansteuern einer Fahrfunktion zum automatisierten Fahren unter Verwendung des mit dem oben beschriebenen Verfahren erzeugten robusten Feature-Deskriptors. Insbesondere können die Feature-Deskriptoren das dichte 3D-Bewegungsfeld einer Szene abschätzen, die sich ganz oder teilweise in Bezug zum Beispiel auf eine Kamera bewegt.According to a further independent aspect of the present disclosure, a driver assistance method for a vehicle, in particular a motor vehicle, is specified. The driver assistance method comprises activating a driving function for automated driving using the robust feature descriptor generated with the method described above. In particular, the Feature descriptors estimate the dense 3D field of motion of a scene that moves in whole or in part with respect to, for example, a camera.

Gemäß einem weiteren Aspekt wird ein Software (SW) Programm beschrieben. Das SW Programm kann eingerichtet werden, um auf einem oder mehreren Prozessoren ausgeführt zu werden, und um dadurch das in diesem Dokument beschriebene Verfahren zum Erzeugen eines robusten Feature-Deskriptors und/oder das Fahrassistenzverfahren für ein Fahrzeug auszuführen.According to a further aspect, a software (SW) program is described. The SW program can be set up to be executed on one or more processors, and thereby to execute the method described in this document for generating a robust feature descriptor and / or the driver assistance method for a vehicle.

Gemäß einem weiteren Aspekt wird ein Speichermedium beschrieben. Das Speichermedium kann ein SW Programm umfassen, welches eingerichtet ist, um auf einem oder mehreren Prozessoren ausgeführt zu werden, und um dadurch das in diesem Dokument beschriebene Verfahren zum Erzeugen eines robusten Feature-Deskriptors und/oder das Fahrassistenzverfahren für ein Fahrzeug auszuführen.According to a further aspect, a storage medium is described. The storage medium can comprise a SW program which is set up to be executed on one or more processors and thereby to execute the method described in this document for generating a robust feature descriptor and / or the driver assistance method for a vehicle.

Gemäß einem weiteren unabhängigen Aspekt der vorliegenden Offenbarung ist ein System zum Erzeugen eines robusten Feature-Deskriptors angegeben. Das System umfasst wenigstens eine Prozessoreinheit, die eingerichtet ist, um: zweidimensionale Bilddaten, die durch ein erstes Sensorsystem erfasst werden, zu empfangen; Tiefen-Messdaten, die durch das erste Sensorsystem oder ein zweites Sensorsystem erfasst werden, zu empfangen; und die zwei-dimensionalen Bilddaten und die Tiefen-Messdaten zu kombinieren, um basierend auf der Kombination einen Feature-Deskriptor zu erzeugen.According to a further independent aspect of the present disclosure, a system for generating a robust feature descriptor is provided. The system comprises at least one processor unit which is set up to: receive two-dimensional image data that are acquired by a first sensor system; Receive depth measurement data acquired by the first sensor system or a second sensor system; and combine the two-dimensional image data and the depth measurement data to generate a feature descriptor based on the combination.

Das System ist insbesondere eingerichtet, das in diesem Dokument beschriebene Verfahren zum Erzeugen eines robusten Feature-Deskriptors auszuführen.In particular, the system is set up to carry out the method described in this document for generating a robust feature descriptor.

Gemäß einem weiteren unabhängigen Aspekt der vorliegenden Offenbarung ist ein Fahrzeug, insbesondere ein Kraftfahrzeug, angegeben. Das Fahrzeug umfasst das System zum Erzeugen eines robusten Feature-Deskriptors gemäß den in diesem Dokument beschriebenen Ausführungsformen.According to a further independent aspect of the present disclosure, a vehicle, in particular a motor vehicle, is specified. The vehicle comprises the system for generating a robust feature descriptor according to the embodiments described in this document.

Der Begriff Fahrzeug umfasst PKW, LKW, Busse, Wohnmobile, Krafträder, etc., die der Beförderung von Personen, Gütern, etc. dienen. Insbesondere umfasst der Begriff Kraftfahrzeuge zur Personenbeförderung.The term vehicle includes cars, trucks, buses, mobile homes, motorcycles, etc., which are used to transport people, goods, etc. In particular, the term includes motor vehicles for passenger transport.

Vorzugsweise umfasst das Fahrzeug das erste Sensorsystem und das zweite Sensorsystem. Das erste Sensorsystem und das zweite Sensorsystem können verschiedene Sensorsysteme sein, d.h. das erste Sensorsystem und das zweite Sensorsystem können unterschiedliche Messprinzipien verwenden.The vehicle preferably comprises the first sensor system and the second sensor system. The first sensor system and the second sensor system can be different sensor systems, i.e. the first sensor system and the second sensor system can use different measuring principles.

Das erste Sensorsystem kann eine oder mehrere Kameras, und insbesondere Bildkameras, umfassen. Das zweite Sensorsystem kann einen oder mehrere 3D-Sensoren umfassen, wie zum Beispiel einen oder mehrere LiDAR-Sensoren.The first sensor system can include one or more cameras, and in particular image cameras. The second sensor system can include one or more 3D sensors, such as one or more LiDAR sensors.

Vorzugsweise umfasst das Fahrzeug ein Fahrassistenzsystem, wie ein Fahrassistenzsystem zum automatisierten (teilautonomen oder autonomen) Fahren. Das Fahrassistenzsystem verwendet den robusten Feature-Deskriptor gemäß den in diesem Dokument beschriebenen Ausführungsformen zum Ausführen des automatisierten Fahrens.The vehicle preferably comprises a driver assistance system, such as a driver assistance system for automated (partially autonomous or autonomous) driving. The driver assistance system uses the robust feature descriptor according to the embodiments described in this document to carry out the automated driving.

Unter dem Begriff „automatisiertes Fahren“ kann im Rahmen des Dokuments ein Fahren mit automatisierter Längs- oder Querführung oder ein autonomes Fahren mit automatisierter Längs- und Querführung verstanden werden. Bei dem automatisierten Fahren kann es sich beispielsweise um ein zeitlich längeres Fahren auf der Autobahn oder um ein zeitlich begrenztes Fahren im Rahmen des Einparkens oder Rangierens handeln. Der Begriff „automatisiertes Fahren“ umfasst ein automatisiertes Fahren mit einem beliebigen Automatisierungsgrad. Beispielhafte Automatisierungsgrade sind ein assistiertes, teilautomatisiertes, hochautomatisiertes oder vollautomatisiertes Fahren. Diese Automatisierungsgrade wurden von der Bundesanstalt für Straßenwesen (BASt) definiert (siehe BASt-Publikation „Forschung kompakt“, Ausgabe 11/2012).In the context of the document, the term “automated driving” can be understood to mean driving with automated longitudinal or lateral guidance or autonomous driving with automated longitudinal and lateral guidance. The automated driving can be, for example, driving on the motorway for a longer period of time or driving for a limited time as part of parking or maneuvering. The term “automated driving” includes automated driving with any degree of automation. Exemplary degrees of automation are assisted, partially automated, highly automated or fully automated driving. These degrees of automation were defined by the Federal Highway Research Institute (BASt) (see BASt publication “Research compact”, edition 11/2012).

Beim assistierten Fahren führt der Fahrer dauerhaft die Längs- oder Querführung aus, während das System die jeweils andere Funktion in gewissen Grenzen übernimmt. Beim teilautomatisierten Fahren (TAF) übernimmt das System die Längs- und Querführung für einen gewissen Zeitraum und/oder in spezifischen Situationen, wobei der Fahrer das System wie beim assistierten Fahren dauerhaft überwachen muss. Beim hochautomatisierten Fahren (HAF) übernimmt das System die Längs- und Querführung für einen gewissen Zeitraum, ohne dass der Fahrer das System dauerhaft überwachen muss; der Fahrer muss aber in einer gewissen Zeit in der Lage sein, die Fahrzeugführung zu übernehmen. Beim vollautomatisierten Fahren (VAF) kann das System für einen spezifischen Anwendungsfall das Fahren in allen Situationen automatisch bewältigen; für diesen Anwendungsfall ist kein Fahrer mehr erforderlich.With assisted driving, the driver continuously performs the longitudinal or lateral guidance, while the system takes on the other function within certain limits. With partially automated driving (TAF), the system takes over the longitudinal and lateral guidance for a certain period of time and / or in specific situations, whereby the driver has to constantly monitor the system as with assisted driving. With highly automated driving (HAF), the system takes over the longitudinal and lateral guidance for a certain period of time without the driver having to permanently monitor the system; however, the driver must be able to take control of the vehicle within a certain period of time. With fully automated driving (VAF), the system can automatically cope with driving in all situations for a specific application; a driver is no longer required for this application.

Die vorstehend genannten vier Automatisierungsgrade entsprechen den SAE-Level 1 bis 4 der Norm SAE J3016 (SAE - Society of Automotive Engineering). Beispielsweise entspricht das hochautomatisierte Fahren (HAF) Level 3 der Norm SAE J3016. Ferner ist in der SAE J3016 noch der SAE-Level 5 als höchster Automatisierungsgrad vorgesehen, der in der Definition der BASt nicht enthalten ist. Der SAE-Level 5 entspricht einem fahrerlosen Fahren, bei dem das System während der ganzen Fahrt alle Situationen wie ein menschlicher Fahrer automatisch bewältigen kann; ein Fahrer ist generell nicht mehr erforderlich.The four degrees of automation mentioned above correspond to SAE levels 1 to 4 of the SAE J3016 standard (SAE - Society of Automotive Engineering). For example, highly automated driving (HAF) Level 3 corresponds to the SAE J3016 standard. Furthermore, SAE level 5 is still in the SAE J3016 as highest degree of automation provided, which is not included in the definition of the BASt. SAE level 5 corresponds to driverless driving, in which the system can automatically cope with all situations like a human driver during the entire journey; a driver is generally no longer required.

FigurenlisteFigure list

Ausführungsbeispiele der Offenbarung sind in den Figuren dargestellt und werden im Folgenden näher beschrieben. Es zeigen:

1 ein Flussdiagramm eines Verfahrens zum Erzeugen eines robusten Feature-Deskriptors gemäß Ausführungsformen der vorliegenden Offenbarung,
2 eine deepRGBXYZ-Architektur gemäß Ausführungsformen der vorliegenden Offenbarung,
3 ein Triplett-basiertes Netzwerk gemäß Ausführungsformen der vorliegenden Offenbarung, und
4 ein Fahrzeug mit einem Fahrassistenzsystem zum automatisierten Fahren gemäß den Ausführungsformen der vorliegenden Offenbarung.

Exemplary embodiments of the disclosure are shown in the figures and are described in more detail below. Show it:

1 a flowchart of a method for generating a robust feature descriptor according to embodiments of the present disclosure,
2 a deepRGBXYZ architecture in accordance with embodiments of the present disclosure,
3 a triplet-based network in accordance with embodiments of the present disclosure, and
4th a vehicle with a driver assistance system for automated driving according to the embodiments of the present disclosure.

Ausführungsformen der OffenbarungEmbodiments of the disclosure

Eine robuste Wahrnehmung einer Fahrzeugumgebung ist eine wesentliche Aufgabe für zuverlässige autonome Fahrfunktionen. Um dieses Ziel zu erreichen, müssen dynamische Veränderungen der Umgebung erfasst werden. Hierzu kann zum Beispiel die sogenannte dichte Szenenflussschätzung („dense scene flow estimation“) verwendet werden. Mit Hilfe der Szenenflussschätzung können eine 3D-Geometrie und das 3D-Bewegungsfeld berechnet werden, so dass eine umfassende Darstellung einer dynamischen Umgebung ermöglich wird. Der Szenenfluss kann zum Beispiel basierend auf dichten Pixelübereinstimmungen („dense pixel matching“) in Stereobildern berechnet werden. Damit kann in vielen Szenarien eine angemessene Qualität erreicht werden.A robust perception of a vehicle environment is an essential task for reliable autonomous driving functions. To achieve this goal, dynamic changes in the environment must be recorded. For example, the so-called dense scene flow estimation can be used for this purpose. With the help of the scene flow estimation, a 3D geometry and the 3D motion field can be calculated so that a comprehensive representation of a dynamic environment is made possible. The scene flow can, for example, be calculated based on dense pixel matching in stereo images. This means that adequate quality can be achieved in many scenarios.

Das pixelweise Matching bietet eine Basis für viele Aufgaben beim maschinellen Sehen (Computer Vision), wie z.B. bei der Bildabfrage, der Objekterkennung und der Flussschätzung. Insbesondere bei der Flussschätzung besteht eine Herausforderung in einer Ausrichtung von Szenen mit dynamischen Objekten. Hier spielen robuste lokale Feature-Deskriptoren eine wichtige Rolle, um durch einen Vergleich einer Entfernung von lokalen Deskriptoren (d.h. Feature-Maps) dichte, genaue Übereinstimmungen zu finden.Pixel-by-pixel matching provides a basis for many tasks in computer vision, such as image retrieval, object recognition and flow estimation. Particularly in the case of flow estimation, there is a challenge in aligning scenes with dynamic objects. Robust local feature descriptors play an important role here in order to find dense, accurate matches by comparing a distance from local descriptors (i.e. feature maps).

In den letzten Jahren wurden in vielen Anwendungen handgefertigte Deskriptoren verwendet, wie z.B. SIFT, DAISY und HOG. Zudem können durch tiefe neuronale Netze unverwechselbare und robuste Deskriptoren berechnet werden. Hier kann allerdings aufgrund eines bei der Berechnung der Deskriptoren verwendeten rezeptiven Felds eine Genauigkeit reduziert sein.In recent years, handcrafted descriptors have been used in many applications, such as SIFT, DAISY, and HOG. In addition, unmistakable and robust descriptors can be calculated through deep neural networks. Here, however, an accuracy can be reduced due to a receptive field used in the calculation of the descriptors.

Die vorliegende Offenbarung schlägt einen neuen Ansatz zum Bestimmen eines robusten Feature-Deskriptors vor, der eine im Vergleich zu den oben genannten Ansätzen verbesserte Genauigkeit beim Matching ermöglicht. Beim erfindungsgemäßen Ansatz werden ein zweidimensionales Bild (z.B. ein RGB-Bild) und Tiefeninformationen kombiniert, um einen CCN-basierten Feature-Deskriptor mit einem großen rezeptiven Feld zu bestimmen. Hierdurch kann insbesondere eine verbesserte Genauigkeit bei einem pixelweisen Matching für die Flussschätzung ermöglicht werden.The present disclosure proposes a new approach to determining a robust feature descriptor that enables improved accuracy in matching compared to the approaches mentioned above. In the inventive approach, a two-dimensional image (e.g., an RGB image) and depth information are combined to determine a CCN-based feature descriptor with a large receptive field. In this way, in particular, improved accuracy in the case of pixel-by-pixel matching for the flow estimation can be made possible.

1 zeigt ein Flussdiagramm eines Verfahrens 100 zum Erzeugen eines robusten Feature-Deskriptors gemäß Ausführungsformen der vorliegenden Offenbarung. Das Verfahren 100 kann durch eine entsprechende Software implementiert werden, die durch einen oder mehrere Prozessoren (z.B. eine CPU) ausführbar ist. 1 shows a flow diagram of a method 100 for generating a robust feature descriptor in accordance with embodiments of the present disclosure. The procedure 100 can be implemented by appropriate software that can be executed by one or more processors (e.g. a CPU).

Das Verfahren 100 umfasst im Block 110 ein Erfassen von zweidimensionalen Bilddaten durch ein erstes Sensorsystem; im Block 120 ein Erfassen von Tiefen-Messdaten durch das erste Sensorsystem oder ein zweites Sensorsystem; und im Block 130 ein Kombinieren der zweidimensionalen Bilddaten und der Tiefen-Messdaten, um einen (dichten) Feature-Deskriptor zu erzeugen.The procedure 100 includes in the block 110 acquiring two-dimensional image data by a first sensor system; in the block 120 acquisition of depth measurement data by the first sensor system or a second sensor system; and in the block 130 combining the two-dimensional image data and the depth measurement data to generate a (dense) feature descriptor.

Im Folgenden wird der erfindungsgemäße dichte Feature-Deskriptor anhand einer beispielhaften Ausführungsform im Detail erläutert.The dense feature descriptor according to the invention is explained in detail below using an exemplary embodiment.

Der erfindungsgemäße Ansatz basiert auf der Kombination von RGB-Bildern und Tiefeninformationen über den Bildbereich. Die 3D-Sensoren des zweiten Sensorsystems können eine Tiefenkarte zum Beispiel unter Verwendung von Musterprojektion, als Flugzeit oder als Punktwolke (LiDAR-Sensoren) „wahrnehmen“.The approach according to the invention is based on the combination of RGB images and depth information about the image area. The 3D sensors of the second sensor system can “perceive” a depth map, for example using pattern projection, as a flight time or as a point cloud (LiDAR sensors).

Im Falle der Erfassung der Bilddaten und der Tiefe durch zwei verschiedene Sensoren bzw. Sensorsysteme kann eine Synchronisation und eine Kalibrierung erforderlich sein. Zudem ist im Allgemeinen eine intrinsische Kalibrierung, z.B. die Hauptpunkte eines 2D-Bildsensors und eine Brennweite, bekannt. Dadurch ist die Ausrichtung und Projektion der Tiefeninformation in die Bildebene möglich.If the image data and the depth are recorded by two different sensors or sensor systems, a synchronization and a Calibration may be required. In addition, an intrinsic calibration, for example the main points of a 2D image sensor and a focal length, is generally known. This enables the depth information to be aligned and projected into the image plane.

Geometrische Darstellung und FusionsstrategieGeometric representation and fusion strategy

Eine geeignete Auswahl der geometrischen Darstellung der Tiefe ist eine Basis von Fusionsdesigns.A suitable selection of the geometric representation of the depth is a basis of fusion designs.

Eine beispielhafte geometrische Darstellung („HHA“) kodiert die Tiefe in drei Kanäle: horizontale Disparität, Höhe über dem Boden und den Winkel, den die lokale Oberflächennormale des Pixels mit der Gravitationsrichtung bildet. Die Schätzung der Gravitationsrichtung, der Oberflächennormale und des Bodens sind die Hauptkomponenten für eine hohe Qualität.An exemplary geometric representation (“HHA”) encodes the depth in three channels: horizontal disparity, height above the ground and the angle that the local surface normal of the pixel forms with the direction of gravity. The estimation of the direction of gravity, the surface normal and the ground are the main components for a high quality.

Andere beispielhafte Ansätze der geometrischen Darstellung arbeiten vollständig im 3D-Bereich unter Verwendung der Voxel-Darstellung, die ein starkes Potenzial bei der 3D-Objekterkennung aufweist.Other exemplary approaches to geometric representation work entirely in the 3D area using voxel representation, which has strong potential in 3D object recognition.

Unter Verwendung dieser Darstellungen kann ein tiefes Lernen durch Einbeziehung der kartesischen 3D-Position XYZ die Bildinformation ergänzen, um eine robuste Genauigkeit zu erzeugen. Das Lernen der kartesischen Koordinate in einem Pixel durch kanalweise Verkettung mit dem Bildtensor ermöglicht es dem Netzwerk, die Translationsinvarianz ganz oder teilweise zu lernen.Using these representations, deep learning by incorporating the 3D Cartesian position XYZ can supplement the image information to produce robust accuracy. Learning the Cartesian coordinate in a pixel through channel-wise concatenation with the image tensor enables the network to learn all or part of the translation invariance.

Die Ausführungsformen der vorliegenden Offenbarung folgen diesem Prinzip und verketten die Tiefe als kartesische 3D-Koordinaten mit dem RGB-Bild. Hierdurch wird eine Fusionsarchitektur bereitgestellt, wie sie beispielhaft in 2 dargestellt ist.The embodiments of the present disclosure follow this principle and concatenate the depth as 3D Cartesian coordinates with the RGB image. This provides a fusion architecture as exemplified in 2 is shown.

Die in 2 beispielhaft dargestellte Architektur („deepRGBXYZ-Architektur“) besteht aus 5 Schichten. Jede Schicht wendet 4 Faltungen mit Kernels (K) und Dilatationsraten (d) an. Die resultierende Feature-Karte ist mit 128 Kanälen dicht.In the 2 The architecture shown as an example (“deepRGBXYZ architecture”) consists of 5 layers. Each layer applies 4 folds with kernels (K) and dilatation rates (d). The resulting feature map is dense with 128 channels.

Netzwerk-Archi tekturNetwork architecture

CNN-basierte Lösungen führen zu einer höheren Genauigkeit im Vergleich zu handgefertigten Systemen.CNN-based solutions result in higher accuracy compared to handcrafted systems.

Viele der Netzwerke verwenden ein Vielfaches an Maximal-Pooling und Schrittfaltungen, um die räumliche Kohärenz der nächstgelegenen Pixel in den resultierenden Feature-Karten darzustellen. Sie arbeiten effizient für Bildklassifikationsaufgaben, aber sie reduzieren die räumliche Auflösung erheblich und erzeugen spärliche Feature-Karten.Many of the networks use multiples of maximal pooling and step convolution to represent the spatial coherence of the closest pixels in the resulting feature maps. They work efficiently for image classification tasks, but they significantly reduce spatial resolution and produce sparse feature maps.

Einige Architekturen folgen den resultierenden Feature-Karten durch bilineare Interpolation, um die volle Auflösung der Feature-Responses wiederherzustellen, und andere bieten dekonvolutionäre Schichten.Some architectures follow the resulting feature maps through bilinear interpolation to restore full resolution of the feature responses, and others provide deconvolutionary layers.

Die Verwendung von dilatierten oder Atrous-Faltungen ist eine bessere Wahl für die Beibehaltung der vollen Auflösung der Feature-Responses. Sie unterscheiden sich von den Standardarchitekturen durch wechselnde Dilatationsraten der Faltungskerne. Dieses Prinzip zeigt Potenzial für die semantische Segmentierung sowie für das Lernen von Deskriptoren. Bei beiden Ansätzen handelt es sich um Stapelschichten mit steigenden Dilatationsraten.Using dilated or atrous folds is a better choice for maintaining full resolution of feature responses. They differ from the standard architectures in the changing rates of expansion of the convolution cores. This principle shows potential for semantic segmentation as well as for learning descriptors. Both approaches are stacked layers with increasing dilation rates.

Dieser Aufbau wird gemäß einigen Ausführungsformen der vorliegenden Offenbarung zur Entwicklung einer Fusion verwendet, um die Unterscheidbarkeit der Feature-Karten so weit wie möglich zu verbessern und die Bildregionen, denen es an vielen Details in ihren rezeptiven Feldern mangelt, mit Tiefeninformationen zu unterstützen. Dabei wird gleichzeitig das rezeptive Feld für die als XYZ dargestellte 3D-Information vergrößert, und die Kontextinformationen der 2D-Patches werden mit 3D-Hinweisen unterstützt. Durch die frühe Fusion teilen sich die 2D- und 3D-Informationen dasselbe rezeptive Feld.This structure is used in accordance with some embodiments of the present disclosure to develop a fusion in order to improve the distinguishability of the feature maps as much as possible and to support the image regions that lack many details in their receptive fields with depth information. At the same time, the receptive field for the 3D information displayed as XYZ is enlarged, and the context information of the 2D patches is supported with 3D hints. Due to the early fusion, the 2D and 3D information share the same receptive field.

In einer beispielhaften Ausführungsform können 5 Schichten gestapelt werden, wobei jede 4 parallele Faltungen mit 5 × 5 Kernen und mit den Dilatationsraten 1, 2, 3 und 4 anwendet. Die Größe des rezeptiven Feldes beträgt 81 Pixel, wie in 2 dargestellt.In an exemplary embodiment, 5 layers can be stacked, each employing 4 parallel folds with 5 × 5 cores and at 1, 2, 3, and 4 dilation rates. The size of the receptive field is 81 pixels, as in 2 shown.

Trainingsdetails und VerlustfunktionTraining details and loss function

Beim Training des neuronalen Netzes kann ein Triplett-basiertes Netzwerk angewendet werden, wie in 3 dargestellt ist. Der Kern dieses Ansatzes kodiert die ähnlichen Feature-Karten so, dass sie näher als die unähnlichen sind. Zu diesem Zweck akzeptiert das deepRGBXYZ-Trainingsnetzwerk drei parallele Patches; Referenz-Patches, positive Patches und negative Patches (mit gemeinsamen Gewichten). Das Sampling der Bilder in Patches erfolgt derart, dass die Referenz-Patches und positiven Patches eine starke Ähnlichkeit aufweisen, während das negative Patch mit großem Abstand zum Referenz-Patch betrachtet wird.A triplet-based network can be used in training the neural network, as shown in FIG 3 is shown. The core of this approach encodes the similar feature cards to be closer than the dissimilar ones. For this purpose the deepRGBXYZ training network accepts three parallel patches; Reference patches, positive patches, and negative patches (with common weights). The images are sampled in patches in such a way that the reference patches and positive patches are very similar, while the negative patch is viewed from a large distance from the reference patch.

Somit werden die 3D-Informationen als Input für das Training verwendet. Es werden Datensätze ausgewählt, die Tiefendaten und eine Optical Flow Ground Truth (Optikfluss-Grundwahrheit) bieten, um die Bilder in die benötigten Patches zu konvertieren. Die Optical Flow Ground Truth erleichtert somit aus zweiter Sicht das Sampling des positiven Patches, das in erster Sicht stark mit dem Referenz-Patch korreliert ist. Das negative Patch wird ebenfalls aus der zweiten Sicht gewonnen, jedoch mit veränderter Verschiebung, die mit dem positiven Patch semi-korreliert sein kann.Thus, the 3D information is used as input for the training. Datasets are selected that provide depth data and an Optical Flow Ground Truth to convert the images into the patches needed. From a second perspective, the Optical Flow Ground Truth thus facilitates the sampling of the positive patch, which in the first instance is strongly correlated with the reference patch. The negative patch is also obtained from the second view, but with a changed shift, which can be semi-correlated with the positive patch.

Eine Verlustfunktion (z.B. Thresholded Hinge Embedding Loss Function) kann zum Training der oben genannten Patches verwendet werden. Die Verlustfunktion versucht unter Berücksichtigung eines minimalen und maximalen Schwellwertes, den L2-Abstand zwischen Referenz-Patch und positivem Patch zu minimieren und den L2-Abstand zwischen Referenz-Patch und negativem Patch zu erhöhen.A loss function (e.g. Thresholded Hinge Embedding Loss Function) can be used to train the above-mentioned patches. The loss function tries to minimize the L2 distance between the reference patch and the positive patch and to increase the L2 distance between the reference patch and the negative patch, taking into account a minimum and maximum threshold value.

4 zeigt ein Fahrzeug 10 mit einem Fahrassistenzsystem 400 zum automatisierten Fahren gemäß den Ausführungsformen der vorliegenden Offenbarung. 4th shows a vehicle 10 with a driver assistance system 400 for automated driving according to the embodiments of the present disclosure.

Beim automatisierten Fahren erfolgt die Längs- und Querführung des Fahrzeugs 10 automatisch. Das Fahrassistenzsystem 400 übernimmt also die Fahrzeugführung. Hierzu steuert das Fahrassistenzsystem 400 den Antrieb 20, das Getriebe 22, die Betriebsbremse 24 und die Lenkung 26 über nicht dargestellte Zwischeneinheiten.With automated driving, the vehicle is guided longitudinally and laterally 10 automatically. The driver assistance system 400 So takes over the vehicle guidance. The driver assistance system controls this 400 the drive 20th , The gear 22nd , the service brake 24 and the steering 26th via intermediate units, not shown.

Zur Planung und Durchführung des automatisierten Fahrens werden Umfeldinformationen einer Umfeldsensorik, die das Fahrzeugumfeld beobachtet, vom Fahrerassistenzsystem 400 entgegengenommen. Insbesondere kann das Fahrzeug wenigstens einen Umgebungssensor 12 umfassen, der zur Aufnahme von Umgebungsdaten, die das Fahrzeugumfeld angeben, eingerichtet ist. Der wenigstens eine Umgebungssensor 12 kann beispielsweise einen oder mehrere LiDAR-Systeme, ein oder mehrere Radar-Systeme und/oder eine oder mehrere Kameras umfassen.To plan and implement automated driving, information about the surroundings is provided by an environmental sensor system that monitors the surroundings of the vehicle from the driver assistance system 400 accepted. In particular, the vehicle can have at least one environment sensor 12th which is set up to record environmental data indicating the vehicle surroundings. The at least one environmental sensor 12th can for example comprise one or more LiDAR systems, one or more radar systems and / or one or more cameras.

Insbesondere kann das Fahrzeug 10 eine Kamera und ein LiDAR-System umfassen, deren Daten verwendet werden, um den Feature-Deskriptor gemäß den Ausführungsformen der vorliegenden Offenbarung zu bestimmen. Insbesondere können die Feature-Deskriptoren das dichte 3D-Bewegungsfeld einer Szene abschätzen, die sich ganz oder teilweise in Bezug zum Beispiel auf die Kamera bewegt. Damit kann eine zuverlässige Ansteuerung der automatisierten Fahrfunktion ermöglicht werden.In particular, the vehicle 10 a camera and a LiDAR system, the data of which is used to determine the feature descriptor in accordance with embodiments of the present disclosure. In particular, the feature descriptors can estimate the dense 3D motion field of a scene that is moving in whole or in part with respect to the camera, for example. Reliable control of the automated driving function can thus be made possible.

Obwohl die Erfindung im Detail durch bevorzugte Ausführungsbeispiele näher illustriert und erläutert wurde, so ist die Erfindung nicht durch die offenbarten Beispiele eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen. Es ist daher klar, dass eine Vielzahl von Variationsmöglichkeiten existiert. Es ist ebenfalls klar, dass beispielhaft genannte Ausführungsformen wirklich nur Beispiele darstellen, die nicht in irgendeiner Weise als Begrenzung etwa des Schutzbereichs, der Anwendungsmöglichkeiten oder der Konfiguration der Erfindung aufzufassen sind. Vielmehr versetzen die vorhergehende Beschreibung und die Figurenbeschreibung den Fachmann in die Lage, die beispielhaften Ausführungsformen konkret umzusetzen, wobei der Fachmann in Kenntnis des offenbarten Erfindungsgedankens vielfältige Änderungen beispielsweise hinsichtlich der Funktion oder der Anordnung einzelner, in einer beispielhaften Ausführungsform genannter Elemente vornehmen kann, ohne den Schutzbereich zu verlassen, der durch die Ansprüche und deren rechtliche Entsprechungen, wie etwa weitergehenden Erläuterungen in der Beschreibung, definiert wird.Although the invention has been illustrated and explained in more detail by preferred exemplary embodiments, the invention is not restricted by the disclosed examples and other variations can be derived therefrom by the person skilled in the art without departing from the scope of protection of the invention. It is therefore clear that there is a multitude of possible variations. It is also clear that embodiments cited by way of example really only represent examples that are not to be interpreted in any way as a limitation, for example, of the scope of protection, the possible applications or the configuration of the invention. Rather, the preceding description and the description of the figures enable the person skilled in the art to specifically implement the exemplary embodiments, whereby the person skilled in the art, with knowledge of the disclosed inventive concept, can make various changes, for example with regard to the function or the arrangement of individual elements mentioned in an exemplary embodiment, without the To leave the scope of protection that is defined by the claims and their legal equivalents, such as further explanations in the description.

Claims

A method (100) for generating a robust feature descriptor comprising: Capturing (110) two-dimensional image data by a first sensor system; Acquiring (120) depth measurement data by the first sensor system or a second sensor system; and Combining (130) the two-dimensional image data and the depth measurement data to generate a feature descriptor.

The method (100) according to Claim 1 wherein the method (100) uses a neural network, and in particular a convolutional neural network, CNN.

The method (100) according to Claim 2 , wherein the two-dimensional image data and the depth measurement data share the same receptive field.

The method (100) according to Claim 2 or 3 , further comprising: training the neural network using a triplet-based network, wherein similar feature cards are encoded so that they are closer than dissimilar feature cards.

The method (100) according to one of the Claims 1 until 4th , wherein combining (130) the two-dimensional image data and the depth measurement data comprises: concatenation of the depth as Cartesian 3D coordinates with an RGB image.

A driver assistance method for a vehicle, comprising: controlling a driving function for automated driving using the method (100) according to one of the Claims 1 until 5 generated robust feature descriptor.

Storage medium, comprising a software program which is set up to be executed on one or more processors, and to thereby use the method according to one of the Claims 1 until 6th to execute.

A system for generating a robust feature descriptor, comprising a processor unit which is arranged to: receive two-dimensional image data captured by a first sensor system; Receive depth measurement data acquired by the first sensor system or a second sensor system; and combine the two-dimensional image data and the depth measurement data to generate a feature descriptor.

Vehicle, in particular motor vehicle, comprising the system according to Claim 8 .

The vehicle after Claim 9 , further comprising the first sensor system and the second sensor system.