DE102020105701A1 - Method and system for generating a robust feature descriptor - Google Patents

Method and system for generating a robust feature descriptor Download PDF

Info

Publication number
DE102020105701A1
DE102020105701A1 DE102020105701.6A DE102020105701A DE102020105701A1 DE 102020105701 A1 DE102020105701 A1 DE 102020105701A1 DE 102020105701 A DE102020105701 A DE 102020105701A DE 102020105701 A1 DE102020105701 A1 DE 102020105701A1
Authority
DE
Germany
Prior art keywords
sensor system
feature descriptor
dimensional image
image data
measurement data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020105701.6A
Other languages
German (de)
Inventor
Ramy Battrawy
Oliver Wasenmüller
René Schuster
Qing Rao
Didier Stricker
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bayerische Motoren Werke AG
Original Assignee
Bayerische Motoren Werke AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bayerische Motoren Werke AG filed Critical Bayerische Motoren Werke AG
Publication of DE102020105701A1 publication Critical patent/DE102020105701A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Abstract

Die vorliegende Offenbarung betrifft ein Verfahren zum Erzeugen eines robusten Feature-Deskriptors, umfassend: Erfassen von zweidimensionalen Bilddaten durch ein erstes Sensorsystem; ein Erfassen von Tiefen-Messdaten durch das erste Sensorsystem oder ein zweites Sensorsystem; und ein Kombinieren der zweidimensionalen Bilddaten und der Tiefen-Messdaten, um einen Feature-Deskriptor zu erzeugen.The present disclosure relates to a method for generating a robust feature descriptor, comprising: acquiring two-dimensional image data by a first sensor system; acquisition of depth measurement data by the first sensor system or a second sensor system; and combining the two-dimensional image data and the depth measurement data to generate a feature descriptor.

Description

Die vorliegende Offenbarung betrifft ein Verfahren zum Erzeugen eines robusten Feature-Deskriptors, ein Fahrassistenzverfahren, ein Speichermedium zum Ausführen der Verfahren, ein System zum Erzeugen eines robusten Feature-Deskriptors und ein Fahrzeug mit dem System. Die vorliegende Offenbarung betrifft insbesondere ein Erfassen einer Dynamik in einem dreidimensionalen Umfeld zur Verwendung in Fahrassistenzsystemen zur Erhöhung einer Zuverlässigkeit und Sicherheit der Fahrassistenzsysteme, wie zum Beispiel Fahrassistenzsystemen zum (teil)autonomen Fahren.The present disclosure relates to a method for generating a robust feature descriptor, a driver assistance method, a storage medium for carrying out the method, a system for generating a robust feature descriptor and a vehicle with the system. The present disclosure relates in particular to the detection of dynamics in a three-dimensional environment for use in driver assistance systems to increase the reliability and safety of the driver assistance systems, such as, for example, driver assistance systems for (partially) autonomous driving.

Stand der TechnikState of the art

Die Entwicklung von Fahrassistenzfunktionen beispielsweise zum (teil-)autonom Fahren gewinnt stetig an Bedeutung. Um eine möglichst präzise Umgebungswahrnehmung für Fahrerassistenzsysteme zu ermöglichen können Sensormessungen von diversen Sensortypen, wie z.B. Kameras, LiDAR und Radaren verwendet werden. Jeder Sensortyp unterliegt anderen physikalischen Messprinzipien. Das Fahrzeugumfeld besteht in der Realität aus sehr vielen unterschiedlichen Objekten/Subjekten wie verschiedenen Fahrzeugtypen, Menschen und Tieren, statischen Objekten wie Mülltonnen, Verkehrsleitsystemen, natürlichen Objekten und Terrain. Da die Wahrnehmung all dieser Objekte/Subjekte jeweils auch abhängig von dem verwendeten Messprinzip ist, ist es schwierig, eine präzise Umgebungswahrnehmung sicherzustellen.The development of driver assistance functions, for example for (partially) autonomous driving, is becoming increasingly important. In order to enable driver assistance systems to perceive the environment as precisely as possible, sensor measurements from various sensor types, such as cameras, LiDAR and radars, can be used. Each type of sensor is subject to different physical measuring principles. In reality, the vehicle environment consists of many different objects / subjects such as different vehicle types, people and animals, static objects such as garbage cans, traffic control systems, natural objects and terrain. Since the perception of all these objects / subjects is also dependent on the measuring principle used, it is difficult to ensure a precise perception of the surroundings.

Offenbarung der ErfindungDisclosure of the invention

Es ist eine Aufgabe der vorliegenden Offenbarung ein Verfahren zum Erzeugen eines robusten Feature-Deskriptors, ein Fahrassistenzverfahren, ein Speichermedium zum Ausführen der Verfahren, ein System zum Erzeugen eines robusten Feature-Deskriptors und ein Fahrzeug mit dem Systemanzugeben, die eine Erzeugung eines robusten Feature-Deskriptors ermöglichen, um zum Beispiel eine Dynamik in einem Fahrzeugumfeld präzise modellieren können. Insbesondere ist es eine Aufgabe der vorliegenden Offenbarung, eine Zuverlässigkeit von Fahrassistenzsystemen durch eine Umfelderfassung zu erhöhen.It is an object of the present disclosure to indicate a method for generating a robust feature descriptor, a driver assistance method, a storage medium for carrying out the method, a system for generating a robust feature descriptor and a vehicle with the system that is capable of generating a robust feature. Descriptors enable, for example, to precisely model dynamics in a vehicle environment. In particular, it is an object of the present disclosure to increase the reliability of driver assistance systems by detecting the surroundings.

Diese Aufgaben werden durch den Gegenstand der unabhängigen Ansprüche gelöst. Vorteilhafte Ausgestaltungen sind in den Unteransprüchen angegeben.These objects are achieved by the subject matter of the independent claims. Advantageous refinements are given in the subclaims.

Gemäß einem unabhängigen Aspekt der vorliegenden Offenbarung ist ein Verfahren zum Erzeugen eines robusten Feature-Deskriptors angegeben. Das Verfahren umfasst ein Erfassen von zweidimensionalen Bilddaten durch ein erstes Sensorsystem; ein Erfassen von Tiefen-Messdaten durch das erste Sensorsystem oder ein zweites Sensorsystem; und ein Kombinieren der zwei-dimensionalen Bilddaten und der Tiefen-Messdaten, um basierend auf der Kombination einen Feature-Deskriptor zu erzeugen.According to an independent aspect of the present disclosure, a method for generating a robust feature descriptor is provided. The method comprises capturing two-dimensional image data by a first sensor system; acquisition of depth measurement data by the first sensor system or a second sensor system; and combining the two-dimensional image data and the depth measurement data to generate a feature descriptor based on the combination.

Das Erfassen von zweidimensionalen Bilddaten und das Erfassen von Tiefen-Messdaten kann entweder nacheinander oder gleichzeitig erfolgen.The acquisition of two-dimensional image data and the acquisition of depth measurement data can take place either one after the other or at the same time.

Erfindungsgemäß werden ein zweidimensionales Bild (z.B. ein RGB-Bild) und Tiefeninformationen kombiniert, um einen (z.B. CCN-basierten) Feature-Deskriptor zu bestimmen. Hierdurch kann insbesondere eine verbesserte Genauigkeit bei einem pixelweisen Matching für die Flussschätzung ermöglicht werden.According to the invention, a two-dimensional image (e.g. an RGB image) and depth information are combined in order to determine a (e.g. CCN-based) feature descriptor. In this way, in particular, improved accuracy in the case of pixel-by-pixel matching for the flow estimation can be made possible.

In einigen Ausführungsformen werden die zwei-dimensionalen Bilddaten und die Tiefen-Messdaten durch verschiedene Sensorsysteme erfasst, d.h. das erste Sensorsystem bzw. das zweite Sensorsystem. Alternativ umfasst das Verfahren ein gleichzeitiges Erfassen von Bild- und Tiefenmessdaten durch ein einziges Sensorsystem (z.B. RGB-D Kamera).In some embodiments, the two-dimensional image data and the depth measurement data are acquired by different sensor systems, i.e. the first sensor system and the second sensor system, respectively. Alternatively, the method includes the simultaneous acquisition of image and depth measurement data by a single sensor system (e.g. RGB-D camera).

Vorzugsweise verwendet das Verfahren ein neuronales Netz, und insbesondere ein Convolutional Neural Network, CNN. CNN-basierte Lösungen führen zu einer höheren Genauigkeit im Vergleich zu handgefertigten Systemen.The method preferably uses a neural network, and in particular a convolutional neural network, CNN. CNN-based solutions result in higher accuracy compared to handcrafted systems.

Vorzugsweise teilen sich die zweidimensionalen Bilddaten und die Tiefen-Messdaten dasselbe rezeptive Feld. Dies wird insbesondere durch die frühe Fusion der zweidimensionalen Bilddaten und der Tiefen-Messdaten ermöglicht.The two-dimensional image data and the depth measurement data preferably share the same receptive field. This is made possible in particular by the early fusion of the two-dimensional image data and the depth measurement data.

Vorzugsweise umfasst das Verfahren weiter ein Trainieren des neuronalen Netzes unter Verwendung eines Triplett-basierten Netzwerks, wobei korrespondierende Bildpunkte in den Feature-Karten so kodiert werden, dass sie im Abbildungs-Raum näher liegen als nichtkorrespondierende Bildpunkte.The method preferably further comprises training the neural network using a triplet-based network, with corresponding pixels in the feature maps being encoded in such a way that they are closer in the mapping space than non-corresponding pixels.

Vorzugsweise umfasst das Kombinieren der zweidimensionalen Bilddaten und der Tiefen-Messdaten ein Verketten der Tiefe als kartesische 3D-Koordinaten mit einem RGB-Bild.The combining of the two-dimensional image data and the depth measurement data preferably comprises a linking of the depth as Cartesian 3D coordinates with an RGB image.

Gemäß einem weiteren unabhängigen Aspekt der vorliegenden Offenbarung ist ein Fahrassistenzverfahren für ein Fahrzeug, insbesondere Kraftfahrzeug, angegeben. Das Fahrassistenzverfahren umfasst ein Ansteuern einer Fahrfunktion zum automatisierten Fahren unter Verwendung des mit dem oben beschriebenen Verfahren erzeugten robusten Feature-Deskriptors. Insbesondere können die Feature-Deskriptoren das dichte 3D-Bewegungsfeld einer Szene abschätzen, die sich ganz oder teilweise in Bezug zum Beispiel auf eine Kamera bewegt.According to a further independent aspect of the present disclosure, a driver assistance method for a vehicle, in particular a motor vehicle, is specified. The driver assistance method comprises activating a driving function for automated driving using the robust feature descriptor generated with the method described above. In particular, the Feature descriptors estimate the dense 3D field of motion of a scene that moves in whole or in part with respect to, for example, a camera.

Gemäß einem weiteren Aspekt wird ein Software (SW) Programm beschrieben. Das SW Programm kann eingerichtet werden, um auf einem oder mehreren Prozessoren ausgeführt zu werden, und um dadurch das in diesem Dokument beschriebene Verfahren zum Erzeugen eines robusten Feature-Deskriptors und/oder das Fahrassistenzverfahren für ein Fahrzeug auszuführen.According to a further aspect, a software (SW) program is described. The SW program can be set up to be executed on one or more processors, and thereby to execute the method described in this document for generating a robust feature descriptor and / or the driver assistance method for a vehicle.

Gemäß einem weiteren Aspekt wird ein Speichermedium beschrieben. Das Speichermedium kann ein SW Programm umfassen, welches eingerichtet ist, um auf einem oder mehreren Prozessoren ausgeführt zu werden, und um dadurch das in diesem Dokument beschriebene Verfahren zum Erzeugen eines robusten Feature-Deskriptors und/oder das Fahrassistenzverfahren für ein Fahrzeug auszuführen.According to a further aspect, a storage medium is described. The storage medium can comprise a SW program which is set up to be executed on one or more processors and thereby to execute the method described in this document for generating a robust feature descriptor and / or the driver assistance method for a vehicle.

Gemäß einem weiteren unabhängigen Aspekt der vorliegenden Offenbarung ist ein System zum Erzeugen eines robusten Feature-Deskriptors angegeben. Das System umfasst wenigstens eine Prozessoreinheit, die eingerichtet ist, um: zweidimensionale Bilddaten, die durch ein erstes Sensorsystem erfasst werden, zu empfangen; Tiefen-Messdaten, die durch das erste Sensorsystem oder ein zweites Sensorsystem erfasst werden, zu empfangen; und die zwei-dimensionalen Bilddaten und die Tiefen-Messdaten zu kombinieren, um basierend auf der Kombination einen Feature-Deskriptor zu erzeugen.According to a further independent aspect of the present disclosure, a system for generating a robust feature descriptor is provided. The system comprises at least one processor unit which is set up to: receive two-dimensional image data that are acquired by a first sensor system; Receive depth measurement data acquired by the first sensor system or a second sensor system; and combine the two-dimensional image data and the depth measurement data to generate a feature descriptor based on the combination.

Das System ist insbesondere eingerichtet, das in diesem Dokument beschriebene Verfahren zum Erzeugen eines robusten Feature-Deskriptors auszuführen.In particular, the system is set up to carry out the method described in this document for generating a robust feature descriptor.

Gemäß einem weiteren unabhängigen Aspekt der vorliegenden Offenbarung ist ein Fahrzeug, insbesondere ein Kraftfahrzeug, angegeben. Das Fahrzeug umfasst das System zum Erzeugen eines robusten Feature-Deskriptors gemäß den in diesem Dokument beschriebenen Ausführungsformen.According to a further independent aspect of the present disclosure, a vehicle, in particular a motor vehicle, is specified. The vehicle comprises the system for generating a robust feature descriptor according to the embodiments described in this document.

Der Begriff Fahrzeug umfasst PKW, LKW, Busse, Wohnmobile, Krafträder, etc., die der Beförderung von Personen, Gütern, etc. dienen. Insbesondere umfasst der Begriff Kraftfahrzeuge zur Personenbeförderung.The term vehicle includes cars, trucks, buses, mobile homes, motorcycles, etc., which are used to transport people, goods, etc. In particular, the term includes motor vehicles for passenger transport.

Vorzugsweise umfasst das Fahrzeug das erste Sensorsystem und das zweite Sensorsystem. Das erste Sensorsystem und das zweite Sensorsystem können verschiedene Sensorsysteme sein, d.h. das erste Sensorsystem und das zweite Sensorsystem können unterschiedliche Messprinzipien verwenden.The vehicle preferably comprises the first sensor system and the second sensor system. The first sensor system and the second sensor system can be different sensor systems, i.e. the first sensor system and the second sensor system can use different measuring principles.

Das erste Sensorsystem kann eine oder mehrere Kameras, und insbesondere Bildkameras, umfassen. Das zweite Sensorsystem kann einen oder mehrere 3D-Sensoren umfassen, wie zum Beispiel einen oder mehrere LiDAR-Sensoren.The first sensor system can include one or more cameras, and in particular image cameras. The second sensor system can include one or more 3D sensors, such as one or more LiDAR sensors.

Vorzugsweise umfasst das Fahrzeug ein Fahrassistenzsystem, wie ein Fahrassistenzsystem zum automatisierten (teilautonomen oder autonomen) Fahren. Das Fahrassistenzsystem verwendet den robusten Feature-Deskriptor gemäß den in diesem Dokument beschriebenen Ausführungsformen zum Ausführen des automatisierten Fahrens.The vehicle preferably comprises a driver assistance system, such as a driver assistance system for automated (partially autonomous or autonomous) driving. The driver assistance system uses the robust feature descriptor according to the embodiments described in this document to carry out the automated driving.

Unter dem Begriff „automatisiertes Fahren“ kann im Rahmen des Dokuments ein Fahren mit automatisierter Längs- oder Querführung oder ein autonomes Fahren mit automatisierter Längs- und Querführung verstanden werden. Bei dem automatisierten Fahren kann es sich beispielsweise um ein zeitlich längeres Fahren auf der Autobahn oder um ein zeitlich begrenztes Fahren im Rahmen des Einparkens oder Rangierens handeln. Der Begriff „automatisiertes Fahren“ umfasst ein automatisiertes Fahren mit einem beliebigen Automatisierungsgrad. Beispielhafte Automatisierungsgrade sind ein assistiertes, teilautomatisiertes, hochautomatisiertes oder vollautomatisiertes Fahren. Diese Automatisierungsgrade wurden von der Bundesanstalt für Straßenwesen (BASt) definiert (siehe BASt-Publikation „Forschung kompakt“, Ausgabe 11/2012).In the context of the document, the term “automated driving” can be understood to mean driving with automated longitudinal or lateral guidance or autonomous driving with automated longitudinal and lateral guidance. The automated driving can be, for example, driving on the motorway for a longer period of time or driving for a limited time as part of parking or maneuvering. The term “automated driving” includes automated driving with any degree of automation. Exemplary degrees of automation are assisted, partially automated, highly automated or fully automated driving. These degrees of automation were defined by the Federal Highway Research Institute (BASt) (see BASt publication “Research compact”, edition 11/2012).

Beim assistierten Fahren führt der Fahrer dauerhaft die Längs- oder Querführung aus, während das System die jeweils andere Funktion in gewissen Grenzen übernimmt. Beim teilautomatisierten Fahren (TAF) übernimmt das System die Längs- und Querführung für einen gewissen Zeitraum und/oder in spezifischen Situationen, wobei der Fahrer das System wie beim assistierten Fahren dauerhaft überwachen muss. Beim hochautomatisierten Fahren (HAF) übernimmt das System die Längs- und Querführung für einen gewissen Zeitraum, ohne dass der Fahrer das System dauerhaft überwachen muss; der Fahrer muss aber in einer gewissen Zeit in der Lage sein, die Fahrzeugführung zu übernehmen. Beim vollautomatisierten Fahren (VAF) kann das System für einen spezifischen Anwendungsfall das Fahren in allen Situationen automatisch bewältigen; für diesen Anwendungsfall ist kein Fahrer mehr erforderlich.With assisted driving, the driver continuously performs the longitudinal or lateral guidance, while the system takes on the other function within certain limits. With partially automated driving (TAF), the system takes over the longitudinal and lateral guidance for a certain period of time and / or in specific situations, whereby the driver has to constantly monitor the system as with assisted driving. With highly automated driving (HAF), the system takes over the longitudinal and lateral guidance for a certain period of time without the driver having to permanently monitor the system; however, the driver must be able to take control of the vehicle within a certain period of time. With fully automated driving (VAF), the system can automatically cope with driving in all situations for a specific application; a driver is no longer required for this application.

Die vorstehend genannten vier Automatisierungsgrade entsprechen den SAE-Level 1 bis 4 der Norm SAE J3016 (SAE - Society of Automotive Engineering). Beispielsweise entspricht das hochautomatisierte Fahren (HAF) Level 3 der Norm SAE J3016. Ferner ist in der SAE J3016 noch der SAE-Level 5 als höchster Automatisierungsgrad vorgesehen, der in der Definition der BASt nicht enthalten ist. Der SAE-Level 5 entspricht einem fahrerlosen Fahren, bei dem das System während der ganzen Fahrt alle Situationen wie ein menschlicher Fahrer automatisch bewältigen kann; ein Fahrer ist generell nicht mehr erforderlich.The four degrees of automation mentioned above correspond to SAE levels 1 to 4 of the SAE J3016 standard (SAE - Society of Automotive Engineering). For example, highly automated driving (HAF) Level 3 corresponds to the SAE J3016 standard. Furthermore, SAE level 5 is still in the SAE J3016 as highest degree of automation provided, which is not included in the definition of the BASt. SAE level 5 corresponds to driverless driving, in which the system can automatically cope with all situations like a human driver during the entire journey; a driver is generally no longer required.

FigurenlisteFigure list

Ausführungsbeispiele der Offenbarung sind in den Figuren dargestellt und werden im Folgenden näher beschrieben. Es zeigen:

  • 1 ein Flussdiagramm eines Verfahrens zum Erzeugen eines robusten Feature-Deskriptors gemäß Ausführungsformen der vorliegenden Offenbarung,
  • 2 eine deepRGBXYZ-Architektur gemäß Ausführungsformen der vorliegenden Offenbarung,
  • 3 ein Triplett-basiertes Netzwerk gemäß Ausführungsformen der vorliegenden Offenbarung, und
  • 4 ein Fahrzeug mit einem Fahrassistenzsystem zum automatisierten Fahren gemäß den Ausführungsformen der vorliegenden Offenbarung.
Exemplary embodiments of the disclosure are shown in the figures and are described in more detail below. Show it:
  • 1 a flowchart of a method for generating a robust feature descriptor according to embodiments of the present disclosure,
  • 2 a deepRGBXYZ architecture in accordance with embodiments of the present disclosure,
  • 3 a triplet-based network in accordance with embodiments of the present disclosure, and
  • 4th a vehicle with a driver assistance system for automated driving according to the embodiments of the present disclosure.

Ausführungsformen der OffenbarungEmbodiments of the disclosure

Eine robuste Wahrnehmung einer Fahrzeugumgebung ist eine wesentliche Aufgabe für zuverlässige autonome Fahrfunktionen. Um dieses Ziel zu erreichen, müssen dynamische Veränderungen der Umgebung erfasst werden. Hierzu kann zum Beispiel die sogenannte dichte Szenenflussschätzung („dense scene flow estimation“) verwendet werden. Mit Hilfe der Szenenflussschätzung können eine 3D-Geometrie und das 3D-Bewegungsfeld berechnet werden, so dass eine umfassende Darstellung einer dynamischen Umgebung ermöglich wird. Der Szenenfluss kann zum Beispiel basierend auf dichten Pixelübereinstimmungen („dense pixel matching“) in Stereobildern berechnet werden. Damit kann in vielen Szenarien eine angemessene Qualität erreicht werden.A robust perception of a vehicle environment is an essential task for reliable autonomous driving functions. To achieve this goal, dynamic changes in the environment must be recorded. For example, the so-called dense scene flow estimation can be used for this purpose. With the help of the scene flow estimation, a 3D geometry and the 3D motion field can be calculated so that a comprehensive representation of a dynamic environment is made possible. The scene flow can, for example, be calculated based on dense pixel matching in stereo images. This means that adequate quality can be achieved in many scenarios.

Das pixelweise Matching bietet eine Basis für viele Aufgaben beim maschinellen Sehen (Computer Vision), wie z.B. bei der Bildabfrage, der Objekterkennung und der Flussschätzung. Insbesondere bei der Flussschätzung besteht eine Herausforderung in einer Ausrichtung von Szenen mit dynamischen Objekten. Hier spielen robuste lokale Feature-Deskriptoren eine wichtige Rolle, um durch einen Vergleich einer Entfernung von lokalen Deskriptoren (d.h. Feature-Maps) dichte, genaue Übereinstimmungen zu finden.Pixel-by-pixel matching provides a basis for many tasks in computer vision, such as image retrieval, object recognition and flow estimation. Particularly in the case of flow estimation, there is a challenge in aligning scenes with dynamic objects. Robust local feature descriptors play an important role here in order to find dense, accurate matches by comparing a distance from local descriptors (i.e. feature maps).

In den letzten Jahren wurden in vielen Anwendungen handgefertigte Deskriptoren verwendet, wie z.B. SIFT, DAISY und HOG. Zudem können durch tiefe neuronale Netze unverwechselbare und robuste Deskriptoren berechnet werden. Hier kann allerdings aufgrund eines bei der Berechnung der Deskriptoren verwendeten rezeptiven Felds eine Genauigkeit reduziert sein.In recent years, handcrafted descriptors have been used in many applications, such as SIFT, DAISY, and HOG. In addition, unmistakable and robust descriptors can be calculated through deep neural networks. Here, however, an accuracy can be reduced due to a receptive field used in the calculation of the descriptors.

Die vorliegende Offenbarung schlägt einen neuen Ansatz zum Bestimmen eines robusten Feature-Deskriptors vor, der eine im Vergleich zu den oben genannten Ansätzen verbesserte Genauigkeit beim Matching ermöglicht. Beim erfindungsgemäßen Ansatz werden ein zweidimensionales Bild (z.B. ein RGB-Bild) und Tiefeninformationen kombiniert, um einen CCN-basierten Feature-Deskriptor mit einem großen rezeptiven Feld zu bestimmen. Hierdurch kann insbesondere eine verbesserte Genauigkeit bei einem pixelweisen Matching für die Flussschätzung ermöglicht werden.The present disclosure proposes a new approach to determining a robust feature descriptor that enables improved accuracy in matching compared to the approaches mentioned above. In the inventive approach, a two-dimensional image (e.g., an RGB image) and depth information are combined to determine a CCN-based feature descriptor with a large receptive field. In this way, in particular, improved accuracy in the case of pixel-by-pixel matching for the flow estimation can be made possible.

1 zeigt ein Flussdiagramm eines Verfahrens 100 zum Erzeugen eines robusten Feature-Deskriptors gemäß Ausführungsformen der vorliegenden Offenbarung. Das Verfahren 100 kann durch eine entsprechende Software implementiert werden, die durch einen oder mehrere Prozessoren (z.B. eine CPU) ausführbar ist. 1 shows a flow diagram of a method 100 for generating a robust feature descriptor in accordance with embodiments of the present disclosure. The procedure 100 can be implemented by appropriate software that can be executed by one or more processors (e.g. a CPU).

Das Verfahren 100 umfasst im Block 110 ein Erfassen von zweidimensionalen Bilddaten durch ein erstes Sensorsystem; im Block 120 ein Erfassen von Tiefen-Messdaten durch das erste Sensorsystem oder ein zweites Sensorsystem; und im Block 130 ein Kombinieren der zweidimensionalen Bilddaten und der Tiefen-Messdaten, um einen (dichten) Feature-Deskriptor zu erzeugen.The procedure 100 includes in the block 110 acquiring two-dimensional image data by a first sensor system; in the block 120 acquisition of depth measurement data by the first sensor system or a second sensor system; and in the block 130 combining the two-dimensional image data and the depth measurement data to generate a (dense) feature descriptor.

Das erste Sensorsystem kann eine oder mehrere Kameras, und insbesondere Bildkameras, umfassen. Das zweite Sensorsystem kann einen oder mehrere 3D-Sensoren umfassen, wie zum Beispiel einen oder mehrere LiDAR-Sensoren.The first sensor system can include one or more cameras, and in particular image cameras. The second sensor system can include one or more 3D sensors, such as one or more LiDAR sensors.

Im Folgenden wird der erfindungsgemäße dichte Feature-Deskriptor anhand einer beispielhaften Ausführungsform im Detail erläutert.The dense feature descriptor according to the invention is explained in detail below using an exemplary embodiment.

Der erfindungsgemäße Ansatz basiert auf der Kombination von RGB-Bildern und Tiefeninformationen über den Bildbereich. Die 3D-Sensoren des zweiten Sensorsystems können eine Tiefenkarte zum Beispiel unter Verwendung von Musterprojektion, als Flugzeit oder als Punktwolke (LiDAR-Sensoren) „wahrnehmen“.The approach according to the invention is based on the combination of RGB images and depth information about the image area. The 3D sensors of the second sensor system can “perceive” a depth map, for example using pattern projection, as a flight time or as a point cloud (LiDAR sensors).

Im Falle der Erfassung der Bilddaten und der Tiefe durch zwei verschiedene Sensoren bzw. Sensorsysteme kann eine Synchronisation und eine Kalibrierung erforderlich sein. Zudem ist im Allgemeinen eine intrinsische Kalibrierung, z.B. die Hauptpunkte eines 2D-Bildsensors und eine Brennweite, bekannt. Dadurch ist die Ausrichtung und Projektion der Tiefeninformation in die Bildebene möglich.If the image data and the depth are recorded by two different sensors or sensor systems, a synchronization and a Calibration may be required. In addition, an intrinsic calibration, for example the main points of a 2D image sensor and a focal length, is generally known. This enables the depth information to be aligned and projected into the image plane.

Geometrische Darstellung und FusionsstrategieGeometric representation and fusion strategy

Eine geeignete Auswahl der geometrischen Darstellung der Tiefe ist eine Basis von Fusionsdesigns.A suitable selection of the geometric representation of the depth is a basis of fusion designs.

Eine beispielhafte geometrische Darstellung („HHA“) kodiert die Tiefe in drei Kanäle: horizontale Disparität, Höhe über dem Boden und den Winkel, den die lokale Oberflächennormale des Pixels mit der Gravitationsrichtung bildet. Die Schätzung der Gravitationsrichtung, der Oberflächennormale und des Bodens sind die Hauptkomponenten für eine hohe Qualität.An exemplary geometric representation (“HHA”) encodes the depth in three channels: horizontal disparity, height above the ground and the angle that the local surface normal of the pixel forms with the direction of gravity. The estimation of the direction of gravity, the surface normal and the ground are the main components for a high quality.

Andere beispielhafte Ansätze der geometrischen Darstellung arbeiten vollständig im 3D-Bereich unter Verwendung der Voxel-Darstellung, die ein starkes Potenzial bei der 3D-Objekterkennung aufweist.Other exemplary approaches to geometric representation work entirely in the 3D area using voxel representation, which has strong potential in 3D object recognition.

Unter Verwendung dieser Darstellungen kann ein tiefes Lernen durch Einbeziehung der kartesischen 3D-Position XYZ die Bildinformation ergänzen, um eine robuste Genauigkeit zu erzeugen. Das Lernen der kartesischen Koordinate in einem Pixel durch kanalweise Verkettung mit dem Bildtensor ermöglicht es dem Netzwerk, die Translationsinvarianz ganz oder teilweise zu lernen.Using these representations, deep learning by incorporating the 3D Cartesian position XYZ can supplement the image information to produce robust accuracy. Learning the Cartesian coordinate in a pixel through channel-wise concatenation with the image tensor enables the network to learn all or part of the translation invariance.

Die Ausführungsformen der vorliegenden Offenbarung folgen diesem Prinzip und verketten die Tiefe als kartesische 3D-Koordinaten mit dem RGB-Bild. Hierdurch wird eine Fusionsarchitektur bereitgestellt, wie sie beispielhaft in 2 dargestellt ist.The embodiments of the present disclosure follow this principle and concatenate the depth as 3D Cartesian coordinates with the RGB image. This provides a fusion architecture as exemplified in 2 is shown.

Die in 2 beispielhaft dargestellte Architektur („deepRGBXYZ-Architektur“) besteht aus 5 Schichten. Jede Schicht wendet 4 Faltungen mit Kernels (K) und Dilatationsraten (d) an. Die resultierende Feature-Karte ist mit 128 Kanälen dicht.In the 2 The architecture shown as an example (“deepRGBXYZ architecture”) consists of 5 layers. Each layer applies 4 folds with kernels (K) and dilatation rates (d). The resulting feature map is dense with 128 channels.

Netzwerk-Archi tekturNetwork architecture

CNN-basierte Lösungen führen zu einer höheren Genauigkeit im Vergleich zu handgefertigten Systemen.CNN-based solutions result in higher accuracy compared to handcrafted systems.

Viele der Netzwerke verwenden ein Vielfaches an Maximal-Pooling und Schrittfaltungen, um die räumliche Kohärenz der nächstgelegenen Pixel in den resultierenden Feature-Karten darzustellen. Sie arbeiten effizient für Bildklassifikationsaufgaben, aber sie reduzieren die räumliche Auflösung erheblich und erzeugen spärliche Feature-Karten.Many of the networks use multiples of maximal pooling and step convolution to represent the spatial coherence of the closest pixels in the resulting feature maps. They work efficiently for image classification tasks, but they significantly reduce spatial resolution and produce sparse feature maps.

Einige Architekturen folgen den resultierenden Feature-Karten durch bilineare Interpolation, um die volle Auflösung der Feature-Responses wiederherzustellen, und andere bieten dekonvolutionäre Schichten.Some architectures follow the resulting feature maps through bilinear interpolation to restore full resolution of the feature responses, and others provide deconvolutionary layers.

Die Verwendung von dilatierten oder Atrous-Faltungen ist eine bessere Wahl für die Beibehaltung der vollen Auflösung der Feature-Responses. Sie unterscheiden sich von den Standardarchitekturen durch wechselnde Dilatationsraten der Faltungskerne. Dieses Prinzip zeigt Potenzial für die semantische Segmentierung sowie für das Lernen von Deskriptoren. Bei beiden Ansätzen handelt es sich um Stapelschichten mit steigenden Dilatationsraten.Using dilated or atrous folds is a better choice for maintaining full resolution of feature responses. They differ from the standard architectures in the changing rates of expansion of the convolution cores. This principle shows potential for semantic segmentation as well as for learning descriptors. Both approaches are stacked layers with increasing dilation rates.

Dieser Aufbau wird gemäß einigen Ausführungsformen der vorliegenden Offenbarung zur Entwicklung einer Fusion verwendet, um die Unterscheidbarkeit der Feature-Karten so weit wie möglich zu verbessern und die Bildregionen, denen es an vielen Details in ihren rezeptiven Feldern mangelt, mit Tiefeninformationen zu unterstützen. Dabei wird gleichzeitig das rezeptive Feld für die als XYZ dargestellte 3D-Information vergrößert, und die Kontextinformationen der 2D-Patches werden mit 3D-Hinweisen unterstützt. Durch die frühe Fusion teilen sich die 2D- und 3D-Informationen dasselbe rezeptive Feld.This structure is used in accordance with some embodiments of the present disclosure to develop a fusion in order to improve the distinguishability of the feature maps as much as possible and to support the image regions that lack many details in their receptive fields with depth information. At the same time, the receptive field for the 3D information displayed as XYZ is enlarged, and the context information of the 2D patches is supported with 3D hints. Due to the early fusion, the 2D and 3D information share the same receptive field.

In einer beispielhaften Ausführungsform können 5 Schichten gestapelt werden, wobei jede 4 parallele Faltungen mit 5 × 5 Kernen und mit den Dilatationsraten 1, 2, 3 und 4 anwendet. Die Größe des rezeptiven Feldes beträgt 81 Pixel, wie in 2 dargestellt.In an exemplary embodiment, 5 layers can be stacked, each employing 4 parallel folds with 5 × 5 cores and at 1, 2, 3, and 4 dilation rates. The size of the receptive field is 81 pixels, as in 2 shown.

Trainingsdetails und VerlustfunktionTraining details and loss function

Beim Training des neuronalen Netzes kann ein Triplett-basiertes Netzwerk angewendet werden, wie in 3 dargestellt ist. Der Kern dieses Ansatzes kodiert die ähnlichen Feature-Karten so, dass sie näher als die unähnlichen sind. Zu diesem Zweck akzeptiert das deepRGBXYZ-Trainingsnetzwerk drei parallele Patches; Referenz-Patches, positive Patches und negative Patches (mit gemeinsamen Gewichten). Das Sampling der Bilder in Patches erfolgt derart, dass die Referenz-Patches und positiven Patches eine starke Ähnlichkeit aufweisen, während das negative Patch mit großem Abstand zum Referenz-Patch betrachtet wird.A triplet-based network can be used in training the neural network, as shown in FIG 3 is shown. The core of this approach encodes the similar feature cards to be closer than the dissimilar ones. For this purpose the deepRGBXYZ training network accepts three parallel patches; Reference patches, positive patches, and negative patches (with common weights). The images are sampled in patches in such a way that the reference patches and positive patches are very similar, while the negative patch is viewed from a large distance from the reference patch.

Somit werden die 3D-Informationen als Input für das Training verwendet. Es werden Datensätze ausgewählt, die Tiefendaten und eine Optical Flow Ground Truth (Optikfluss-Grundwahrheit) bieten, um die Bilder in die benötigten Patches zu konvertieren. Die Optical Flow Ground Truth erleichtert somit aus zweiter Sicht das Sampling des positiven Patches, das in erster Sicht stark mit dem Referenz-Patch korreliert ist. Das negative Patch wird ebenfalls aus der zweiten Sicht gewonnen, jedoch mit veränderter Verschiebung, die mit dem positiven Patch semi-korreliert sein kann.Thus, the 3D information is used as input for the training. Datasets are selected that provide depth data and an Optical Flow Ground Truth to convert the images into the patches needed. From a second perspective, the Optical Flow Ground Truth thus facilitates the sampling of the positive patch, which in the first instance is strongly correlated with the reference patch. The negative patch is also obtained from the second view, but with a changed shift, which can be semi-correlated with the positive patch.

Eine Verlustfunktion (z.B. Thresholded Hinge Embedding Loss Function) kann zum Training der oben genannten Patches verwendet werden. Die Verlustfunktion versucht unter Berücksichtigung eines minimalen und maximalen Schwellwertes, den L2-Abstand zwischen Referenz-Patch und positivem Patch zu minimieren und den L2-Abstand zwischen Referenz-Patch und negativem Patch zu erhöhen.A loss function (e.g. Thresholded Hinge Embedding Loss Function) can be used to train the above-mentioned patches. The loss function tries to minimize the L2 distance between the reference patch and the positive patch and to increase the L2 distance between the reference patch and the negative patch, taking into account a minimum and maximum threshold value.

4 zeigt ein Fahrzeug 10 mit einem Fahrassistenzsystem 400 zum automatisierten Fahren gemäß den Ausführungsformen der vorliegenden Offenbarung. 4th shows a vehicle 10 with a driver assistance system 400 for automated driving according to the embodiments of the present disclosure.

Beim automatisierten Fahren erfolgt die Längs- und Querführung des Fahrzeugs 10 automatisch. Das Fahrassistenzsystem 400 übernimmt also die Fahrzeugführung. Hierzu steuert das Fahrassistenzsystem 400 den Antrieb 20, das Getriebe 22, die Betriebsbremse 24 und die Lenkung 26 über nicht dargestellte Zwischeneinheiten.With automated driving, the vehicle is guided longitudinally and laterally 10 automatically. The driver assistance system 400 So takes over the vehicle guidance. The driver assistance system controls this 400 the drive 20th , The gear 22nd , the service brake 24 and the steering 26th via intermediate units, not shown.

Zur Planung und Durchführung des automatisierten Fahrens werden Umfeldinformationen einer Umfeldsensorik, die das Fahrzeugumfeld beobachtet, vom Fahrerassistenzsystem 400 entgegengenommen. Insbesondere kann das Fahrzeug wenigstens einen Umgebungssensor 12 umfassen, der zur Aufnahme von Umgebungsdaten, die das Fahrzeugumfeld angeben, eingerichtet ist. Der wenigstens eine Umgebungssensor 12 kann beispielsweise einen oder mehrere LiDAR-Systeme, ein oder mehrere Radar-Systeme und/oder eine oder mehrere Kameras umfassen.To plan and implement automated driving, information about the surroundings is provided by an environmental sensor system that monitors the surroundings of the vehicle from the driver assistance system 400 accepted. In particular, the vehicle can have at least one environment sensor 12th which is set up to record environmental data indicating the vehicle surroundings. The at least one environmental sensor 12th can for example comprise one or more LiDAR systems, one or more radar systems and / or one or more cameras.

Insbesondere kann das Fahrzeug 10 eine Kamera und ein LiDAR-System umfassen, deren Daten verwendet werden, um den Feature-Deskriptor gemäß den Ausführungsformen der vorliegenden Offenbarung zu bestimmen. Insbesondere können die Feature-Deskriptoren das dichte 3D-Bewegungsfeld einer Szene abschätzen, die sich ganz oder teilweise in Bezug zum Beispiel auf die Kamera bewegt. Damit kann eine zuverlässige Ansteuerung der automatisierten Fahrfunktion ermöglicht werden.In particular, the vehicle 10 a camera and a LiDAR system, the data of which is used to determine the feature descriptor in accordance with embodiments of the present disclosure. In particular, the feature descriptors can estimate the dense 3D motion field of a scene that is moving in whole or in part with respect to the camera, for example. Reliable control of the automated driving function can thus be made possible.

Erfindungsgemäß werden ein zweidimensionales Bild (z.B. ein RGB-Bild) und Tiefeninformationen kombiniert, um einen (z.B. CCN-basierten) Feature-Deskriptor zu bestimmen. Hierdurch kann insbesondere eine verbesserte Genauigkeit bei einem pixelweisen Matching für die Flussschätzung ermöglicht werden.According to the invention, a two-dimensional image (e.g. an RGB image) and depth information are combined in order to determine a (e.g. CCN-based) feature descriptor. In this way, in particular, improved accuracy in the case of pixel-by-pixel matching for the flow estimation can be made possible.

Obwohl die Erfindung im Detail durch bevorzugte Ausführungsbeispiele näher illustriert und erläutert wurde, so ist die Erfindung nicht durch die offenbarten Beispiele eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen. Es ist daher klar, dass eine Vielzahl von Variationsmöglichkeiten existiert. Es ist ebenfalls klar, dass beispielhaft genannte Ausführungsformen wirklich nur Beispiele darstellen, die nicht in irgendeiner Weise als Begrenzung etwa des Schutzbereichs, der Anwendungsmöglichkeiten oder der Konfiguration der Erfindung aufzufassen sind. Vielmehr versetzen die vorhergehende Beschreibung und die Figurenbeschreibung den Fachmann in die Lage, die beispielhaften Ausführungsformen konkret umzusetzen, wobei der Fachmann in Kenntnis des offenbarten Erfindungsgedankens vielfältige Änderungen beispielsweise hinsichtlich der Funktion oder der Anordnung einzelner, in einer beispielhaften Ausführungsform genannter Elemente vornehmen kann, ohne den Schutzbereich zu verlassen, der durch die Ansprüche und deren rechtliche Entsprechungen, wie etwa weitergehenden Erläuterungen in der Beschreibung, definiert wird.Although the invention has been illustrated and explained in more detail by preferred exemplary embodiments, the invention is not restricted by the disclosed examples and other variations can be derived therefrom by the person skilled in the art without departing from the scope of protection of the invention. It is therefore clear that there is a multitude of possible variations. It is also clear that embodiments cited by way of example really only represent examples that are not to be interpreted in any way as a limitation, for example, of the scope of protection, the possible applications or the configuration of the invention. Rather, the preceding description and the description of the figures enable the person skilled in the art to specifically implement the exemplary embodiments, whereby the person skilled in the art, with knowledge of the disclosed inventive concept, can make various changes, for example with regard to the function or the arrangement of individual elements mentioned in an exemplary embodiment, without the To leave the scope of protection that is defined by the claims and their legal equivalents, such as further explanations in the description.

Claims (10)

Verfahren (100) zum Erzeugen eines robusten Feature-Deskriptors, umfassend: Erfassen (110) von zweidimensionalen Bilddaten durch ein erstes Sensorsystem; Erfassen (120) von Tiefen-Messdaten durch das erste Sensorsystem oder ein zweites Sensorsystem; und Kombinieren (130) der zwei-dimensionalen Bilddaten und der Tiefen-Messdaten, um einen Feature-Deskriptor zu erzeugen.A method (100) for generating a robust feature descriptor comprising: Capturing (110) two-dimensional image data by a first sensor system; Acquiring (120) depth measurement data by the first sensor system or a second sensor system; and Combining (130) the two-dimensional image data and the depth measurement data to generate a feature descriptor. Das Verfahren (100) nach Anspruch 1, wobei das Verfahren (100) ein neuronales Netz, und insbesondere ein Convolutional Neural Network, CNN, verwendet.The method (100) according to Claim 1 wherein the method (100) uses a neural network, and in particular a convolutional neural network, CNN. Das Verfahren (100) nach Anspruch 2, wobei die zweidimensionalen Bilddaten und die Tiefen-Messdaten dasselbe rezeptive Feld teilen.The method (100) according to Claim 2 , wherein the two-dimensional image data and the depth measurement data share the same receptive field. Das Verfahren (100) nach Anspruch 2 oder 3, weiter umfassend: Trainieren des neuronalen Netzes unter Verwendung eines Triplett-basierten Netzwerks, wobei ähnliche Feature-Karten so kodiert werden, dass sie näher liegen als unähnliche Feature-Karten.The method (100) according to Claim 2 or 3 , further comprising: training the neural network using a triplet-based network, wherein similar feature cards are encoded so that they are closer than dissimilar feature cards. Das Verfahren (100) nach einem der Ansprüche 1 bis 4, wobei das Kombinieren (130) der zweidimensionalen Bilddaten und der Tiefen-Messdaten umfasst: Verketten der Tiefe als kartesische 3D-Koordinaten mit einem RGB-Bild.The method (100) according to one of the Claims 1 until 4th , wherein combining (130) the two-dimensional image data and the depth measurement data comprises: concatenation of the depth as Cartesian 3D coordinates with an RGB image. Fahrassistenzverfahren für ein Fahrzeug, umfassend: Ansteuern einer Fahrfunktion zum automatisierten Fahren unter Verwendung des mit dem Verfahren (100) nach einem der Ansprüche 1 bis 5 erzeugten robusten Feature-Deskriptors.A driver assistance method for a vehicle, comprising: controlling a driving function for automated driving using the method (100) according to one of the Claims 1 until 5 generated robust feature descriptor. Speichermedium, umfassend ein Software Programm, welches eingerichtet ist, um auf einem oder mehreren Prozessoren ausgeführt zu werden, und um dadurch das Verfahren nach einem der Ansprüche 1 bis 6 auszuführen.Storage medium, comprising a software program which is set up to be executed on one or more processors, and to thereby use the method according to one of the Claims 1 until 6th to execute. System zum Erzeugen eines robusten Feature-Deskriptors, umfassend eine Prozessoreinheit, die eingerichtet ist, um: zweidimensionale Bilddaten, die durch ein erstes Sensorsystem erfasst werden, zu empfangen; Tiefen-Messdaten, die durch das erste Sensorsystem oder ein zweites Sensorsystem erfasst werden, zu empfangen; und die zweidimensionalen Bilddaten und die Tiefen-Messdaten zu kombinieren, um einen Feature-Deskriptor zu erzeugen.A system for generating a robust feature descriptor, comprising a processor unit which is arranged to: receive two-dimensional image data captured by a first sensor system; Receive depth measurement data acquired by the first sensor system or a second sensor system; and combine the two-dimensional image data and the depth measurement data to generate a feature descriptor. Fahrzeug, insbesondere Kraftfahrzeug, umfassend das System nach Anspruch 8.Vehicle, in particular motor vehicle, comprising the system according to Claim 8 . Das Fahrzeug nach Anspruch 9, weiter umfassend das erste Sensorsystem und das zweite Sensorsystem.The vehicle after Claim 9 , further comprising the first sensor system and the second sensor system.
DE102020105701.6A 2020-02-28 2020-03-03 Method and system for generating a robust feature descriptor Pending DE102020105701A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102020105301.0 2020-02-28
DE102020105301 2020-02-28

Publications (1)

Publication Number Publication Date
DE102020105701A1 true DE102020105701A1 (en) 2021-09-02

Family

ID=77271274

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020105701.6A Pending DE102020105701A1 (en) 2020-02-28 2020-03-03 Method and system for generating a robust feature descriptor

Country Status (1)

Country Link
DE (1) DE102020105701A1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190371052A1 (en) 2018-05-31 2019-12-05 Toyota Research Institute, Inc. Inferring locations of 3d objects in a spatial environment

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190371052A1 (en) 2018-05-31 2019-12-05 Toyota Research Institute, Inc. Inferring locations of 3d objects in a spatial environment

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIAO, W., et al.. Triplet-based deep similarity learning for person re-identification. In: Proceedings of the IEEE International Conference on Computer Vision Workshops. 2017. S. 385-393. doi: 10.1109/ICCVW.2017.52 (URL: https://openaccess.thecvf.com/content_ICCV_2017_workshops/papers/w6/Liao_Triplet-Based_Deep_Similarity_ICCV_2017_paper.pdf)
OUYANG, Z. [et al.]: Multiview CNN model for sensor fusion based vehicle detection. In: Proceedings / Advances in multimedia information processing PCM 2018 : 19th Pacific-Rim conference on multimedia, Hefei, China, September 21-22, 2018. Berlin, Cham : Springer, 2018 (Lecture notes in computer science ; 11166). S. 459-470. doi: 10.1007/978-3-030-00764-5_42

Similar Documents

Publication Publication Date Title
DE102016223422B4 (en) Method for automatically determining extrinsic parameters of a vehicle camera
EP3292510B1 (en) Method and apparatus for detecting and assessing road reflections
DE102014222617B4 (en) Vehicle detection method and vehicle detection system
DE102016122190A1 (en) Stixel estimation methods and systems
WO2015173092A1 (en) Method and apparatus for calibrating a camera system in a motor vehicle
DE102017103540A1 (en) Determine an angular position of a trailer without a target mark
DE102020116964A1 (en) VISUAL ODOMETRY FOR VEHICLE
DE102014114221A1 (en) Method for detecting an object in a surrounding area of a motor vehicle, driver assistance system and motor vehicle
DE102019132996A1 (en) Estimating a three-dimensional position of an object
DE102021129544A1 (en) SYSTEMS AND METHODS FOR DEPTH ESTIMATION IN A VEHICLE
WO2020048669A1 (en) Method for determining a lane change indication of a vehicle, computer-readable storage medium, and vehicle
DE102017201796A1 (en) Control device for determining a self-motion of a motor vehicle and motor vehicle and method for providing the control device
DE102020105701A1 (en) Method and system for generating a robust feature descriptor
DE102018132676A1 (en) Method for locating a vehicle in an environment
DE102014219418B4 (en) Process for the stereo rectification of stereo camera images and driver assistance system
DE102021123503A1 (en) Determination of an absolute initial position of a vehicle
DE102021101336A1 (en) Method for evaluating sensor data from a distance sensor, determination device, computer program and electronically readable data carrier
DE102020111471A1 (en) Method and system for image recognition for an automated vehicle
WO2021165129A1 (en) Method and device for generating combined scenarios
DE102019129101A1 (en) A method and system for estimating a bounding box that includes a target vehicle
WO2020119996A1 (en) Transfer of additional information between camera systems
DE102019201633A1 (en) Calibration of a sensor for a vehicle based on object-side and image-side identification indices of a reference object
DE102022112318B3 (en) Method for determining extent information of a target object, motor vehicle, computer program and electronically readable data carrier
DE102022213414A1 (en) VEHICLE, ELECTRONIC DEVICE AND CONTROL METHOD THEREOF
DE102022124085A1 (en) Display of image data in a vehicle depending on sensor data

Legal Events

Date Code Title Description
R163 Identified publications notified
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009620000

Ipc: G06V0030190000