DE102018132627A1

DE102018132627A1 - Method for capturing an environment of a motor vehicle by means of temporal fusion of images through an artificial neural network; Control unit, driver assistance system; Computer program product

Info

Publication number: DE102018132627A1
Application number: DE102018132627.0A
Authority: DE
Inventors: Ganesh Sistu; Senthil Kumar Yogamani
Original assignee: Connaught Electronics Ltd
Current assignee: Connaught Electronics Ltd
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2020-06-18

Abstract

Die Erfindung betrifft ein Verfahren zum Erfassen einer Umgebung (U) eines Kraftfahrzeugs (1). Um eine verbesserte Erkennung von Objekten (29) mittels semantischer Segmentierung zu ermöglichen, weist das Verfahren die folgenden Schritte auf:(i) Bereitstellen zumindest zweier Bilder (20) der Umgebung (U), wobei die zumindest zwei Bilder (20) mit einer selben Kamera (2) des Kraftfahrzeugs (1) zu unterschiedlichen Zeitenpunkten aufgenommen sind,(ii) getrenntes Extrahieren jeweiliger Bildmerkmale aus den zumindest zwei Bildern (20) durch zumindest einen Eingangsteil (4) eines künstlichen neuronalen Netzes (19), wobei die Bildmerkmale zumindest teilweise ein mittels der zumindest zwei Bilder (20) abgebildetes Objekt (29) in der Umgebung (U) in dem jeweiligen Bild (20) betreffen,(iii) Verknüpfen der getrennt extrahierten Bildmerkmale der zumindest zwei Bilder (20) zu verknüpften Bildmerkmalen durch eine Verknüpfungseinheit (5) des künstlichen neuronalen Netzes (19), und(iv) Erfassen des Objekts (29) in der Umgebung (U) durch gemeinsames Auswerten der verknüpften Bildmerkmale durch eine Auswerteeinheit (8) des künstlichen neuronalen Netzes (19).The invention relates to a method for detecting an environment (U) of a motor vehicle (1). In order to enable improved detection of objects (29) by means of semantic segmentation, the method has the following steps: (i) providing at least two images (20) of the environment (U), the at least two images (20) having the same one Camera (2) of the motor vehicle (1) are recorded at different times, (ii) separate extraction of respective image features from the at least two images (20) by at least one input part (4) of an artificial neural network (19), the image features at least partially relate an object (29) imaged in the environment (U) in the respective image (20) by means of the at least two images (20), (iii) linking the separately extracted image features of the at least two images (20) to linked image features by a linking unit (5) the artificial neural network (19), and (iv) detecting the object (29) in the environment (U) by jointly evaluating the linked image features by a e Evaluation unit (8) of the artificial neural network (19).

Description

Die Erfindung betrifft ein Verfahren zum Erfassen einer Umgebung eines Kraftfahrzeugs mittels eines künstlichen neuronalen Netzes. Weitere Aspekte der Erfindung betreffen eine Steuereinheit, ein Fahrerassistenzsystem und ein Computerprogrammprodukt.The invention relates to a method for detecting an environment of a motor vehicle by means of an artificial neural network. Further aspects of the invention relate to a control unit, a driver assistance system and a computer program product.

Fahrerassistenzsysteme benötigen für ihre Funktion häufig Informationen über eine Umgebung eines Kraftfahrzeugs. Beispiele für Fahrerassistenzsysteme sind Notbremsassistenten, Spurhalteassistenten und Systeme, die autonomes Fahren/Einparken ermöglichen. Beispielsweise können solche Informationen die Position von Objekten in der Umgebung des Kraftfahrzeugs betreffen. Beispiele für solche Objekte, deren Position für das Funktionieren des Fahrerassistenzsystems notwendig sein kann, sind Fahrbahnbegrenzungen, Bordsteine, Fahrbahnmarkierungen, andere Verkehrsteilnehmer (Fahrzeuge, Fußgänger, Radfahrer), parkende Fahrzeuge und/oder mögliche Kollisionspartner, mit denen das Kraftfahrzeug während einer Fahrt kollidieren könnte.Driver assistance systems often require information about an environment of a motor vehicle in order to function. Examples of driver assistance systems are emergency braking assistants, lane keeping assistants and systems that enable autonomous driving / parking. For example, such information can relate to the position of objects in the surroundings of the motor vehicle. Examples of such objects, the position of which may be necessary for the functioning of the driver assistance system, are lane boundaries, curbs, lane markings, other road users (vehicles, pedestrians, cyclists), parked vehicles and / or possible collision partners with whom the motor vehicle could collide during a journey .

Zum Erfassen von Objekten in der Umgebung sind beispielsweise Kamerasysteme bekannt, wobei ein solches Kamerasystem eine oder mehrere Kameras umfassen kann. Eine solche Kamera kann die Umgebung des Kraftfahrzeugs in Form von Bildern, insbesondere einem Videosignal, welches eine Folge an Einzelbildern (Frames) umfasst, erfassen. Aus diesen Bildern müssen die nötigen Informationen jedoch zunächst extrahiert werden. Zum Erkennen von Objekten ist beispielsweise eine sogenannte Segmentierung von Bildern bekannt. Dabei werden in dem Bild unterschiedliche Segmente erkannt und auf ihren Bedeutungsgehalt hin untersucht. Aus diesem Grund ist auch häufig von semantischer Segmentierung die Rede. Es werden somit unterschiedliche Bildbereiche erfasst und semantisch analysiert.For example, camera systems are known for capturing objects in the environment, and such a camera system can comprise one or more cameras. Such a camera can capture the surroundings of the motor vehicle in the form of images, in particular a video signal, which comprises a sequence of individual images (frames). However, the necessary information must first be extracted from these images. A so-called segmentation of images is known, for example, for recognizing objects. Different segments are recognized in the image and examined for their meaning. For this reason, semantic segmentation is often mentioned. Different image areas are thus captured and semantically analyzed.

Semantische Segmentierung kann beispielsweise mittels maschinellen Sehen erfolgen. Bei maschinellen Sehen werden üblicherweise klassische Werkzeuge der Bildbearbeitung herangezogen. Beispiele hierfür sind das Auswerten eines optischen Flusses (optical flow), das Erfassen von Gradienten oder sogenannte Hough-Transformation. Als vorteilhaft hat sich davon abweichend eine semantische Segmentierung mittels künstlicher neuronaler Netze erwiesen. Dabei wird ein künstliches neuronales Netz darauf angelernt, in einem Bild unterschiedliche Bereiche zu erfassen und semantisch zu analysieren. Im Rahmen eines Anlernvorgangs lernt das künstliche neuronale Netz hierbei selbstständig, welche Bildmerkmale hierfür von Interesse sind und welche Werkzeuge der Bildbearbeitung für die semantische Segmentierung zu nutzen sind. Ein solcher Anlernvorgang kann beispielsweise mittels bereits segmentierter Beispielbilder durchgeführt werden.Semantic segmentation can be done using machine vision, for example. Classic machine vision tools are usually used for machine vision. Examples of this are the evaluation of an optical flow, the detection of gradients or the so-called Hough transformation. Deviating from this, semantic segmentation using artificial neural networks has proven to be advantageous. An artificial neural network is learned to capture different areas in an image and to analyze them semantically. As part of a learning process, the artificial neural network independently learns which image features are of interest and which tools of image processing are to be used for semantic segmentation. Such a learning process can be carried out, for example, using already segmented example images.

Es ist Aufgabe der vorliegenden Erfindung, eine verbesserte Erkennung von Objekten mittels semantischer Segmentierung zu ermöglichen.The object of the present invention is to enable improved detection of objects by means of semantic segmentation.

Diese Aufgabe wird erfindungsgemäß gelöst durch die Gegenstände unabhängigen Patentansprüche. Vorteilhafte Ausführungsformen mit zweckmäßigen Weiterbildungen sind Gegenstand der Unteransprüche. Merkmale, die im Kontext des erfindungsgemäßen Verfahrens beschrieben sind, bilden analog auch die Steuereinheit, das Fahrerassistenzsystem, das Kraftfahrzeug sowie das Computerprogrammprodukt weiter und umgekehrt, auch wenn die Merkmale in deren Kontext aus Gründen der Knappheit nicht erneut offenbart sind.According to the invention, this object is achieved by the subject-matter-independent claims. Advantageous embodiments with appropriate further developments are the subject of the dependent claims. Features which are described in the context of the method according to the invention also analogously develop the control unit, the driver assistance system, the motor vehicle and the computer program product and vice versa, even if the features in their context are not disclosed again for reasons of scarcity.

Der erste Aspekt der Erfindung betrifft ein Verfahren zum Erfassen einer Umgebung eines Kraftfahrzeug, mit den Schritten:

(i) Bereitstellen zumindest zweier Bilder der Umgebung, wobei die zumindest zwei Bilder mit einer selben Kamera des Kraftfahrzeugs zu unterschiedlichen Zeitenpunkten aufgenommen sind,
(ii) getrenntes Extrahieren jeweiliger Bildmerkmale aus den zumindest zwei Bildern durch zumindest einen Eingangsteil eines künstlichen neuronalen Netzes, wobei die Bildmerkmale zumindest teilweise ein mittels der zumindest zwei Bilder abgebildetes Objekt in der Umgebung in dem jeweiligen Bild betreffen,
(iii) Verknüpfen der getrennt extrahierten Bildmerkmale der zumindest zwei Bilder zu verknüpften Bildmerkmalen durch eine Verknüpfungseinheit des künstlichen neuronalen Netzes, und
(iv) Erfassen des Objekts in der Umgebung durch gemeinsames Auswerten der verknüpften Bildmerkmale durch eine Auswerteeinheit des künstlichen neuronalen Netzes.

The first aspect of the invention relates to a method for detecting an environment of a motor vehicle, comprising the steps:

(i) providing at least two images of the surroundings, the at least two images being taken with the same camera of the motor vehicle at different times,
(ii) separate extraction of respective image features from the at least two images by at least one input part of an artificial neural network, the image features at least partially relating to an object in the surroundings in the respective image that is imaged by means of the at least two images,
(iii) linking the separately extracted image features of the at least two images to linked image features by a linking unit of the artificial neural network, and
(iv) Detecting the object in the environment by jointly evaluating the linked image features by an evaluation unit of the artificial neural network.

Eine wesentliche Idee der vorliegenden Erfindung beruht darauf, die Bildmerkmale aus den zumindest zwei zu unterschiedlichen Zeitpunkten aufgenommenen Bildern zu fusionieren. Dabei hat es sich als besonders vorteilhaft erwiesen, die Bildmerkmale durch den zumindest einen Eingangsteil des künstlichen neuronalen Netzes zunächst getrennt zu extrahieren und erst anschließend zu fusionieren. Mit anderen Worten werden die Bildmerkmale erst nach eingangsseitiger Aufbereitung durch das künstliche neuronale Netz verknüpft beziehungsweise funktioniert. Das Verknüpfen erfolgt bildlich gesprochen innerhalb des künstlichen neuronalen Netzes. Das künstliche neuronale Netz kann zumindest teilweise als faltendes neuronales Netz („convolutional neural network“, kurz CNN) und/oder rekurrentes neuronales Netz („recurrent neural network“, kurz RNN) ausgeführt sein. Es findet insbesondere eine Fusion statischer Bildmerkmale aus den einzelnen Bildern mit bewegten Bildmerkmalen beziehungsweise raumzeitlichen Bildmerkmalen aus der Veränderung zwischen den Bildern innerhalb des künstlichen neuronalen Netzes statt.An essential idea of the present invention is based on fusing the image features from the at least two images taken at different times. It has proven to be particularly advantageous to first separately extract the image features through the at least one input part of the artificial neural network and only then to fuse them. In other words, the image features are only linked or functioned after they have been processed on the input side by the artificial neural network. The linking takes place figuratively within the artificial neural network. The artificial neural network can at least partially be used as a folding neural network (“convolutional neural network ”, CNN for short) and / or recurrent neural network (“ RNN for short ”). In particular, there is a fusion of static image features from the individual images with moving image features or spatiotemporal image features from the change between the images within the artificial neural network.

Bei den zumindest zwei Bildern handelt es sich um unterschiedliche Bilder, welche mittels derselben Kamera des Kraftfahrzeugs aufgenommen sind beziehungsweise werden. Beispielsweise erfolgt das Bereitstellen der Bilder durch die entsprechende Kamera oder eine beliebige Schnittstelle eines Kamerasystems, welches die Kamera umfasst. Besonders vorteilhafterweise ist die Kamera dazu eingerichtet, entsprechende Bilder in Form einer Bildfolge, beispielsweise in Form eines Serienbildes oder eines Videosignals, bereitzustellen. Die zumindest zwei Bilder können somit unterschiedliche Einzelbilder (Frames) eines Videosignals sein.The at least two images are different images which are or are recorded using the same camera of the motor vehicle. For example, the images are provided by the corresponding camera or any interface of a camera system that includes the camera. Particularly advantageously, the camera is set up to provide corresponding images in the form of an image sequence, for example in the form of a series image or a video signal. The at least two pictures can thus be different individual pictures (frames) of a video signal.

Anschließend werden die zumindest zwei Bilder durch den zumindest einen Eingangsteil des künstlichen neuronalen Netzes bearbeitet. Hierbei werden aus den zumindest zwei Bildern die jeweiligen Bildmerkmale extrahiert. Bei dem Extrahieren der Bildmerkmale wird nicht zwangsläufig darauf geachtet, ob die Bildmerkmale das Objekt repräsentieren beziehungsweise betreffen oder nicht. Jedoch kann der zumindest eine Eingangsteil des künstlichen neuronales Netzes beim seinem Anlernvorgang darauf angelernt werden, im Wesentlichen solche Bildmerkmale zu extrahieren, welche für die zugrunde liegende Aufgabe, also vorliegend das Erfassen der Umgebung beziehungsweise das Erfassen von Objekten, von Relevanz sind. Dies erfolgt bei dem Anlernvorgang ganz automatisch anhand der gewählten Trainingsdaten. Die Trainingsdaten können beispielsweise eine Vielzahl an Bildern unterschiedlicher Objekte, welche im Normalbetrieb des künstlichen neuronalen Netzes dann erkannt werden sollen, umfassen.The at least two images are then processed by the at least one input part of the artificial neural network. The respective image features are extracted from the at least two images. When extracting the image features, no particular attention is paid to whether the image features represent or relate to the object or not. However, the at least one input part of the artificial neural network can be taught during its learning process to extract essentially those image features that are relevant to the underlying task, that is to say the detection of the surroundings or the detection of objects. This takes place automatically during the learning process based on the selected training data. The training data can include, for example, a large number of images of different objects which are then to be recognized during normal operation of the artificial neural network.

Bei dem zumindest einen Eingangsteil des künstlichen neuronalen Netzes handelt es sich vorzugsweise um einen sogenannten CNN-Encoder. Durch den Eingangsteil kann im Wesentlichen ein Falten des jeweiligen Bildes erfolgen. Dabei wird eine Matrix, die das jeweilige Bild definiert oder aus diesem abgeleitet ist, in mehrere kleinere Matrizen aufgeteilt. Dies erfolgt insbesondere in mehreren nacheinander folgenden Schritten. Die Matrix kann beispielsweise Höhe mal Breite mal Farbe einzelner (insbesondere aller) Pixel des jeweiligen Bildes angeben. Mit anderen Worten kann die Matrix als digitales Bild beziehungsweise digitale Repräsentation des jeweiligen Bildes aufgefasst werden. Das Falten kann beispielsweise durch sogenannte faltende Lagen („convolutional layer“) durchgeführt werden. Hierbei kann die Matrix mittels so genannter Filter analysiert werden. Durch einen solchen Filter kann aus der Ursprungsmatrix eine oder mehrere Ergebnismatrix/Ergebnismatrizen gebildet werden, deren Werte sich aus einem Teilbereich der Ursprungsmatrix und abhängig von einer Größe (Kernel-Size), einem Randverhalten (Padding) und einer Schrittweite des Filters. Alternativ oder zusätzlich kann der Eingangsteil des künstlichen neuronalen Netzes eine oder mehrere Aggregationslagen („pooling layer“) umfassen. Eine solche Aggregationslage kann die Werte mehrerer Matrixelemente zusammenfassen. Beispielsweise wird beim Zusammenfassen ein Durchschnittswert über die mehreren Matrixelemente gebildet („average pooling“) oder es wird ausschließlich der Maximalwert der mehreren Matrixelemente herangezogen („max pooling“). Insgesamt wird durch den zumindest einen Eingangsteil eine Auflösung der zumindest zwei Bilder beziehungsweise einer jeweiligen entsprechenden Matrix reduziert. Dies kann beispielhaft durch die vorstehend genannten Mechanismen oder durch andere Mechanismen erfolgen. Aufgrund des Lernvorgangs ist das künstliche neuronale Netz dazu in der Lage das Reduzieren der Auflösung auf eine Weise durchzuführen, dass für die zugrunde liegende Aufgabe, also vorliegend das Erfassen der Umgebung beziehungsweise das Erfassen von Objekten, relevante Bildmerkmale extrahiert werden. Erfindungswesentlich ist, das soll hier nochmals betont werden, unter anderem dass das Reduzieren der Auflösung, das Falten beziehungsweise das Extrahieren der Bildmerkmale für beide Bilder separat beziehungsweise getrennt erfolgt. Die Bildmerkmale können durch den Eingangsteil des künstlichen neuronalen Netzes in Form einer Vielzahl an Matrizen an einen anschließenden Teil des künstlichen neuronalen Netzes weitergegeben werden.The at least one input part of the artificial neural network is preferably a so-called CNN encoder. The input part can essentially fold the respective image. A matrix that defines or derives the respective image is divided into several smaller matrices. This is done in particular in several successive steps. The matrix can, for example, indicate height times width times color of individual (in particular all) pixels of the respective image. In other words, the matrix can be understood as a digital image or a digital representation of the respective image. Folding can, for example, be carried out using so-called convolutional layers. The matrix can be analyzed using a filter. With such a filter, one or more result matrix / result matrices can be formed from the original matrix, the values of which result from a partial area of the original matrix and depending on a size (kernel size), an edge behavior (padding) and a step size of the filter. Alternatively or additionally, the input part of the artificial neural network can comprise one or more aggregation layers (“pooling layer”). Such an aggregation position can summarize the values of several matrix elements. For example, when summarizing, an average value is formed over the several matrix elements ("average pooling") or only the maximum value of the several matrix elements is used ("max pooling"). Overall, the at least one input part reduces the resolution of the at least two images or a respective corresponding matrix. This can be done for example by the mechanisms mentioned above or by other mechanisms. On the basis of the learning process, the artificial neural network is able to reduce the resolution in such a way that image features relevant to the underlying task, that is to say the detection of the surroundings or the detection of objects, are extracted. It is essential to the invention, which is to be emphasized again here, among other things, that the reduction in resolution, the folding or the extraction of the image features for both images is carried out separately or separately. The image features can be passed on through the input part of the artificial neural network in the form of a large number of matrices to a subsequent part of the artificial neural network.

Vorliegend werden die Bildmerkmale durch den Eingangsteil an die Verknüpfungseinheit des künstlichen neuronalen Netzes weitergegeben. Die Bildmerkmale aus den zumindest zwei Bildern werden dann erst in einem nächsten Schritt miteinander verknüpft. Dies kann im Rahmen einer sogenannten Konkatenation erfolgen. Dabei werden beispielsweise die unterschiedlichen Matrizen, welche die Bildmerkmale bilden beziehungsweise beschreiben, hintereinander gereiht. Eine Auflösung der Repräsentation der zumindest zwei Bilder durch die Matrizen ändert sich hierbei insbesondere nicht, es nimmt stattdessen die Informationstiefe zu.In the present case, the image features are passed on through the input part to the linking unit of the artificial neural network. The image features from the at least two images are then only linked to one another in a next step. This can be done as part of a so-called concatenation. For example, the different matrices that form or describe the image features are arranged one after the other. A resolution of the representation of the at least two images by the matrices in particular does not change here, instead the depth of information increases.

Anschließend werden die verknüpften Bildmerkmale ausgewertet. Hierbei kann das künstliche neuronale Netz, insbesondere die Auswerteeinheit des künstlichen neuronalen Netzes, basierend auf dem durch den Anlernvorgang erworbenen Vorwissen, basierend auf den Bildmerkmalen der zumindest zwei Bilder eine semantische Auswertung des Bildinhalts durchführen. Alternativ oder zusätzlich zu der semantischen Auswertung kann eine Segmentierung des Bildinhalts erfolgen. Zusammengefasst können zwei zu unterschiedlichen Zeitpunkten aufgenommene Bilder zur semantischen Segmentierung ihres Bildinhalts genutzt werden. Ausgehend von einem ersten der zumindest zwei Bilder kann durch Hinzunahme weiterer Bilder (also des zumindest einen weiteren der zumindest zwei Bilder) eine verbesserte Erkennung beziehungsweise Erfassung des Objekts gewährleistet werden. Insbesondere stehen mehr Bildmerkmale zur zuverlässigen Objekterkennung beziehungsweise semantischen Segmentierung zur Verfügung. Durch eine Redundanz, die aufgrund unveränderter Bildbereiche zwischen den zumindest zwei Bildern zustande kommen kann, ergibt sich zusätzlich eine verbesserte Zuverlässigkeit.The linked image features are then evaluated. Here, the artificial neural network, in particular the evaluation unit of the artificial neural network, can perform a semantic evaluation based on the prior knowledge acquired through the learning process, based on the image features of the at least two images of the image content. As an alternative or in addition to the semantic evaluation, the image content can be segmented. In summary, two images taken at different times can be used for the semantic segmentation of their image content. On the basis of a first of the at least two images, an improved recognition or detection of the object can be ensured by adding further images (ie the at least one further of the at least two images). In particular, more image features are available for reliable object recognition or semantic segmentation. Redundancy, which can occur due to unchanged image areas between the at least two images, additionally results in improved reliability.

Selbstverständlich können zusätzlich zu den verknüpften Bildmerkmalen auch die einzelnen Bildmerkmale der zumindest zwei Bilder einzeln durch die Auswerteeinheit ausgewertet werden. Mit anderen Worten kann das Objekt sowohl anhand der verknüpften Bildmerkmale als auch anhand einzelner Bildmerkmale der zumindest zwei Bilder erfasst werden. Dabei werden durch die verknüpften Bildmerkmale insbesondere Merkmale betreffend den optischen Fluss beziehungsweise raumzeitliche Informationen bereitgestellt. Demgegenüber werden durch die einzelnen Bildmerkmale der einzelnen Bilder im Wesentlichen statische Merkmale, insbesondere betreffend das Erscheinungsbild des Objekts, bereitgestellt. Durch die Verknüpfung beider unterschiedlicher Arten an Merkmalen kann eine besonders hohe Erkennungsquote für das Objekt ermöglicht werden.Of course, in addition to the linked image features, the individual image features of the at least two images can also be evaluated individually by the evaluation unit. In other words, the object can be detected both on the basis of the linked image features and also on the basis of individual image features of the at least two images. The linked image features in particular provide features relating to the optical flow or spatiotemporal information. In contrast, the individual image features of the individual images provide essentially static features, in particular with regard to the appearance of the object. By combining the two different types of features, a particularly high recognition rate for the object can be made possible.

Gemäß einer Weiterbildung ist vorgesehen, dass das Erfassen von Objekten in der Umgebung zumindest teilweise durch einen gemeinsamen Decoder, der Teil der Auswerteeinheit ist, erfolgt. Bei dem Decoder kann es sich um einen CNN-Decoder handeln. Mit anderen Worten kann die Auswerteeinheit einen gemeinsamen Decoder beziehungsweise CNN-Decoder für verknüpften Bildmerkmale umfassen. Im Gegensatz zu einem Encoder-Decoder-Netzwerk, eine verbreitete Erscheinungsform eines künstlichen neuronalen Netzes, kann ein solcher gemeinsamer CNN-Decoder auf die Bildmerkmale zweier unterschiedlicher CNN-Encoder zurückgreifen. Auf diese Weise kann eine Zuverlässigkeit und eine Erkennungsgenauigkeit verbessert werden.According to a further development, it is provided that objects in the surroundings are at least partially carried out by a common decoder, which is part of the evaluation unit. The decoder can be a CNN decoder. In other words, the evaluation unit can comprise a common decoder or CNN decoder for linked image features. In contrast to an encoder-decoder network, a common form of an artificial neural network, such a common CNN decoder can use the image features of two different CNN encoders. In this way, reliability and recognition accuracy can be improved.

Gemäß einer Weiterbildung ist vorgesehen, dass das Erfassen von Objekten in der Umgebung zumindest teilweise basierend auf einer gemeinsamen Merkmalskarte („feature map“), die Teil der Auswerteeinheit ist, erfolgt. Die gemeinsame Merkmalskarte kann basierend auf den (verknüpften) Bildmerkmalen der zumindest zwei Bilder gebildet werden. Mit anderen Worten umfasst die gemeinsame Merkmalskarte Bildmerkmale mehrerer Bilder. Auf diese Weise kann die Aussagekraft einer solchen gemeinsamen Merkmalskarte verbessert werden.According to a further development, it is provided that objects in the environment are at least partially based on a common feature map, which is part of the evaluation unit. The common feature map can be formed based on the (linked) image features of the at least two images. In other words, the common feature map comprises image features of several images. In this way, the meaningfulness of such a common feature map can be improved.

Gemäß einer Weiterbildung ist vorgesehen, dass ein Ausgabewert des gemeinsamen Decoders und ein Ausgabewert der gemeinsamen Merkmalskarte als Basis zum Zusammenfassen („pooling“) von Regionen von Interesse („regions of interest“) genutzt werden. Mit anderen Worten wird eine jeweilige Ausgabe sowohl des gemeinsamen Decoder als auch der gemeinsamen Merkmalskarte zum Auswerten von Regionen von Interesse genutzt. Dabei basiert insbesondere sowohl die Ausgabe beziehungsweise der Ausgabewert der gemeinsamen Merkmalskarte als auch die Ausgabe beziehungsweise der Ausgabewert des gemeinsamen Decoder auf den Merkmalen beider (der zumindest zwei) Bilder. Auf diese Weise kann die Erkennungsgenauigkeit weiter verbessert werden.According to a further development, it is provided that an output value of the common decoder and an output value of the common feature card are used as the basis for pooling regions of interest. In other words, a respective output of both the common decoder and the common feature card is used to evaluate regions of interest. In particular, both the output or the output value of the common feature card and the output or the output value of the common decoder are based on the features of both (of the at least two) images. In this way, the accuracy of recognition can be further improved.

Gemäß einer Weiterbildung ist vorgesehen, dass das Verknüpfen der getrennt extrahierten Bildmerkmale mittels eines langen Kurzzeitgedächtnisses („long short-term memory“) erfolgt, in welchem die extrahierten Bildmerkmale temporär gespeichert werden. Ein solches langes Kurzzeitgedächtnis kann als Zwischenspeicher und/oder für das Verknüpfen der getrennt extrahierten Bildmerkmale genutzt werden. Ein solches langes Kurzzeitgedächtnis kann ebenfalls als lernfähiger Teil des künstlichen neuronalen Netzes ausgeführt sein. Beispielsweise wird die Funktionsweise des langen Kurzzeitgedächtnisses während des Anlernvorgangs an dem künstlichen neuronalen Netz Grunde liegende Aufgabe, also hier das Erfassen von Objekten beziehungsweise semantische Segmentieren von Bildern, angepasst. Hierdurch kann die Funktionsweise des künstlichen neuronalen Netzes weiter verbessert werden.According to a further development, the separately extracted image features are linked by means of a long short-term memory, in which the extracted image features are temporarily stored. Such a long short-term memory can be used as a buffer and / or for linking the separately extracted image features. Such a long short-term memory can also be designed as a part of the artificial neural network that is capable of learning. For example, the functioning of the long short-term memory during the teaching process is adapted to the task on which the artificial neural network is based, that is to say the detection of objects or semantic segmentation of images. In this way, the functionality of the artificial neural network can be further improved.

Gemäß einer Weiterbildung ist vorgesehen, dass das getrennte Extrahieren der jeweiligen Bildmerkmale aus den zumindest zwei Bildern nacheinander durch denselben Eingangsteil erfolgt. In diesem Fall ist das Zwischenspeichern der Bildmerkmale desjenigen der zumindest zwei Bilder, welches zuerst den Eingangsteil durchläuft, notwendig. Das Zwischenspeichern kann insbesondere mittels des oben genannten langen Kurzzeitgedächtnisses erfolgen. Insbesondere ist es vorteilhaft, wenn unterschiedliche Einzelbilder (Frames) eines Videosignals nacheinander denselben Eingangsteil als die zumindest zwei Bilder durchlaufen. Diesem Fall können die Einzelbilder beispielsweise mit einer Bereitstellungsfrequenz, mit welcher die Einzelbilder bereitgestellt werden, durch den gemeinsamen Eingangsteil geführt werden. In dem Zwischenspeicher werden jeweils die Bildmerkmale eines oder mehrerer vorheriger Einzelbilder zwischengespeichert. Anschließend können die zwischen gespeicherten Bildmerkmale des einen oder der mehreren vorherigen Einzelbilder mit den Bildmerkmalen des aktuellen Frames nach deren Extraktion durch den gemeinsamen Eingangsteil verknüpft werden. Außerdem können die Bildmerkmale des aktuellen Frames für eine anschließende Verknüpfung mit einem nächsten Frame in den Zwischenspeicher gespeichert werden. In diesem Fall steht dem gemeinsamen Eingangsteil eine besonders hohe Rechenleistung zur Verfügung, da die zur Verfügung stehende Rechenleistung nicht auf mehrere Eingangsteile aufgeteilt werden muss.According to a development, it is provided that the respective image features are extracted separately from the at least two images in succession through the same input part. In this case, the intermediate storage of the image features of the one of the at least two images which first passes through the input part is necessary. The buffering can take place in particular by means of the long-term memory mentioned above. In particular, it is advantageous if different individual frames of a video signal successively pass through the same input part as the at least two images. In this case, the individual images can, for example, be guided through the common input part at a supply frequency with which the individual images are provided. The image features of one or more previous individual images are temporarily stored in the buffer. Then the image characteristics saved between the one or more previous individual images are linked with the image features of the current frame after their extraction by the common input part. In addition, the image features of the current frame can be stored in the buffer for subsequent linking to a next frame. In this case, a particularly high computing power is available to the common input part, since the available computing power does not have to be divided over several input parts.

Gemäß Weiterbildung ist vorgesehen, dass das getrennte Extrahieren der jeweiligen Bildmerkmale aus den zumindest zwei Bildern parallel durch zumindest zwei separate Eingangsteile des künstlichen neuronalen Netzes erfolgt. Insbesondere ist für jedes Bild ein separater Eingangsteil vorgesehen. Beispielsweise werden drei unterschiedliche Bilder, insbesondere drei aufeinanderfolgende Frames, auf die erfindungsgemäße Weise gemeinsam ausgewertet. In diesem Beispiel werden zunächst die jeweiligen Bildmerkmale durch drei separate Eingangsteile unabhängig voneinander extrahiert und erst anschließend die Bildmerkmale miteinander verknüpft. Auf diese Weise können bewegt Bilder, insbesondere Videosignale, besonders dynamisch verarbeitet werden. Außerdem können die separaten Eingangsteile auf jeweilige Bildmerkmale spezifisch angelernt werden.According to a further development, it is provided that the respective image features are extracted separately from the at least two images in parallel by at least two separate input parts of the artificial neural network. In particular, a separate input part is provided for each image. For example, three different images, in particular three successive frames, are evaluated together in the manner according to the invention. In this example, the respective image features are first extracted independently of one another by three separate input parts, and only then are the image features linked to one another. In this way, moving images, in particular video signals, can be processed particularly dynamically. In addition, the separate input parts can be taught specifically for the respective image features.

Insbesondere ist vorgesehen, dass beim Erfassen des Objektes eine semantische Segmentierung erfolgt, bei welcher dem Objekt ein Bildsegment exklusiv zugewiesen wird. Insbesondere erfolgt eine semantische Segmentierung zumindest eines der zumindest zwei Bilder anhand der Bildmerkmale beider der zumindest zwei Bilder. Mit anderen Worten kann ein Bild (beispielsweise ein aktueller Frame eines Videosignals) basierend auf den Bildmerkmalen mehrerer Bilder (beispielsweise dem aktuellen Frames sowie vorherigen Frames des Videosignals) semantischen segmentierter werden. Im Rahmen der semantischen Segmentierung wird dem Objekt dabei insbesondere ein Bildsegment zugewiesen, welches genau einen Bildbereich umfasst, in dem das Objekt durch das jeweilige Bild repräsentiert ist. Die semantische Segmentierung des entsprechenden Bildsegments kann dabei vor oder nach dem Erfassen des Objekts erfolgen. Mit anderen Worten kann zunächst das Objekt anhand der Bildmerkmale erfasst und anschließend das Bildsegment entsprechend bestimmt werden. Alternativ kann das Objekt durch semantische Analyse des zuvor bestimmten Bildsegments erfasst werden.In particular, it is provided that a semantic segmentation takes place when the object is detected, in which an image segment is exclusively assigned to the object. In particular, semantic segmentation of at least one of the at least two images takes place on the basis of the image features of both of the at least two images. In other words, an image (for example a current frame of a video signal) can be semantically segmented based on the image features of a plurality of images (for example the current frame and previous frames of the video signal). In the context of semantic segmentation, the object is in particular assigned an image segment which comprises exactly one image area in which the object is represented by the respective image. The semantic segmentation of the corresponding image segment can take place before or after the detection of the object. In other words, the object can first be captured on the basis of the image features and then the image segment can be determined accordingly. Alternatively, the object can be captured by semantic analysis of the previously determined image segment.

Gemäß einer Weiterbildung ist vorgesehen, dass das künstliche neuronale Netz darauf angelernt wird, eine zeitliche Veränderung zwischen den zumindest zwei Bildern für das Erfassen von Objekten in der Umgebung zu nutzen. Mit anderen Worten wird durch das künstliche neuronale Netz ein zeitlicher Verlauf, der aus den zumindest zwei Bildern hervorgeht, für das Erfassen des Objekts beziehungsweise die semantische Segmentierung genutzt. Beispielsweise wird das künstliche neuronale Netz darauf angelernt, raumzeitliche Informationen aus den jeweiligen Bildmerkmalen der zumindest zwei Bilder abzuleiten und für das Erfassen des Objekts beziehungsweise die semantische Segmentierung zu nutzen. Ein Beispiel für eine solche raumzeitliche Information ist ein Ortsvektor in zeitlicher Projektion. Auf diese Weise kann die Erkennungsgenauigkeit verbessert werden.According to a further development, it is provided that the artificial neural network is taught to use a temporal change between the at least two images for the detection of objects in the environment. In other words, the artificial neural network uses a temporal course that emerges from the at least two images for the detection of the object or for the semantic segmentation. For example, the artificial neural network is taught to derive spatiotemporal information from the respective image features of the at least two images and to use it for capturing the object or for semantic segmentation. An example of such spatio-temporal information is a location vector in a temporal projection. In this way, the detection accuracy can be improved.

Gemäß einer Weiterbildung ist vorgesehen, dass das Objekt anhand deiner zeitlichen Veränderung über die zumindest zwei Bilder hinweg als bewegt oder statisch klassiert wird. Insbesondere können sowohl bewegte als auch statische Objekte anhand ihrer jeweiligen Bildmerkmale erfasst werden. Die Einteilung in eine Klasse der statischen oder bewegten Objekte erfolgt dann anhand der zeitlichen Veränderung über die zumindest zwei Bilder hinweg, insbesondere anhand der oben genannten raumzeitlichen Informationen.According to a further development, it is provided that the object is classified as moving or static based on your time change over the at least two images. In particular, both moving and static objects can be captured based on their respective image features. The division into a class of the static or moving objects then takes place on the basis of the temporal change over the at least two images, in particular on the basis of the spatio-temporal information mentioned above.

Gemäß einer Weiterbildung ist vorgesehen, dass die zumindest zwei Bilder jeweils Einzelbilder eines Videosignals sind und die Schritte (ii) bis (iv) wiederholt, insbesondere fortlaufend, mit unterschiedlichen Einzelbildern des Videosignals durchgeführt werden. Besonders vorteilhafterweise wird das Verfahren anhand der Einzelbilder des Videosignals kontinuierlich durchgeführt. Dabei werden die zumindest zwei Bilder bei jeder Wiederholung durch den aktuellen Frame des Videosignals und einen oder mehrere vorherige Frames gebildet. Beispielsweise ist der vorherige Frame genau der Frame, auf denen der aktuelle Frame direkt folgt. Auf diese Weise kann ein kontinuierliches Videosignal besonders vorteilhaft ausgewertet werden.According to a development, it is provided that the at least two images are each individual images of a video signal and steps (ii) to (iv) are repeated, in particular continuously, with different individual images of the video signal. The method is particularly advantageously carried out continuously on the basis of the individual images of the video signal. With each repetition, the at least two images are formed by the current frame of the video signal and one or more previous frames. For example, the previous frame is exactly the frame that the current frame follows directly. In this way, a continuous video signal can be evaluated particularly advantageously.

Gemäß einer Weiterbildung ist vorgesehen, dass die Bildmerkmale eines der zumindest zwei Bilder zunächst durch einen ersten der zumindest zwei separate Eingangsteile extrahiert werden und bei dem wiederholten Durchführen der Schritte (ii) bis (iv) die Bildmerkmale desselben Bildes durch einen zweiten der zumindest zwei separaten Eingangsteile extrahiert werden. Beispielsweise weist das künstliche neuronale Netz zwei separate Eingangsteile auf. Ein aktueller Frame n wird durch einen ersten der beiden separaten Eingangsteile und ein vorheriger Frame n-1 wird durch einen zweiten der beiden separaten Eingangsteile verarbeitet. Dieses Verarbeiten kann dem Extrahieren der jeweiligen Bildmerkmale entsprechen. Bei einer wiederholten Durchführung der Schritte (ii) bis (iv) kann nun ein neuer Frame n+1 durch den ersten der beiden separaten Eingangsteile verarbeitet werden und der vormals aktuelle Frame n, der nun einen vorherigen Frame darstellt, kann nun durch den zweiten der beiden separaten Eingangsteil verarbeitet werden. Mit anderen Worten kann jeder Frame des Videosignals zunächst durch den ersten und anschließend durch den zweiten der beiden separaten Eingangsteile verarbeitet werden. Dabei kann bei der anschließenden Verarbeitung durch den zweiten Eingangsteil wieder auf das Bild der ursprünglichen Form, wie es am Ende des Schrittes (i) vorliegt, als Ausgangssignal herangezogen werden. Mit anderen Worten baut die anschließende Verarbeitung des entsprechenden Frames durch den zweiten separaten Eingangsteil nicht auf die vorherige Verarbeitung des Frames durch den ersten Eingangsteil auf. Im Gegenteil ist es möglich, dass dieselben Bildmerkmale erneut extrahiert werden oder zumindest teilweise andere Bildmerkmale extrahiert werden, je nachdem, ob der erste Eingangsteil und der zweite Eingangsteil unterschiedlich angelernt sind.According to a further development, it is provided that the image features of one of the at least two images are first extracted by a first of the at least two separate input parts and, when steps (ii) to (iv) are repeated, the image features of the same image are extracted by a second of the at least two separate parts Input parts are extracted. For example, the artificial neural network has two separate input parts. A current frame n is processed by a first of the two separate input parts and a previous frame n-1 is processed by a second of the two separate input parts. This processing can correspond to the extraction of the respective image features. If steps (ii) to (iv) are repeated, a new frame n + 1 can now be carried out by the first of the two separate ones Input parts are processed and the previously current frame n, which now represents a previous frame, can now be processed by the second of the two separate input parts. In other words, each frame of the video signal can be processed first by the first and then by the second of the two separate input parts. In the subsequent processing by the second input part, the image of the original form, as is present at the end of step (i), can be used as the output signal. In other words, the subsequent processing of the corresponding frame by the second separate input part does not build on the previous processing of the frame by the first input part. On the contrary, it is possible that the same image features are extracted again or at least partially other image features are extracted, depending on whether the first input part and the second input part are learned differently.

Ein zweiter Aspekt der Erfindung betrifft eine Steuereinheit für ein Kraftfahrzeug umfassend ein künstliches neuronales Netz zum Erfassen einer Umgebung eines Kraftfahrzeug, mit:

- einer Bereitstellungseinheit zum Bereitstellen zumindest zweier Bilder der Umgebung, wobei die zumindest zwei Bilder mit einer selben Kamera des Kraftfahrzeugs zu unterschiedlichen Zeitpunkten aufgenommen sind,
- zumindest einem Eingangsteil des künstlichen neuronalen Netzes ausgebildet zum getrennten Extrahieren jeweiliger Bildmerkmale aus den zumindest zwei Bildern, wobei die Bildmerkmale zumindest teilweise ein mittels der zumindest zwei Bilder abgebildetes Objekt in der Umgebung in dem jeweiligen Bild betreffen,
- einer Verknüpfungseinheit des künstlichen neuronalen Netzes ausgebildet zum Verknüpfen der getrennt extrahierten Bildmerkmale der zumindest zwei Bilder zu verknüpften Bildmerkmale, und
- einer Erfassungseinheit ausgebildet zum Erfassen des Objekts in der Umgebung durch gemeinsames Auswerten der verknüpften Bildmerkmale.

A second aspect of the invention relates to a control unit for a motor vehicle comprising an artificial neural network for detecting an environment of a motor vehicle, with:

a provision unit for providing at least two images of the surroundings, the at least two images being taken with the same camera of the motor vehicle at different times,
at least one input part of the artificial neural network designed to separately extract respective image features from the at least two images, the image features at least partially relating to an object imaged in the environment in the respective image by means of the at least two images,
a linkage unit of the artificial neural network designed to link the separately extracted image features of the at least two images to linked image features, and
- A detection unit designed to detect the object in the environment by jointly evaluating the linked image features.

Insbesondere ist die Steuereinheit dazu eingerichtet, ein erfindungsgemäßes Verfahren zum Erfassen einer Umgebung eines Kraftfahrzeugs durchzuführen. Somit bilden Merkmale, die im Kontext des erfindungsgemäßen Verfahrens offenbart sind, auch die Steuereinheit weiter und umgekehrt. Bei der Bereitstellungseinheit kann es sich beispielsweise um einen Puffer der Steuereinheit handeln, in welchem die Bilder aus der Kamera empfangen werden und durch welchen die Bilder anschließend für die weitere Verarbeitung bereitgestellt werden.In particular, the control unit is set up to carry out a method according to the invention for detecting an environment of a motor vehicle. Features which are disclosed in the context of the method according to the invention thus also further develop the control unit and vice versa. The preparation unit can be, for example, a buffer of the control unit, in which the images are received from the camera and through which the images are then made available for further processing.

Fahrerassistenzsystem für ein Kraftfahrzeugs, mit

- mit einer Kamera zum Bereitstellen zumindest zweier zu unterschiedlichen Zeitenpunkten aufgenommener Bilder einer Umgebung der Kraftfahrzeugs, und
- der oben genannten Steuereinheit.

Driver assistance system for a motor vehicle, with

with a camera for providing at least two images of an environment of the motor vehicle, taken at different times, and
- the control unit mentioned above.

Die Kameras können zur bestimmungsgemäßen Anordnung an dem Kraftfahrzeug vorgesehen sein. Das Fahrerassistenzsystem kann dazu eingerichtet sein, ein erfindungsgemäßes Verfahren zum Erfassen einer Umgebung eines Kraftfahrzeugs durchzuführen. Somit bilden Merkmale, die im Kontext des erfindungsgemäßen Verfahrens offenbart sind, auch das Fahrerassistenzsystem weiter und umgekehrt.The cameras can be provided for the intended arrangement on the motor vehicle. The driver assistance system can be set up to carry out a method according to the invention for detecting an environment of a motor vehicle. Features that are disclosed in the context of the method according to the invention thus also further develop the driver assistance system and vice versa.

Ein weiterer Aspekt der Erfindung ist ein Kraftfahrzeug, welches das beschriebene Fahrerassistenzsystem umfasst. Die Kamera ist in einer vorgegebenen Position an dem Kraftfahrzeug angeordnet. Eine entsprechende Positionsvorgabe kann für das Erfassen von Objekten in der Umgebung des Kraftfahrzeugs bedeutsam sein und/oder genutzt werden. Das Kraftfahrzeug kann dazu eingerichtet sein, ein erfindungsgemäßes Verfahren zum Erfassen seiner Umgebung durchzuführen. Somit bilden Merkmale, die im Kontext des erfindungsgemäßen Verfahrens offenbart sind, auch das Kraftfahrzeug weiter und umgekehrt. Bei dem Kraftfahrzeug kann es sich beispielsweise einen Kraftwagen, insbesondere einen Personenkraftwagen oder einen Lastkraftwagen, handeln. Das Kraftfahrzeug kann beispielsweise einen Verbrennungsmotor und/oder einen elektrischen Antrieb aufweisen.Another aspect of the invention is a motor vehicle which comprises the driver assistance system described. The camera is arranged in a predetermined position on the motor vehicle. A corresponding position specification can be significant and / or used for the detection of objects in the surroundings of the motor vehicle. The motor vehicle can be set up to carry out a method according to the invention for detecting its surroundings. Features that are disclosed in the context of the method according to the invention thus also further develop the motor vehicle and vice versa. The motor vehicle can be, for example, a motor vehicle, in particular a passenger car or a truck. The motor vehicle can have, for example, an internal combustion engine and / or an electric drive.

Außerdem gehört zur Erfindung ein Computerprogrammprodukt mit Programmcodemitteln, welche in einem computerlesbaren Medium gespeichert sind, um das Verfahren zum Erfassen einer Umgebung eines Kraftfahrzeug durchzuführen, wenn das Computerprogrammprodukt auf einem Prozessor einer elektronischen Steuereinheit abgearbeitet wird. Bei der elektronischen Steuereinheit kann es sich um die oben beanspruchte Steuereinheit handeln.The invention also includes a computer program product with program code means which are stored in a computer-readable medium in order to carry out the method for detecting an environment of a motor vehicle when the computer program product is processed on a processor of an electronic control unit. The electronic control unit can be the control unit claimed above.

Dementsprechend umfasst die Erfindung auch ein computerlesbares Medium, insbesondere in Form einer computerlesbaren Diskette, CD, DVD, Speicherkarte, USB-Speichereinheit, oder ähnlichen, in dem Programmcodemittel gespeichert sind, um das Verfahren zum Erfassen einer Umgebung eines Kraftfahrzeug durchzuführen, wenn die Programmcodemittel in einen Speicher einer elektronischen Steuereinheit geladen und auf einem Prozessor der elektronischen Steuereinheit abgearbeitet werden. Bei dem Bei dem computerlesbaren Medium kann es sich einen flüchtigen (volatilen) oder einen nichtflüchtigen Speicher handeln. Ein solcher flüchtiger Speicher kann insbesondere durch einen Arbeitsspeicher eines Mikroprozessors gebildet sein.Accordingly, the invention also includes a computer-readable medium, in particular in the form of a computer-readable floppy disk, CD, DVD, memory card, USB memory unit or the like, in which program code means are stored in order to carry out the method for detecting an environment of a motor vehicle when the program code means in a memory of an electronic control unit loaded and on a processor electronic control unit are processed. The computer readable medium can be volatile or non-volatile memory. Such a volatile memory can in particular be formed by a working memory of a microprocessor.

Dabei zeigen:

1 ein Kraftfahrzeug in einer schematischen Vogelperspektive;
2 ein Blockschaltbild einer Architektur eines künstlichen neuronalen Netzes zur Durchführung eines Verfahrens zum Erfassen einer Umgebung eines Kraftfahrzeugs gemäß einer ersten Ausführungsform;
3 ein Blockschaltbild einer Architektur eines künstlichen neuronalen Netzes zur Durchführung eines Verfahrens zum Erfassen einer Umgebung eines Kraftfahrzeugs gemäß einer zweiten Ausführungsform;
4 ein Blockschaltbild einer Architektur eines künstlichen neuronalen Netzes zur Durchführung eines Verfahrens zum Erfassen einer Umgebung eines Kraftfahrzeugs gemäß einer dritten Ausführungsform; und
5 ein Blockschaltbild einer Architektur eines künstlichen neuronalen Netzes zur Durchführung eines Verfahrens zum Erfassen einer Umgebung eines Kraftfahrzeugs gemäß einer vierten Ausführungsform.

Show:

1 a motor vehicle in a schematic bird's eye view;
2nd a block diagram of an architecture of an artificial neural network for performing a method for detecting an environment of a motor vehicle according to a first embodiment;
3rd a block diagram of an architecture of an artificial neural network for performing a method for detecting an environment of a motor vehicle according to a second embodiment;
4th a block diagram of an architecture of an artificial neural network for performing a method for detecting an environment of a motor vehicle according to a third embodiment; and
5 a block diagram of an architecture of an artificial neural network for performing a method for detecting an environment of a motor vehicle according to a fourth embodiment.

1 zeigt ein Kraftfahrzeug 1 mit einer Kamera 2 sowie eine Steuereinheit 3. Durch die Kamera 2 und die Steuereinheit 3 ist ein Fahrerassistenzsystem bereitgestellt. Die Kamera 2 erfasst Bilder 20 einer Umgebung U des Kraftfahrzeugs 1. Beispielweise stellt die Kamera 2 die Bilder 20 in Form eines Videosignals bereit. Die Bilder 20 können somit jeweils Einzelbilder des Videosignals sein. Die Steuereinheit 3 ist dazu eingerichtet, anhand der Bilder 20 Objekte 29 in der Umgebung U des Kraftfahrzeugs zu erfassen. Hierfür umfasst die Steuereinheit 3 ein künstliches neuronales Netz 19, dessen Struktur im Folgenden näher erläutert wird. 1 shows a motor vehicle 1 with a camera 2nd as well as a control unit 3rd . Through the camera 2nd and the control unit 3rd a driver assistance system is provided. The camera 2nd captures images 20th an environment U of the motor vehicle 1 . For example, the camera poses 2nd the pictures 20th ready in the form of a video signal. The pictures 20th can thus be individual frames of the video signal. The control unit 3rd is set up based on the pictures 20th Objects 29 to detect in the area U of the motor vehicle. For this, the control unit includes 3rd an artificial neural network 19th , whose structure is explained in more detail below.

2 zeigt ein Blockschaltbild der Architektur des künstlichen neuronalen Netzes 19 gemäß einer ersten beispielhaften Ausführungsform. Die Bilder 20 werden einem jeweiligen Eingangsteil 4 des künstlichen neuronales Netzes 19 bereitgestellt. Durch die Eingangsteil 4 wird die Auflösung des jeweiligen Bildes 20, das durch den entsprechenden Eingangsteil 4 bearbeitet wird, verringert. Im Allgemeinen werden hierbei jeweilige Matrizen, welche die Bilder 20 repräsentieren, auf mehrere kleinere Matrizen aufgeteilt. Dabei wird eine jeweilige Auflösung der Bilder 20 in der Breite und der Höhe reduziert, aber in der Tiefe erhöht. Beispielsweise weisen die Bilder 20 eine jeweilige Auflösung von 224x224x3 auf, wobei 224x224 Höhe und Breite des entsprechenden Bildes 20 repräsentiert. Die Eingangsteile 4 können die jeweiligen Bilder 20 auf eine Auflösung von 7x7x256 bringen. Es wird somit die Auflösung in der Höhe und der Breite verringert, jedoch die Tiefe erhöht. Für die spätere Verknüpfung in einer nachfolgenden Verknüpfungseinheit 5 ist es vorteilhaft, wenn jedes der Bilder 20 durch den entsprechenden Eingangsteil auf dieselbe Auflösung gebracht wird. Durch diese Reduzierung der Auflösung werden die jeweiligen Bildmerkmale extrahiert, welche zumindest teilweise das Objekt 29, welches als Teil der jeweiligen Bilder 20 erfasst wird, betreffen. Durch einen zuvor durchgeführten Anlernvorgang wird das künstliche neuronale Netz darauf angelernt, das Filtern beziehungsweise das Reduzieren der Auflösung so durchzuführen, dass für die spezifische Aufgabe des künstlichen neuronalen Netz 19 möglichst aussagekräftige Bildmerkmale extrahiert werden. Die Bildmerkmale können somit im vorliegenden Beispiel den Matrizen, die durch das Filtern beziehungsweise Reduzieren der Auflösung erhalten werden, entsprechen. Im vorliegenden Beispiel können die Bildmerkmale somit durch einen jeweiligen Block an Matrizen mit der Auflösung 7x7x256 bereitgestellt werden. Ein solcher Block kann aus jedem der Bilder 20 extrahiert werden. 2nd shows a block diagram of the architecture of the artificial neural network 19th according to a first exemplary embodiment. The pictures 20th become a respective input part 4th of the artificial neural network 19th provided. Through the entrance part 4th becomes the resolution of each image 20th by the corresponding input part 4th processed, reduced. In general, the respective matrices that form the images 20th represent, divided into several smaller matrices. A respective resolution of the pictures 20th reduced in width and height, but increased in depth. For example, the pictures point 20th a respective resolution of 224x224x3, with 224x224 height and width of the corresponding image 20th represents. The input parts 4th can the respective pictures 20th bring to a resolution of 7x7x256. The resolution in height and width is thus reduced, but the depth is increased. For the later link in a subsequent link unit 5 it is beneficial if each of the pictures 20th is brought to the same resolution by the corresponding input part. By reducing the resolution, the respective image features are extracted, which at least partially the object 29 which as part of the respective pictures 20th is recorded. The artificial neural network is taught to carry out the filtering or reducing the resolution in such a way that the specific task of the artificial neural network is carried out by means of a previously carried out learning process 19th meaningful image features are extracted. In the present example, the image features can thus correspond to the matrices obtained by filtering or reducing the resolution. In the present example, the image features can thus be provided by a respective block of matrices with a resolution of 7x7x256. Such a block can be made from any of the pictures 20th be extracted.

Anschließend werden die Bildmerkmale der einzelnen Bilder in der nachfolgenden Verknüpfungseinheit 5 verknüpft. Dabei ist im vorliegenden Beispiel gemäß 2 eine einfache Konkatenation vorgesehen. Dabei können die Bildmerkmale beziehungsweise die entsprechenden Matrizen konkateniert werden, wobei diese beispielsweise blockweise hintereinander gehängt werden. Auf diese Weise ergeben sich aus den Bildmerkmalen der Bilder 20 beziehungsweise den jeweiligen Blöcken an Matrizen mit der Auflösung von 7x7x256 ein gemeinsamer Block an Bildmerkmalen beziehungsweise ein verknüpfter Block an Matrizen mit einer beispielhaften Auflösung von 7x7x768. Dies erfolgt vorliegend durch ein Konkatenationsglied 6. Im vorliegenden Beispiel umfasst die Verknüpfungseinheit 5 zusätzlich eine oder mehrere faltende Lagen („convolutional layer“). Hierbei ist vorteilhafterweise ein Kernel-Size von 1×1 vorgesehen, sodass die Auflösung der verknüpften Bildmerkmale beziehungsweise des verknüpften Blocks an Matrizen nicht weiter reduziert wird. In diesem Ausführungsbeispiel ist dies mittels eines convolutional layer mit dem Kernel-Size von 1x1 gelöst.Then the image features of the individual images in the subsequent linking unit 5 connected. In the present example, 2nd a simple concatenation is provided. The image features or the corresponding matrices can be concatenated, whereby these are hung one after the other in blocks. In this way, the image features of the images result 20th or the respective blocks of matrices with a resolution of 7x7x256, a common block of image features or a linked block of matrices with an exemplary resolution of 7x7x768. In the present case, this is done by a concatenation member 6 . In the present example, the linking unit comprises 5 additionally one or more folding layers ("convolutional layer"). In this case, a kernel size of 1 × 1 is advantageously provided, so that the resolution of the linked image features or the linked block of matrices is not further reduced. In this exemplary embodiment, this is solved by means of a convolutional layer with the kernel size of 1x1.

Anschließend werden die verknüpften Bildmerkmale gemeinsam durch eine Auswerteeinheit 8 ausgewertet. Gemäß dem Ausführungsbeispiel aus 2 weist die Auswerteeinheit 8 ausschließlich einen CNN-Decoder 9 auf. Durch den CNN-Decoder 9 werden die verknüpften Bildmerkmale, also vorliegend der verknüpfte Block an Matrizen mit der beispielhaften Auflösung von 7x7x768 ausgewertet. Dabei erkennt der CNN-Decoder 9 aufgrund seines Vorwissens das Objekt 29 anhand der verknüpften Bildmerkmale. Das Vorwissen erhält der CNN-Decoder 9 zuvor im Rahmen des Anlernvorgangs. Im Rahmen dessen wird das künstliche neuronale Netz 19 im gesamten anhand von Trainingsdaten auf seine spätere Aufgabe hin angelernt. Vorliegend besteht die Aufgabe in dem Erfassen beziehungsweise Erkennen von Objekten 29 beziehungsweise in der semantischen Segmentierung der Bilder 20. Ausgabe des CNN-Decoder 9 ist somit ein Ergebnis 21, in welchem das Objekt 29 erfasst ist, beziehungsweise ein Bildsegment in welchem das Objekt 29 semantisch segmentiert ist.Then the linked image features are shared by an evaluation unit 8th evaluated. According to the embodiment 2nd has the evaluation unit 8th only a CNN decoder 9 on. Through the CNN decoder 9 the linked image features, in the present case the linked block of matrices with the exemplary resolution of 7x7x768 evaluated. The CNN decoder recognizes 9 the object because of his previous knowledge 29 based on the linked image features. The CNN decoder receives the previous knowledge 9 previously as part of the training process. As part of this, the artificial neural network 19th learned on the basis of training data for his later task. In the present case, the task is to detect or recognize objects 29 or in the semantic segmentation of the images 20th . Output of the CNN decoder 9 is therefore a result 21st in which the object 29 is captured, or an image segment in which the object 29 is semantically segmented.

Die Trainingsdaten können beispielsweise beispielhafte Bilder umfassen, welche den Bildern 20 ähnlich sein können. Die beispielhaften Bilder können beispielhafte Verkehrssituationen des Kraftfahrzeugs 1 abbilden. Zusätzlich können die Trainingsdaten semantisch segmentierte Bilder beinhalten. Diese bereits segmentierten Bilder können aus den zuvor genannten beispielhaften Bildern abgeleitet sein. Beispielsweise können einige oder alle der beispielhaften Verkehrssituationen doppelt in den Trainingsdaten enthalten sein: Einmal als nicht-segmentiertes Bild und einmal als segmentiertes Bild. Auf diese Weise kann das künstliche neuronale Netz 19 und insbesondere der CNN-Decoder 9 den Zusammenhang zwischen Objekten 29 und den Bildmerkmalen lernen. Außerdem können die Eingangsteile 4 lernen, möglichst relevante Bildmerkmale aus den Bildern 20 zu extrahieren.The training data can, for example, include exemplary images that correspond to the images 20th can be similar. The exemplary images can represent exemplary traffic situations of the motor vehicle 1 depict. In addition, the training data can include semantically segmented images. These already segmented images can be derived from the aforementioned example images. For example, some or all of the exemplary traffic situations can be contained twice in the training data: once as a non-segmented image and once as a segmented image. In this way, the artificial neural network 19th and especially the CNN decoder 9 the relationship between objects 29 and learn the image features. In addition, the input parts 4th learn the most relevant image features from the images 20th to extract.

Bei dem Anlernvorgang können beispielsweise zunächst die Eingangsteile 4 jeweils separat mittels einer Einzelbild Verlustfunktion („single frame loss function“) trainiert werden. Anschließend können die Ausgaben (also die Bildmerkmale) unterschiedlicher Eingangsteile 4 untereinander gewichtet werden. Dabei werden optimale Gewichtungsfaktoren gelernt. Anschließend wird eine verknüpfte gewichtete Verlustfunktion formuliert um die Auswerteeinheit 8, insbesondere den CNN-Decoder 9, sowohl anhand der Ausgaben der unterschiedlichen Eingangsteile 4 (die jeweiligen Bildmerkmale der Bilder 20) sowie anhand der fusionierten Ausgabe der Eingangsteile 4 (die verknüpften Bildmerkmale der Bilder 20) anzulernen.In the teaching process, for example, the input parts can first of all 4th are trained separately using a single frame loss function. Then the outputs (i.e. the image features) of different input parts 4th be weighted among each other. Optimal weighting factors are learned. A linked weighted loss function is then formulated around the evaluation unit 8th , especially the CNN decoder 9 , both based on the expenditure of the different input parts 4th (the respective image characteristics of the images 20th ) and based on the merged edition of the input parts 4th (the linked image characteristics of the images 20th ) to learn.

Gemäß 3 wird die Architektur aus dem zuvor beschriebenen Ausführungsbeispiel erweitert. Parallel zu dem CNN-Decoder 9 umfasst die Auswerteeinheit 8 eine oder mehrere sogenannte Merkmalskarten 10 („feature maps“). Die Merkmalskarten 10 werden dabei gemeinsam aus den Bildmerkmalen aller Bilder 20 gebildet. Zusätzlich zeigt 3 einen Rahmengenerator 11 („bounding box generator“), welcher einen Rahmen (sogenannte „bounding boxes“) um die Repräsentation des Objekts 29 in den Bildern 20 generiert. Als Ergebnis gibt der Rahmengenerator 11 ein Ergebnis 22 aus, in welchem das Objekt 29 erfasst und mit einem Rahmen versehen ist.According to 3rd the architecture is expanded from the previously described embodiment. In parallel to the CNN decoder 9 includes the evaluation unit 8th one or more so-called feature cards 10th ("Feature maps"). The feature cards 10th are combined from the image features of all images 20th educated. Additionally shows 3rd a frame generator 11 ("Bounding box generator"), which is a frame (so-called "bounding boxes") around the representation of the object 29 in the pictures 20th generated. As a result, the frame generator gives 11 a result 22 from in which the object 29 is recorded and provided with a frame.

In einem weiteren Schritt erfolgt ein Zusammenfassen („pooling“) von Regionen von Interesse („regions of interest“) durch eine entsprechende Einheit 12. Das Zusammenfassen der Regionen von Interesse erfolgt dabei im vorliegenden Ausführungsbeispiel sowohl basierend auf dem Ergebnis 22 aus dem Rahmengenerator 11 als auch basierend auf den gemeinsamen Merkmalskarten 10. Die jeweiligen Bildmerkmale der unterschiedlichen Bilder 20 werden somit sowohl für das Bilden der Merkmalskarten 10 als auch für das Erzeugen des Ergebnisses 21 und 22 zusammengefasst. Anschließend werden beide Verarbeitungszweige in der Einheit 12 wieder zusammengeführt.In a further step, regions of interest are pooled by a corresponding unit 12 . The regions of interest are combined in the present exemplary embodiment both on the basis of the result 22 from the frame generator 11 as well as based on the common feature cards 10th . The respective image characteristics of the different images 20th are thus used both for forming the feature cards 10th as well as for generating the result 21st and 22 summarized. Then both processing branches in the unit 12 merged again.

Zusätzlich kann optional eine Zusammenfassungslage 13 („pooling layer“) für ein weiteres pooling von Regionen von Interesse vorgesehen sein. Ein entsprechendes Ergebnis kann dann über mehrere vollständig verknüpfte Lagen 14 („fully connected layer“) einer Softmax-Funktion 15 sowie einer Rahmen-Regressionsanalyse („bounding box regression“) zugeführt werden. Auf diese Weise kann das erfasste Objekt weiter analysiert werden.In addition, a summary can optionally be provided 13 ("Pooling layer") for further pooling of regions of interest. A corresponding result can then be found over several completely linked layers 14 ("Fully connected layer") of a Softmax function 15 as well as a framework regression analysis ("bounding box regression"). In this way, the detected object can be analyzed further.

Zwei weitere Ausführungsbeispiele gemäß den 4 und 5 entsprechen zu großen Teilen den bereits vorgestellten Ausführungsbeispielen aus 2 beziehungsweise 3. Unterschied ist jeweils der Einsatz eines langen Kurzzeitgedächtnisses 17 als Verknüpfungseinheit 5. Mit anderen Worten ist die Verknüpfungseinheit 5 in den Ausführungsbeispielen der 4 und 5 durch eines oder mehrere langen Kurzzeitgedächtnisses 17 gebildet. Ein solches langes Kurzzeitgedächtnis 17 kann ebenfalls durch eine künstliche neuronale Struktur bereitgestellt sein. Außerdem kann das lange Kurzzeitgedächtnis 17 im Rahmen des Anlernvorgangs auf die vorliegende Aufgabe angelernt werden. Mithilfe des langen Kurzzeitgedächtnisses 17 ergibt sich in den 4 und 5 teilweise ein rekurrentes neuronales Netz. Die Ausführungsbeispiele gemäß 2 und 3 können mit dem englischen Fachbegriff „ multi stream multi encoder decoder network“ beschrieben werden. Die Ausführungsbeispiele gemäß 4 und 5 können mit dem englischen Fachbegriff „ recurrent endoder decoder network“ beschrieben werden.Two further embodiments according to the 4th and 5 largely correspond to the exemplary embodiments already presented 2nd or 3rd difference is the use of a long short-term memory 17th as a linking unit 5 . In other words, the link unit 5 in the embodiments of 4th and 5 through one or more long short-term memories 17th educated. Such a long short-term memory 17th can also be provided by an artificial neural structure. In addition, long-term short-term memory 17th be trained on the task at hand as part of the training process. With the help of long short-term memory 17th results in the 4th and 5 partly a recurrent neural network. The embodiments according to 2nd and 3rd can be described with the English technical term "multi stream multi encoder decoder network". The embodiments according to 4th and 5 can be described with the English technical term "recurrent endoder decoder network".

In den hier beschriebenen 2 bis 5 werden jeweils drei Bilder 20 herangezogen. Jedes der drei Bilder 20 wird durch einen jeweiligen separaten Eingangsteil 4 bearbeitet beziehungsweise die entsprechenden Bildmerkmale werden durch einen jeweiligen separaten Eingangsteil 4 extrahiert. In anderen Ausführungsbeispielen, die in den Figuren nicht gezeigten, kann nur ein einzelner Eingangsteil 4 vorgesehen sein. Dieses insbesondere vorteilhaft wenn ein langes Kurzzeitgedächtnis 17 vorgesehen ist. In einer Abwandlung des Ausführungsbeispiels gemäß 4 kann beispielsweise ein einzelner Eingangsteil 4 die jeweiligen Bildmerkmale aus den drei Bildern 20 nacheinander extrahieren. Sobald der einzelne Eingangsteil 4 mit den Bildmerkmalen eines ersten der drei Bilder 20 fertig ist, speichert er die extrahierten Bildmerkmale in das lange Kurzzeitgedächtnis 17. Anschließend werden die Bildmerkmale des zweiten der drei Bilder 20 extrahiert und wiederum in das lange Kurzzeitgedächtnis 17 gespeichert. Anschließend werden die Bildmerkmale des dritten der drei Bilder 20 extrahiert. Nun stehen die Bildmerkmale aller drei Bilder 20 für die weitere Auswertung beziehungsweise für das Verknüpfen in der Verknüpfungseinheit 5 bereit. Beispielsweise werden die Bildmerkmale des dritten der drei Bilder 20 dabei ebenfalls in dem langen Kurzzeitgedächtnis 17 gespeichert. Sobald ein weiterer Frame des Videosignals und somit ein weiteres Bild vorliegt, können die Bildmerkmale des ersten der drei Bilder 20 aus dem langen Kurzzeitgedächtnis 17 gelöscht werden sowie die Bildmerkmale des weiteren Frames durch den einzelnen Eingangsteil 4 extrahiert werden. Nun stehen wiederum die Bildmerkmale dreier Bilder für die weitere Auswertung beziehungsweise für das Verknüpfen bereit: Die Bildmerkmale des zweiten und des dritten der drei Bilder 20 sowie die Bildmerkmale des weiteren Frames. Nach diesem Schema kann das Verfahren wiederholt durchgeführt werden, insbesondere beim Eintreffen jedes neuen Frames des Videosignals. Der einzelne Eingangsteil 4 kann hierbei größer beziehungsweise breiter ausgeführt werden als drei separate Eingangsteile 4. Beispielsweise kann der einzelne Eingangsteil 4 Bilder 20 mit einer doppelten Auflösung verglichen mit den drei separaten Eingangsteil 4 bei gleicher Rechenzeit verarbeiten.In those described here 2nd to 5 will be three pictures each 20th used. Each of the three pictures 20th is through a separate input section 4th processed or the corresponding image features are processed by a separate input part 4th extracted. In other embodiments, which are not shown in the figures, only a single input part can 4th be provided. This is particularly advantageous if you have a long, short-term memory 17th is provided. In a modification of the embodiment according to 4th can, for example, a single input part 4th the respective image features from the three images 20th extract one after the other. Once the single input part 4th with the image features of a first of the three images 20th finished, it saves the extracted image features in the long short-term memory 17th . Then the image features of the second of the three images 20th extracted and in turn into long-term short-term memory 17th saved. Then the image features of the third of the three images 20th extracted. Now the picture features of all three pictures are available 20th for further evaluation or for linking in the linking unit 5 ready. For example, the image features of the third of the three images 20th thereby also in the long short-term memory 17th saved. As soon as a further frame of the video signal and thus another picture is available, the picture features of the first of the three pictures can 20th from long-term short-term memory 17th deleted as well as the image features of the further frame by the individual input part 4th be extracted. Now the image features of three images are again available for further evaluation or for linking: the image features of the second and third of the three images 20th as well as the image features of the other frame. According to this scheme, the method can be carried out repeatedly, in particular when each new frame of the video signal arrives. The single entrance part 4th can be made larger or wider than three separate input parts 4th . For example, the individual input part 4th photos 20th with a double resolution compared to the three separate input part 4th process with the same computing time.

Insgesamt wird durch die vorliegenden Ausführungsbeispiele das Auswerten von Erscheinungsbild und Bewegung von Objekten 29 miteinander verknüpft. Das künstliche neuronale Netz 19 wird somit darauf angelernt, sowohl optischen Fluss, Bewegung und zeitliche Veränderung zwischen den Bildern 20 als auch die statische Darstellung, insbesondere von Objekten 29, in einem oder mehreren der Bilder 20 für das Erfassen von Objekten 29 zu verknüpfen und zu berücksichtigen. Mit anderen Worten nutzt das künstliche neuronale Netz 19 sowohl optischen Fluss, Bewegung und zeitliche Veränderung zwischen den Bildern 20 als auch die statische Darstellung in den einzelnen Bildern 20 für die Erfassung des Objekts 29. Es findet somit eine Fusion statischer Bildmerkmale und bewegter Bildmerkmale (Bildfluss) innerhalb des künstlichen neuronalen Netzes 19 statt.Overall, the present exemplary embodiments evaluate the appearance and movement of objects 29 linked together. The artificial neural network 19th is thus learned on, both optical flow, movement and temporal change between the images 20th as well as the static representation, especially of objects 29 , in one or more of the pictures 20th for capturing objects 29 to link and take into account. In other words, the artificial neural network uses 19th both optical flow, movement and temporal change between the images 20th as well as the static representation in the individual images 20th for the detection of the object 29 . There is thus a fusion of static image features and moving image features (image flow) within the artificial neural network 19th instead of.

Claims

Method for detecting an environment (U) of a motor vehicle (1), with the steps: (i) providing at least two images (20) of the surroundings (U), the at least two images (20) being taken with the same camera (2) of the motor vehicle (1) at different times, (ii) separate extraction of respective image features from the at least two images (20) by at least one input part (4) of an artificial neural network (19), the image features at least partially an object (29) imaged by means of the at least two images (20) in relate to the environment (U) in the respective image (20), (iii) linking the separately extracted image features of the at least two images (20) to linked image features by a linking unit (5) of the artificial neural network (19), and (iv) Detecting the object (29) in the environment (U) by jointly evaluating the linked image features by an evaluation unit (8) of the artificial neural network (19).

Procedure according to Claim 1 , characterized in that the detection of objects (29) in the environment (U) is carried out at least partially by a common decoder (9) which is part of the evaluation unit (8).

Method according to one of the preceding claims, characterized in that the detection of objects (29) in the environment is based at least in part on a common feature map (10) ("feature map"), which is part of the evaluation unit (8).

Procedure according to the Claims 2 and 3rd , characterized in that an output value of the common decoder (9) and an output value of the common feature card (10) are used as a basis for pooling regions of interest.

Method according to one of the preceding claims, characterized in that the linking of the separately extracted image features takes place by means of a long short-term memory (17) ("long short-term memory") in which the extracted image features are temporarily stored.

Method according to one of the preceding claims, characterized in that the separate extraction of the respective image features from the at least two images (20) takes place in succession through the same input part (4).

Procedure according to one of the Claims 1 to 5 , characterized in that the separate extraction of the respective image features from the at least two images (20) are carried out in parallel by at least two separate input parts (4) of the artificial neural network (19).

Method according to one of the preceding claims, characterized in that when the object (29) is detected, semantic segmentation takes place, in which an image segment is exclusively assigned to the object (29).

Method according to one of the preceding claims, characterized in that the artificial neural network (29) is taught to use a temporal change between the at least two images (20) for the detection of objects (29) in the environment (U).

Method according to one of the preceding claims, characterized in that the object (29) is classified as moving or static based on its change over time over the at least two images (20).

Method according to one of the preceding claims, characterized in that the at least two images (20) are each individual images of a video signal and steps (i) to (iv) are repeated, in particular continuously, with different individual images of the video signal.

Procedure according to Claim 7 and 11 , characterized in that the image features of one of the at least two images (20) are first extracted by a first of the at least two separate input parts (4) and, when steps (i) to (iv) are carried out repeatedly, by image features of the same image (20) a second of the at least two separate input parts (4) are extracted.

Control unit (3) for a motor vehicle (1) comprising an artificial neural network (19) for detecting an environment of a motor vehicle (1), with: - a provision unit (2) for providing at least two images (20) of the surroundings (U), the at least two images (20) being taken with the same camera (2) of the motor vehicle (1) at different times, - At least one input part (4) of the artificial neural network (19) designed to separately extract respective image features from the at least two images (20), the image features at least partially an object (29) imaged by means of the at least two images (20) in the Relate to the environment (U) in the respective image (20), - a linking unit (5) of the artificial neural network (19) designed to link the separately extracted image features of the at least two images (20) to linked image features, and - A detection unit (8) designed to detect the object (29) in the environment (U) by evaluating the linked image features together.

Driver assistance system for a motor vehicle (1), with - with a camera (2) for providing at least two images (20) of an environment (U) of the motor vehicle (1) taken at different times, and - a control unit (3) Claim 13 .

Computer program product with program code means, which are stored in a computer-readable medium, for the method for detecting an environment of a motor vehicle according to one of the preceding Claims 1 to 12 to be carried out when the computer program product is processed on a processor of an electronic control unit (3).