DE102018130821A1

DE102018130821A1 - Method for assessing an environment of a motor vehicle using an artificial neural network with an aggregation unit; Control unit, driver assistance system and computer program product

Info

Publication number: DE102018130821A1
Application number: DE102018130821.3A
Authority: DE
Inventors: Timo Saemann
Original assignee: Valeo Schalter und Sensoren GmbH
Current assignee: Valeo Schalter und Sensoren GmbH
Priority date: 2018-12-04
Filing date: 2018-12-04
Publication date: 2020-06-04

Abstract

Die Erfindung betrifft ein Verfahren zum Beurteilen einer Umgebung eines Kraftfahrzeugs (1) anhand eines Bildes eines Kamerasystems des Kraftfahrzeugs (1). Um eine verbesserte Erfassung der Umgebung zu ermöglichen, sind die folgenden Schritte vorgesehen:- Bereitstellen des Bildes der Umgebung von einer Kamera (2) des Kraftfahrzeugs (1),- Reduzieren einer Auflösung des Bildes von einer Eingangsauflösung auf eine verringerte Zwischenauflösung durch einen Eingangsteil (4) eines künstlichen neuronalen Netzes und Bereitstellen eines entsprechenden jeweiligen Zwischenbildsignals (A,B,C) mit der Zwischenauflösung,- Reduzieren einer Auflösung des Bildes von der Zwischenauflösung auf eine nochmals verringerte Arbeitsauflösung durch den Eingangsteil (4) des künstlichen neuronalen Netzes und Bereitstellen eines entsprechenden Arbeitsbildsignals (D) mit der Arbeitsauflösung,- Zusammenfassen des Zwischenbildsignals (A,B,C) und des Arbeitsbildsignals (D) zu einem gemeinsamen Auswertesignal durch eine Aggregationseinheit (5) des künstlichen neuronalen Netzes, und- Beurteilen der Umgebung durch Auswerten des gemeinsamen Auswertesignals durch einen Auswerteeinheit (6) des künstlichen neuronalen Netzes.The invention relates to a method for assessing the surroundings of a motor vehicle (1) using an image of a camera system of the motor vehicle (1). In order to enable an improved detection of the surroundings, the following steps are provided: - providing the image of the surroundings from a camera (2) of the motor vehicle (1), - reducing a resolution of the image from an input resolution to a reduced intermediate resolution by an input part ( 4) an artificial neural network and providing a corresponding intermediate image signal (A, B, C) with the intermediate resolution, - reducing a resolution of the image from the intermediate resolution to a further reduced working resolution by the input part (4) of the artificial neural network and providing one corresponding working image signal (D) with the working resolution, - combining the intermediate image signal (A, B, C) and the working image signal (D) into a common evaluation signal by an aggregation unit (5) of the artificial neural network, and - assessing the environment by evaluating the common one Evaluation signals by an evaluator unit (6) of the artificial neural network.

Description

Die Erfindung betrifft ein Verfahren zum Beurteilen einer Umgebung eines Kraftfahrzeugs anhand eines Bildes eines Kamerasystems des Kraftfahrzeugs. Außerdem betrifft die Erfindung eine Steuereinheit, ein Fahrerassistenzsystem, ein Computerprogrammprodukt sowie ein computerlesbares Medium.The invention relates to a method for assessing an environment of a motor vehicle on the basis of an image of a camera system of the motor vehicle. The invention also relates to a control unit, a driver assistance system, a computer program product and a computer-readable medium.

Fahrerassistenzsysteme benötigen für ihre Funktion häufig Informationen über eine Umgebung eines Kraftfahrzeugs. Beispiele für Fahrerassistenzsysteme sind Notbremsassistenten, Spurhalteassistenten und Systeme, die autonomes Fahren/Einparken ermöglichen. Beispielsweise können solche Informationen die Position von Objekten in der Umgebung des Kraftfahrzeugs betreffen. Beispiele für solche Objekte, deren Position für das Funktionieren des Fahrerassistenzsystems notwendig sein kann, sind Fahrbahnbegrenzungen, Bordsteine, Fahrbahnmarkierungen, andere Verkehrsteilnehmer (Fahrzeuge, Fußgänger, Radfahrer), parkende Fahrzeuge und/oder mögliche Kollisionspartner, mit denen das Kraftfahrzeug während einer Fahrt kollidieren könnte.Driver assistance systems often require information about an environment of a motor vehicle in order to function. Examples of driver assistance systems are emergency braking assistants, lane keeping assistants and systems that enable autonomous driving / parking. For example, such information can relate to the position of objects in the surroundings of the motor vehicle. Examples of such objects, the position of which may be necessary for the functioning of the driver assistance system, are lane boundaries, curbs, lane markings, other road users (vehicles, pedestrians, cyclists), parked vehicles and / or possible collision partners with whom the motor vehicle could collide during a journey .

Zum Erfassen von Objekten in der Umgebung sind beispielsweise Kamerasysteme bekannt, wobei ein solches Kamerasystem eine oder mehrere Kameras umfassen kann. Eine solche Kamera kann die Umgebung des Kraftfahrzeugs in Form von Bildern, insbesondere einem Videosignal, welches eine Folge an Einzelbildern (Frames) umfasst, erfassen. Aus diesen Bildern müssen die nötigen Informationen jedoch zunächst extrahiert werden. Zum Erkennen von Objekten ist beispielsweise eine sogenannte Segmentierung von Bildern bekannt. Dabei werden in dem Bild unterschiedliche Segmente erkannt und auf ihren Bedeutungsgehalt hin untersucht. Aus diesem Grund ist auch häufig von semantischer Segmentierung die Rede. Es werden somit unterschiedliche Bildbereiche erfasst und semantisch analysiert.For example, camera systems are known for capturing objects in the environment, and such a camera system can comprise one or more cameras. Such a camera can capture the surroundings of the motor vehicle in the form of images, in particular a video signal, which comprises a sequence of individual images (frames). However, the necessary information must first be extracted from these images. A so-called segmentation of images is known, for example, for recognizing objects. Different segments are recognized in the image and examined for their meaning. For this reason, semantic segmentation is often mentioned. Different image areas are thus captured and semantically analyzed.

Semantische Segmentierung kann beispielsweise mittels maschinellen Sehens erfolgen. Bei maschinellen Sehen werden üblicherweise klassische Werkzeuge der Bildbearbeitung herangezogen. Beispiele hierfür sind das Auswerten eines optischen Flusses (optical flow), das Erfassen von Gradienten oder sogenannte Hough-Transformation. Als vorteilhaft hat sich davon abweichend eine semantische Segmentierung mittels künstlicher neuronaler Netze erwiesen. Dabei wird ein künstliches neuronales Netz darauf angelernt, in einem Bild unterschiedliche Bereiche zu erfassen und semantisch zu analysieren. Im Rahmen eines Anlernvorgangs lernt das künstliche neuronale Netz hierbei selbstständig, welche Bildmerkmale hierfür von Interesse sind und welche Werkzeuge der Bildbearbeitung für die semantische Segmentierung zu nutzen sind. Ein solcher Anlernvorgang kann beispielsweise mittels bereits segmentierter Beispielbilder durchgeführt werden.Semantic segmentation can be done using machine vision, for example. Classic machine vision tools are usually used for machine vision. Examples of this are the evaluation of an optical flow, the detection of gradients or the so-called Hough transformation. Deviating from this, semantic segmentation using artificial neural networks has proven to be advantageous. An artificial neural network is learned to capture different areas in an image and to analyze them semantically. As part of a learning process, the artificial neural network independently learns which image features are of interest and which tools of image processing are to be used for semantic segmentation. Such a learning process can be carried out, for example, using already segmented example images.

Außerdem bekannt ist eine sogenannte Tiefenschätzung anhand oben genannter Bilder durchzuführen. Im Rahmen einer solchen Tiefenschätzung wird, insbesondere durch ein künstliches neuronales Netz, anhand zweidimensionaler Bildmerkmale des Bildes auf dreidimensionale Größenverhältnisse in dem Bild geschlossen. Eine solche Tiefenschätzung kann beispielsweise zum Erkennen von Bordsteinen oder zur Schätzung der Entfernung von Fremdobjekten, insbesondere Fremdfahrzeugen, genutzt werden.It is also known to carry out a so-called depth estimate using the images mentioned above. In the context of such a depth estimation, in particular by means of an artificial neural network, three-dimensional size relationships in the image are inferred on the basis of two-dimensional image features of the image. Such a depth estimate can be used, for example, to recognize curbs or to estimate the distance from foreign objects, in particular third-party vehicles.

Es ist Aufgabe der vorliegenden Erfindung, eine verbesserte Erfassung einer Umgebung anhand von Kamerabildern zu ermöglichen.The object of the present invention is to enable an improved detection of an environment on the basis of camera images.

Diese Aufgabe wird erfindungsgemäß gelöst durch die Gegenstände der unabhängigen Patentansprüche. Vorteilhafte Ausführungsformen mit zweckmäßigen Weiterbildungen sind Gegenstand der Unteransprüche.This object is achieved according to the invention by the subject matter of the independent claims. Advantageous embodiments with appropriate further developments are the subject of the dependent claims.

Ein erster Aspekt der Erfindung betrifft ein Verfahren zum Beurteilen einer Umgebung eines Kraftfahrzeugs anhand eines Bildes eines Kamerasystems des Kraftfahrzeugs. Das Verfahren weist die folgenden Schritte auf:

- Bereitstellen des Bildes der Umgebung von einer Kamera des Kraftfahrzeugs,
- Reduzieren einer Auflösung des Bildes von einer Eingangsauflösung auf eine verringerte Zwischenauflösung durch einen Eingangsteil eines künstlichen neuronalen Netzes und Bereitstellen eines entsprechenden jeweiligen Zwischenbildsignals mit der Zwischenauflösung,
- Reduzieren einer Auflösung des Bildes von der Zwischenauflösung auf eine nochmals verringerte Arbeitsauflösung durch den Eingangsteil des künstlichen neuronalen Netzes und Bereitstellen eines entsprechenden Arbeitsbildsignals mit der Arbeitsauflösung,
- Zusammenfassen des Zwischenbildsignals und des Arbeitsbildsignals zu einem gemeinsamen Auswertesignal durch eine Aggregationseinheit des künstlichen neuronalen Netzes, und
- Beurteilen der Umgebung durch Auswerten des gemeinsamen Auswertesignals durch einen Auswerteeinheit des künstlichen neuronalen Netzes.

A first aspect of the invention relates to a method for assessing an environment of a motor vehicle on the basis of an image of a camera system of the motor vehicle. The process has the following steps:

Providing the image of the surroundings from a camera of the motor vehicle,
Reducing a resolution of the image from an input resolution to a reduced intermediate resolution by means of an input part of an artificial neural network and providing a corresponding intermediate image signal with the intermediate resolution,
Reducing a resolution of the image from the intermediate resolution to a further reduced working resolution by the input part of the artificial neural network and providing a corresponding working image signal with the working resolution,
- Combining the intermediate image signal and the working image signal into a common evaluation signal by an aggregation unit of the artificial neural network, and
- Assessment of the environment by evaluating the common evaluation signal by an evaluation unit of the artificial neural network.

Beispielsweise erfolgt das Bereitstellen der Bilder durch die Kamera des Kraftfahrzeugs. Die Kamera kann in bestimmungsgemäßer Position an dem Kraftfahrzeug angeordnet sein beziehungsweise anordenbar sein. Beispielsweise handelt es sich bei der Kamera um eine Frontkamera, eine Heckkamera oder eine seitwärts gerichtete Kamera des Kraftfahrzeugs. Alternativ oder zusätzlich kann das Bereitstellen der Bilder mittels einer Schnittstelle des Kamerasystems und/oder einer Schnittstelle einer Steuereinheit des Kraftfahrzeugs durchgeführt werden. Beispielsweise weist die Steuereinheit die Schnittstelle auf, um das Bild der Umgebung für weitere Verfahrensschritte bereitzustellen. Das Bild kann ein Einzelbild (Frame) eines Videosignals aus der Kamera sein. Dementsprechend kann das vorliegende Verfahren nacheinander für mehrere Einzelbilder (Frames) des Videosignals durchgeführt werden.For example, the images are provided by the camera of the motor vehicle. The camera can be arranged in the intended position on the motor vehicle or can be arranged. For example, it is the camera around a front camera, a rear camera or a sideways camera of the motor vehicle. Alternatively or additionally, the images can be provided by means of an interface of the camera system and / or an interface of a control unit of the motor vehicle. For example, the control unit has the interface in order to provide the image of the environment for further method steps. The image can be a frame of a video signal from the camera. Accordingly, the present method can be carried out successively for a plurality of frames of the video signal.

Anschließend wird das Bild durch den Eingangsteil des künstlichen neuronalen Netzes bearbeitet. Hierbei wird das Bild in einem mehrstufigen Prozess in seiner Auflösung reduziert. Insbesondere wird die Auflösung des Bildes zunächst von einer Eingangsauflösung auf die Zwischenauflösung reduziert. Anschließend kann die Auflösung des Bildes von der Zwischenauflösung auf eine Arbeitsauflösung reduziert werden. Es können mehrere Zwischenschritte, insbesondere mit einer jeweiligen Zwischenauflösung, bei der mehrstufigen Reduzierung der Auflösung vorgesehen sein. Mit anderen Worten können mehrere Zwischenauflösungen vorgesehen sein, wobei das Bild von der Eingangsauflösung in mehreren Schritten auf mehrere jeweils kleiner werdende Zwischenauflösungen reduziert wird. Beispielsweise sind drei unterschiedliche Zwischenauflösungen vorgesehen. Dann kann das Bild nacheinander durch vier Reduzierungsstufen in seiner Auflösung reduziert werden. In diesem Beispiel wird das Bild insbesondere zunächst von der Eingangsauflösung auf eine erste der Zwischenauflösungen reduziert, anschließend von der ersten Zwischenauflösung auf eine zweite der Zwischenauflösungen weiter reduziert, anschließend von der zweiten Zwischenauflösung auf eine dritte der Zwischenauflösungen noch weiter reduziert und zuletzt von der dritten Zwischenauflösungen auf die Arbeitsauflösung reduziert.The image is then processed through the input part of the artificial neural network. The image is reduced in its resolution in a multi-stage process. In particular, the resolution of the image is initially reduced from an input resolution to the intermediate resolution. The resolution of the image can then be reduced from the intermediate resolution to a working resolution. Several intermediate steps, in particular with a respective intermediate resolution, can be provided in the multi-stage reduction of the resolution. In other words, a number of intermediate resolutions can be provided, the image being reduced in several steps from the input resolution to a number of intermediate resolutions which are in each case becoming smaller. For example, three different intermediate resolutions are provided. Then the image can be successively reduced in its resolution by four reduction stages. In this example, the image is first of all reduced from the input resolution to a first of the intermediate resolutions, then further reduced from the first intermediate resolution to a second of the intermediate resolutions, then further reduced from the second intermediate resolution to a third of the intermediate resolutions and finally from the third intermediate resolution reduced to work resolution.

Beispielsweise erfolgt bei dem Reduzieren der Auflösung gleichzeitig ein Extrahieren von Bildmerkmalen in dem Bild. Solche Bildmerkmale können beispielsweise Objekte in der Umgebung betreffen. Der Eingangsteil des künstlichen neuronales Netzes kann bei einem Anlernvorgang darauf angelernt werden, im Wesentlichen solche Bildmerkmale zu extrahieren, welche für die zugrunde liegende Aufgabe, also vorliegend das Beurteilen der Umgebung, von Relevanz sind. Dies erfolgt bei dem Anlernvorgang ganz automatisch anhand hierfür gewählter Trainingsdaten. Die Trainingsdaten können beispielsweise eine Vielzahl an Bildern unterschiedlicher Objekte, welche im Normalbetrieb des künstlichen neuronalen Netzes dann erkannt werden sollen, umfassen.For example, when the resolution is reduced, image features in the image are extracted simultaneously. Such image features can relate to objects in the area, for example. The input part of the artificial neural network can be taught during a learning process to extract essentially those image features which are relevant for the underlying task, that is to say the assessment of the environment in the present case. This takes place automatically during the learning process based on the training data selected for this. The training data can include, for example, a large number of images of different objects which are then to be recognized during normal operation of the artificial neural network.

Das Arbeitsbildsignal kann das Bild der Umgebung in der Arbeitsauflösung umfassen. Das Arbeitsbildsignal beziehungsweise die Arbeitsauflösung wird so genannt, weil das Bild in der Arbeitsauflösung zur weiteren Verarbeitung bereitgestellt wird. Insbesondere wird das Bild durch den Eingangsteil in der Arbeitsauflösung für die Auswerteeinheit bereitgestellt beziehungsweise an die Auswerteeinheit übermittelt. Die Auswerteeinheit kann zur Auswertung des Bildes das Arbeitsbildsignal als Eingangssignal nutzen. In weiteren Verarbeitungsschritten kann die Auflösung des Bildes durch die Auswerteeinheit verändert werden. Die Arbeitsauflösung beziehungsweise des Arbeitsbildsignal stellt somit im Allgemeinen nur eine Basis für die dem Reduzieren der Auflösung nachfolgende Auswertung durch die Auswerteeinheit dar.The working image signal can include the image of the surroundings in the working resolution. The working picture signal or the working resolution is so called because the picture is made available in the working resolution for further processing. In particular, the image is provided by the input part in the working resolution for the evaluation unit or transmitted to the evaluation unit. The evaluation unit can use the working image signal as an input signal to evaluate the image. In further processing steps, the resolution of the image can be changed by the evaluation unit. The working resolution or the working image signal thus generally represents only a basis for the evaluation following the reduction of the resolution by the evaluation unit.

Bei dem Eingangsteil des künstlichen neuronalen Netzes handelt es sich vorzugsweise um einen sogenannten CNN-Encoder. Durch den Eingangsteil kann im Wesentlichen ein Falten des Bildes erfolgen. Dabei wird eine Matrix, die das jeweilige Bild definiert oder aus diesem abgeleitet ist, in mehrere kleinere Matrizen aufgeteilt. Dies erfolgt insbesondere in mehreren nacheinander folgenden Schritten. Die Matrix kann beispielsweise Höhe mal Breite mal Farbe einzelner (insbesondere aller) Pixel des Bildes angeben. Mit anderen Worten kann die Matrix als digitales Bild beziehungsweise digitale Repräsentation des Bildes aufgefasst werden. Das Falten kann beispielsweise durch sogenannte faltende Lagen („convolutional layer“) durchgeführt werden. Hierbei kann die Matrix mittels sogenannter Filter analysiert werden. Durch einen solchen Filter kann aus der Ursprungsmatrix eine oder mehrere Ergebnismatrix/Ergebnismatrizen gebildet werden, deren Werte sich aus einem Teilbereich der Ursprungsmatrix und abhängig von einer Größe (Kernel-Größe), einem Randverhalten (Padding) und einer Schrittweite des Filters. Alternativ oder zusätzlich kann der Eingangsteil des künstlichen neuronalen Netzes eine oder mehrere Aggregationslagen („pooling layer“) umfassen. Eine solche Aggregationslage kann die Werte mehrerer Matrixelemente zusammenfassen. Beispielsweise wird beim Zusammenfassen ein Durchschnittswert über die mehreren Matrixelemente gebildet („average pooling“) oder es wird ausschließlich der Maximalwert der mehreren Matrixelemente herangezogen („max pooling“). Insgesamt wird durch den Eingangsteil die Auflösung des Bildes beziehungsweise einer entsprechenden Matrix reduziert. Dies kann beispielhaft durch die vorstehend genannten Mechanismen oder durch andere Mechanismen erfolgen. Aufgrund des Lernvorgangs ist das künstliche neuronale Netz dazu in der Lage das Reduzieren der Auflösung auf eine Weise durchzuführen, dass für die zugrunde liegende Aufgabe, also vorliegend das Erfassen der Umgebung beziehungsweise das Erfassen von Objekten, relevante Bildmerkmale extrahiert werden. Die Bildmerkmale können durch den Eingangsteil des künstlichen neuronalen Netzes in Form einer Vielzahl an Matrizen an einen anschließenden Teil des künstlichen neuronalen Netzes weitergegeben werden.The input part of the artificial neural network is preferably a so-called CNN encoder. The input part can essentially fold the image. A matrix that defines or derives the respective image is divided into several smaller matrices. This is done in particular in several successive steps. The matrix can, for example, indicate height by width by color of individual (in particular all) pixels of the image. In other words, the matrix can be understood as a digital image or digital representation of the image. Folding can, for example, be carried out using so-called convolutional layers. The matrix can be analyzed using so-called filters. With such a filter, one or more result matrix / result matrices can be formed from the original matrix, the values of which result from a partial area of the original matrix and depending on a size (kernel size), an edge behavior (padding) and a step size of the filter. Alternatively or additionally, the input part of the artificial neural network can comprise one or more aggregation layers (“pooling layer”). Such an aggregation position can summarize the values of several matrix elements. For example, when summarizing, an average value is formed across the several matrix elements ("average pooling") or only the maximum value of the several matrix elements is used ("max pooling"). Overall, the resolution of the image or a corresponding matrix is reduced by the input part. This can be done, for example, by the mechanisms mentioned above or by other mechanisms. Due to the learning process, the artificial neural network is able to reduce the resolution in such a way that relevant image features are extracted for the underlying task, that is to say the detection of the surroundings or the detection of objects. The image features can be passed through the input part of the artificial neural network in the form of a large number of matrices to a subsequent part of the artificial neural network.

Bei dem Zwischenbildsignal kann es sich um das Bild in der Zwischenauflösung handeln. Im Falle mehrerer Zwischenbildsignale kann jedes der Zwischenbildsignale in der entsprechenden Zwischenauflösung vorliegen. Das Zwischenbildsignal beziehungsweise die Zwischenbildsignale kann/können jeweils eine sogenannte Merkmalskarte (auch mit dem englischen Fachbegriff „feature map“ bezeichnet) umfassen. In einer solchen Merkmalskarte werden die Bildmerkmale, die bei dem Reduzieren der Auflösung in dem jeweiligen Zwischenschritt extrahiert werden, zusammengefasst sein. Eine solche Merkmalskarte kann auch als Teil des Arbeitsbildsignals bereitgestellt werden.The intermediate image signal can be the image in the intermediate resolution. In the case of several intermediate image signals, each of the intermediate image signals can be present in the corresponding intermediate resolution. The intermediate image signal or the intermediate image signals can each comprise a so-called feature map (also referred to with the English technical term “feature map”). In such a feature map, the image features that are extracted when the resolution is reduced in the respective intermediate step will be summarized. Such a feature map can also be provided as part of the working image signal.

Bei der Auswerteeinheit kann es sich um einen sogenannten CNN-Decoder handeln. Alternativ kann die Auswerteeinheit mehrere CNN-Decoder umfassen. Durch die Auswerteeinheit kann zusätzlich ein Erhöhen der Auflösung durchgeführt werden. Beispielsweise wird durch die Auswerteeinheit nach dem Beurteilen der Umgebung beziehungsweise nach dem Auswerten der Bildmerkmale die Auflösung des Bildes wieder erhöht, beispielsweise auf die Eingangsauflösung. Dieses Erhöhen der Auflösung kann mittels Interpolation, insbesondere bilineare Interpolation, erfolgen. Die Auswerteeinheit kann dazu eingerichtet sein, die Umgebung anhand der Bildmerkmale beziehungsweise anhand der Merkmalskarten von Zwischenbildsignal(en) und Arbeitsbildsignal zu beurteilen. Insbesondere wertet die Auswerteeinheit die Bildmerkmale beziehungsweise die Merkmalskarten dementsprechend aus. Dieses Auswerten kann durch den Anlernvorgang des künstlichen neuronalen Netzes angelernt werden. Mit anderen Worten kann die Auswerteeinheit im Rahmen des Anlernvorgangs lernen, die Bildmerkmale beziehungsweise die Merkmalskarten auszuwerten. Im Rahmen des Anlernvorgangs kann die Auswerteeinheit beispielsweise Verknüpfungen zwischen bestimmten Bildmerkmalen und bestimmten Umgebungsbedingungen als Vorwissen erkennen. Anhand dieses Vorwissen können dann später ähnliche Umgebungsbedingungen erkannt werden.The evaluation unit can be a so-called CNN decoder. Alternatively, the evaluation unit can comprise several CNN decoders. The evaluation unit can also be used to increase the resolution. For example, after evaluating the environment or after evaluating the image features, the evaluation unit increases the resolution of the image again, for example to the input resolution. This increase in resolution can take place by means of interpolation, in particular bilinear interpolation. The evaluation unit can be set up to assess the surroundings on the basis of the image features or on the feature maps of the intermediate image signal (s) and the working image signal. In particular, the evaluation unit evaluates the image features or the feature cards accordingly. This evaluation can be learned through the learning process of the artificial neural network. In other words, the evaluation unit can learn to evaluate the image features or the feature cards as part of the teaching process. As part of the teaching process, the evaluation unit can recognize, for example, links between certain image features and certain environmental conditions as prior knowledge. Based on this prior knowledge, similar environmental conditions can then be recognized later.

Ein erfindungswesentlicher Gedanke ist, dass das Zwischenbildsignal beziehungsweise mehrere Zwischenbildsignale, welche bei dem mehrstufigen Reduzierung der Auflösung des Bildes im Eingangsteil des künstlichen neuronalen Netzes gebildet werden, für die weitere Verarbeitung im künstlichen neuronalen Netz ausgekoppelt beziehungsweise herangezogen werden. Hierfür ist jedoch notwendig, das Zwischenbildsignal mit dem Arbeitsbildsignal zu verknüpfen. Dies erfolgt vorliegend mittels der Aggregationseinheit. Diese kann auch als Aggregationsmodul bezeichnet werden. Durch die Aggregationseinheit wird das Arbeitsbildsignal mit einem beziehungsweise mehreren Zwischenbildsignalen verknüpft. Dabei weisen das Arbeitsbildsignal und das eine oder die mehreren Zwischenbildsignale jeweils eine unterschiedliche Auflösung auf. Beispielsweise werden in jeder der Reduzierungsstufen zumindest teilweise unterschiedliche Bildmerkmale aus dem Bild extrahiert. Durch die Aggregationseinheit können die Bildmerkmale, die in den unterschiedlichen Reduzierungsstufen extrahiert werden, als Teil des Auswertesignals zusammengefasst werden. Durch die unterschiedlichen Verarbeitungsstufen der Arbeitsbildsignal und des einen oder der mehreren Zwischenbildsignale kann hierdurch eine verbesserte Erfassung der Umgebung ermöglicht werden. Insbesondere entsprechen Bildmerkmale, die nach mehrfacher Reduzierung der Auflösung extrahiert werden, im Allgemeinen eher lokale Bildmerkmalen. Demgegenüber entsprechen Bildmerkmale, die nach der ersten oder zweiten Reduzierung der Auflösung extrahiert werden, im Allgemeinen eher globalen Bildmerkmalen. Mit anderen Worten werden bei dem mehrstufigen Reduzieren der Auflösung zunehmend lokalere Bildmerkmale extrahiert. Durch das Prinzip der Verknüpfung der Bildmerkmale unterschiedlicher Auflösungen können lokale und globale Bildmerkmale besonders vorteilhaft verbunden werden. Das Prinzip einer Aggregationseinheit ist dem Fachmann aus dem Artikel „Pyramid Scene Parsing Network“ von Hengshuang Zhao et al. (https://hszhao.github.io/projects/pspnet/) bekannt. In dieser Druckschrift werden Verbesserungen in der Genauigkeit erzielt, obwohl die Eingänge zur Aggregationseinheit alle derselben Verarbeitungsstufe entnommen sind.An idea essential to the invention is that the intermediate image signal or a plurality of intermediate image signals, which are formed in the multi-stage reduction of the resolution of the image in the input part of the artificial neural network, are decoupled or used for further processing in the artificial neural network. For this, however, it is necessary to link the intermediate image signal with the working image signal. In the present case, this is done by means of the aggregation unit. This can also be called an aggregation module. The working image signal is linked by the aggregation unit to one or more intermediate image signals. The working image signal and the one or more intermediate image signals each have a different resolution. For example, in each of the reduction stages, at least partially different image features are extracted from the image. With the aggregation unit, the image features that are extracted in the different reduction levels can be summarized as part of the evaluation signal. The different processing stages of the working image signal and the one or more intermediate image signals can thereby enable an improved detection of the surroundings. In particular, image features that are extracted after the resolution has been reduced several times generally correspond to local image features. In contrast, image features that are extracted after the first or second reduction in resolution generally correspond to more global image features. In other words, as the resolution is reduced in several stages, increasingly more local image features are extracted. The principle of linking the image features of different resolutions enables local and global image features to be connected particularly advantageously. The principle of an aggregation unit is known to the person skilled in the art “Pyramid Scene Parsing Network” by Hengshuang Zhao et al. (https://hszhao.github.io/projects/pspnet/) known. Improvements in accuracy are achieved in this document, although the inputs to the aggregation unit are all taken from the same processing stage.

Beispielsweise erfolgt das Beurteilen der Umgebung mittels semantischer Segmentierung des Bildes. Es ist insbesondere vorgesehen, dass bei dem Beurteilen der Umgebung eine semantische Segmentierung des Bildes erfolgt. Mit anderen Worten kann das künstliche neuronale Netz dazu angelernt sein, das Bild semantisch zu segmentieren. Im Rahmen einer solchen semantischen Segmentierung werden unterschiedliche Bildbereiche, in welchen beispielsweise unterschiedliche Objekte und/oder Hintergrundbereiche in der Umgebung erfasst sind, entsprechend ihrem jeweiligen Bedeutungsgehalt segmentiert. For example, the environment is assessed using semantic segmentation of the image. In particular, it is provided that a semantic segmentation of the image takes place when the environment is assessed. In other words, the artificial neural network can be trained to semantically segment the image. In the context of such a semantic segmentation, different image areas, in which, for example, different objects and / or background areas in the environment are recorded, are segmented according to their respective meaning.

Der Bedeutungsgehalt kann dabei in Bezug auf eine Fahrerassistenzfunktion eines Fahrerassistenzsystems des Kraftfahrzeugs bestimmt werden. Beispielsweise kann eine Segmentierung in befahrbare und nicht befahrbare Umgebungsbereiche erfolgen. Die semantische Segmentierung kann im Wesentlichen durch die Auswerteeinheit des künstlichen neuronalen Netzes erfolgen. Demgegenüber können durch den Eingangsteil hierfür notwendige Bildmerkmale aus dem Bild extrahiert werden. Durch die Aggregationseinheit können Bildmerkmale, die unterschiedlichen Verarbeitungsstufen entspringen, als Teil des Auswertesignals zusammengefasst werden. Insgesamt kann dadurch, insbesondere dank des erfindungsgemäß zusammengefassten Auswertesignals, eine semantische Segmentierung mit gegenüber dem Stand der Technik verbesserter Genauigkeit durchgeführt werden.The meaning content can be determined in relation to a driver assistance function of a driver assistance system of the motor vehicle. For example, segmentation into passable and non-passable surrounding areas can take place. The semantic segmentation can essentially be carried out by the evaluation unit of the artificial neural network. In contrast, necessary for this by the input part Image features are extracted from the image. The aggregation unit allows image features that originate from different processing levels to be combined as part of the evaluation signal. Overall, thanks to the evaluation signal summarized according to the invention, a semantic segmentation can thus be carried out with improved accuracy compared to the prior art.

Alternativ oder zusätzlich ist vorgesehen, dass das Beurteilen der Umgebung mittels einer Tiefenschätzung erfolgt. Insbesondere ist vorgesehen, dass bei dem Beurteilen der Umgebung eine Tiefenschätzung für die in dem Bild dargestellte Umgebung erfolgt. Mit anderen Worten wird anhand des zweidimensionalen Bildes beziehungsweise anhand zweidimensionaler Bildmerkmale des Bildes auf eine Tiefe von Bildbereichen extrapoliert. Insgesamt kann dadurch, insbesondere dank des erfindungsgemäß zusammengefassten Auswertesignals, eine Tiefenschätzung mit gegenüber dem Stand der Technik verbesserter Genauigkeit durchgeführt werden.As an alternative or in addition, it is provided that the environment is assessed by means of a depth estimate. In particular, it is provided that when assessing the surroundings, a depth estimate is made for the surroundings shown in the picture. In other words, the two-dimensional image or two-dimensional image features of the image are used to extrapolate to a depth of image areas. Overall, thanks to the evaluation signal summarized according to the invention, a depth estimate can be carried out with improved accuracy compared to the prior art.

Gemäß einer Weiterbildung ist vorgesehen, dass die Auswerteeinheit mehrere unabhängige Auswertemodule umfasst, wobei durch die Auswertemodule bei dem Beurteilen der Umgebung mehrere voneinander unabhängige Teilauswertungen vorgenommen werden. Die Auswertemodule können jeweils genau einen CNN-Decoder aufweisen. Die CNN-Decoder der Auswertemodule können voneinander unabhängig sein. Beispielsweise können die semantische Segmentierung sowie die Tiefenschätzung jeweils unabhängige Teilauswertungen sein. Die jeweils unabhängigen Teilauswertungen können basierend auf denselben Bildmerkmalen beziehungsweise basierend auf demselben Auswertesignals durchgeführt werden. Auf diese Weise ergeben sich Synergie-Effekte zwischen den einzelnen Teilauswertungen, da diese zumindest teilweise dieselben Bildmerkmale nutzen. Zudem kann eine Genauigkeit gesteigert werden, da Bildmerkmale die vorrangig für eine erste der Teilauswertungen von Bedeutung sind auch die Genauigkeit einer zweiten der Teilauswertungen steigern können.According to a development, it is provided that the evaluation unit comprises a plurality of independent evaluation modules, the evaluation modules carrying out several independent partial evaluations when assessing the environment. The evaluation modules can each have exactly one CNN decoder. The CNN decoders of the evaluation modules can be independent of one another. For example, the semantic segmentation and the depth estimate can each be independent partial evaluations. The respective independent partial evaluations can be carried out based on the same image features or based on the same evaluation signal. In this way, there are synergy effects between the individual partial evaluations, since these at least partially use the same image features. In addition, an accuracy can be increased, since image features that are primarily important for a first of the partial evaluations can also increase the accuracy of a second of the partial evaluations.

Gemäß einer Weiterbildung ist vorgesehen, dass das Zusammenfassen beziehungsweise Aggregieren des Bildes für jedes der Auswertemodule separat durch eine jeweilige der entsprechenden Auswerteeinheit zugeordnete Aggregationseinheit erfolgt. Mit anderen Worten ist jedem der mehreren Auswertemodule eine jeweilige Aggregationseinheit zugeordnet. Die jeweilige Teilauswertung durch die Auswertemodule erfolgt insbesondere nur anhand des Auswertesignals genau derjenigen Aggregationseinheit, welche dem entsprechenden Auswertemodule zugeordnet ist. Auf diese Weise können den unterschiedlichen Auswertemodule unterschiedliche Aggregationseinheiten zugeordnet werden.According to a further development, it is provided that the summarization or aggregation of the image for each of the evaluation modules is carried out separately by a respective aggregation unit assigned to the corresponding evaluation unit. In other words, each of the plurality of evaluation modules is assigned a respective aggregation unit. The respective partial evaluation by the evaluation modules is carried out, in particular, only on the basis of the evaluation signal of exactly that aggregation unit which is assigned to the corresponding evaluation module. In this way, different aggregation units can be assigned to the different evaluation modules.

Insbesondere ist vorgesehen, dass eine Arbeitsweise der jeweiligen Aggregationseinheiten an die Teilauswertungen des jeweils nachfolgenden Auswertemoduls angepasst ist. Mit anderen Worten ist die Arbeitsweise der mehreren Aggregationseinheiten jeweils an dasjenige Auswertemodule angepasst, dem die entsprechende Aggregationseinheit zugeordnet ist. Diese jeweilige Arbeitsweise der Abwertungsmodule kann durch unterschiedliche Architektur der Aggregationseinheiten gegeben sein. Alternativ oder zusätzlich kann die jeweilige Arbeitsweise der Aggregationseinheiten durch den Anlernvorgang vorgegeben werden. Mit anderen Worten kann im Rahmen eines Anlernvorgangs für jedes der Aggregationseinheiten eine jeweilige, individuelle Arbeitsweise bestimmt werden. Dabei werden die Aggregationseinheiten insbesondere auf die jeweilige Teilauswertung des jeweiligen Auswertemoduls, dem die entsprechende Aggregationseinheit zugeordnet ist, angelernt. Dadurch kann das Zusammenfassen des Zwischenbildsignal und des Arbeitsbildsignals beziehungsweise das daraus resultierende Auswertesignals besonders gut an die jeweilige Teilauswertung des nachfolgenden Auswertemoduls angepasst werden.In particular, it is provided that a mode of operation of the respective aggregation units is adapted to the partial evaluations of the respective subsequent evaluation module. In other words, the mode of operation of the plurality of aggregation units is in each case adapted to the evaluation module to which the corresponding aggregation unit is assigned. This particular way of working of the devaluation modules can be given by different architecture of the aggregation units. As an alternative or in addition, the respective mode of operation of the aggregation units can be predetermined by the learning process. In other words, a respective, individual mode of operation can be determined for each of the aggregation units as part of a learning process. The aggregation units are taught in particular for the respective partial evaluation of the respective evaluation module to which the corresponding aggregation unit is assigned. As a result, the combination of the intermediate image signal and the working image signal or the evaluation signal resulting therefrom can be adapted particularly well to the respective partial evaluation of the subsequent evaluation module.

Gemäß einer Weiterbildung ist vorgesehen, dass für das Zusammenfassen des Zwischenbildsignals und des Arbeitsbildsignals ein Reduzieren der Auflösung des Zwischenbildsignals durch die Aggregationseinheit erfolgt, wobei sich das ein jeweiliges Prinzip für das Reduzieren der Auflösung zwischen Eingangsteil und der Aggregationseinheit unterscheidet. Mit anderen Worten erfolgt in der Aggregationseinheit ein weiteres Reduzieren der Auflösung des Zwischenbildsignals beziehungsweise der Zwischenbildsignale. Dies ist insbesondere dann nötig, wenn das Verknüpfen beziehungsweise Aggregieren des Arbeitsbildsignals dem Zwischenbildsignal auf besonders einfache Art und Weise erfolgen soll. Insbesondere ist vorgesehen, dass das Verknüpfen durch Konkatenation der einzelnen Signale, also des Arbeitsbildsignals und des Zwischenbildsignals, erfolgt. Insbesondere kann es nötig sein, dass das Arbeitsbildsignal und das Zwischenbildsignal beziehungsweise die Zwischenbildsignale für das Verknüpfen, aggregieren oder die Konkatenation jeweils dieselbe Auflösung aufweisen.According to a further development, the aggregation unit reduces the resolution of the intermediate image signal by combining the intermediate image signal and the working image signal, the respective principle for reducing the resolution differing between the input part and the aggregation unit. In other words, the resolution of the intermediate image signal or the intermediate image signals is further reduced in the aggregation unit. This is particularly necessary if the linkage or aggregation of the working image signal to the intermediate image signal is to take place in a particularly simple manner. In particular, it is provided that the linking takes place by concatenation of the individual signals, that is to say the working image signal and the intermediate image signal. In particular, it may be necessary that the working image signal and the intermediate image signal or the intermediate image signals for linking, aggregate or the concatenation each have the same resolution.

Dabei wird das Reduzieren der Auflösung in der Aggregationseinheit insbesondere auf andere Art und Weise durchgeführt, als im Eingangsteil. Beispielsweise kann bei dem Reduzieren der Auflösung durch die Aggregationseinheit verglichen mit dem Eingangsteil eine größere Kernel-Größe („kernel size“) und/oder eine größere Schrittweite („stride“) angewendet wird. Mit anderen Worten kann ein Maß, um welches die Auflösung bei einem Reduzierungsschritt verringert wird, in der Aggregationseinheit verglichen mit dem Eingangsteil größer sein. Umso größer die Kernel-Größe und/oder umso größer die Schrittweite desto größer kann die Reduzierung der Auflösung in einem Reduzierungsschritt sein. Insgesamt können dadurch unterschiedliche Bildinformationen aus dem Bild extrahiert werden.The reduction of the resolution in the aggregation unit is carried out in a different way than in the input part. For example, when the resolution is reduced by the aggregation unit compared to the input part, a larger kernel size ("kernel size") and / or a larger step size ("stride") can be used. In other words, a Dimension by which the resolution is reduced in a reduction step may be larger in the aggregation unit compared to the input part. The larger the kernel size and / or the larger the step size, the greater the reduction in resolution can be in a reduction step. Overall, different image information can be extracted from the image.

Alternativ oder zusätzlich kann beim Reduzieren der Auflösung durch den Eingangsteil und durch die Aggregationseinheit ein jeweils unterschiedliches Verfahren zum Zusammenfassen einzelner Pixel („pooling“) im Rahmen des Reduzierens der Auflösung vorgesehen sein. Beispielsweise wird beim Zusammenfassen durch die Aggregationseinheit ein Durchschnittswert über die mehreren Matrixelemente gebildet („average pooling“) und beim Zusammenfassen durch den Eingangsteil ausschließlich der Maximalwert der mehreren Matrixelemente herangezogen („max pooling“).Alternatively or additionally, when the resolution is reduced by the input part and by the aggregation unit, a different method for combining individual pixels (“pooling”) can be provided in the context of reducing the resolution. For example, when summarizing by the aggregation unit, an average value over the several matrix elements is formed ("average pooling") and when summarizing through the input part, only the maximum value of the several matrix elements is used ("max pooling").

Gemäß einer Weiterbildung ist vorgesehen, dass die Auflösung des Zwischenbildsignals durch die Aggregationseinheit auf eine geringere Auflösung als die Arbeitsauflösung reduziert wird und anschließend auf die Arbeitsauflösung erhöht, insbesondere interpoliert, wird. Mit anderen Worten kann die Auflösung des Zwischenbildsignals durch die Aggregationseinheit auf eine Auflösung, die kleiner ist als die Arbeitsauflösung, reduziert werden. In einem weiteren Schritt kann die Auflösung des Zwischenbildsignals durch die Aggregationseinheit auf die Arbeitsauflösung erhöht werden. Beispielsweise erfolgt das solches Erhöhen der Auflösung durch Interpolation, insbesondere bilineare Interpolation. Mit anderen Worten kann die Auflösung des Zwischenbildsignals durch die Aggregationseinheit zunächst verringert und anschließend durch Interpolation wieder erhöht werden. Auf diese Weise können zusätzliche Bildmerkmale aus dem Bild extrahiert werden.According to a further development, it is provided that the resolution of the intermediate image signal is reduced by the aggregation unit to a lower resolution than the working resolution and then increased, in particular interpolated, to the working resolution. In other words, the resolution of the intermediate image signal can be reduced by the aggregation unit to a resolution that is less than the working resolution. In a further step, the resolution of the intermediate image signal can be increased to the working resolution by the aggregation unit. For example, the resolution is increased in this way by interpolation, in particular bilinear interpolation. In other words, the resolution of the intermediate image signal can first be reduced by the aggregation unit and then increased again by interpolation. In this way, additional image features can be extracted from the image.

Manchen Ausführungsformen ist vorgesehen, dass als das künstliche neuronale Netz ein solches mit einer E-Net-Struktur verwendet wird. Mit anderen Worten kann das künstliche neuronale Netz eine E-Net-Struktur aufweisen. Eine solche E-Net-Struktur zeichnet sich insbesondere dadurch aus, dass durch den Eingangsteil, insbesondere CNN-Encoder, im Wesentlichen Bildmerkmale extrahiert werden, jedoch die eigentliche Auswertung der Bildmerkmale erst später durch die Auswerteeinheit, insbesondere den CNN-Decoder, erfolgt. Vorteilhaft hierbei ist das der Eingangsteil universell für unterschiedliche Teilauswertungen unterschiedlicher nachfolgender Auswertemodule genutzt werden kann.Some embodiments provide that the artificial neural network used is one with an E-Net structure. In other words, the artificial neural network can have an E-Net structure. Such an E-Net structure is characterized in particular by the fact that the input part, in particular the CNN encoder, essentially extracts image features, but the actual evaluation of the image features takes place only later by the evaluation unit, in particular the CNN decoder. It is advantageous here that the input part can be used universally for different partial evaluations of different subsequent evaluation modules.

Ein weiterer Aspekt der Erfindung betrifft eine Steuereinheit umfassend ein künstliches neuronales Netzes zum Beurteilen einer Umgebung eines Kraftfahrzeugs anhand von Bildern eines Kamerasystems des Kraftfahrzeugs, mit

- einer Bereitstellungeinheit ausgebildet zum Bereitstellen eines Bildes der Umgebung von einer Kamera des Kraftfahrzeugs,
- einem Eingangsteil des künstlichen neuronalen Netzes ausgebildet zum Reduzieren einer Auflösung des Bildes von einer Eingangsauflösung auf eine verringerte Zwischenauflösung und Bereitstellen eines entsprechenden Zwischenbildsignals in der Zwischenauflösung sowie ausgebildet zum Reduzieren einer Auflösung des Bildes von der Zwischenauflösung auf eine nochmals verringerte Arbeitsauflösung und Bereitstellen eines entsprechenden Arbeitsbildsignals in der Arbeitsauflösung,
- einer Aggregationseinheit des künstlichen neuronalen Netzes ausgebildet zum Zusammenfassen des Zwischenbildsignals und des Arbeitsbildsignals zu einem gemeinsamen Auswertesignal, und
- einer Auswerteeinheit des künstlichen neuronalen Netzes ausgebildet zum Beurteilen der Umgebung durch Auswerten des gemeinsamen Auswertesignals.

A further aspect of the invention relates to a control unit comprising an artificial neural network for assessing an environment of a motor vehicle on the basis of images from a camera system of the motor vehicle

a provision unit designed to provide an image of the surroundings from a camera of the motor vehicle,
- An input part of the artificial neural network is designed to reduce a resolution of the image from an input resolution to a reduced intermediate resolution and to provide a corresponding intermediate image signal in the intermediate resolution and is designed to reduce a resolution of the image from the intermediate resolution to a further reduced working resolution and to provide a corresponding working image signal in working resolution,
an aggregation unit of the artificial neural network designed to combine the intermediate image signal and the working image signal into a common evaluation signal, and
- An evaluation unit of the artificial neural network designed to assess the environment by evaluating the common evaluation signal.

Bei der Bereitstellung seiner kann es sich beispielsweise um eine Eingangsschnittstelle der Steuereinheit und/oder einen einer solchen Eingangsschnittstelle zugeordneten Puffer der Steuereinheit handeln. Durch die eine Schnittstelle kann das Bild aus der Kamera des Kraftfahrzeugs empfangen und für die weitere Verarbeitung bereitgestellt werden. In dem Puffer kann das Bild zwischengespeichert („gebuffert“) werden. Das künstliche neuronale Netz kann als ganzes Teil der Steuereinheit sein. Die erfindungsgemäße Steuereinheit ist insbesondere dazu ausgebildet, das erfindungsgemäße Verfahren durchzuführen. Dementsprechend gelten Weiterbildungen und Vorteile des erfindungsgemäßen Verfahrens analog auch für die Steuereinheit und umgekehrt.Providing it can be, for example, an input interface of the control unit and / or a buffer of the control unit assigned to such an input interface. The interface can receive the image from the camera of the motor vehicle and make it available for further processing. The image can be buffered ("buffered") in the buffer. The artificial neural network can be part of the control unit. The control unit according to the invention is in particular designed to carry out the method according to the invention. Accordingly, further developments and advantages of the method according to the invention also apply analogously to the control unit and vice versa.

Ein weiterer Aspekt der Erfindung betrifft ein Fahrerassistenzsystem für ein Kraftfahrzeugs mit einer Kamera zum Bereitstellen eines Bildes einer Umgebung des Kraftfahrzeugs und der oben genannten Steuereinheit. Die Kamera kann in bestimmungsgemäßer Position an dem Kraftfahrzeug angeordnet sein beziehungsweise anordenbar sein.Another aspect of the invention relates to a driver assistance system for a motor vehicle with a camera for providing an image of an environment of the motor vehicle and the above-mentioned control unit. The camera can be arranged in the intended position on the motor vehicle or can be arranged.

Außerdem Teil der Erfindung ist ein Kraftfahrzeug, welches das oben genannte Fahrerassistenzsystem umfasst. Bei dem Kraftfahrzeug handelt es sich insbesondere um einen Kraftwagen, beispielsweise einen Lastkraftwagen oder einen Personenkraftwagen. Beispielsweise kann das Kraftfahrzeug einen elektrischen Antrieb und/oder einen Verbrennungsmotor aufweisen. Das Kamerasystem, insbesondere die erste und die zweite Kamera, des Fahrerassistenzsystems sind an dem Kraftfahrzeug angeordnet. Merkmale und Vorteile, die in Bezug auf das Verfahren offenbart sind, gelten auch für das Fahrerassistenzsystem.In addition, part of the invention is a motor vehicle which comprises the above-mentioned driver assistance system. The motor vehicle is in particular a motor vehicle, for example a truck or a passenger car. For example, the motor vehicle have an electric drive and / or an internal combustion engine. The camera system, in particular the first and the second camera, of the driver assistance system are arranged on the motor vehicle. Features and advantages that are disclosed in relation to the method also apply to the driver assistance system.

Außerdem gehört zur Erfindung ein Computerprogrammprodukt mit Programmcodemitteln, welche in einem computerlesbaren Medium gespeichert sind, um das erfindungsgemäße Verfahren durchzuführen, wenn das Computerprogrammprodukt auf einem Prozessor einer elektronischen Steuereinheit abgearbeitet wird.The invention also includes a computer program product with program code means which are stored in a computer-readable medium in order to carry out the method according to the invention when the computer program product is processed on a processor of an electronic control unit.

Das Computerprogrammprodukt kann auf einem computerlesbaren Medium gespeichert sein. Somit beansprucht diese Erfindung auch ein solches computerlesbares Medium, insbesondere in Form einer computerlesbaren Diskette, CD, DVD, Speicherkarte, USB-Speichereinheit, oder ähnlichen, in dem Programmcodemittel gespeichert sind, um das erfindungsgemäße Verfahren durchzuführen, wenn die Programmcodemittel in einen Speicher einer elektronischen Steuereinheit geladen und auf einem Prozessor der elektronischen Steuereinheit abgearbeitet werden. Bei dem lesbaren Medium kann es sich einen flüchtigen (volatilen) oder einen nicht-flüchtigen Speicher handeln. Ein solcher flüchtiger Speicher kann insbesondere durch einen Arbeitsspeicher eines Mikroprozessors gebildet sein.The computer program product can be stored on a computer-readable medium. Thus, this invention also claims such a computer-readable medium, in particular in the form of a computer-readable floppy disk, CD, DVD, memory card, USB memory unit, or the like, in which program code means are stored in order to carry out the method according to the invention if the program code means are stored in a memory of an electronic Control unit loaded and processed on a processor of the electronic control unit. The readable medium can be volatile (non-volatile) or non-volatile. Such a volatile memory can in particular be formed by a working memory of a microprocessor.

Weitere Merkmale der Erfindung ergeben sich aus den Ansprüchen, den Figuren und der Figurenbeschreibung. Die vorstehend in der Beschreibung genannten Merkmale und Merkmalskombinationen sowie die nachfolgend in der Figurenbeschreibung genannten und/oder in den Figuren alleine gezeigten Merkmale und Merkmalskombinationen sind nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen verwendbar, ohne den Rahmen der Erfindung zu verlassen. Es sind somit auch Ausführungen von der Erfindung als umfasst und offenbart anzusehen, die in den Figuren nicht explizit gezeigt und erläutert sind, jedoch durch separierte Merkmalskombinationen aus den erläuterten Ausführungen hervorgehen und erzeugbar sind. Es sind auch Ausführungen und Merkmalskombinationen als offenbart anzusehen, die somit nicht alle Merkmale eines ursprünglich formulierten unabhängigen Anspruchs aufweisen. Es sind darüber hinaus Ausführungen und Merkmalskombinationen, insbesondere durch die oben dargelegten Ausführungen, als offenbart anzusehen, die über die in den Rückbezügen der Ansprüche dargelegten Merkmalskombinationen hinausgehen oder abweichen.Further features of the invention result from the claims, the figures and the description of the figures. The features and combinations of features mentioned above in the description and the features and combinations of features mentioned below in the description of the figures and / or shown alone in the figures can be used not only in the combination indicated in each case but also in other combinations without departing from the scope of the invention . Embodiments of the invention are thus also to be regarded as encompassed and disclosed, which are not explicitly shown and explained in the figures, but which emerge from the explanations explained and can be generated by separate combinations of features. Designs and combinations of features are also to be regarded as disclosed, which therefore do not have all the features of an originally formulated independent claim. Furthermore, versions and combinations of features, in particular those explained above, are to be regarded as disclosed, which go beyond or differ from the combinations of features set out in the references of the claims.

Dabei zeigen:

1 ein Kraftfahrzeug in einer schematischen Vogelperspektive;
2 ein Blockschaltbild einer Steuereinheit zum Beurteilen einer Umgebung eines Kraftfahrzeugs; und
3 ein Blockschaltbild einer Aggregationseinheit der Steuereinheit.

Show:

1 a motor vehicle in a schematic bird's eye view;
2nd a block diagram of a control unit for assessing an environment of a motor vehicle; and
3rd a block diagram of an aggregation unit of the control unit.

1 zeigt ein Kraftfahrzeug 1 in einer schematischen Vogelperspektive. Das Kraftfahrzeug 1 weist ein Kamerasystem 20 mit einer Kamera 2 auf. Im vorliegenden Ausführungsbeispiel ist die Kamera 2 als Frontkamera ausgeführt. Alternativ kann die Kamera 2 auch als Heckkamera oder als seitlich ausgerichtete Kamera ausgeführt sein. Das Kamerasystem 20 kann optional mehrere, beispielsweise die 4 oben stehend genannten, Kameras, aufweisen. 1 shows a motor vehicle 1 in a schematic bird's eye view. The car 1 has a camera system 20th with a camera 2nd on. In the present embodiment, the camera 2nd designed as a front camera. Alternatively, the camera 2nd also be designed as a rear-facing camera or as a laterally aligned camera. The camera system 20th can optionally have several cameras, for example the 4 cameras mentioned above.

Zusammen mit einer Steuereinheit 3 ist die Kamera 2 Teil eines Fahrerassistenzsystems 21 des Kraftfahrzeugs 1. Das Fahrerassistenzsystem 21 ist zum Beurteilen einer Umgebung des Kraftfahrzeugs 1 eingerichtet. Hierzu stellt die Kamera 2 der Steuereinheit 3 Bilder der Umgebung bereit. Beispielsweise kann die Kamera 2 der Steuereinheit 3 Einzelbilder oder der Umgebung bereitstellen. In den Bildern der Kamera 2 wird die Umgebung abgebildet.Together with a control unit 3rd is the camera 2nd Part of a driver assistance system 21st of the motor vehicle 1 . The driver assistance system 21st is for judging an environment of the motor vehicle 1 set up. The camera does this 2nd the control unit 3rd Images of the area ready. For example, the camera 2nd the control unit 3rd Provide still images or the environment. In the pictures of the camera 2nd the environment is mapped.

Die Steuereinheit 3 weist ein künstliches neuronales Netz auf. 2 zeigt ein Blockschaltbild der Steuereinheit 3. Eine Bereitstellungseinheit 9 der Steuereinheit 3 ist dazu eingerichtet, Bilder aus dem Kamerasystem 20 für eine weitere Verarbeitung durch die Steuereinheit 3 bereitzustellen. Beispielsweise ist die Bereitstellungseinheit 9 eine Eingangsschnittstelle der Steuereinheit 3. Die Bereitstellungseinheit 9 kann die Bilder aus der Kamera 2 empfangen und optional zwischen speichern.The control unit 3rd has an artificial neural network. 2nd shows a block diagram of the control unit 3rd . A staging unit 9 the control unit 3rd is set up to take pictures from the camera system 20th for further processing by the control unit 3rd to provide. For example, the staging unit 9 an input interface of the control unit 3rd . The staging unit 9 can take the pictures from the camera 2nd received and optionally between save.

Ein Bild der Umgebung wird anschließend durch einen Eingangsteil 4 des neuronalen Netzes bearbeitet. Der Eingangsteil 4 kann beispielsweise als CNN-Encoder ausgeführt sein. Durch den Eingangsteil 4 wird eine Eingangsauflösung des Bildes reduziert. Die Eingangsauflösung kann diejenige Auflösung sein, mit der das Bild dem Eingangsteil 4 bereitgestellt wird. Beispielsweise entspricht die Eingangsauflösung einer Auflösung, mit der die Kamera 2 das Bild der Umgebung erfasst. Beispielsweise weist das Bild eine Eingangsauflösung von 2048x1024 Pixeln auf. In mehreren Reduzierungsstufen 40, 41, 42, 43 wird durch den Eingangsteil 4 die Eingangsauflösung reduziert. Beispielsweise wird die Eingangsauflösung zunächst nacheinander auf mehrere Zwischenauflösungen reduziert. Beispielsweise wird die Auflösung des Bildes schrittweise von der Eingangsauflösung auf eine erste Zwischenauflösung, von der ersten Zwischenauflösung auf eine zweite Zwischenauflösung, von der zweiten Zwischenauflösung auf eine dritte Zwischenauflösung und von der dritten Zwischenauflösung auf eine Arbeitsauflösung reduziert. Im vorliegenden Beispiel wird bei jedem Reduzieren der Auflösung beziehungsweise in jeder der Reduzierungsstufen 40, 41, 42, 43 die Anzahl an Pixeln in Höhe und Breite jeweils halbiert. Die Reduzierungsstufen 40, 41, 42, 43 des Eingangsteils 4 können beispielsweise eine Kernel-Größe von 2 und eine Schrittweite von 2 aufweisen. Dies entspricht beispielsweise der genannten Halbierung der Pixelzahl in Länge und Breite. Dementsprechend wird die Anzahl an Pixeln bei jedem Reduzieren der Auflösung beziehungsweise in jeder Reduzierungsstufe 40, 41, 42, 43 geviertelt. Beträgt die erste Zwischenauflösung 1024x512 Pixel, die zweite Zwischenauflösung 512x256 Pixel, die dritte Zwischenauflösung 256x128 Pixel und die Arbeitsauflösung 128x64 Pixel.An image of the surroundings is then through an entrance part 4th of the neural network. The entrance part 4th can for example be designed as a CNN encoder. Through the entrance part 4th an input resolution of the image is reduced. The input resolution can be the resolution with which the image is the input part 4th provided. For example, the input resolution corresponds to a resolution with which the camera 2nd captured the image of the environment. For example, the image has an input resolution of 2048x1024 pixels. In several reduction levels 40 , 41 , 42 , 43 is through the input part 4th reduced the input resolution. For example, the input resolution is first successively reduced to several intermediate resolutions. For example, the resolution of the image is gradually increased from the input resolution to a first intermediate resolution, from the first intermediate resolution to a second intermediate resolution second intermediate resolution to a third intermediate resolution and reduced from the third intermediate resolution to a working resolution. In the present example, each time the resolution is reduced or in each of the reduction levels 40 , 41 , 42 , 43 halved the number of pixels in height and width. The reduction levels 40 , 41 , 42 , 43 of the entrance part 4th can have a kernel size of 2 and a step size of 2, for example. This corresponds, for example, to halving the number of pixels in length and width. Accordingly, the number of pixels each time the resolution is reduced or in each reduction step 40 , 41 , 42 , 43 quartered. The first intermediate resolution is 1024x512 pixels, the second intermediate resolution 512x256 pixels, the third intermediate resolution 256x128 pixels and the working resolution 128x64 pixels.

2 zeigt, dass jeweilige Zwischenbildsignale A, B, C sowie ein Arbeitsbildsignal D zu einer Aggregationseinheit 5 des künstlichen neuronalen Netzes geführt werden. Dabei werden die Zwischenbildsignale jeweils nach den unterschiedlichen Reduzierungsstufen 40, 41, 42, 43 aus dem Eingangsteil 4 bereitgestellt. Mit anderen Worten betrifft das Zwischenbildsignal A dem Bild nach der ersten Reduzierungsstufe 40. Das Zwischenbildsignal B betrifft das Bild der Umgebung nach der zweiten Reduzierungsstufe 41. Das Zwischenbildsignal C betrifft das Zwischenbildsignal nach der dritten Reduzierungsstufe 42. Das Arbeitsbildsignal de betrifft das Bild nach der vierten und letzten Reduzierungsstufe 43. Dementsprechend weisen die Zwischenbildsignale nacheinander jeweils die erste, zweite, dritte Zwischenauflösung oder die Arbeitsauflösung auf. 2nd shows that respective intermediate image signals A , B , C. as well as a working picture signal D to an aggregation unit 5 of the artificial neural network. The intermediate image signals are each based on the different reduction levels 40 , 41 , 42 , 43 from the entrance part 4th provided. In other words, the intermediate image signal relates A the picture after the first reduction stage 40 . The intermediate image signal B concerns the image of the environment after the second reduction stage 41 . The intermediate image signal C. relates to the intermediate image signal after the third reduction stage 42 . The working image signal de relates to the image after the fourth and last reduction stage 43 . Accordingly, the intermediate image signals each have the first, second, third intermediate resolution or the working resolution.

Als Teil jedes der Zwischenbildsignale A, B, C beziehungsweise des Arbeitsbildsignals D können jeweilige Merkmalskarten („feature maps“) ausgegeben werden. Die jeweiligen Merkmalskarten betreffen Bildmerkmale des Bildes der Umgebung, die im Rahmen der jeweiligen Reduzierungsstufe durch den Eingangsteil extrahiert werden. Mit anderen Worten werden mittels der unterschiedlichen Signale (Arbeitsbildsignal und Zwischenbildsignale) A, B, C, D Bildmerkmale, die unterschiedlichen Verarbeitungsstufen des Eingangsteils 4 entnommen sind, ausgegeben.As part of each of the intermediate image signals A , B , C. or the working image signal D respective feature maps can be output. The respective feature cards relate to image features of the image of the surroundings, which are extracted by the input part as part of the respective reduction stage. In other words, the different signals (working image signal and intermediate image signals) A , B , C. , D Image features, the different processing levels of the input part 4th are taken out.

In der Aggregationseinheit 5 werden die Signale A, B, C, D verknüpft. 3 zeigt ein Blockschaltbild der Aggregationseinheit 5. Zunächst werden die Zwischenbildsignale A, B, C einer jeweiligen Reduzierungsstufe 10 der Aggregationseinheit 5 zugeführt. Die Reduzierungsstufen 10 der Aggregationseinheit 5 können verglichen mit den Reduzierungsstufen 40, 41, 42, 43 des Eingangsteils 4 unterschiedliche Algorithmen zur Reduzierung der Auflösung nutzen. Beispielsweise weisen die Reduzierungsstufen 10 der Aggregationseinheit 5 jeweils einen größeren Wert für die Kernel-Größe und/oder einen größeren Wert für die Schrittweite auf als die Reduzierungsstufen 40, 41, 42, 43. Die Reduzierungsstufen 10 für die unterschiedlichen Zwischensignale A, B, C können jeweils unterschiedlich ausgeführt sein.In the aggregation unit 5 become the signals A , B , C. , D connected. 3rd shows a block diagram of the aggregation unit 5 . First, the intermediate image signals A , B , C. a respective reduction level 10th the aggregation unit 5 fed. The reduction levels 10th the aggregation unit 5 can compared to the reduction levels 40 , 41 , 42 , 43 of the entrance part 4th use different algorithms to reduce the resolution. For example, the reduction levels have 10th the aggregation unit 5 a larger value for the kernel size and / or a larger value for the step size than the reduction levels 40 , 41 , 42 , 43 . The reduction levels 10th for the different intermediate signals A , B , C. can be designed differently.

Im vorliegenden Beispiel weist die Reduzierungsstufe 10 für das Zwischensignal A eine Kernel-Größe von 64 sowie eine Schrittweite 64 auf. Die Reduzierungsstufe 10 für das Zwischensignal B weist beispielhaft ebenfalls eine Kernel-Größe von 64 sowie eine Schrittweite 64 auf. Die Reduzierungsstufe 10 für das Zwischensignal C weist beispielhaft eine Kernel-Größe von 32 sowie eine Schrittweite 32 auf. Daraus ergeben sich nach der jeweiligen Reduzierungsstufe 10, wenn die oben genannten Zwischenauflösungen zu Grunde gelegt werden, Auflösungen von 16x8 Pixel für das Zwischensignal A, 8x4 Pixel für das Zwischensignal B und 8x4 Pixel für das Zwischensignal C. Dies ist geringer als die Arbeitsauflösung von 128x64 Pixel.In the present example, the reduction level shows 10th for the intermediate signal A a kernel size of 64 as well as a step size 64 on. The reduction level 10th for the intermediate signal B also has an example kernel size of 64 as well as a step size 64 on. The reduction level 10th for the intermediate signal C. has an example kernel size of 32 as well as a step size 32 on. This results from the respective reduction level 10th If the above-mentioned intermediate resolutions are used, resolutions of 16x8 pixels for the intermediate signal A , 8x4 pixels for the intermediate signal B and 8x4 pixels for the intermediate signal C. . This is less than the working resolution of 128x64 pixels.

Anschließend weist die Aggregationseinheit 5 jeweilige faltende Lagen 11 („convolutional layer“) für jedes der Zwischensignale A, B, C auf. In einem weiteren Schritt wird eine jeweilige entsprechende Einheit 12 eine jeweilige Normalisation, insbesondere eine Stapel- Normalisation („batch normalisation“), durchgeführt. Zusätzlich umfasst die Aggregationseinheit 5 eine jeweilige Aktivierungsfunktion 13 für jedes der Zwischensignale A, B, C. Eine solche Aktivierungsfunktion 13 wird beispielsweise mittels einer Einheit bereitgestellt, die üblicherweise mit dem englischen Fachbegriff „Rectified Linear Unit“, kurz „ReLu“ bezeichnet wird. Anschließend erfolgt eine jeweilige Erhöhung der Auflösung durch ein jeweiliges Interpolationsmodul 14. Durch das Interpolationsmodul 14 wird die Auflösung der Zwischensignale A, B, C jeweils auf die Arbeitsauflösung erhöht. Dies erfolgt insbesondere mittels bilinearer Interpolation.Then the aggregation unit 5 respective folding layers 11 ("Convolutional layer") for each of the intermediate signals A , B , C. on. In a further step, a respective corresponding unit 12 a respective normalization, in particular a batch normalization, is carried out. In addition, the aggregation unit includes 5 a respective activation function 13 for each of the intermediate signals A , B , C. . Such an activation function 13 is provided, for example, by means of a unit that is usually referred to with the English technical term “rectified linear unit”, or “ReLu” for short. Subsequently, the resolution is increased by a respective interpolation module 14 . Through the interpolation module 14 becomes the resolution of the intermediate signals A , B , C. each increased to the working resolution. This is done in particular by means of bilinear interpolation.

In einem Konkatenationsmodul 15 werden nun die Zwischenbildsignale A, B, C und das Arbeitsbildsignal D miteinander verknüpft. Hierbei werden die jeweiligen Merkmalskarten insbesondere hintereinander gestapelt. Mit anderen Worten erfolgt eine Aneinanderreihung der einzelnen Merkmalskarten. Dies ist daher möglich, da die Signale A, B, C, D jeweils dieselbe Auflösung aufweisen. Als Ergebnis dieser Konkatenation ergibt sich ein Auswertesignals.In a concatenation module 15 are now the intermediate image signals A , B , C. and the working image signal D linked together. The respective feature cards are stacked one behind the other. In other words, the individual feature cards are lined up. This is possible because of the signals A , B , C. , D each have the same resolution. The result of this concatenation is an evaluation signal.

Nun wieder bezugnehmend auf 2 wird das Auswertesignal einem Auswertemodul 6 des künstlichen neuronalen Netzes bereitgestellt. In dem Auswertemodul 6 wird beispielsweise eine Beurteilung der Umgebung anhand der Bildmerkmale beziehungsweise der verknüpften Merkmalskarten des Auswertesignals durchgeführt.Now referring to 2nd the evaluation signal becomes an evaluation module 6 of the artificial neural network. In the evaluation module 6 For example, an assessment of the environment is carried out on the basis of the image features or the linked feature cards of the evaluation signal.

Im vorliegenden Ausführungsbeispiel sind zwei voneinander unabhängige Auswertemodule 6, 8 vorgesehen. Durch die Auswertemodule 6, 8 werden jeweilige unabhängige Teilauswertungen vorgenommen. Beispielsweise wird durch das Auswertemodul 6 eine semantische Segmentierung des Bildes durchgeführt. Durch das Auswertemodul 8 kann davon unabhängig eine Tiefenschätzung von Bildbereichen des Bildes geführt werden. Dabei erfolgen die unabhängigen Teilauswertungen beide basierend auf denselben Bildmerkmale beziehungsweise denselben Merkmalskarten, die durch den einzigen Eingangsteil 4 des künstlichen neuronalen Netzes als Teil der Signale A, B, C, D bereitgestellt werden. Jedem der Auswertemodule 6, 8 ist eine jeweilige Aggregationseinheit 5, 7 zugeordnet. Dabei werden die Zwischenbildsignale A, B, C durch jede der Aggregationseinheiten 5, 7 für das jeweils nachgeordnete Auswertemodul 6, 8 aggregiert beziehungsweise verknüpft. Die Aggregationseinheiten 5, 7 können dasselbe oder ein jeweils abweichendes Funktionsprinzip aufweisen. Insbesondere kann die Aggregationseinheit 7 dasselbe sind trotzdem aufweisen, wie anhand 3 für die Aggregationseinheit 7 bereits beschrieben wurde. Auf diese Weise können sich einerseits Synergien ergeben und andererseits eine Genauigkeit beider Teilauswertungen verbessert werden. Dadurch kann die nötige Rechenzeit bei gleichzeitiger Verbesserung der Genauigkeit der Beurteilung der Umgebung sinken.In the present exemplary embodiment, there are two evaluation modules that are independent of one another 6 , 8th intended. Through the evaluation modules 6 , 8th independent partial evaluations are carried out. For example, the evaluation module 6 a semantic segmentation of the image is carried out. Through the evaluation module 8th a depth estimate of image areas of the image can be carried out independently of this. The independent partial evaluations are both based on the same image features or the same feature cards that are provided by the single input part 4th of the artificial neural network as part of the signals A , B , C. , D to be provided. Each of the evaluation modules 6 , 8th is a respective aggregation unit 5 , 7 assigned. The intermediate image signals A , B , C. through each of the aggregation units 5 , 7 for the subordinate evaluation module 6 , 8th aggregated or linked. The aggregation units 5 , 7 can have the same or a different operating principle. In particular, the aggregation unit 7 are still the same as on the basis of 3rd for the aggregation unit 7 has already been described. In this way, synergies can arise on the one hand and on the other hand the accuracy of both partial evaluations can be improved. This can reduce the necessary computing time while improving the accuracy of the assessment of the environment.

Im Rahmen eines Anlernvorgangs des künstlichen neuronalen Netzes können die beiden Aggregationseinheiten 5, 7 jedoch unterschiedlich angelernt werden. Insbesondere ist es möglich, dass die Aggregationseinheiten 5, 7 jeweils im Rahmen des Anlernvorgangs jeweils an die Teilauswertung des nachfolgenden Auswertemoduls 6, 8 angepasst werden. Mit anderen Worten erfolgt das Verknüpfen der Signale A, B, C, D vorteilhaft jeweils auf eine Weise, die an das nachgeordnete Auswertemodul 6, 8 angepasst ist. Auf diese Weise kann die Genauigkeit weiter verbessert werden.As part of a learning process for the artificial neural network, the two aggregation units can 5 , 7 however, are taught in different ways. In particular, it is possible that the aggregation units 5 , 7 to the partial evaluation of the subsequent evaluation module as part of the learning process 6 , 8th be adjusted. In other words, the signals are linked A , B , C. , D advantageous in each case in a way that is connected to the downstream evaluation module 6 , 8th is adjusted. In this way, the accuracy can be further improved.

Insgesamt werden in dem gemeinsamen Eingangsteil 4 („shared encoder“) alle Bildmerkmale extrahiert, die für beide Teilauswertungen von Bedeutung sind. Der Vorteil des vorliegenden Ansatzes ist, dass die Vorteile des modularen Aufbaus mit den Vorteilen eines Multi-scalaren-Ansatzes („multi-scale“) verknüpft. Hierdurch werden Vorteile von flachen Lagen („layern“) (einfache und lokale Bildmerkmale mit hoher Lokalisierungsgüte) mit Vorteilen von tieferen Lagen (komplexe und globale Bildmerkmale aufgrund der Tiefe des Netzes und des größeren rezeptiven Feldes) miteinander verbunden. Diese Fusionierung von Features beziehungsweise Bildmerkmalen ermöglicht eine Steigerung der Genauigkeit und damit der Qualität der einzelnen Teilauswertungen („tasks“) .Overall, in the common entrance part 4th ("Shared encoder") extracts all image features that are important for both partial evaluations. The advantage of the present approach is that the advantages of the modular structure are combined with the advantages of a multi-scalar approach ("multi-scale"). This combines the advantages of flat layers (“layering”) (simple and local image features with high localization quality) with the advantages of lower layers (complex and global image features due to the depth of the network and the larger receptive field). This fusion of features or image features enables an increase in the accuracy and thus the quality of the individual partial evaluations (“tasks”).

Claims

Method for assessing an environment of a motor vehicle (1) using an image of a camera system of the motor vehicle (1), comprising the steps: - Providing the image of the surroundings from a camera (2) of the motor vehicle (1), - reducing a resolution of the image from an input resolution to a reduced intermediate resolution by an input part (4) of an artificial neural network and providing a corresponding respective intermediate image signal (A, B, C) with the intermediate resolution, Reducing the resolution of the image from the intermediate resolution to a further reduced working resolution by the input part (4) of the artificial neural network and providing a corresponding working image signal (D) with the working resolution, - Combining the intermediate image signal (A, B, C) and the working image signal (D) into a common evaluation signal by an aggregation unit (5) of the artificial neural network, and - Assessment of the environment by evaluating the common evaluation signal by an evaluation unit (6) of the artificial neural network.

Procedure according to Claim 1 , characterized in that, when assessing the environment, a semantic segmentation of the image takes place.

Method according to one of the preceding claims, characterized in that, when assessing the environment, a depth estimate is carried out for the environment shown in the image.

Method according to one of the preceding claims, characterized in that the evaluation unit comprises a plurality of independent evaluation modules (6, 8), with the evaluation modules carrying out several mutually independent partial evaluations when assessing the environment.

Procedure according to Claim 4 , characterized in that the combination of the image for each of the evaluation modules (6, 8) is carried out separately by a respective aggregation unit (5, 7) assigned to the respective evaluation unit.

Procedure according to Claim 4 or 5 , characterized in that, a mode of operation of the respective aggregation units (5, 7) is adapted to the partial evaluations of the respectively subsequent evaluation module (6, 8).

Method according to one of the preceding claims, characterized in that, for the combination of the intermediate image signal (A, B, C) and the working image signal (D), the resolution of the intermediate image signal is reduced by the aggregation unit (5), which is a respective principle to reduce the resolution between the input part and the aggregation unit.

Procedure according to Claim 7 , characterized in that, when reducing the resolution by the aggregation unit compared to the input part, a larger kernel size and / or a larger step size is used.

Procedure according to Claim 7 or 8th , characterized in that the resolution of the intermediate image signal is reduced by the aggregation unit to a lower resolution than the working resolution and then increased to the working resolution, in particular interpolated.

Method according to one of the preceding claims, characterized in that, as the artificial neural network, one with an E-Net structure is used.

Control unit (3) comprising an artificial neural network for assessing an environment of a motor vehicle (1) on the basis of images of a camera system of the motor vehicle (1), with - a provision unit designed to provide an image of the surroundings from a camera (2) of the motor vehicle (1), - An input part (4) of the artificial neural network designed to reduce a resolution of the image from an input resolution to a reduced intermediate resolution and to provide a corresponding intermediate image signal (A, B, C) in the intermediate resolution and designed to reduce a resolution of the image from the intermediate resolution on a further reduced working resolution and provision of a corresponding working image signal (D) in the working resolution, - An aggregation unit (5) of the artificial neural network designed to combine the intermediate image signal (A, B, C) and the working image signal (D) into a common evaluation signal, and - An evaluation unit (6) of the artificial neural network designed to assess the environment by evaluating the common evaluation signal.

Driver assistance system (21) for a motor vehicle (1), with - a camera (2) for providing an image of an environment of the motor vehicle (1), and - a control unit (3) Claim 11 .

Computer program product with program code means which are stored in a computer-readable medium for the method for assessing an environment of a motor vehicle (1) on the basis of images of a camera system (20) of the motor vehicle (1) according to one of the preceding Claims 1 to 10th to be carried out when the computer program product is processed on a processor of an electronic control unit (3).

Computer-readable medium, in particular in the form of a computer-readable floppy disk, CD, DVD, memory card, USB memory unit, or the like, in which program code means are stored in order to perform the method for assessing an environment of a motor vehicle (1) on the basis of images from a camera system (20) Motor vehicle (1) according to one of the preceding Claims 1 to 10th to be carried out when the program code means are loaded into a memory of an electronic control unit (3) and processed on a processor of the electronic control unit (3).