DE102018132627A1 - Method for capturing an environment of a motor vehicle by means of temporal fusion of images through an artificial neural network; Control unit, driver assistance system; Computer program product - Google Patents
Method for capturing an environment of a motor vehicle by means of temporal fusion of images through an artificial neural network; Control unit, driver assistance system; Computer program product Download PDFInfo
- Publication number
- DE102018132627A1 DE102018132627A1 DE102018132627.0A DE102018132627A DE102018132627A1 DE 102018132627 A1 DE102018132627 A1 DE 102018132627A1 DE 102018132627 A DE102018132627 A DE 102018132627A DE 102018132627 A1 DE102018132627 A1 DE 102018132627A1
- Authority
- DE
- Germany
- Prior art keywords
- images
- image features
- neural network
- environment
- artificial neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
Die Erfindung betrifft ein Verfahren zum Erfassen einer Umgebung (U) eines Kraftfahrzeugs (1). Um eine verbesserte Erkennung von Objekten (29) mittels semantischer Segmentierung zu ermöglichen, weist das Verfahren die folgenden Schritte auf:(i) Bereitstellen zumindest zweier Bilder (20) der Umgebung (U), wobei die zumindest zwei Bilder (20) mit einer selben Kamera (2) des Kraftfahrzeugs (1) zu unterschiedlichen Zeitenpunkten aufgenommen sind,(ii) getrenntes Extrahieren jeweiliger Bildmerkmale aus den zumindest zwei Bildern (20) durch zumindest einen Eingangsteil (4) eines künstlichen neuronalen Netzes (19), wobei die Bildmerkmale zumindest teilweise ein mittels der zumindest zwei Bilder (20) abgebildetes Objekt (29) in der Umgebung (U) in dem jeweiligen Bild (20) betreffen,(iii) Verknüpfen der getrennt extrahierten Bildmerkmale der zumindest zwei Bilder (20) zu verknüpften Bildmerkmalen durch eine Verknüpfungseinheit (5) des künstlichen neuronalen Netzes (19), und(iv) Erfassen des Objekts (29) in der Umgebung (U) durch gemeinsames Auswerten der verknüpften Bildmerkmale durch eine Auswerteeinheit (8) des künstlichen neuronalen Netzes (19).The invention relates to a method for detecting an environment (U) of a motor vehicle (1). In order to enable improved detection of objects (29) by means of semantic segmentation, the method has the following steps: (i) providing at least two images (20) of the environment (U), the at least two images (20) having the same one Camera (2) of the motor vehicle (1) are recorded at different times, (ii) separate extraction of respective image features from the at least two images (20) by at least one input part (4) of an artificial neural network (19), the image features at least partially relate an object (29) imaged in the environment (U) in the respective image (20) by means of the at least two images (20), (iii) linking the separately extracted image features of the at least two images (20) to linked image features by a linking unit (5) the artificial neural network (19), and (iv) detecting the object (29) in the environment (U) by jointly evaluating the linked image features by a e Evaluation unit (8) of the artificial neural network (19).
Description
Die Erfindung betrifft ein Verfahren zum Erfassen einer Umgebung eines Kraftfahrzeugs mittels eines künstlichen neuronalen Netzes. Weitere Aspekte der Erfindung betreffen eine Steuereinheit, ein Fahrerassistenzsystem und ein Computerprogrammprodukt.The invention relates to a method for detecting an environment of a motor vehicle by means of an artificial neural network. Further aspects of the invention relate to a control unit, a driver assistance system and a computer program product.
Fahrerassistenzsysteme benötigen für ihre Funktion häufig Informationen über eine Umgebung eines Kraftfahrzeugs. Beispiele für Fahrerassistenzsysteme sind Notbremsassistenten, Spurhalteassistenten und Systeme, die autonomes Fahren/Einparken ermöglichen. Beispielsweise können solche Informationen die Position von Objekten in der Umgebung des Kraftfahrzeugs betreffen. Beispiele für solche Objekte, deren Position für das Funktionieren des Fahrerassistenzsystems notwendig sein kann, sind Fahrbahnbegrenzungen, Bordsteine, Fahrbahnmarkierungen, andere Verkehrsteilnehmer (Fahrzeuge, Fußgänger, Radfahrer), parkende Fahrzeuge und/oder mögliche Kollisionspartner, mit denen das Kraftfahrzeug während einer Fahrt kollidieren könnte.Driver assistance systems often require information about an environment of a motor vehicle in order to function. Examples of driver assistance systems are emergency braking assistants, lane keeping assistants and systems that enable autonomous driving / parking. For example, such information can relate to the position of objects in the surroundings of the motor vehicle. Examples of such objects, the position of which may be necessary for the functioning of the driver assistance system, are lane boundaries, curbs, lane markings, other road users (vehicles, pedestrians, cyclists), parked vehicles and / or possible collision partners with whom the motor vehicle could collide during a journey .
Zum Erfassen von Objekten in der Umgebung sind beispielsweise Kamerasysteme bekannt, wobei ein solches Kamerasystem eine oder mehrere Kameras umfassen kann. Eine solche Kamera kann die Umgebung des Kraftfahrzeugs in Form von Bildern, insbesondere einem Videosignal, welches eine Folge an Einzelbildern (Frames) umfasst, erfassen. Aus diesen Bildern müssen die nötigen Informationen jedoch zunächst extrahiert werden. Zum Erkennen von Objekten ist beispielsweise eine sogenannte Segmentierung von Bildern bekannt. Dabei werden in dem Bild unterschiedliche Segmente erkannt und auf ihren Bedeutungsgehalt hin untersucht. Aus diesem Grund ist auch häufig von semantischer Segmentierung die Rede. Es werden somit unterschiedliche Bildbereiche erfasst und semantisch analysiert.For example, camera systems are known for capturing objects in the environment, and such a camera system can comprise one or more cameras. Such a camera can capture the surroundings of the motor vehicle in the form of images, in particular a video signal, which comprises a sequence of individual images (frames). However, the necessary information must first be extracted from these images. A so-called segmentation of images is known, for example, for recognizing objects. Different segments are recognized in the image and examined for their meaning. For this reason, semantic segmentation is often mentioned. Different image areas are thus captured and semantically analyzed.
Semantische Segmentierung kann beispielsweise mittels maschinellen Sehen erfolgen. Bei maschinellen Sehen werden üblicherweise klassische Werkzeuge der Bildbearbeitung herangezogen. Beispiele hierfür sind das Auswerten eines optischen Flusses (optical flow), das Erfassen von Gradienten oder sogenannte Hough-Transformation. Als vorteilhaft hat sich davon abweichend eine semantische Segmentierung mittels künstlicher neuronaler Netze erwiesen. Dabei wird ein künstliches neuronales Netz darauf angelernt, in einem Bild unterschiedliche Bereiche zu erfassen und semantisch zu analysieren. Im Rahmen eines Anlernvorgangs lernt das künstliche neuronale Netz hierbei selbstständig, welche Bildmerkmale hierfür von Interesse sind und welche Werkzeuge der Bildbearbeitung für die semantische Segmentierung zu nutzen sind. Ein solcher Anlernvorgang kann beispielsweise mittels bereits segmentierter Beispielbilder durchgeführt werden.Semantic segmentation can be done using machine vision, for example. Classic machine vision tools are usually used for machine vision. Examples of this are the evaluation of an optical flow, the detection of gradients or the so-called Hough transformation. Deviating from this, semantic segmentation using artificial neural networks has proven to be advantageous. An artificial neural network is learned to capture different areas in an image and to analyze them semantically. As part of a learning process, the artificial neural network independently learns which image features are of interest and which tools of image processing are to be used for semantic segmentation. Such a learning process can be carried out, for example, using already segmented example images.
Es ist Aufgabe der vorliegenden Erfindung, eine verbesserte Erkennung von Objekten mittels semantischer Segmentierung zu ermöglichen.The object of the present invention is to enable improved detection of objects by means of semantic segmentation.
Diese Aufgabe wird erfindungsgemäß gelöst durch die Gegenstände unabhängigen Patentansprüche. Vorteilhafte Ausführungsformen mit zweckmäßigen Weiterbildungen sind Gegenstand der Unteransprüche. Merkmale, die im Kontext des erfindungsgemäßen Verfahrens beschrieben sind, bilden analog auch die Steuereinheit, das Fahrerassistenzsystem, das Kraftfahrzeug sowie das Computerprogrammprodukt weiter und umgekehrt, auch wenn die Merkmale in deren Kontext aus Gründen der Knappheit nicht erneut offenbart sind.According to the invention, this object is achieved by the subject-matter-independent claims. Advantageous embodiments with appropriate further developments are the subject of the dependent claims. Features which are described in the context of the method according to the invention also analogously develop the control unit, the driver assistance system, the motor vehicle and the computer program product and vice versa, even if the features in their context are not disclosed again for reasons of scarcity.
Der erste Aspekt der Erfindung betrifft ein Verfahren zum Erfassen einer Umgebung eines Kraftfahrzeug, mit den Schritten:
- (i) Bereitstellen zumindest zweier Bilder der Umgebung, wobei die zumindest zwei Bilder mit einer selben Kamera des Kraftfahrzeugs zu unterschiedlichen Zeitenpunkten aufgenommen sind,
- (ii) getrenntes Extrahieren jeweiliger Bildmerkmale aus den zumindest zwei Bildern durch zumindest einen Eingangsteil eines künstlichen neuronalen Netzes, wobei die Bildmerkmale zumindest teilweise ein mittels der zumindest zwei Bilder abgebildetes Objekt in der Umgebung in dem jeweiligen Bild betreffen,
- (iii) Verknüpfen der getrennt extrahierten Bildmerkmale der zumindest zwei Bilder zu verknüpften Bildmerkmalen durch eine Verknüpfungseinheit des künstlichen neuronalen Netzes, und
- (iv) Erfassen des Objekts in der Umgebung durch gemeinsames Auswerten der verknüpften Bildmerkmale durch eine Auswerteeinheit des künstlichen neuronalen Netzes.
- (i) providing at least two images of the surroundings, the at least two images being taken with the same camera of the motor vehicle at different times,
- (ii) separate extraction of respective image features from the at least two images by at least one input part of an artificial neural network, the image features at least partially relating to an object in the surroundings in the respective image that is imaged by means of the at least two images,
- (iii) linking the separately extracted image features of the at least two images to linked image features by a linking unit of the artificial neural network, and
- (iv) Detecting the object in the environment by jointly evaluating the linked image features by an evaluation unit of the artificial neural network.
Eine wesentliche Idee der vorliegenden Erfindung beruht darauf, die Bildmerkmale aus den zumindest zwei zu unterschiedlichen Zeitpunkten aufgenommenen Bildern zu fusionieren. Dabei hat es sich als besonders vorteilhaft erwiesen, die Bildmerkmale durch den zumindest einen Eingangsteil des künstlichen neuronalen Netzes zunächst getrennt zu extrahieren und erst anschließend zu fusionieren. Mit anderen Worten werden die Bildmerkmale erst nach eingangsseitiger Aufbereitung durch das künstliche neuronale Netz verknüpft beziehungsweise funktioniert. Das Verknüpfen erfolgt bildlich gesprochen innerhalb des künstlichen neuronalen Netzes. Das künstliche neuronale Netz kann zumindest teilweise als faltendes neuronales Netz („convolutional neural network“, kurz CNN) und/oder rekurrentes neuronales Netz („recurrent neural network“, kurz RNN) ausgeführt sein. Es findet insbesondere eine Fusion statischer Bildmerkmale aus den einzelnen Bildern mit bewegten Bildmerkmalen beziehungsweise raumzeitlichen Bildmerkmalen aus der Veränderung zwischen den Bildern innerhalb des künstlichen neuronalen Netzes statt.An essential idea of the present invention is based on fusing the image features from the at least two images taken at different times. It has proven to be particularly advantageous to first separately extract the image features through the at least one input part of the artificial neural network and only then to fuse them. In other words, the image features are only linked or functioned after they have been processed on the input side by the artificial neural network. The linking takes place figuratively within the artificial neural network. The artificial neural network can at least partially be used as a folding neural network (“convolutional neural network ”, CNN for short) and / or recurrent neural network (“ RNN for short ”). In particular, there is a fusion of static image features from the individual images with moving image features or spatiotemporal image features from the change between the images within the artificial neural network.
Bei den zumindest zwei Bildern handelt es sich um unterschiedliche Bilder, welche mittels derselben Kamera des Kraftfahrzeugs aufgenommen sind beziehungsweise werden. Beispielsweise erfolgt das Bereitstellen der Bilder durch die entsprechende Kamera oder eine beliebige Schnittstelle eines Kamerasystems, welches die Kamera umfasst. Besonders vorteilhafterweise ist die Kamera dazu eingerichtet, entsprechende Bilder in Form einer Bildfolge, beispielsweise in Form eines Serienbildes oder eines Videosignals, bereitzustellen. Die zumindest zwei Bilder können somit unterschiedliche Einzelbilder (Frames) eines Videosignals sein.The at least two images are different images which are or are recorded using the same camera of the motor vehicle. For example, the images are provided by the corresponding camera or any interface of a camera system that includes the camera. Particularly advantageously, the camera is set up to provide corresponding images in the form of an image sequence, for example in the form of a series image or a video signal. The at least two pictures can thus be different individual pictures (frames) of a video signal.
Anschließend werden die zumindest zwei Bilder durch den zumindest einen Eingangsteil des künstlichen neuronalen Netzes bearbeitet. Hierbei werden aus den zumindest zwei Bildern die jeweiligen Bildmerkmale extrahiert. Bei dem Extrahieren der Bildmerkmale wird nicht zwangsläufig darauf geachtet, ob die Bildmerkmale das Objekt repräsentieren beziehungsweise betreffen oder nicht. Jedoch kann der zumindest eine Eingangsteil des künstlichen neuronales Netzes beim seinem Anlernvorgang darauf angelernt werden, im Wesentlichen solche Bildmerkmale zu extrahieren, welche für die zugrunde liegende Aufgabe, also vorliegend das Erfassen der Umgebung beziehungsweise das Erfassen von Objekten, von Relevanz sind. Dies erfolgt bei dem Anlernvorgang ganz automatisch anhand der gewählten Trainingsdaten. Die Trainingsdaten können beispielsweise eine Vielzahl an Bildern unterschiedlicher Objekte, welche im Normalbetrieb des künstlichen neuronalen Netzes dann erkannt werden sollen, umfassen.The at least two images are then processed by the at least one input part of the artificial neural network. The respective image features are extracted from the at least two images. When extracting the image features, no particular attention is paid to whether the image features represent or relate to the object or not. However, the at least one input part of the artificial neural network can be taught during its learning process to extract essentially those image features that are relevant to the underlying task, that is to say the detection of the surroundings or the detection of objects. This takes place automatically during the learning process based on the selected training data. The training data can include, for example, a large number of images of different objects which are then to be recognized during normal operation of the artificial neural network.
Bei dem zumindest einen Eingangsteil des künstlichen neuronalen Netzes handelt es sich vorzugsweise um einen sogenannten CNN-Encoder. Durch den Eingangsteil kann im Wesentlichen ein Falten des jeweiligen Bildes erfolgen. Dabei wird eine Matrix, die das jeweilige Bild definiert oder aus diesem abgeleitet ist, in mehrere kleinere Matrizen aufgeteilt. Dies erfolgt insbesondere in mehreren nacheinander folgenden Schritten. Die Matrix kann beispielsweise Höhe mal Breite mal Farbe einzelner (insbesondere aller) Pixel des jeweiligen Bildes angeben. Mit anderen Worten kann die Matrix als digitales Bild beziehungsweise digitale Repräsentation des jeweiligen Bildes aufgefasst werden. Das Falten kann beispielsweise durch sogenannte faltende Lagen („convolutional layer“) durchgeführt werden. Hierbei kann die Matrix mittels so genannter Filter analysiert werden. Durch einen solchen Filter kann aus der Ursprungsmatrix eine oder mehrere Ergebnismatrix/Ergebnismatrizen gebildet werden, deren Werte sich aus einem Teilbereich der Ursprungsmatrix und abhängig von einer Größe (Kernel-Size), einem Randverhalten (Padding) und einer Schrittweite des Filters. Alternativ oder zusätzlich kann der Eingangsteil des künstlichen neuronalen Netzes eine oder mehrere Aggregationslagen („pooling layer“) umfassen. Eine solche Aggregationslage kann die Werte mehrerer Matrixelemente zusammenfassen. Beispielsweise wird beim Zusammenfassen ein Durchschnittswert über die mehreren Matrixelemente gebildet („average pooling“) oder es wird ausschließlich der Maximalwert der mehreren Matrixelemente herangezogen („max pooling“). Insgesamt wird durch den zumindest einen Eingangsteil eine Auflösung der zumindest zwei Bilder beziehungsweise einer jeweiligen entsprechenden Matrix reduziert. Dies kann beispielhaft durch die vorstehend genannten Mechanismen oder durch andere Mechanismen erfolgen. Aufgrund des Lernvorgangs ist das künstliche neuronale Netz dazu in der Lage das Reduzieren der Auflösung auf eine Weise durchzuführen, dass für die zugrunde liegende Aufgabe, also vorliegend das Erfassen der Umgebung beziehungsweise das Erfassen von Objekten, relevante Bildmerkmale extrahiert werden. Erfindungswesentlich ist, das soll hier nochmals betont werden, unter anderem dass das Reduzieren der Auflösung, das Falten beziehungsweise das Extrahieren der Bildmerkmale für beide Bilder separat beziehungsweise getrennt erfolgt. Die Bildmerkmale können durch den Eingangsteil des künstlichen neuronalen Netzes in Form einer Vielzahl an Matrizen an einen anschließenden Teil des künstlichen neuronalen Netzes weitergegeben werden.The at least one input part of the artificial neural network is preferably a so-called CNN encoder. The input part can essentially fold the respective image. A matrix that defines or derives the respective image is divided into several smaller matrices. This is done in particular in several successive steps. The matrix can, for example, indicate height times width times color of individual (in particular all) pixels of the respective image. In other words, the matrix can be understood as a digital image or a digital representation of the respective image. Folding can, for example, be carried out using so-called convolutional layers. The matrix can be analyzed using a filter. With such a filter, one or more result matrix / result matrices can be formed from the original matrix, the values of which result from a partial area of the original matrix and depending on a size (kernel size), an edge behavior (padding) and a step size of the filter. Alternatively or additionally, the input part of the artificial neural network can comprise one or more aggregation layers (“pooling layer”). Such an aggregation position can summarize the values of several matrix elements. For example, when summarizing, an average value is formed over the several matrix elements ("average pooling") or only the maximum value of the several matrix elements is used ("max pooling"). Overall, the at least one input part reduces the resolution of the at least two images or a respective corresponding matrix. This can be done for example by the mechanisms mentioned above or by other mechanisms. On the basis of the learning process, the artificial neural network is able to reduce the resolution in such a way that image features relevant to the underlying task, that is to say the detection of the surroundings or the detection of objects, are extracted. It is essential to the invention, which is to be emphasized again here, among other things, that the reduction in resolution, the folding or the extraction of the image features for both images is carried out separately or separately. The image features can be passed on through the input part of the artificial neural network in the form of a large number of matrices to a subsequent part of the artificial neural network.
Vorliegend werden die Bildmerkmale durch den Eingangsteil an die Verknüpfungseinheit des künstlichen neuronalen Netzes weitergegeben. Die Bildmerkmale aus den zumindest zwei Bildern werden dann erst in einem nächsten Schritt miteinander verknüpft. Dies kann im Rahmen einer sogenannten Konkatenation erfolgen. Dabei werden beispielsweise die unterschiedlichen Matrizen, welche die Bildmerkmale bilden beziehungsweise beschreiben, hintereinander gereiht. Eine Auflösung der Repräsentation der zumindest zwei Bilder durch die Matrizen ändert sich hierbei insbesondere nicht, es nimmt stattdessen die Informationstiefe zu.In the present case, the image features are passed on through the input part to the linking unit of the artificial neural network. The image features from the at least two images are then only linked to one another in a next step. This can be done as part of a so-called concatenation. For example, the different matrices that form or describe the image features are arranged one after the other. A resolution of the representation of the at least two images by the matrices in particular does not change here, instead the depth of information increases.
Anschließend werden die verknüpften Bildmerkmale ausgewertet. Hierbei kann das künstliche neuronale Netz, insbesondere die Auswerteeinheit des künstlichen neuronalen Netzes, basierend auf dem durch den Anlernvorgang erworbenen Vorwissen, basierend auf den Bildmerkmalen der zumindest zwei Bilder eine semantische Auswertung des Bildinhalts durchführen. Alternativ oder zusätzlich zu der semantischen Auswertung kann eine Segmentierung des Bildinhalts erfolgen. Zusammengefasst können zwei zu unterschiedlichen Zeitpunkten aufgenommene Bilder zur semantischen Segmentierung ihres Bildinhalts genutzt werden. Ausgehend von einem ersten der zumindest zwei Bilder kann durch Hinzunahme weiterer Bilder (also des zumindest einen weiteren der zumindest zwei Bilder) eine verbesserte Erkennung beziehungsweise Erfassung des Objekts gewährleistet werden. Insbesondere stehen mehr Bildmerkmale zur zuverlässigen Objekterkennung beziehungsweise semantischen Segmentierung zur Verfügung. Durch eine Redundanz, die aufgrund unveränderter Bildbereiche zwischen den zumindest zwei Bildern zustande kommen kann, ergibt sich zusätzlich eine verbesserte Zuverlässigkeit.The linked image features are then evaluated. Here, the artificial neural network, in particular the evaluation unit of the artificial neural network, can perform a semantic evaluation based on the prior knowledge acquired through the learning process, based on the image features of the at least two images of the image content. As an alternative or in addition to the semantic evaluation, the image content can be segmented. In summary, two images taken at different times can be used for the semantic segmentation of their image content. On the basis of a first of the at least two images, an improved recognition or detection of the object can be ensured by adding further images (ie the at least one further of the at least two images). In particular, more image features are available for reliable object recognition or semantic segmentation. Redundancy, which can occur due to unchanged image areas between the at least two images, additionally results in improved reliability.
Selbstverständlich können zusätzlich zu den verknüpften Bildmerkmalen auch die einzelnen Bildmerkmale der zumindest zwei Bilder einzeln durch die Auswerteeinheit ausgewertet werden. Mit anderen Worten kann das Objekt sowohl anhand der verknüpften Bildmerkmale als auch anhand einzelner Bildmerkmale der zumindest zwei Bilder erfasst werden. Dabei werden durch die verknüpften Bildmerkmale insbesondere Merkmale betreffend den optischen Fluss beziehungsweise raumzeitliche Informationen bereitgestellt. Demgegenüber werden durch die einzelnen Bildmerkmale der einzelnen Bilder im Wesentlichen statische Merkmale, insbesondere betreffend das Erscheinungsbild des Objekts, bereitgestellt. Durch die Verknüpfung beider unterschiedlicher Arten an Merkmalen kann eine besonders hohe Erkennungsquote für das Objekt ermöglicht werden.Of course, in addition to the linked image features, the individual image features of the at least two images can also be evaluated individually by the evaluation unit. In other words, the object can be detected both on the basis of the linked image features and also on the basis of individual image features of the at least two images. The linked image features in particular provide features relating to the optical flow or spatiotemporal information. In contrast, the individual image features of the individual images provide essentially static features, in particular with regard to the appearance of the object. By combining the two different types of features, a particularly high recognition rate for the object can be made possible.
Gemäß einer Weiterbildung ist vorgesehen, dass das Erfassen von Objekten in der Umgebung zumindest teilweise durch einen gemeinsamen Decoder, der Teil der Auswerteeinheit ist, erfolgt. Bei dem Decoder kann es sich um einen CNN-Decoder handeln. Mit anderen Worten kann die Auswerteeinheit einen gemeinsamen Decoder beziehungsweise CNN-Decoder für verknüpften Bildmerkmale umfassen. Im Gegensatz zu einem Encoder-Decoder-Netzwerk, eine verbreitete Erscheinungsform eines künstlichen neuronalen Netzes, kann ein solcher gemeinsamer CNN-Decoder auf die Bildmerkmale zweier unterschiedlicher CNN-Encoder zurückgreifen. Auf diese Weise kann eine Zuverlässigkeit und eine Erkennungsgenauigkeit verbessert werden.According to a further development, it is provided that objects in the surroundings are at least partially carried out by a common decoder, which is part of the evaluation unit. The decoder can be a CNN decoder. In other words, the evaluation unit can comprise a common decoder or CNN decoder for linked image features. In contrast to an encoder-decoder network, a common form of an artificial neural network, such a common CNN decoder can use the image features of two different CNN encoders. In this way, reliability and recognition accuracy can be improved.
Gemäß einer Weiterbildung ist vorgesehen, dass das Erfassen von Objekten in der Umgebung zumindest teilweise basierend auf einer gemeinsamen Merkmalskarte („feature map“), die Teil der Auswerteeinheit ist, erfolgt. Die gemeinsame Merkmalskarte kann basierend auf den (verknüpften) Bildmerkmalen der zumindest zwei Bilder gebildet werden. Mit anderen Worten umfasst die gemeinsame Merkmalskarte Bildmerkmale mehrerer Bilder. Auf diese Weise kann die Aussagekraft einer solchen gemeinsamen Merkmalskarte verbessert werden.According to a further development, it is provided that objects in the environment are at least partially based on a common feature map, which is part of the evaluation unit. The common feature map can be formed based on the (linked) image features of the at least two images. In other words, the common feature map comprises image features of several images. In this way, the meaningfulness of such a common feature map can be improved.
Gemäß einer Weiterbildung ist vorgesehen, dass ein Ausgabewert des gemeinsamen Decoders und ein Ausgabewert der gemeinsamen Merkmalskarte als Basis zum Zusammenfassen („pooling“) von Regionen von Interesse („regions of interest“) genutzt werden. Mit anderen Worten wird eine jeweilige Ausgabe sowohl des gemeinsamen Decoder als auch der gemeinsamen Merkmalskarte zum Auswerten von Regionen von Interesse genutzt. Dabei basiert insbesondere sowohl die Ausgabe beziehungsweise der Ausgabewert der gemeinsamen Merkmalskarte als auch die Ausgabe beziehungsweise der Ausgabewert des gemeinsamen Decoder auf den Merkmalen beider (der zumindest zwei) Bilder. Auf diese Weise kann die Erkennungsgenauigkeit weiter verbessert werden.According to a further development, it is provided that an output value of the common decoder and an output value of the common feature card are used as the basis for pooling regions of interest. In other words, a respective output of both the common decoder and the common feature card is used to evaluate regions of interest. In particular, both the output or the output value of the common feature card and the output or the output value of the common decoder are based on the features of both (of the at least two) images. In this way, the accuracy of recognition can be further improved.
Gemäß einer Weiterbildung ist vorgesehen, dass das Verknüpfen der getrennt extrahierten Bildmerkmale mittels eines langen Kurzzeitgedächtnisses („long short-term memory“) erfolgt, in welchem die extrahierten Bildmerkmale temporär gespeichert werden. Ein solches langes Kurzzeitgedächtnis kann als Zwischenspeicher und/oder für das Verknüpfen der getrennt extrahierten Bildmerkmale genutzt werden. Ein solches langes Kurzzeitgedächtnis kann ebenfalls als lernfähiger Teil des künstlichen neuronalen Netzes ausgeführt sein. Beispielsweise wird die Funktionsweise des langen Kurzzeitgedächtnisses während des Anlernvorgangs an dem künstlichen neuronalen Netz Grunde liegende Aufgabe, also hier das Erfassen von Objekten beziehungsweise semantische Segmentieren von Bildern, angepasst. Hierdurch kann die Funktionsweise des künstlichen neuronalen Netzes weiter verbessert werden.According to a further development, the separately extracted image features are linked by means of a long short-term memory, in which the extracted image features are temporarily stored. Such a long short-term memory can be used as a buffer and / or for linking the separately extracted image features. Such a long short-term memory can also be designed as a part of the artificial neural network that is capable of learning. For example, the functioning of the long short-term memory during the teaching process is adapted to the task on which the artificial neural network is based, that is to say the detection of objects or semantic segmentation of images. In this way, the functionality of the artificial neural network can be further improved.
Gemäß einer Weiterbildung ist vorgesehen, dass das getrennte Extrahieren der jeweiligen Bildmerkmale aus den zumindest zwei Bildern nacheinander durch denselben Eingangsteil erfolgt. In diesem Fall ist das Zwischenspeichern der Bildmerkmale desjenigen der zumindest zwei Bilder, welches zuerst den Eingangsteil durchläuft, notwendig. Das Zwischenspeichern kann insbesondere mittels des oben genannten langen Kurzzeitgedächtnisses erfolgen. Insbesondere ist es vorteilhaft, wenn unterschiedliche Einzelbilder (Frames) eines Videosignals nacheinander denselben Eingangsteil als die zumindest zwei Bilder durchlaufen. Diesem Fall können die Einzelbilder beispielsweise mit einer Bereitstellungsfrequenz, mit welcher die Einzelbilder bereitgestellt werden, durch den gemeinsamen Eingangsteil geführt werden. In dem Zwischenspeicher werden jeweils die Bildmerkmale eines oder mehrerer vorheriger Einzelbilder zwischengespeichert. Anschließend können die zwischen gespeicherten Bildmerkmale des einen oder der mehreren vorherigen Einzelbilder mit den Bildmerkmalen des aktuellen Frames nach deren Extraktion durch den gemeinsamen Eingangsteil verknüpft werden. Außerdem können die Bildmerkmale des aktuellen Frames für eine anschließende Verknüpfung mit einem nächsten Frame in den Zwischenspeicher gespeichert werden. In diesem Fall steht dem gemeinsamen Eingangsteil eine besonders hohe Rechenleistung zur Verfügung, da die zur Verfügung stehende Rechenleistung nicht auf mehrere Eingangsteile aufgeteilt werden muss.According to a development, it is provided that the respective image features are extracted separately from the at least two images in succession through the same input part. In this case, the intermediate storage of the image features of the one of the at least two images which first passes through the input part is necessary. The buffering can take place in particular by means of the long-term memory mentioned above. In particular, it is advantageous if different individual frames of a video signal successively pass through the same input part as the at least two images. In this case, the individual images can, for example, be guided through the common input part at a supply frequency with which the individual images are provided. The image features of one or more previous individual images are temporarily stored in the buffer. Then the image characteristics saved between the one or more previous individual images are linked with the image features of the current frame after their extraction by the common input part. In addition, the image features of the current frame can be stored in the buffer for subsequent linking to a next frame. In this case, a particularly high computing power is available to the common input part, since the available computing power does not have to be divided over several input parts.
Gemäß Weiterbildung ist vorgesehen, dass das getrennte Extrahieren der jeweiligen Bildmerkmale aus den zumindest zwei Bildern parallel durch zumindest zwei separate Eingangsteile des künstlichen neuronalen Netzes erfolgt. Insbesondere ist für jedes Bild ein separater Eingangsteil vorgesehen. Beispielsweise werden drei unterschiedliche Bilder, insbesondere drei aufeinanderfolgende Frames, auf die erfindungsgemäße Weise gemeinsam ausgewertet. In diesem Beispiel werden zunächst die jeweiligen Bildmerkmale durch drei separate Eingangsteile unabhängig voneinander extrahiert und erst anschließend die Bildmerkmale miteinander verknüpft. Auf diese Weise können bewegt Bilder, insbesondere Videosignale, besonders dynamisch verarbeitet werden. Außerdem können die separaten Eingangsteile auf jeweilige Bildmerkmale spezifisch angelernt werden.According to a further development, it is provided that the respective image features are extracted separately from the at least two images in parallel by at least two separate input parts of the artificial neural network. In particular, a separate input part is provided for each image. For example, three different images, in particular three successive frames, are evaluated together in the manner according to the invention. In this example, the respective image features are first extracted independently of one another by three separate input parts, and only then are the image features linked to one another. In this way, moving images, in particular video signals, can be processed particularly dynamically. In addition, the separate input parts can be taught specifically for the respective image features.
Insbesondere ist vorgesehen, dass beim Erfassen des Objektes eine semantische Segmentierung erfolgt, bei welcher dem Objekt ein Bildsegment exklusiv zugewiesen wird. Insbesondere erfolgt eine semantische Segmentierung zumindest eines der zumindest zwei Bilder anhand der Bildmerkmale beider der zumindest zwei Bilder. Mit anderen Worten kann ein Bild (beispielsweise ein aktueller Frame eines Videosignals) basierend auf den Bildmerkmalen mehrerer Bilder (beispielsweise dem aktuellen Frames sowie vorherigen Frames des Videosignals) semantischen segmentierter werden. Im Rahmen der semantischen Segmentierung wird dem Objekt dabei insbesondere ein Bildsegment zugewiesen, welches genau einen Bildbereich umfasst, in dem das Objekt durch das jeweilige Bild repräsentiert ist. Die semantische Segmentierung des entsprechenden Bildsegments kann dabei vor oder nach dem Erfassen des Objekts erfolgen. Mit anderen Worten kann zunächst das Objekt anhand der Bildmerkmale erfasst und anschließend das Bildsegment entsprechend bestimmt werden. Alternativ kann das Objekt durch semantische Analyse des zuvor bestimmten Bildsegments erfasst werden.In particular, it is provided that a semantic segmentation takes place when the object is detected, in which an image segment is exclusively assigned to the object. In particular, semantic segmentation of at least one of the at least two images takes place on the basis of the image features of both of the at least two images. In other words, an image (for example a current frame of a video signal) can be semantically segmented based on the image features of a plurality of images (for example the current frame and previous frames of the video signal). In the context of semantic segmentation, the object is in particular assigned an image segment which comprises exactly one image area in which the object is represented by the respective image. The semantic segmentation of the corresponding image segment can take place before or after the detection of the object. In other words, the object can first be captured on the basis of the image features and then the image segment can be determined accordingly. Alternatively, the object can be captured by semantic analysis of the previously determined image segment.
Gemäß einer Weiterbildung ist vorgesehen, dass das künstliche neuronale Netz darauf angelernt wird, eine zeitliche Veränderung zwischen den zumindest zwei Bildern für das Erfassen von Objekten in der Umgebung zu nutzen. Mit anderen Worten wird durch das künstliche neuronale Netz ein zeitlicher Verlauf, der aus den zumindest zwei Bildern hervorgeht, für das Erfassen des Objekts beziehungsweise die semantische Segmentierung genutzt. Beispielsweise wird das künstliche neuronale Netz darauf angelernt, raumzeitliche Informationen aus den jeweiligen Bildmerkmalen der zumindest zwei Bilder abzuleiten und für das Erfassen des Objekts beziehungsweise die semantische Segmentierung zu nutzen. Ein Beispiel für eine solche raumzeitliche Information ist ein Ortsvektor in zeitlicher Projektion. Auf diese Weise kann die Erkennungsgenauigkeit verbessert werden.According to a further development, it is provided that the artificial neural network is taught to use a temporal change between the at least two images for the detection of objects in the environment. In other words, the artificial neural network uses a temporal course that emerges from the at least two images for the detection of the object or for the semantic segmentation. For example, the artificial neural network is taught to derive spatiotemporal information from the respective image features of the at least two images and to use it for capturing the object or for semantic segmentation. An example of such spatio-temporal information is a location vector in a temporal projection. In this way, the detection accuracy can be improved.
Gemäß einer Weiterbildung ist vorgesehen, dass das Objekt anhand deiner zeitlichen Veränderung über die zumindest zwei Bilder hinweg als bewegt oder statisch klassiert wird. Insbesondere können sowohl bewegte als auch statische Objekte anhand ihrer jeweiligen Bildmerkmale erfasst werden. Die Einteilung in eine Klasse der statischen oder bewegten Objekte erfolgt dann anhand der zeitlichen Veränderung über die zumindest zwei Bilder hinweg, insbesondere anhand der oben genannten raumzeitlichen Informationen.According to a further development, it is provided that the object is classified as moving or static based on your time change over the at least two images. In particular, both moving and static objects can be captured based on their respective image features. The division into a class of the static or moving objects then takes place on the basis of the temporal change over the at least two images, in particular on the basis of the spatio-temporal information mentioned above.
Gemäß einer Weiterbildung ist vorgesehen, dass die zumindest zwei Bilder jeweils Einzelbilder eines Videosignals sind und die Schritte (ii) bis (iv) wiederholt, insbesondere fortlaufend, mit unterschiedlichen Einzelbildern des Videosignals durchgeführt werden. Besonders vorteilhafterweise wird das Verfahren anhand der Einzelbilder des Videosignals kontinuierlich durchgeführt. Dabei werden die zumindest zwei Bilder bei jeder Wiederholung durch den aktuellen Frame des Videosignals und einen oder mehrere vorherige Frames gebildet. Beispielsweise ist der vorherige Frame genau der Frame, auf denen der aktuelle Frame direkt folgt. Auf diese Weise kann ein kontinuierliches Videosignal besonders vorteilhaft ausgewertet werden.According to a development, it is provided that the at least two images are each individual images of a video signal and steps (ii) to (iv) are repeated, in particular continuously, with different individual images of the video signal. The method is particularly advantageously carried out continuously on the basis of the individual images of the video signal. With each repetition, the at least two images are formed by the current frame of the video signal and one or more previous frames. For example, the previous frame is exactly the frame that the current frame follows directly. In this way, a continuous video signal can be evaluated particularly advantageously.
Gemäß einer Weiterbildung ist vorgesehen, dass die Bildmerkmale eines der zumindest zwei Bilder zunächst durch einen ersten der zumindest zwei separate Eingangsteile extrahiert werden und bei dem wiederholten Durchführen der Schritte (ii) bis (iv) die Bildmerkmale desselben Bildes durch einen zweiten der zumindest zwei separaten Eingangsteile extrahiert werden. Beispielsweise weist das künstliche neuronale Netz zwei separate Eingangsteile auf. Ein aktueller Frame n wird durch einen ersten der beiden separaten Eingangsteile und ein vorheriger Frame n-1 wird durch einen zweiten der beiden separaten Eingangsteile verarbeitet. Dieses Verarbeiten kann dem Extrahieren der jeweiligen Bildmerkmale entsprechen. Bei einer wiederholten Durchführung der Schritte (ii) bis (iv) kann nun ein neuer Frame n+1 durch den ersten der beiden separaten Eingangsteile verarbeitet werden und der vormals aktuelle Frame n, der nun einen vorherigen Frame darstellt, kann nun durch den zweiten der beiden separaten Eingangsteil verarbeitet werden. Mit anderen Worten kann jeder Frame des Videosignals zunächst durch den ersten und anschließend durch den zweiten der beiden separaten Eingangsteile verarbeitet werden. Dabei kann bei der anschließenden Verarbeitung durch den zweiten Eingangsteil wieder auf das Bild der ursprünglichen Form, wie es am Ende des Schrittes (i) vorliegt, als Ausgangssignal herangezogen werden. Mit anderen Worten baut die anschließende Verarbeitung des entsprechenden Frames durch den zweiten separaten Eingangsteil nicht auf die vorherige Verarbeitung des Frames durch den ersten Eingangsteil auf. Im Gegenteil ist es möglich, dass dieselben Bildmerkmale erneut extrahiert werden oder zumindest teilweise andere Bildmerkmale extrahiert werden, je nachdem, ob der erste Eingangsteil und der zweite Eingangsteil unterschiedlich angelernt sind.According to a further development, it is provided that the image features of one of the at least two images are first extracted by a first of the at least two separate input parts and, when steps (ii) to (iv) are repeated, the image features of the same image are extracted by a second of the at least two separate parts Input parts are extracted. For example, the artificial neural network has two separate input parts. A current frame n is processed by a first of the two separate input parts and a previous frame n-1 is processed by a second of the two separate input parts. This processing can correspond to the extraction of the respective image features. If steps (ii) to (iv) are repeated, a new frame n + 1 can now be carried out by the first of the two separate ones Input parts are processed and the previously current frame n, which now represents a previous frame, can now be processed by the second of the two separate input parts. In other words, each frame of the video signal can be processed first by the first and then by the second of the two separate input parts. In the subsequent processing by the second input part, the image of the original form, as is present at the end of step (i), can be used as the output signal. In other words, the subsequent processing of the corresponding frame by the second separate input part does not build on the previous processing of the frame by the first input part. On the contrary, it is possible that the same image features are extracted again or at least partially other image features are extracted, depending on whether the first input part and the second input part are learned differently.
Ein zweiter Aspekt der Erfindung betrifft eine Steuereinheit für ein Kraftfahrzeug umfassend ein künstliches neuronales Netz zum Erfassen einer Umgebung eines Kraftfahrzeug, mit:
- - einer Bereitstellungseinheit zum Bereitstellen zumindest zweier Bilder der Umgebung, wobei die zumindest zwei Bilder mit einer selben Kamera des Kraftfahrzeugs zu unterschiedlichen Zeitpunkten aufgenommen sind,
- - zumindest einem Eingangsteil des künstlichen neuronalen Netzes ausgebildet zum getrennten Extrahieren jeweiliger Bildmerkmale aus den zumindest zwei Bildern, wobei die Bildmerkmale zumindest teilweise ein mittels der zumindest zwei Bilder abgebildetes Objekt in der Umgebung in dem jeweiligen Bild betreffen,
- - einer Verknüpfungseinheit des künstlichen neuronalen Netzes ausgebildet zum Verknüpfen der getrennt extrahierten Bildmerkmale der zumindest zwei Bilder zu verknüpften Bildmerkmale, und
- - einer Erfassungseinheit ausgebildet zum Erfassen des Objekts in der Umgebung durch gemeinsames Auswerten der verknüpften Bildmerkmale.
- a provision unit for providing at least two images of the surroundings, the at least two images being taken with the same camera of the motor vehicle at different times,
- at least one input part of the artificial neural network designed to separately extract respective image features from the at least two images, the image features at least partially relating to an object imaged in the environment in the respective image by means of the at least two images,
- a linkage unit of the artificial neural network designed to link the separately extracted image features of the at least two images to linked image features, and
- - A detection unit designed to detect the object in the environment by jointly evaluating the linked image features.
Insbesondere ist die Steuereinheit dazu eingerichtet, ein erfindungsgemäßes Verfahren zum Erfassen einer Umgebung eines Kraftfahrzeugs durchzuführen. Somit bilden Merkmale, die im Kontext des erfindungsgemäßen Verfahrens offenbart sind, auch die Steuereinheit weiter und umgekehrt. Bei der Bereitstellungseinheit kann es sich beispielsweise um einen Puffer der Steuereinheit handeln, in welchem die Bilder aus der Kamera empfangen werden und durch welchen die Bilder anschließend für die weitere Verarbeitung bereitgestellt werden.In particular, the control unit is set up to carry out a method according to the invention for detecting an environment of a motor vehicle. Features which are disclosed in the context of the method according to the invention thus also further develop the control unit and vice versa. The preparation unit can be, for example, a buffer of the control unit, in which the images are received from the camera and through which the images are then made available for further processing.
Fahrerassistenzsystem für ein Kraftfahrzeugs, mit
- - mit einer Kamera zum Bereitstellen zumindest zweier zu unterschiedlichen Zeitenpunkten aufgenommener Bilder einer Umgebung der Kraftfahrzeugs, und
- - der oben genannten Steuereinheit.
- with a camera for providing at least two images of an environment of the motor vehicle, taken at different times, and
- - the control unit mentioned above.
Die Kameras können zur bestimmungsgemäßen Anordnung an dem Kraftfahrzeug vorgesehen sein. Das Fahrerassistenzsystem kann dazu eingerichtet sein, ein erfindungsgemäßes Verfahren zum Erfassen einer Umgebung eines Kraftfahrzeugs durchzuführen. Somit bilden Merkmale, die im Kontext des erfindungsgemäßen Verfahrens offenbart sind, auch das Fahrerassistenzsystem weiter und umgekehrt.The cameras can be provided for the intended arrangement on the motor vehicle. The driver assistance system can be set up to carry out a method according to the invention for detecting an environment of a motor vehicle. Features that are disclosed in the context of the method according to the invention thus also further develop the driver assistance system and vice versa.
Ein weiterer Aspekt der Erfindung ist ein Kraftfahrzeug, welches das beschriebene Fahrerassistenzsystem umfasst. Die Kamera ist in einer vorgegebenen Position an dem Kraftfahrzeug angeordnet. Eine entsprechende Positionsvorgabe kann für das Erfassen von Objekten in der Umgebung des Kraftfahrzeugs bedeutsam sein und/oder genutzt werden. Das Kraftfahrzeug kann dazu eingerichtet sein, ein erfindungsgemäßes Verfahren zum Erfassen seiner Umgebung durchzuführen. Somit bilden Merkmale, die im Kontext des erfindungsgemäßen Verfahrens offenbart sind, auch das Kraftfahrzeug weiter und umgekehrt. Bei dem Kraftfahrzeug kann es sich beispielsweise einen Kraftwagen, insbesondere einen Personenkraftwagen oder einen Lastkraftwagen, handeln. Das Kraftfahrzeug kann beispielsweise einen Verbrennungsmotor und/oder einen elektrischen Antrieb aufweisen.Another aspect of the invention is a motor vehicle which comprises the driver assistance system described. The camera is arranged in a predetermined position on the motor vehicle. A corresponding position specification can be significant and / or used for the detection of objects in the surroundings of the motor vehicle. The motor vehicle can be set up to carry out a method according to the invention for detecting its surroundings. Features that are disclosed in the context of the method according to the invention thus also further develop the motor vehicle and vice versa. The motor vehicle can be, for example, a motor vehicle, in particular a passenger car or a truck. The motor vehicle can have, for example, an internal combustion engine and / or an electric drive.
Außerdem gehört zur Erfindung ein Computerprogrammprodukt mit Programmcodemitteln, welche in einem computerlesbaren Medium gespeichert sind, um das Verfahren zum Erfassen einer Umgebung eines Kraftfahrzeug durchzuführen, wenn das Computerprogrammprodukt auf einem Prozessor einer elektronischen Steuereinheit abgearbeitet wird. Bei der elektronischen Steuereinheit kann es sich um die oben beanspruchte Steuereinheit handeln.The invention also includes a computer program product with program code means which are stored in a computer-readable medium in order to carry out the method for detecting an environment of a motor vehicle when the computer program product is processed on a processor of an electronic control unit. The electronic control unit can be the control unit claimed above.
Dementsprechend umfasst die Erfindung auch ein computerlesbares Medium, insbesondere in Form einer computerlesbaren Diskette, CD, DVD, Speicherkarte, USB-Speichereinheit, oder ähnlichen, in dem Programmcodemittel gespeichert sind, um das Verfahren zum Erfassen einer Umgebung eines Kraftfahrzeug durchzuführen, wenn die Programmcodemittel in einen Speicher einer elektronischen Steuereinheit geladen und auf einem Prozessor der elektronischen Steuereinheit abgearbeitet werden. Bei dem Bei dem computerlesbaren Medium kann es sich einen flüchtigen (volatilen) oder einen nichtflüchtigen Speicher handeln. Ein solcher flüchtiger Speicher kann insbesondere durch einen Arbeitsspeicher eines Mikroprozessors gebildet sein.Accordingly, the invention also includes a computer-readable medium, in particular in the form of a computer-readable floppy disk, CD, DVD, memory card, USB memory unit or the like, in which program code means are stored in order to carry out the method for detecting an environment of a motor vehicle when the program code means in a memory of an electronic control unit loaded and on a processor electronic control unit are processed. The computer readable medium can be volatile or non-volatile memory. Such a volatile memory can in particular be formed by a working memory of a microprocessor.
Dabei zeigen:
-
1 ein Kraftfahrzeug in einer schematischen Vogelperspektive; -
2 ein Blockschaltbild einer Architektur eines künstlichen neuronalen Netzes zur Durchführung eines Verfahrens zum Erfassen einer Umgebung eines Kraftfahrzeugs gemäß einer ersten Ausführungsform; -
3 ein Blockschaltbild einer Architektur eines künstlichen neuronalen Netzes zur Durchführung eines Verfahrens zum Erfassen einer Umgebung eines Kraftfahrzeugs gemäß einer zweiten Ausführungsform; -
4 ein Blockschaltbild einer Architektur eines künstlichen neuronalen Netzes zur Durchführung eines Verfahrens zum Erfassen einer Umgebung eines Kraftfahrzeugs gemäß einer dritten Ausführungsform; und -
5 ein Blockschaltbild einer Architektur eines künstlichen neuronalen Netzes zur Durchführung eines Verfahrens zum Erfassen einer Umgebung eines Kraftfahrzeugs gemäß einer vierten Ausführungsform.
-
1 a motor vehicle in a schematic bird's eye view; -
2nd a block diagram of an architecture of an artificial neural network for performing a method for detecting an environment of a motor vehicle according to a first embodiment; -
3rd a block diagram of an architecture of an artificial neural network for performing a method for detecting an environment of a motor vehicle according to a second embodiment; -
4th a block diagram of an architecture of an artificial neural network for performing a method for detecting an environment of a motor vehicle according to a third embodiment; and -
5 a block diagram of an architecture of an artificial neural network for performing a method for detecting an environment of a motor vehicle according to a fourth embodiment.
Anschließend werden die Bildmerkmale der einzelnen Bilder in der nachfolgenden Verknüpfungseinheit
Anschließend werden die verknüpften Bildmerkmale gemeinsam durch eine Auswerteeinheit
Die Trainingsdaten können beispielsweise beispielhafte Bilder umfassen, welche den Bildern
Bei dem Anlernvorgang können beispielsweise zunächst die Eingangsteile
Gemäß
In einem weiteren Schritt erfolgt ein Zusammenfassen („pooling“) von Regionen von Interesse („regions of interest“) durch eine entsprechende Einheit
Zusätzlich kann optional eine Zusammenfassungslage
Zwei weitere Ausführungsbeispiele gemäß den
In den hier beschriebenen
Insgesamt wird durch die vorliegenden Ausführungsbeispiele das Auswerten von Erscheinungsbild und Bewegung von Objekten
Claims (15)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102018132627.0A DE102018132627A1 (en) | 2018-12-18 | 2018-12-18 | Method for capturing an environment of a motor vehicle by means of temporal fusion of images through an artificial neural network; Control unit, driver assistance system; Computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102018132627.0A DE102018132627A1 (en) | 2018-12-18 | 2018-12-18 | Method for capturing an environment of a motor vehicle by means of temporal fusion of images through an artificial neural network; Control unit, driver assistance system; Computer program product |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102018132627A1 true DE102018132627A1 (en) | 2020-06-18 |
Family
ID=70859356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102018132627.0A Pending DE102018132627A1 (en) | 2018-12-18 | 2018-12-18 | Method for capturing an environment of a motor vehicle by means of temporal fusion of images through an artificial neural network; Control unit, driver assistance system; Computer program product |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102018132627A1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102021119951A1 (en) | 2021-08-02 | 2023-02-02 | Dr. Ing. H.C. F. Porsche Aktiengesellschaft | Method, system and computer program product for detecting the surroundings of a motor vehicle |
DE102021129778A1 (en) | 2021-11-16 | 2023-05-17 | Connaught Electronics Ltd. | Method for detecting a parking space in the vicinity of a motor vehicle using an assistance system, computer program product and assistance system |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180285689A1 (en) * | 2017-03-30 | 2018-10-04 | Toyota Motor Engineering & Manufacturing North America, Inc. | Rgb-d scene labeling with multimodal recurrent neural networks |
US20180336424A1 (en) * | 2017-05-16 | 2018-11-22 | Samsung Electronics Co., Ltd. | Electronic device and method of detecting driving event of vehicle |
-
2018
- 2018-12-18 DE DE102018132627.0A patent/DE102018132627A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180285689A1 (en) * | 2017-03-30 | 2018-10-04 | Toyota Motor Engineering & Manufacturing North America, Inc. | Rgb-d scene labeling with multimodal recurrent neural networks |
US20180336424A1 (en) * | 2017-05-16 | 2018-11-22 | Samsung Electronics Co., Ltd. | Electronic device and method of detecting driving event of vehicle |
Non-Patent Citations (3)
Title |
---|
C. Feichtenhofer, A. Pinz and A. Zisserman, "Detect to Track and Track to Detect", 2017 IEEE International Conference on Computer Vision (ICCV), Venice, 2017, pp. 3057-3065. doi: 10.1109/ICCV.2017.330. * |
H. N. Hu, Q. Z. Cai, D. Wang, J. Lin, M. Sun, P. Krähenbühl, T. Darrell, F. Yu, "Joint Monocular 3D Vehicle Detection and Tracking", arXiv:1811.10742, Nov. 2018, url: http://arxiv.org/abs/1811.10742. * |
S. Gidaris and N. Komodakis, "Object Detection via a Multi-region and Semantic Segmentation-Aware CNN Model", 2015 IEEE International Conference on Computer Vision (ICCV), Santiago, 2015, pp. 1134-1142.doi: 10.1109/ICCV.2015.135. * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102021119951A1 (en) | 2021-08-02 | 2023-02-02 | Dr. Ing. H.C. F. Porsche Aktiengesellschaft | Method, system and computer program product for detecting the surroundings of a motor vehicle |
DE102021129778A1 (en) | 2021-11-16 | 2023-05-17 | Connaught Electronics Ltd. | Method for detecting a parking space in the vicinity of a motor vehicle using an assistance system, computer program product and assistance system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102018130821A1 (en) | Method for assessing an environment of a motor vehicle using an artificial neural network with an aggregation unit; Control unit, driver assistance system and computer program product | |
DE112019001310T5 (en) | SYSTEMS AND METHODS FOR REDUCING THE AMOUNT OF DATA STORAGE DURING MACHINE LEARNING | |
DE102017107264A1 (en) | VISIBLE RAIN RECOGNITION USING DEEP LEARNING | |
DE102018206208A1 (en) | Method, device, product and computer program for operating a technical system | |
DE102017216267B4 (en) | Method and device for data reduction of feature-based environment information of a driver assistance system | |
DE102015208429A1 (en) | Method and device for detecting and evaluating road reflections | |
WO2019001649A1 (en) | Knowledge transfer between different deep learning architectures | |
WO2018215031A1 (en) | Method for detecting objects in an image of a camera | |
DE102018217091A1 (en) | Process, artificial neural network, device, computer program and machine-readable storage medium for the semantic segmentation of image data | |
DE102020210379A1 (en) | Computer-implemented method and computer program product for obtaining a representation of surrounding scenes for an automated driving system, computer-implemented method for learning a prediction of surrounding scenes for an automated driving system and control unit for an automated driving system | |
EP3644239A1 (en) | Device and method for abstracting a dataset | |
DE102018132627A1 (en) | Method for capturing an environment of a motor vehicle by means of temporal fusion of images through an artificial neural network; Control unit, driver assistance system; Computer program product | |
DE102019214200A1 (en) | Translation of training data between observation modalities | |
DE112018005749T5 (en) | Lane marking determination device for automated driving | |
WO2021122338A1 (en) | Method and device for making sensor data more robust against adverse disruptions | |
DE102019129029A1 (en) | OBJECT DETECTION SYSTEM AND METHOD | |
DE102017204347A1 (en) | Method and system for determining a kinematic property of an object, method for controlling an assistance system of a motor vehicle and motor vehicle | |
DE102019220335A1 (en) | SEMANTIC SEGMENTATION USING DRIVER ATTENTION INFORMATION | |
DE102018207923A1 (en) | Improved training of a classifier | |
DE102018208481A1 (en) | Estimate a course of a rail track | |
DE102021200643B3 (en) | Method for environment recognition for semi-autonomous or autonomous driving functions of a motor vehicle using a neural network | |
DE102018201909A1 (en) | Method and device for object recognition | |
DE102017218773A1 (en) | Method and device for driving an actuator | |
EP2312525A2 (en) | Method and camera system for generating images for transfer to an external control unit | |
DE102019132012A1 (en) | Method and system for the detection of small unclassified obstacles on a road surface |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R163 | Identified publications notified | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06K0009620000 Ipc: G06V0030190000 |