EP4211599A1 - Computerimplementiertes verfahren zur umfelderkennung für ein automatisiertes fahrsystem, maschinenlernverfahren, steuergerät für ein automatisiertes fahrsystem und computerprogramm für ein derartiges steuergerät - Google Patents

Computerimplementiertes verfahren zur umfelderkennung für ein automatisiertes fahrsystem, maschinenlernverfahren, steuergerät für ein automatisiertes fahrsystem und computerprogramm für ein derartiges steuergerät

Info

Publication number
EP4211599A1
EP4211599A1 EP21773396.3A EP21773396A EP4211599A1 EP 4211599 A1 EP4211599 A1 EP 4211599A1 EP 21773396 A EP21773396 A EP 21773396A EP 4211599 A1 EP4211599 A1 EP 4211599A1
Authority
EP
European Patent Office
Prior art keywords
artificial neural
neural networks
data
driving system
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP21773396.3A
Other languages
English (en)
French (fr)
Inventor
Georg Schneider
Falk Heuer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZF Friedrichshafen AG
Original Assignee
ZF Friedrichshafen AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZF Friedrichshafen AG filed Critical ZF Friedrichshafen AG
Publication of EP4211599A1 publication Critical patent/EP4211599A1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/582Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road

Definitions

  • the invention relates to a computer-implemented method for environment recognition for an automated driving system, a machine learning method, a control unit for an automated driving system and a computer program for such a control unit.
  • Automated driving systems such as autonomous vehicles, require a number of sensors to recognize their surroundings and to find their way around in their environment.
  • An important sensor for a self-driving vehicle is the camera. It is used, for example, to recognize lanes, vehicles and obstacles and incorporate them into the control of the autonomous vehicle.
  • Each image captured by the camera is processed with a neural network and analyzed using a method developed by the programmer. This method can, for example, recognize other road users, display the course of the road or recognize lane markings.
  • Each recognition process has a different output here, that is, it perceives the elements of the environment visible in the image with different processes and different goals.
  • the different algorithms used for the different detections of the different types/classes of road traffic objects process the data from sensors such as cameras or other sensors such as lidar, radar, acoustic sensors, ultrasonic sensors, olfactory sensors all at the same time and in the Rule with the same frame rate. It is imperative that they run parallel to one another, since, for example, lane markings and other road users must be recognized at the same time, but cannot be represented in the same way.
  • ADAS advanced driver assistance systems
  • AD autonomous driving
  • CNN convolutional neural network
  • a CNN takes on the task of recognizing the different object classes.
  • the image is used as a matrix with color values and filters with values - learned by the neural network - process the image into a transformed image. This transformation is repeated many times in current neural networks together with other image processing steps, so that a CNN with up to hundreds of layers can be created.
  • these take on the form of the output, for example the coordinates of a rectangular box if road users are detected.
  • CNNs Layers of CNN.
  • the layers appear in all CNNs and are similar technically strong. This applies to both camera-based image recognition and those based on other sensors.
  • CNNs consist of two parts, the so-called backbone, which is an arrangement of layers on top of the image/sensor input, and the head, called head, which processes the last layer of the backbone into the desired output.
  • the backbone contains most of the layers of the network and accordingly takes the most time to calculate the values mathematically.
  • CNNs are required for complex systems in the field of ADAS or AD, with each individual network already making very high calculation demands.
  • Running the CNNs in parallel incurs high costs, both for powerful hardware and for power consumption. For this reason, the reduction of computing capacity is highly relevant for a mature system.
  • Backbone head architectures are known, for example, from https://arxiv.org/pdf/1703.06870.pdf.
  • a backbone with two closely related types of detection namely box and mask for an object, is disclosed.
  • the segmentation is a binary instance segmentation.
  • the object of the invention was to provide a holistic detection system for the AD/ADAS area, which merges the tasks of multiple networks and can use a single backbone to be able to predict a large number of target detection types.
  • the objects of claims 1, 7, 9 and 10 each solve this problem with a single backbone. This eliminates the majority of arithmetic operations and thus latency times.
  • One aspect of the invention relates to a computer-implemented method for environment recognition for an automated driving system.
  • the procedure includes the steps
  • the network architecture includes a first artificial neural network for determining first features from data from at least one sensor for detecting the surroundings of an automated driving system. Furthermore, the network architecture includes second artificial neural networks for classification, localization and/or prediction for different detection types of automated driving based on the first features.
  • the procedure includes the steps
  • a further aspect of the invention relates to a control unit for an automated driving system.
  • the control unit includes at least one first interface, via which the control unit receives data from at least one sensor for detecting the surroundings of the driving system.
  • the control unit includes a processing unit.
  • the processing unit is designed to implement a network architecture comprising a first artificial neural network for determining first features from the data and second artificial neural networks for classification, localization and/or prediction for different types of recognition of automated driving based on the first features and an environment recognition and To determine control and / or control signals according to a method according to the invention.
  • the control unit includes second interfaces via which the control unit provides the control and/or control signals to actuators for longitudinal and/or lateral guidance of the driving system.
  • a further aspect of the invention relates to a computer program for a control unit according to the invention.
  • the computer program includes instructions that cause the control unit to execute a method according to the invention and/or a machine learning method according to the invention when the computer program runs on the control unit.
  • Computer-implemented means that the steps of the method are executed by a data processing device, for example a computer, a computing system, a computer network, for example a cloud system, hardware of a control device, or parts thereof.
  • Automated driving systems include automated vehicles, road vehicles, people movers, robots and drones.
  • Sensors for detecting the surroundings include optical sensors such as cameras, including infrared cameras, and lidar, radar sensors, acoustic sensors such as microphones, ultrasonic sensors and olfactory sensors such as electronic noses.
  • the sensors can be arranged, for example, on an outer skin and/or inner skin of the automated driving system.
  • the data from the sensors includes raw data and pre-processed data, for example filtered raw data with an improved signal-to-noise ratio.
  • the first artificial neural network has the function of a backbone network.
  • the first artificial neural network is a backbone network that predicts a large number of target recognition types, in particular target recognition types that are not closely related to one another.
  • the first artificial neural network is called the multi-detection backbone, abbreviated MEB.
  • the backbone network includes layers of a convolutional network.
  • a DLA-34 network see https://arxiv.org/pdf/1707.06484.pdf
  • ResNet see https://arxiv.org/pdf/1512.03385.pdf
  • Inception see https ://arxiv.org/pdf/1409.4842.pdf or MobileNets, see https://arxiv.org/pdf/1704.04861.pdf.
  • the first layers of the backbone network extract general characteristics from the data, for example from image data, which are used for a large number of other tasks.
  • the first features include general features that are used as input for the different types of recognition.
  • the second artificial neural networks have the function of detection heads, i.e. they correspond to the heads in a backbone head architecture.
  • the invention proposes the use of multiple detection heads, for example four detection heads. Each detection head represents an output of the backbone.
  • the detection heads share the backbone network. For example, in a pre-trained backbone network, the last Replaced layers of the backbone network with the detection heads.
  • Each recognition head is post-trained for a specific target task, for example a specific recognition type. According to the invention, a number of detection heads are used with a single backbone, with the detection heads being trained/post-trained together.
  • the second artificial neural networks include layers of a convolutional network, recurrent layers, or fully connected layers, for example.
  • This proposed architecture has several advantages over the classical multiple mesh approach.
  • a system with several outputs that are related in terms of content is more robust and precise.
  • the inclusion of all sensors and representations of the different but related task types in the automotive context also leads to a safer overall system.
  • the proposed system does not only represent an in-depth object detection, but can cover several or all necessary detection types of autonomous driving and can be individually adapted to this problem. These types of detection are used in the higher control levels of such an autonomous system, including planning, trajectory prediction, simultaneous localization and mapping, and combine to form the final actuator control.
  • the MEB anticipates mutually unfamiliar and generally all detection types, such as weather from raindrops in the roadscape and lane markings on asphalt.
  • the data in particular the images from a camera that the first artificial neural network receives to determine the first characteristics, show the traffic on the road. Therefore, knowledge about objects and the different types of recognition in the first artificial neural network can only be learned together in order to to obtain universally valid characteristics for all detection types. Otherwise, the first artificial neural network would already make a distinction based on the different nature of the image domain. However, a backbone network with several heads would not learn with this. It is problematic that an identified or labeled data set in the form of image-line pairs for training the network architecture according to the invention does not generally exist.
  • a data set for training a weather forecast comprises a large number of image-target pairs in the form (image_0, target_0_weather), (image_1, target_1_weather), (image_2, target_2_weather), etc.
  • the MEB should simultaneously recognize weather and lane markings, for example .
  • a data set in the form (Image_0, Target_0_weather, Target_O_lane marker), (Image_1, Target_1_weather, Target_1_lane marker), (Image_2, Target_2_weather, Target_2_lane marker), etc. would be required for a corresponding training. With more than two types of recognition, such a data set would become even more extensive. The entire data set would also have to be adjusted manually for the addition of a sensor or a type of detection.
  • the network architecture according to the invention is trained directly with the correct labels. It is then not necessary to generate pseudo labels.
  • the machine learning method according to the invention enables the MEB to be trained with multiple heads.
  • Machine learning is a technology that teaches computers and other data processing devices to perform tasks by learning from data, rather than being programmed to do the tasks.
  • Gradient-based has the usual meaning that training data pairs comprising tagged data are fed forward through an artificial neural network and in a back-feed a cost function of the network is minimized by gradient formation of the network's weights.
  • third artificial neural networks are used, which are trained for individual special tasks, for example the different types of recognition.
  • the third artificial neural networks called specialist networks. Publicly accessible data sets, with which the specialist networks are trained, are available for such special tasks.
  • the specific labels generated by the third artificial neural networks are so-called pseudo labels.
  • the pseudo labels are predictions of the third artificial neural networks on a data set.
  • the first artificial neural network is trained with these pseudo labels. This corresponds to a so-called transer learning or distillation of a network.
  • the prediction with the highest probability is used as the pseudo label.
  • the entire probability distribution from the prediction of the teaching network, i.e. the third artificial neural networks is given to the learning network, i.e. the first artificial neural network with the second artificial neural networks, which improves the training.
  • each data example also called data sample
  • the third artificial neural networks generate all recognition targets in the same data example, for example in the same image. This enables training of the first artificial neural network with multiple recognition heads.
  • the invention thus makes it possible to generate pseudo labels for any number of sensor data without a label.
  • the third artificial neural networks include layers of a convolutional network, recurrent layers, or fully connected layers, for example.
  • the computer program instructions include software and/or hardware instructions.
  • the computer program is loaded into a memory of the control device according to the invention, for example, or is already loaded into this memory. According to a further aspect of the invention, the computer program according to the invention is executed on hardware and/or software of a cloud facility.
  • the computer program is loaded into the memory, for example, by a computer-readable data carrier or a data carrier signal.
  • the invention is thus also implemented as an aftermarket solution.
  • the control unit prepares input signals, processes them using an electronic circuit and provides logic and/or power levels as regulation and/or control signals.
  • the control device according to the invention is scalable for assisted driving through to fully automated/autonomous/driverless driving.
  • the processing unit includes, for example, a programmable electronic circuit.
  • the processing unit or the control device is designed as a system-on-chip.
  • the invention relates to a computer system with input and output, a processing unit and storage devices.
  • the computer system is designed to implement the network architecture according to the invention.
  • the invention thus provides a use of the network architecture according to the invention in areas outside of automated driving.
  • the proposed network architecture is adaptable to specific hardware by considering, for example, main memory of the ECU, CPU and GPU cores, cache memory, and clock for the architecture choice.
  • the built-in hardware can be used better as a result of the split backbone network according to the invention.
  • the first artificial neural network determines the first features for the object detection, semantic segmentation, traffic sign detection and lane marking detection types of detection.
  • a first of the second artificial neural networks recognizes objects.
  • a second of the second artificial neural Networks breaks down areas of data into semantically related units.
  • a third of the second artificial neural networks recognizes traffic signs.
  • a fourth of the second artificial neural networks recognizes lane markings.
  • the first of the second artificial neural networks is a recognition head for object detection.
  • Object detection includes
  • Annotation estimation for the detected objects such as, for example, the state of pedestrians in the case of pedestrians, for example running, stationary, or the state of the vehicle in the case of vehicles, for example parking, stopped, blinking.
  • the second of the second artificial neural networks is a semantic segmentation recognizer.
  • the semantic segmentation includes
  • the third of the second artificial neural networks is a traffic sign recognition head. This detection includes
  • the fourth of the second artificial neural networks is a lane marking recognition head. This recognition includes fitting, extrapolating from appropriate models such as clothoids, polynomials, splines, and the like. According to one aspect of the invention, more of the second artificial neural networks are used for the following tasks:
  • a holistic segmentation in particular no binary segmentation, for example into pedestrians and non-pedestrians.
  • the segmentation is done on the whole image for all classes.
  • each of the second artificial neural networks when each of the second artificial neural networks is executed, a respectively predetermined number of layers of the first artificial neural network is accessed. This makes it possible for each of the second artificial neural networks to be transformed with a configured number of layers of the backbone before the individual last processing steps necessary for the corresponding type of recognition are carried out, for example non-maximum suppression or softmax. This achieves an individually adjustable depth of cleavage.
  • data from a number of sensors for recognizing the surroundings of the driving system are entered and merged into the first artificial neural network in order to obtain the first features.
  • the multiple sensors are sensors of one sensor technology or, according to a further aspect, sensors of different sensor technologies. This feeds various sensor data into the MEB, expanding it into a multi-fusion backbone, or MFB for short. Sensors such as cameras, lidar and radar as well as other possible sensors such as acoustic or olfactory sensors can be included for the input. This results in the following fields of application, for example:
  • the data is pre-processed in each case before input.
  • each sensor's input is transformed with an individual number of layers of a convolutional network before entering the shared MFB backbone.
  • the layer depth is made possible in addition to an architecture selection based on empirical findings using Neural Architecture Search, abbreviated NAS.
  • NAS Neural Architecture Search
  • the structure of an artificial neural network is used not chosen by the programmer, but the number and types of layers are also learned along with the parameters of the mesh.
  • the number of slices is determined based on the data from the camera, radar, lidar and other sensors. This achieves a sensor-individually adjustable fusion depth.
  • a data example is input into a first of the third artificial neural networks.
  • the first of the third artificial neural networks is trained to recognize objects.
  • three-dimensional bounding areas around the recognized objects are obtained as identifiers for the objects.
  • the data example is input to a second of the third artificial neural networks.
  • the second of the third artificial neural networks is trained to break down areas of data into semantically related units.
  • segmentations are obtained as identifiers for the semantically related units.
  • the data example is input to a third of the third artificial neural networks.
  • the third of the third artificial neural networks is trained to recognize traffic signs.
  • the third of the third artificial neural networks As an output from the third of the third artificial neural networks, two-dimensional boundary areas around the recognized traffic signs are obtained as identifiers for the traffic signs. Furthermore, the data example is input to a fourth of the third artificial neural networks. The fourth of the third artificial neural networks is trained to recognize lane markings. As an output of the fourth of the third artificial neural networks, coordinates of the lane markers are obtained as identifiers for the lane markers. Pseudo-labels of different recognition types including object detection, semantic segmentation, traffic sign recognition and lane marking recognition are generated on a data sample and thus a completely complex labeled data set for training the MEB or MFB.
  • the computer program comprises first software code sections, which are used to program a first artificial neural network for determining first characteristics from data from at least one sensor for detecting the surroundings of an automated driving system. Furthermore, the computer program includes second software code sections, which are used to program second artificial neural networks for classification, localization and/or prediction for different detection types of automated driving based on the first features.
  • FIG. 6 shows an exemplary embodiment of a network architecture according to the invention
  • FIG. 7 shows a further exemplary embodiment of a network architecture according to the invention
  • FIG. 9 shows a further exemplary embodiment of a network architecture according to the invention
  • 10 shows an embodiment of classification results of the network architecture according to the invention
  • FIG. 11 shows an exemplary embodiment of a control device according to the invention.
  • FIG. 1 shows schematically how an automated driving system AD uses a sensor S1 in the form of a camera to recognize lane markings Bahn, objects Obj, traffic signs Ver and associated image areas Seg. This recognition flows into the control of the automated driving system AD via the control unit ECU shown in FIG.
  • the correspondingly recognized image areas are provided with a class label for each pixel, such as vehicle, lane, person and traffic lights.
  • K_Bru are based on coordinates of lane markings, K_Obj on 3D boxes, K_Ver on 2D boxes and K_Seg on related pixel areas. This makes it clear that each recognition process has a different output, i.e. it perceives the environmental elements visible in the image with different processes and different goals.
  • FIG. 5 shows a section from a convolutional network CNN with an input In, for example a matrix whose entries represent brightness values of sensor pixels.
  • the input is transformed with a convolution matrix core as shown in order to get an output out.
  • the convolution matrix is a Sobel filter, for example, which is used to detect edges in an image.
  • the convolution matrix is a smoothing filter, a relief filter, a Laplacian filter or a sharpening filter.
  • the weights of the filter are learned freely using the data. It is within the scope of the invention to choose from pre-designed filters, or a combination of learned and pre-designed filters.
  • several of these convolution matrices are applied to the input and correspondingly several outputs are obtained, one output per convolution matrix.
  • FIG. 6 shows an exemplary embodiment of the method according to the invention and the network architecture according to the invention.
  • a first method step V1 data from the camera S1 are entered into the first artificial neural network MEB.
  • the MEB determines the first characteristics.
  • the first features are entered into second artificial neural networks Head1 to Head4 and processed in a second method step V2 depending on a respective type of recognition. For example, four of the second artificial neural networks are used here.
  • the invention also relates to the use of multiple, N, second artificial neural networks Head1, Head2, HeadN.
  • the first recognition head Head1 makes predictions comprising classification, localization and prediction of trajectories and fits and extrapolates road markings.
  • the second detection head, Head2 determines 3D boxes around objects for object detection.
  • the third recognition head, Head3, determines 2D boxes around traffic signs for traffic sign recognition.
  • the individual recognition heads Head1 - Head4 are transformed with a number of layers Lay configured for them from the MEB.
  • the surroundings are recognized based on the results of the second artificial neural networks Head1-Head4.
  • the control unit ECU determines regulation and/or control signals for the driving system AD.
  • Figure 7 shows the extension of the MEB to the MFB.
  • data from camera S1, radar S2 and lidar S3 are merged. It is within the scope of the invention also the use of any number of sensors.
  • the input of each sensor is transformed with an individual number of layers Lay of a convolutional network.
  • a first method step M1 of the machine learning method according to the invention shows the generation of pseudo labels K_Bru, K_Obj, K_Ver and K_Seg using third artificial neural networks KNN3_1-KNN3_4 in a first method step M1 of the machine learning method according to the invention.
  • a plurality, N, of the third artificial neural networks are provided, depending, for example, on the number of different types of recognition.
  • a data example Samp for example an image from the camera S1 is marked with all the pseudo labels.
  • the MEB or the MFB is trained with this identified data example Samp in a third method step M3.
  • DLA-34 is used as the backbone for this.
  • DLA-34 is a convolutional network that splits and joins layers in groups at different points to provide an optimal performance-to-runtime utilization ratio. It takes advantage of the layered structure of various current convolutional network backbones, such as concatenating layers from ResNet, using Batchnorm, etc. While DLA-34 is a very efficient convolutional network, it is used here as an example only can also be substituted with a less performant convolutional network.
  • the MS-Coco 2017 data set which consists of images and labels for instance segmentation, is used for training. These are redesigned for the task of parallel recognition of semantic segmentation and object detection.
  • FIG. 10 shows an inference sample of the network with an overlay two outputs of semantic segmentation and detection. It can also be seen in FIG. 10 that the network carries out semantic segmentation, ie the pixel labeling of the people for the person class (general and not box-specific). The performance of the object detection is slightly better with 36.7% mAP in multitask training compared to 36.3% mAP for pure object detection in this setup. mAP means mean average precision. The additional output of the semantic segmentation takes up only 25% of the runtime of the network in the empirical test, compared to 100% with a comparable additional segmentation network. This shows the increased efficiency of the invention presented.
  • the control unit ECU shown in FIG. 11 receives data from the camera S1 via first interfaces INT1.
  • a processing unit P for example a CPU, GPU or FPGA, executes the MEB or MFB and receives the environment recognition. Based on the recognition of the surroundings, the processing unit P determines regulation and/or control signals for automated operation of the driving system AD.
  • the control unit ECU provides the regulation and/or control signals to actuators for longitudinal and/or lateral guidance of the driving system AD via second interfaces INT 2 .
  • MEB first artificial neural network
  • multi-detection backbone MFB first artificial neural network multi-fusion backbone Headl-HeadN second artificial neural networks, heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

Computerimplementiertes Verfahren zur Umfelderkennung für ein automatisiertes Fahrsystem (AD) umfassend die Schritte Eingeben von Daten zumindest eines Sensors (S1, S2, S3) zur Umfelderkennung des Fahrsystems (AD) in ein erstes künstliches neuronales Netzwerk (MEB, MFB), das trainiert ist, aus den Daten erste Merkmale zu bestimmen und Erhalten der ersten Merkmale (V1), Eingeben und Verarbeiten der ersten Merkmale in jeweiligen zweiten künstlichen neuronalen Netzwerke (Head1 - HeadN), wobei die zweiten künstlichen neuronalen Netzwerke (Head1 - HeadN) jeweils trainiert sind, für eine von verschiedenen Erkennungsarten des automatisierten Fahrens Klassifikations-, Lokalisierungs- und/oder Prädiktionsergebnisse zu erhalten (V2) und Erhalten der Umfelderkennung basierend auf den Ergebnissen der zweiten künstlichen neuronalen Netzwerke (Head1 - HeadN), wobei basierend auf der Umfelderkennung Regel- und/oder Steuersignale für das Fahrsystem (AD) bestimmt werden (V3).

Description

Computerimplementiertes Verfahren zur Umfelderkennunq für ein automatisiertes Fahrsystem, Maschinenlernverfahren, Steuergerät für ein automatisiertes Fahrsystem und Computerproqramm für ein derartiges Steuergerät
Die Erfindung betrifft ein computerimplementiertes Verfahren zur Umfelderkennung für ein automatisiertes Fahrsystem, ein Maschinenlernverfahren, ein Steuergerät für ein automatisiertes Fahrsystem und ein Computerprogramm für ein derartiges Steuergerät.
Automatisierte Fahrsysteme, beispielsweise autonome Fahrzeuge, benötigen eine Reihe von Sensoren, um die Umgebung zu erkennen und sich in ihrer Umwelt zurechtzufinden. Ein wichtiger Sensor für ein selbstfahrendes Fahrzeug ist die Kamera. Mit ihr werden beispielsweise Fahrspuren, Fahrzeuge und Hindernisse erkannt und fließen in die Steuerung des autonomen Fahrzeugs ein.
Die Erkennung von Umwelt und Umgebungsobjekten wird gegenwärtig erfolgreich mit künstlichen neuronalen Netzwerken durchgeführt. Jedes Bild, welches von der Kamera aufgenommen wird, wird mit einem neuronalen Netz verarbeitet und nach einem vom Programmierer entwickelten Verfahren analysiert. Dieses Verfahren kann beispielsweise die Erkennung von anderen Verkehrsteilnehmern durchführen, den Verlauf der Straße darstellen oder Fahrbahnmarkierungen erkennen. Ein jedes Erkennungsverfahren hat hier einen anderen Output, das heißt es nimmt die im Bild sichtbaren Umgebungselemente mit anderen Verfahren und unterschiedlichen Zielen wahr.
Um zählbare Objekte wie PKWs, Personen und Fahrräder wahrzunehmen, werden Verfahren verwendet, welche die Objekte mittels rechteckiger 2D oder 3D Boxen als Overlays im aufgenommenen Videobild darstellen. Straßenverläufe und Fahrbahnmarkierungen können mit Linien, beispielsweise in Form von Bildkoordinaten, repräsentiert werden. Unzählbare Objekte wie Gebüsch oder Himmel werden als freie Flächen mittels semantischer Segmentierung repräsentiert, das heißt hier werden die entsprechend erkannten Bildbereiche je Pixel mit einem Klassen kennzeichen oder auch Klassenlabel wie beispielsweise Himmel versehen. Für alle für das autonome Fahren relevanten Umweltobjekte bedarf es einer individuellen Erkennung und Darstellung, um sie für spätere Verarbeitungsschritte des Fahrens verwendbar zu machen.
Die unterschiedlichen Algorithmen, welche für die unterschiedlichen Erkennungen der verschiedenen Typen/Klassen von Objekten des Straßenverkehrs verwendet werden, verarbeiten die Daten von Sensoren wie beispielsweise Kamera oder anderen Sensoren wie beispielsweise Lidar, Radar, akustischen Sensoren, Ultraschallsensoren, olfaktorische Sensoren alle gleichzeitig und in der Regel mit derselben Framerate. Es ist zwingend notwendig, sie zeitlich parallel nebeneinander laufen zu lassen, da beispielsweise Fahrbahnmarkierung und andere Verkehrsteilnehmer zeitgleich erkannt werden müssen, aber nicht auf dieselbe Art und Weise repräsentiert werden können.
Dies gilt sowohl für Assistenzsysteme, welchem dem Fahrer Fahrfunktionen abnehmen oder vereinfachen, genannt advanced driver assistance systems, abgekürzt ADAS, zum Beispiel SAE-Level 2+, als auch für hochautomatisiertes Fahren, in welchem Computer nahezu oder vollständig automatisiert die Fahrzeugkontrolle ausführen, genannt autonomous driving, abgekürzt AD, zum Beispiel SAE-Level 4 oder 5.
In der Bilderkennung werden derzeit neuronale Netze mit sog. Faltungskerneln, genannt convolutional neural network, abgekürzt CNN, verwendet. Ein CNN übernimmt in vielen verwendeten Algorithmen die Aufgabe der Erkennung der unterschiedlichen Objektklassen. Hierbei wird das Bild als Matrix mit Farbwerten verwendet und Filter mit - vom neuronalen Netz gelernten Werten - verarbeiten das Bild zu einem transformierten Bild. Diese Transformation wird in aktuellen neuronalen Netzen zusammen mit weiteren bildverarbeitenden Schritten vielfach wiederholt, sodass ein CNN mit bis zu hunderten von Schichten entstehen kann. Diese nehmen zum Ende des Netzes die Gestalt des Outputs an, beispielsweise die Koordinaten einer rechteckigen Box im Falle von Erkennung von Verkehrsteilnehmern.
Durch die wiederholte Transformation mittels unterschiedlicher Filter entstehen die
Schichten des CNNs. Die Schichten kommen in allen CNNs vor und ähneln sich technisch oft stark. Dies gilt sowohl für die kameragebundene Bilderkennung als auch solche, welche auf anderer Sensorik beruht. Aus diesem Grund bestehen CNNs aus zwei Teilen, dem sogenannte Backbone, welches eine Anordnung von Schichten auf dem Bild/Sensorinput darstellt, und dem Kopf, genannt head, welcher die letzte Schicht des Backbones zum gewünschten Output verarbeitet. Das Backbone enthält einen Großteil der Schichten des Netzes und nimmt entsprechend den größten Zeitraum zum mathematischen Berechnen der Werte in Anspruch.
Für komplexe Systeme im Bereich ADAS oder AD werden viele verschiedene CNNs benötigt, wobei jedes einzelne Netz bereits sehr hohe Berechnungsanforderungen stellt. Die sicherheitstechnische Anforderung, möglichst kurze Reaktionszeiten von autonomen Systemen, zum Beispiel kleiner als 10ms, zu gewähren, tragen zusätzlich zum Berechnungsaufwand bei. Durch die parallele Ausführung der CNNs fallen hohe Kosten an, sowohl für leistungsstarke Hardware als auch für den Stromverbrauch. Aus diesem Grund ist die Reduzierung von Rechen kapazitäten für ein ausgereiftes System höchst relevant.
Backbone-Head Architekturen sind beispielsweise bekannt aus https://ar- xiv.org/pdf/1703.06870.pdf. Dort ist ein Backbone mit zwei stark miteinander verwandten Erkennungsarten, nämlich Box und Maske für ein Objekt, offenbart. Die Segmentierung ist eine binäre Instanzsegmentierung.
Weitere Backbone-Head Architekturen sind beispielsweise in https://ar- xiv.org/pdf/1904.01169.pdf und https://arxiv.org/pdf/1909.03625.pdf offenbart. Allerdings ist hier jeweils keine Vielzahl von Ziel-Erkennungsarten gegeben.
Der Erfindung hat die Aufgabe zugrunde gelegen, ein ganzheitliches Erkennungssystem für den AD/ADAS-Bereich bereitzustellen, welches die Aufgaben multipler Netzen verschmilzt und mit einem einzigen Backbone eine Vielzahl von Ziel-Erkennungsarten Vorhersagen zu können. Die Gegenstände der Ansprüche 1 , 7, 9 und 10 lösen jeweils diese Aufgabe durch ein einzelnes Backbone. Damit fallen ein Großteil von Rechenoperationen und damit Latzenzzeiten weg.
Ein Aspekt der Erfindung betrifft ein computerimplementiertes Verfahren zur Umfelderkennung für ein automatisiertes Fahrsystem. Das Verfahren umfasst die Schritte
• Eingeben von Daten zumindest eines Sensors zur Umfelderkennung des Fahrsystems in ein erstes künstliches neuronales Netzwerk, das trainiert ist, aus den Daten erste Merkmale zu bestimmen und Erhalten der ersten Merkmale,
• Eingeben und Verarbeiten der ersten Merkmale in jeweiligen zweiten künstlichen neuronalen Netzwerke, wobei die zweiten künstlichen neuronalen Netzwerke jeweils trainiert sind, für eine von verschiedenen Erkennungsarten des automatisierten Fahrens Klassifikations-, Lokalisierungs- und/oder Prädiktionsergebnisse zu erhalten und
• Erhalten der Umfeld erkennung basierend auf den Ergebnissen der zweiten künstlichen neuronalen Netzwerke, wobei basierend auf der Umfelderkennung Regel- und/oder Steuersignale für das Fahrsystem bestimmt werden
Ein weiterer Aspekt der Erfindung betrifft ein Maschinenlernverfahren für eine Netzwerkarchitektur. Die Netzwerkarchitektur umfasst ein erstes künstliches neuronales Netzwerk zum Bestimmen von ersten Merkmalen aus Daten zumindest eines Sensors zur Umfelderkennung eines automatisierten Fahrsystems. Ferner umfasst die Netzwerkarchitektur zweite künstliche neuronale Netzwerke zur Klassifikation, Lokalisierung und/oder Prädiktion für verschiedene Erkennungsarten des automatisierten Fahrens basierend auf den ersten Merkmalen. Das Verfahren umfasst die Schritte
• Eingeben eines Datenbeispiels in jeweilige dritte künstliche neuronale Netzwerke, die jeweils trainiert sind, für die jeweilige Erkennungsart spezifische Kennzeichen zu erhalten,
• Kennzeichnen des Datenbeispiels mit den Kennzeichen und
• Vorwärtsspeisen der Netzwerkarchitektur mit dem gekennzeichneten Datenbeispiel und Gradienten basiertes Erlernen der zweiten künstlichen neuronalen Netzwerke. Nach einem Aspekt werden die Schritte des Eingebens des Datenbeispiels und des Kennzeichnens mit Kennzeichen wiederholt, bis ein vollständig gekennzeichneter Datensatz erhalten wird. Die Netzwerkarchitektur wird dann mit den gekennzeichneten Daten vorwärtsgespeist.
Ein weiterer Aspekt der Erfindung betrifft ein Steuergerät für ein automatisiertes Fahrsystem. Das Steuergerät umfasst wenigstens eine erste Schnittstelle, über die das Steuergerät Daten zumindest eines Sensors zur Umfelderkennung des Fahrsystems erhält. Ferner umfasst das Steuergerät eine Prozessiereinheit. Die Prozessiereinheit ist ausgeführt, eine Netzwerkarchitektur umfassend ein erstes künstliches neuronales Netzwerk zum Bestimmen von ersten Merkmalen aus den Daten und zweite künstliche neuronale Netzwerke zur Klassifikation, Lokalisierung und/oder Prädiktion für verschiedene Erkennungsarten des automatisierten Fahrens basierend auf den ersten Merkmalen auszuführen und eine Umfelderkennung und Regel- und/oder Steuersignale nach einem erfindungsgemäßen Verfahren zu bestimmen. Außerdem umfasst das Steuergerät zweite Schnittstellen, über die das Steuergerät die Regel- und/oder Steuersignale Aktuatoren zur Längs- und/oder Querführung des Fahrsystems bereitstellt.
Ein weiterer Aspekt der Erfindung betrifft ein Computerprogramm für ein erfindungsgemäßes Steuergerät. Das Computerprogramm umfasst Befehle, die bewirken, dass das Steuergerät ein erfindungsgemäßes Verfahren und/oder ein erfindungsgemäßes Maschinenlernverfahren ausführt, wenn das Computerprogramm auf dem Steuergerät läuft.
Vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Definitionen, den Unteransprüchen, den Zeichnungen und der Beschreibung bevorzugter Ausführungsbeispiele.
Computerimplementiert bedeutet, dass die Schritte des Verfahrens von einer Datenverarbeitungsvorrichtung, beispielsweise einem Computer, einem Rechensystem, einem Rechnernetzwerk, beispielsweise einem Cloud-System, einer Hardware eines Steuergeräts, oder Teilen davon, ausgeführt werden. Automatisierte Fahrsysteme umfassen automatisierte Fahrzeuge, Straßenfahrzeuge, People Mover, Roboter und Drohnen.
Sensoren zur Umfelderkennung umfassen optische Sensoren wie beispielsweise Kamera, umfassend Infrarotkamera, und Lidar, Radarsensoren, Akustiksensoren wie beispielsweise Mikrofone, Ultraschallsensoren und olfaktorische Sensoren, wie beispielsweise elektronische Nasen. Die Sensoren sind beispielsweise an einer Außenhaut und/oder Innenhaut des automatisierten Fahrsystems anordbar. Die Daten der Sensoren umfassen Rohdaten und vorverarbeitete Daten, beispielsweise gefilterte Rohdaten mit verbessertem Signal-Rausch-Verhältnis.
Das erste künstliche neuronale Netzwerk hat die Funktion eines Backbone-Netz- werks. Das erste künstliche neuronale Netzwerk ist erfindungsgemäß ein Backbone- Netzwerk, das eine Vielzahl von Ziel-Erkennungstypen vorhersagt, insbesondere Ziel-Erkennungstypen, die nicht stark miteinander verwandt sind. In diesem Zusammenhang wird das erste künstliche neuronale Netzwerk Multi-Erkennungs-Backbone genannt, abgekürzt MEB. Das Backbone-Netzwerk umfasst Schichten eines Faltungsnetzwerks. Als Backbone-Netzwerk wird beispielsweise ein DLA-34 Netzwerk, siehe https://arxiv.org/pdf/1707.06484.pdf, ResNet, siehe https://ar- xiv.org/pdf/1512.03385.pdf, Inception, siehe https://arxiv.org/pdf/1409.4842.pdf oder MobileNets, siehe https://arxiv.org/pdf/1704.04861.pdf, eingesetzt. Die ersten Schichten oder Layer des Backbone-Netzwerks extrahieren aus den Daten, beispielsweise aus Bilddaten, allgemeingültige Merkmale, die für eine große Anzahl an weiteren Tasks verwendet werden. Die ersten Merkmale umfassen allgemeingültige Merkmale, die für die verschiedenen Erkennungsarten als Input genutzt werden.
Die zweiten künstlichen neuronalen Netzwerke haben die Funktion von Erkennungsköpfen, das heißt sie entsprechen den Heads in einer Backbone-Head-Architektur. Die Erfindung schlägt die Verwendung von mehreren Erkennungsköpfen vor, beispielsweise von vier Erkennungsköpfen. Jeder Erkennungskopf stellt einen Output des Backbones dar. Die Erkennungsköpfe teilen sich das Backbone-Netzwerk. Beispielsweise werden bei einem vortrainierten Backbone-Netzwerk die letzten Schichten des Backbone-Netzwerks durch die Erkennungsköpfe ersetzt. Jeder Erkennungskopf ist auf einen spezifischen Zieltask, beispielsweise auf eine spezifische Erkennungsart, nachtrainiert. Erfindungsgemäß werden bei einem einzigen Backbone mehrere Erkennungsköpfe verwendet, wobei die Erkennungsköpfe gemeinsam trainiert/nachtrainiert werden.
Die zweiten künstlichen neuronalen Netzwerke umfassen beispielsweise Schichten eines Faltungsnetzwerks, rekurrente Schichten oder vollständig verbundene Schichten.
Diese vorgeschlagene Architektur beinhaltet mehrere Vorteile gegenüber der klassischen Herangehensweise mit multiplen Netzen. Neben der Laufzeitverkürzung - und/oder der um ein vielfaches effizienteren Nutzung der Verarbeitungshardware - ist ein System mit mehreren, miteinander inhaltlich verwandten Outputs robuster und präziser. Die Miteinbeziehung aller Sensorik und Repräsentationen der verschiedenen, jedoch miteinander verwandten Aufgabentypen im automobilen Kontext führt folglich auch zu einem sichereren Gesamtsystem. Im Unterschied zu bestehenden Algorithmen mit mehreren Outputs stellt das vorgeschlagene System nicht lediglich eine Vertiefung einer Objektdetektion dar, sondern kann mehrere oder alle notwendigen Erkennungsarten des autonomen Fahrens abdecken und lässt sich auf diese Problemstellung individuell anpassen. In höherliegenden Kontrollebenen eines solchen autonomen Systems umfassend Planung, Trajektorienvorhersage, simultaneous localization and mapping, werden diese Erkennungsarten verwendet und fügen sich zur letztendlichen Aktuatoren-Regelung zusammen.
Das MEB seht in der Domäne automatisiertes Fahren voneinander fremde und allgemein alle Erkennungstypen vorher, beispielsweise Wetter durch Regentropfen im Straßenbild und Spurmarkierungen auf Asphalt.
Die Daten, insbesondere die Bilder einer Kamera, die das erste künstliche neuronale Netzwerk erhält, um die ersten Merkmale zu bestimmen, zeigen den Straßenverkehr. Daher kann ein Wissen über Objekte und die verschiedenen Erkennungsarten in dem ersten künstlichen neuronalen Netzwerk nur gemeinsam gelernt werden, um allgemeingültige Merkmale für alle Erkennungsarten zu erhalten. Andernfalls würde das erste künstliche neuronale Netzwerk bereits aufgrund der Andersartigkeit der Bilddomäne eine Unterscheidung vornehmen. Damit würde aber ein Backbone-Netz- werk mit mehreren Heads nicht lernen. Problematisch ist, dass ein gekennzeichneter oder gelabelter Datensatz in Form von Bild-Zeil-Paaren für ein Training der erfindungsgemäßen Netzwerkarchitektur in der Regel nicht existiert. Beispielsweise umfasst ein Datensatz zum Trainieren einer Wettervorhersage eine große Anzahl an Bild-Ziel-Paaren in der Form (Bild_0, Ziel_0_Wetter), (Bild_1 , Ziel_1_Wetter), (Bild_2, Ziel_2_Wetter), usw. Das MEB soll aber gleichzeitig beispielsweise Wetter und Spurmarkierung erkennen. Für ein entsprechendes Training würde ein Datensatz in der Form (Bild_0, Ziel_0_Wetter, Ziel_O_Spurmarkierung), (Bild_1 , Ziel_1_Wetter, Ziel_1_Spurmarkierung), (Bild_2, Ziel_2_Wetter, Ziel_2_Spurmarkierung), usw. benötigt werden. Bei mehr als zwei Erkennungsarten würde ein solcher Datensatz noch umfangreicher werden. Auch für die Erweiterung um einen Sensor oder eine Erkennungsart müsste der gesamt Datensatz manuell angepasst werden.
Falls aber ein gelabelter Datensatz für ein Training der erfindungsgemäßen Netzwerkarchitektur existiert, wird die erfindungsgemäße Netzwerkarchitektur direkt mit den richtigen Labeln trainiert. Eine Generierung von Pseudolabels ist dann nicht erforderlich.
Das erfindungsgemäße Maschinenlernverfahren ermöglicht das Trainieren des MEB mit mehreren Heads. Maschinelles Lernen ist eine Technologie, die Computern und anderen Datenverarbeitungsvorrichtungen die Ausführung von Aufgaben durch Lernen aus Daten lehrt, anstatt für die Aufgaben programmiert zu werden. Gradientbasiert hat die übliche Bedeutung, dass Trainingsdatenpaare umfassend Daten mit Kennzeichen durch ein künstliches neuronales Netzwerk vorwärtsgespeist werden und in einer Rückwärtsspeisung eine Kostenfunktion des Netzwerks durch Gradientenbildung der Gewichte des Netzwerks minimiert wird.
Gemäß der erfindungsgemäßen Lösung werden dritte künstliche neuronale Netzwerke eingesetzt, die für individuelle spezielle Aufgaben, beispielsweise die verschiedenen Erkennungsarten, trainiert sind. In diesem Kontext werden die dritten künstlichen neuronalen Netzwerke Spezialistennetzwerke genannt. Für derartige spezielle Aufgaben sind öffentlich zugängliche Datensätze, mit denen die Spezialistennetzwerke trainiert werden, verfügbar.
Die spezifischen Kennzeichen, die die dritten künstlichen neuronalen Netzwerke erzeugt, sind sogenannte Pseudolabels. Die Pseudolabels sind Vorhersagen der dritten künstlichen neuronalen Netzwerke auf einem Datensatz. Mit diesen Pseudola- beln wird das erste künstliche neuronale Netzwerk trainiert. Dies entspricht einem sogenannten Transer-Lernen oder Destillation eines Netzwerks. Nach einem Aspekt der Erfindung wird als Pseudolabel die Vorhersage mit der höchsten Wahrscheinlichkeit verwendet. Nach einem weiteren Aspekt der Erfindung wird die gesamte Wahrscheinlichkeitsverteilung aus der Vorhersage des lehrenden Netzwerks, das heißt der dritten künstlichen neuronalen Netzwerke, dem lernenden Netzwerk, das heißt dem ersten künstlichen neuronalen Netzwerk mit den zweiten künstlichen neuronalen Netzwerken, übergeben, was das Training verbessert.
Dadurch, dass jedes Datenbeispiel, oder auch Datensample genannt, für alle Erkennungsarten mit jeweiligen Pseudolabeln gekennzeichnet wird, erzeugen die dritten künstlichen neuronalen Netzwerke alle Erkennungsziele jeweils im selben Datenbeispiel, beispielsweise im selben Bild. Damit wird ein Training des ersten künstlichen neuronalen Netzwerks mit mehreren Erkennungsköpfen ermöglicht. Damit ermöglicht es die Erfindung, für beliebig viele Sensordaten ohne Label Pseudolabel zu generieren. Durch das Bündeln des Wissens individueller Spezialisten netzwerke auf neue Sensordaten werden vollständig gekennzeichnete komplexe Datensätze für das Training der erfindungsgemäßen Netzwerkarchitektur bereitgestellt.
Die dritten künstlichen neuronalen Netzwerke umfassen beispielsweise Schichten eines Faltungsnetzwerks, rekurrente Schichten oder vollständig verbundene Schichten.
Die Befehle des Computerprogramms umfassen Software- und/oder Hardwarebefehle. Das Computerprogramm wird beispielsweise in einen Speicher des erfindungsgemäßen Steuergeräts geladen oder ist in diesem Speicher bereits geladen. Nach einem weiteren Aspekt der Erfindung wird das erfindungsgemäße Computerprogramm auf einer Hardware und/oder Software einer Cloud-Einrichtung ausgeführt.
Das Computerprogramm wird beispielsweise durch einen computerlesbaren Datenträger oder ein Datenträgersignal in den Speicher geladen. Damit wird die Erfindung auch als eine Aftermarket-Lösung realisiert.
Das Steuergerät, im Englischen electronic control unit, abgekürzt ECU, genannt, bereitet Eingangssignale auf, verarbeitet diese mittels einer elektronischen Schaltung und stellt Logik- und/oder Leistungspegel als Regel- und/oder Steuersignale bereit. Das erfindungsgemäße Steuergerät ist skalierbar für assistiertes Fahren bis hin zu vollautomatisiertes/autonomes/fahrerloses Fahren.
Die Prozessiereinheit umfasst beispielsweise eine programmierbare elektronische Schaltung. Nach einem Aspekt der Erfindung ist die Prozessiereinheit oder das Steuergerät als ein System-on-Chip ausgeführt.
Nach einem weiteren Aspekt betrifft die Erfindung ein Computersystem mit Eingabe und Ausgabe, einer Prozessiereinheit und Speichervorrichtungen. Das Computersystem ist ausgeführt, die erfindungsgemäße Netzwerkarchitektur auszuführen. Damit stellt die Erfindung eine Verwendung der erfindungsgemäßen Netzwerkarchitektur auch in Bereichen außerhalb des automatisierten Fahrens bereit.
Die vorgeschlagene Netzwerkarchitektur ist an spezielle Hardware anpassbar, indem beispielsweise Hauptspeicher des Steuergeräts, CPU- und GPU Kerne, Zwischenspeicher, und Takt für die Architekturwahl beachtet werden. Durch das erfindungsgemäße geteilte Backbone-Netzwerk ist die verbaute Hardware besser nutzbar.
In einer Ausgestaltung des computerimplementierten Verfahrens bestimmt das erste künstliche neuronale Netzwerk die ersten Merkmale für die Erkennungsarten Objektdetektion, semantische Segmentierung, Verkehrszeichenerkennung und Fahrbahnmarkierungserkennung bestimmt. Ein erstes der zweiten künstlichen neuronalen Netzwerke erkennt Objekte. Ein zweites der zweiten künstlichen neuronalen Netzwerke zerlegt Bereiche der Daten in semantisch zusammengehörende Einheiten. Ein drittes der zweiten künstlichen neuronalen Netzwerke erkennt Verkehrszeichen. Ein viertes der zweiten künstlichen neuronalen Netzwerke erkennt Fahrbahnmarkierungen.
Das erste der zweiten künstlichen neuronalen Netzwerke ist ein Erkennungskopf für Objektdetektion. Die Objektdetektion umfasst
• 2D Detektion ausgehend von sog. zweidimensionalen Bounding Boxen, beispielsweise im Videobild einer Kamera,
• 3D Detektion ausgehend von dreidimensionalen Bounding Boxen, umfassend Distanz- und Rotationsschätzung,
• Annotationsschätzung für die erkannten Objekte wie zum Beispiel bei Fußgängern den Fußgängerzustand, beispielsweise laufend, stehen, oder bei Fahrzeugen den Fahrzeugzustand, beispielsweise parkend, angehalten, blinkend.
Das zweite der zweiten künstlichen neuronalen Netzwerke ist ein Erkennungskopf für semantische Segmentierung. Die semantische Segmentierung umfasst
• Holistische Segmentierung für alle sichtbaren Klassen,
• Segmentierung eines jeden Objektes einer Detektion individuell, das heißt Instanzsegmentierung, und in Kombination mit nicht-zählbaren Objekten, sogenannte panoptische Segmentierung,
• Segmentierung von Fahrbahnmarkierung oder Stäben für eine nachfolgende Linien-Regression eines Fahrspurbereiches.
Das dritte der zweiten künstlichen neuronalen Netzwerke ist ein Erkennungskopf für Verkehrszeichen. Diese Erkennung umfasst
• Klassifikation und/oder Lokalisation des Verkehrszeichens,
• Lage und Zuordnung zu Fahrspuren und Verkehrsteilnehmern,
Das vierte der zweiten künstlichen neuronalen Netzwerke ist ein Erkennungskopf für Fahrbahnmarkierungen. Diese Erkennung umfasst Anfitten, Extrapolierens von geeigneten Modellen wie Klothoiden, Polynomen, Splines und dergleichen. Nach einem Aspekt der Erfindung werden weitere der zweiten künstlichen neuronalen Netzwerke eingesetzt für die folgenden Aufgaben:
• Erkennung von Lichtquellen bei Nacht und deren Klassifikation zu Objekten wie anderen Verkehrsteilnehmern, Straßenlaternen,
• niederdimensionale Klassifizierung, Regression und Vorhersage, beispielsweise für den Egopfad, das heißt eine Vorhersage, welchen Pfad das eigene Fahrzeug nehmen wird, Freespace, das heißt einen für das eigene Fahrzeug sicher zu befahrenden Bereich, Wetterannotation der direkten Umgebung, Failsafe-Annotation der unterschiedlichen messenden Sensoren, beispielsweise Blendungseffekte der Videosensorik durch eine tiefstehende Sonne.
Nach einem Aspekt der Erfindung erfolgt eine holistische Segmentierung, insbesondere keine binäre Segmentierung, beispielsweise in Fußgänger und Nicht-Fußgänger. Die Segmentierung erfolgt auf dem gesamten Bild für alle Klassen.
In einer weiteren Ausgestaltung wird bei der Ausführung jedes der zweiten künstlichen neuronalen Netzwerke auf eine jeweils vorgegebenen Anzahl von Schichten des ersten künstlichen neuronalen Netzwerks zugegriffen. Damit wird ermöglicht, dass jedes der zweiten künstlichen neuronalen Netzwerke mit einer es konfigurierten Anzahl von Schichten des Backbones transformiert wird, bevor die für die entsprechende Erkennungsart notwendigen individuellen letzten Verarbeitungsschritte vorgenommen werden, beispielsweise non-maximum Suppression oder Softmax. Damit wird eine individuell adjustierbare Spaltungstiefe erreicht.
In einer weiteren Ausgestaltung werden in das erste künstliche neuronale Netzwerk Daten mehrerer Sensoren zur Umfelderkennung des Fahrsystems eingegeben und fusioniert, um die ersten Merkmale zu erhalten. Die mehreren Sensoren sind nach einem Aspekt der Erfindung Sensoren einer Sensortechnologie oder nach einem weiteren Aspekt Sensoren unterschiedlicher Sensortechnologien. Damit werden verschiedenen Sensordaten in das MEB eingespeist und es somit zu einem Multi-Fusi- ons-Backbone, abgekürzt MFB, erweitert. Für den Input können Sensoren wie Kamera, Lidar und Radar als auch weitere mögliche Sensorik, beispielsweise akustische oder olfaktorische Sensoren, mit einbezogen. Damit ergeben sich beispielsweise folgende Anwendungsfelder:
• Aufspannen einer 3D Umfeldwahrnehmung mittels Kamera, Radar und Lidar; o Detektion von 3D Bounding Boxen, inkl. Distanz- und Rotationsschätzung, o Tracking und von Objekten, o Trajektorienvorhersage von Verkehrsteilnehmern,
• Objekte im Soundbereich; o Klassifikation, Ortung und Tracking von Geräuschquellen, zum Beispiel Martinshörner von Einsatzfahrzeugen und deren Weg,
• Objekte im Geruchsbereich; o Klassifikation, Ortung und Tracking von Geruchsquellen, zum Beispiel Brandherde außerhalb und innerhalb des Fahrzeugs.
In einer weiteren Ausgestaltung werden vor Eingabe die Daten jeweils vorverarbeitet. Beispielsweise wird der Input eines jeden Sensors mit einer individuellen Anzahl von Schichten eines Faltungsnetzwerks transformiert, bevor er in das geteilte MFB Backbone mit einfließt.
In einer weiteren Ausgestaltung werden eine Anzahl von Schichten des ersten künstlichen neuronalen Netzwerks, auf die die zweiten künstlichen neuronalen Netzwerke jeweils zugreifen, und/oder eine Anzahl von Schichten des ersten künstlichen neuronalen Netzwerks, in denen die ersten Merkmale bestimmt werden, basierend auf den Daten des zumindest einen Sensors zur Umfelderkennung und den Erkennungsarten bestimmt.
Eine individuelle Verarbeitungstiefe für In- und Outputs wird dadurch ermöglicht, indem diese nach unterschiedlicher Anzahl von Schichten in das Backbone einfließen. Die Schichttiefe wird nach einem Aspekt der Erfindung neben einer Architekturwahl basierend auf empirischen Befunden mittels Neural Architecture Search, abgekürzt NAS, ermöglicht. Im NAS wird die Struktur eines künstlichen neuronalen Netzwerks nicht vom Programmierer gewählt, sondern die Anzahl und Typen von Schichten werden neben den Parametern des Netzes auch gelernt.
Nach einem Aspekt der Erfindung wird die Anzahl der Schichten basierend auf den Daten von Kamera, Radar, Lidar und weiteren Sensoren bestimmt. Damit wird ein Sensor individuell adjustierbare Fusionstiefe erreicht.
In einer beispielhaft möglichen Ausgestaltung des Maschinenlernverfahrens wird ein Datenbeispiel in ein erstes der dritten künstlichen neuronalen Netzwerke eingegeben. Das erste der dritten künstlichen neuronalen Netzwerke ist trainiert, Objekte zu erkennen. Als Ausgabe des ersten der dritten künstlichen neuronalen Netzwerke werden dreidimensionale Begrenzungsbereiche um die erkannten Objekte als Kennzeichen für die Objekte erhalten. Ferner wird das Datenbeispiel in ein zweites der dritten künstlichen neuronalen Netzwerke eingegeben. Das zweite der dritten künstlichen neuronalen Netzwerke ist trainiert, Bereiche der Daten in semantisch zusammengehörende Einheiten zu zerlegen. Als Ausgabe des zweiten der dritten künstlichen neuronalen Netzwerke werden Segmentierungen als Kennzeichen für die semantisch zusammengehörende Einheiten erhalten. Außerdem wird das Datenbeispiel in ein drittes der dritten künstlichen neuronalen Netzwerke eingegeben. Das dritte der dritten künstlichen neuronalen Netzwerke ist trainiert, Verkehrszeichen zu erkennen. Als Ausgabe des dritten der dritten künstlichen neuronalen Netzwerke werden zweidimensionale Begrenzungsbereiche um die erkannten Verkehrszeichen als Kennzeichen für die Verkehrszeichen erhalten. Des Weiteren wird das Datenbeispiel in ein viertes der dritten künstlichen neuronalen Netzwerke eingegeben. Das vierte der dritten künstlichen neuronalen Netzwerke ist trainiert, Fahrbahnmarkierungen zu erkennen. Als Ausgabe des vierten der dritten künstlichen neuronalen Netzwerke werden Koordinaten der Fahrbahnmarkierungen als Kennzeichen für die Fahrbahnmarkierungen erhalten. Damit werden Pseudolabel von verschiedenen Erkennungstypen umfassend Objektdetektion, semantische Segmentierung, Verkehrszeichenerkennung und Fahrbahnmarkierungserkennung auf einem Datensample und damit ein vollständig komplex gelabelter Datensatz für das Training des MEB oder MFB erzeugt. In einer weiteren Ausgestaltung umfasst das Computerprogramm erste Softwarecodeabschnitte, durch die ein erstes künstliches neuronales Netzwerk zum Bestimmen von ersten Merkmalen aus Daten zumindest eines Sensors zur Umfelderkennung eines automatisierten Fahrsystems programmiert ist. Ferner umfasst das Computerprogramm zweite Softwarecodeabschnitte, durch die zweite künstliche neuronale Netzwerke zur Klassifikation, Lokalisierung und/oder Prädiktion für verschiedene Erkennungsarten des automatisierten Fahrens basierend auf den ersten Merkmalen programmiert sind.
Die Erfindung wird in den folgenden Ausführungsbeispielen verdeutlicht. Es zeigen:
Fig. 1 eine schematische Darstellung einer Umfelderkennung,
Fig. 2 eine reale Darstellung einer Umfelderkennung,
Fig. 3 eine Darstellung einer semantischen Segmentierung,
Fig. 4 eine schematische Darstellung einer individuellen Erkennung und Darstellung von Umfeldobjekten,
Fig. 5 eine schematische Darstellung einer Faltungsmatrix,
Fig. 6 ein Ausführungsbeispiel einer erfindungsgemäßen Netzwerkarchitektur,
Fig. 7 ein weiteres Ausführungsbeispiel einer erfindungsgemäßen Netzwerkarchitektur,
Fig. 8 ein Ausführungsbeispiel zur Generierung von Pseudolabeln,
Fig. 9 ein weiteres Ausführungsbeispiel einer erfindungsgemäßen Netzwerkarchitektur, Fig. 10 ein Ausführungsbeispiel von Klassifikationsergebnissen der erfindungsgemäßen Netzwerkarchitektur und
Fig. 11 ein Ausführungsbeispiel eines erfindungsgemäßen Steuergeräts.
In den Figuren bezeichnen gleiche Bezugszeichen gleiche oder funktionsähnliche Bezugsteile. Übersichtshalber werden in den einzelnen Figuren nur die jeweils relevanten Bezugsteile hervorgehoben.
Fig. 1 zeigt schematisch, wie mit einem Sensor S1 in Form einer Kamera ein automatisiertes Fahrsystem AD Fahrbahnmarkierungen Bahn, Objekte Obj, Verkehrszeichen Ver und zusammengehörende Bildbereiche Seg erkennt. Diese Erkennung fließen über das in Fig. 1 gezeigte Steuergerät ECU in die Steuerung des automatisierten Fahrsystems AD ein.
Fig. 2 zeigt die Erkennung an einem Beispiel in Aktion.
Fig. 3 zeigt die Erkennungsart einer holistische semantische Segmentierung Seg. Die entsprechend erkannten Bildbereiche werden je Pixel mit einem Klassenlabel wie zum Beispiel Fahrzeug, Fahrbahn, Person und Verkehrslichter versehen.
Fig. 4 zeigt, wie aus den einzelnen Erkennungsarten Bahn, Obj, Ver, Seg jeweilige Kennzeichen K_Bahn für Fahrbahnmarkierung, K_Obj für Objekterkennung, K_Ver für Verkehrszeichenerkennung und K_Seg für semantisch zusammengehörende Einheiten dargestellt werden. K_Bahn basieren beispielsweise auf Koordinaten von Fahrbahnmarkierungen, K_Obj auf 3D Boxen, K_Ver auf 2D Boxen und K_Seg auf zusammengehöhrenden Pixelbereichen. Damit wird deutlich, dass ein jedes Erkennungsverfahren einen anderen Output hat, das heißt es nimmt die im Bild sichtbaren Umfeldelemente mit anderen Verfahren und unterschiedlichen Zielen wahr.
Fig. 5 zeigt einen Ausschnitt aus einem Faltungsnetzwerk CNN mit einem Input In, beispielsweise einer Matrix, deren Einträge Helligkeitswerte von Sensorpixeln darstellen. Der Input wird mit einer Faltungsmatrix Kern wie dargestellt transformiert, um einen Output Out zu erhalten. Die Faltungsmatrix ist beispielsweise ein Sobelfilter, mit dem in einem Bild Kanten detektiert werden. Nach einem weiteren Aspekt der Erfindung ist die Faltungsmatrix ein Glättungsfilter, ein Relieffilter, ein Laplacefilter oder ein Schärfungsfilter. In der Regel werden die Gewichte des Filters frei, anhand der Daten, gelernt. Im Rahmen der Erfindung liegt es, aus vordesignten Filtern zu wählen, oder einer Kombination von erlernten und vordesignten Filtern. Nach einem weiteren Aspekt werden auf den Input mehrere dieser Faltungsmatrizen angewendet und es werden entsprechend mehrere Outputs erhalten, ein Output je Faltungsmatrix.
Fig. 6 zeigt ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens und die erfindungsgemäße Netzwerkarchitektur. In einem ersten Verfahrensschritt V1 werden Daten der Kamera S1 in das erste künstliche neuronale Netzwerk MEB eingegeben. Das MEB bestimmt erste Merkmale. Die ersten Merkmale werden in zweite künstliche neuronale Netzwerke Headl bis Head4 eingegeben und in Abhängigkeit einer jeweiligen Erkennungsart in einem zweiten Verfahrensschritt V2 verarbeitet. Beispielsweise werden hier vier von den zweiten künstlichen neuronalen Netzwerken verwendet. Die Erfindung betrifft ferner die Verwendung von mehreren, N, zweiten künstlichen neuronalen Netzwerken Headl , Head2 HeadN. In dem zweiten Verfahrensschritt V2 macht der erste Erkennungskopf Headl Vorhersagen umfassend Klassifikation, Lokalisation und Prädiktion von Trajektorien und fittet und extrapoliert Fahrbahnmarkierungen. Der zweite Erkennungskopf Head2 bestimmt 3D Boxen um Objekte zur Objektdetektion. Der dritte Erkennungskopf Head3 bestimmt 2D Boxen um Verkehrszeichen zur Verkehrszeichenerkennung. Der vierte Erkennungskopf Head4 segmentiert semantisch Bildbereiche. Die einzelnen Erkennungsköpfe Headl - Head4 werden mit einer für sie konfigurierten Anzahl von Schichten Lay aus dem MEB transformiert. In einem dritten Verfahrensschritt V3 wird die Umfelderkennung basierend auf den Ergebnissen der zweiten künstlichen neuronalen Netzwerke Headl - Head4 erhalten. Basierend auf der Umfelderkennung bestimmt das Steuergerät ECU Regel- und/oder Steuersignale für das Fahrsystem AD.
Fig. 7 zeigt die Erweiterung des MEB zu dem MFB. Beispielsweise werden Daten von Kamera S1 , Radar S2 und Lidar S3 fusioniert. Im Rahmen der Erfindung liegt auch die Verwendung einer beliebigen Anzahl von Sensoren. Dabei wird der Input eines jeden Sensors mit einer individuellen Anzahl von Schichten Lay eines Faltungsnetzwerks transformiert.
Fig. 8 zeigt die Erzeugung von Pseudolabels K_Bahn, K_Obj, K_Ver und K_Seg mittels dritten künstlichen neuronalen Netzwerken KNN3_1 - KNN3_4 in einem ersten Verfahrensschritt M1 des erfindungsgemäßen Maschinenlernverfahrens. Erfindungsgemäß sind mehrere, N, der dritten künstlichen neuronalen Netzwerke vorgesehen, abhängig beispielsweise von der Anzahl der verschiedenen Erkennungsarten. In einem zweiten Verfahrensschritt M2 wird ein Datenbeispiel Samp, beispielsweise ein Bild der Kamera S1 , mit allen Pseudolabeln gekennzeichnet. Mit diesem gekennzeichneten Datenbeispiel Samp wird in einem dritten Verfahrensschritt M3 das MEB oder das MFB trainiert.
Fig. 9 zeigt eine weitere Ausführungsform der Erfindung. Es wird ein MEB mit zwei Outputs umgesetzt, welches eine Neuerung gegenüber dem Stand der Technik darstellt. Hierfür wird ein DLA-34 Netzwerk als Backbone verwendet. DLA-34 ist ein Faltungsnetzwerk, welches Layer in Gruppen an verschiedenen Stellen splittet und verbindet, um ein optimales Verhältnis von Performanz zur Laufzeitauslastung zu ermöglichen. Es macht sich hierbei die Layerstruktur verschiedener aktueller Faltungs- netzwerk-Backbones zunutze, wie beispielsweise dem Konkatinieren von Layern aus ResNet, dem Verwenden von Batchnorm, usw. Während DLA-34 ein sehr effizientes Faltungsnetzwerk ist, wird es hier lediglich als Beispiel verwendet und ließe sich auch mit einem weniger performanten Faltungsnetzwerk substituieren. Als Output gibt es einen 2D Detektionskopf basierend auf CenterNet sowie einen Kopf für semantische Segmentierung basierend auf FON. Trainiert wird mit dem MS-Coco 2017 Datensatz, welcher aus Bildern und Labeln für Instanzsegmentierung besteht. Diese werden für die Aufgabe der parallelen Erkennung von semantischer Segmentierung und Objekt- Detektion umdesigned.
Das Resultat der in Fig. 9 gezeigten Ausführungsform zeigt Fig. 10. Als Resultat ist erkennbar, dass das MEB im Stande ist, mit beiden Köpfen die gewünschten Erkennungen vorzunehmen. Fig. 10 zeigt ein Inferenzsample des Netztes mit Overlay der zwei Outputs semantischer Segmentierung und Detektion. In Fig. 10 ist auch erkennbar, dass das Netz semantische Segmentierung, also das Pixel-Labeling der Personen für die Personenklasse (allgemein und nicht boxspezifisch) vornimmt. Die Performanz der Objekt-Detektion ist mit 36.7% mAP im Multitask Training gegenüber 36.3% mAP für reine Objekt-Detektion in diesem Setup leicht besser. mAP bedeutet mean average precision. Die zusätzliche Ausgabe der semantischen Segmentierung nimmt im empirischen Test lediglich 25% der Laufzeit des Netzes ein, gegenüber 100% bei einem vergleichbaren zusätzlichen Segmentierungsnetz. Damit ist die erhöht Effizienz der vorgestellten Erfindung gezeigt.
Das in Fig. 11 gezeigte Steuergerät ECU erhält über erste Schnittstellen INT 1 Daten der Kamera S1. Eine Prozessiereinheit P, beispielsweise eine CPU, GPU oder FPGA, führt das MEB oder MFB aus und erhält die Umfelderkennung. Basierend auf der Umfelderkennung bestimmt die Prozessiereinheit P Regel- und/oder Steuersignale für einen automatisierten Betrieb des Fahrsystems AD. Über zweite Schnittstellen INT 2 stellt das Steuergerät ECU die Regel- und/oder Steuersignale Aktuatoren zur Längs- und/oder Querführung des Fahrsystems AD bereit.
Bezuqszeichen
AD automatisiertes Fahrsystem
MEB erstes künstliches neuronales Netzwerk, Multi-Erkennungs-Backbone MFB erstes künstliches neuronales Netzwerk, Multi-Fusions-Backbone Headl-HeadN zweite künstliche neuronale Netzwerke, Köpfe
KNN3_1-KNN3_4 dritte künstliche neuronale Netzwerke
Obj Objektdetektion
Seg semantische Segmentierung
Ver Verkehrszeichenerkennung
Bahn Fahrbahnmarkierungserkennung
K_Obj Kennzeichen für Objekte
K_Seg Kennzeichen für semantisch zusammengehörende Einheiten
K_Ver Kennzeichen für Verkehrszeichen
K_Bahn Kennzeichen für Fahrbahnmarkierungen
Lay Schicht künstliches neuronales Netzwerk
Samp gekennzeichnetes Datenbeispiel
ECU Steuergerät
INT1 erste Schnittstellen
INT2 zweite Schnittstellen
P Prozessiereinheit
In Input
Out Output
Kern Faltungsmatrix
CNN Faltungsnetzwerk
DLA-34 Deep Layer Aggregation Netzwerk
CenterNet künstliches neuronales Netzwerk
FCN Fully Convolutional Network
V1 -V3 Verfahrensschritte
M1-M3 Verfahrensschritte

Claims

Patentansprüche
1 . Computerimplementiertes Verfahren zur Umfelderkennung für ein automatisiertes Fahrsystem (AD) umfassend die Schritte
• Eingeben von Daten zumindest eines Sensors (S1 , S2, S3) zur Umfelderkennung des Fahrsystems (AD) in ein erstes künstliches neuronales Netzwerk (MEB, MFB), das trainiert ist, aus den Daten erste Merkmale zu bestimmen und Erhalten der ersten Merkmale (V1 ),
• Eingeben und Verarbeiten der ersten Merkmale in jeweiligen zweiten künstlichen neuronalen Netzwerke (Headl - HeadN), wobei die zweiten künstlichen neuronalen Netzwerke (Headl - HeadN) jeweils trainiert sind, für eine von verschiedenen Erkennungsarten des automatisierten Fahrens Klassifikations-, Lokalisierungs- und/oder Prädiktionsergebnisse zu erhalten (V2) und
• Erhalten der Umfeld erkennung basierend auf den Ergebnissen der zweiten künstlichen neuronalen Netzwerke (Headl - HeadN), wobei basierend auf der Umfelderkennung Regel- und/oder Steuersignale für das Fahrsystem (AD) bestimmt werden (V3).
2. Verfahren nach Anspruch 1 , wobei
• das erste künstliche neuronale Netzwerk (MEB, MFB) die ersten Merkmale für die Erkennungsarten Objektdetektion (Obj), semantische Segmentierung (Seg), Verkehrszeichenerkennung (Ver) und Fahrbahnmarkierungserkennung (Bahn) bestimmt,
• ein erstes der zweiten künstlichen neuronalen Netzwerke (Head2) Objekte erkennt,
• ein zweites der zweiten künstlichen neuronalen Netzwerke (Head4) Bereiche der Daten in semantisch zusammengehörende Einheiten zerlegt,
• ein drittes der zweiten künstlichen neuronalen Netzwerke (Head3) Verkehrszeichen erkennt und
• ein viertes der zweiten künstlichen neuronalen Netzwerke (Headl ) Fahrbahnmarkierungen erkennt.
3. Verfahren nach Anspruch 1 oder 2, wobei bei der Ausführung jedes der zweiten künstlichen neuronalen Netzwerke (Headl - HeadN) auf eine jeweils vorgegebenen Anzahl von Schichten (Lay) des ersten künstlichen neuronalen Netzwerks (MEB, MFB) zugegriffen wird.
4. Verfahren nach einem der Ansprüche 1 bis 3, wobei in das erste künstliche neuronale Netzwerk (MFB) Daten mehrerer Sensoren (S1 , S2, S3) zur Umfelderkennung des Fahrsystems (AD) eingegeben und fusioniert werden, um die ersten Merkmale zu erhalten.
5. Verfahren nach Anspruch 4, wobei vor Eingabe die Daten jeweils vorverarbeitet werden.
6. Verfahren nach einem der Ansprüche 1 bis 5, wobei eine Anzahl von Schich- ten(Lay) des ersten künstlichen neuronalen Netzwerks (MEB, MFB), auf die die zweiten künstlichen neuronalen Netzwerke (Headl - HeadN) jeweils zugreifen, und/oder eine Anzahl von Schichten (Lay) des ersten künstlichen neuronalen Netzwerks (MEB, MFB), in denen die ersten Merkmale bestimmt werden, basierend auf den Daten des zumindest einen Sensors (S1 , S2, S3) zur Umfelderkennung und den Erkennungsarten bestimmt werden.
7. Maschinenlernverfahren für eine Netzwerkarchitektur umfassend ein erstes künstliches neuronales Netzwerk (MEB, MFB) zum Bestimmen von ersten Merkmalen aus Daten zumindest eines Sensors (S1 , S2, S3) zur Umfelderkennung eines automatisierten Fahrsystems (AD) und zweite künstliche neuronale Netzwerke (Headl - Head4) zur Klassifikation, Lokalisierung und/oder Prädiktion für verschiedene Erkennungsarten des automatisierten Fahrens basierend auf den ersten Merkmalen, das Verfahren umfassend die Schritte
• Eingeben eines Datenbeispiels in jeweilige dritte künstliche neuronale Netzwerke (KNN3_1 - KNN3_4), die jeweils trainiert sind, für die jeweilige Erkennungsart spezifische Kennzeichen (K_Obj, K_Seg, K_Ver, K_Bahn) zu erzeugen (M1 ), • Kennzeichnen des Datenbeispiels mit den Kennzeichen (K_Obj, K_Seg, K_Ver, K_Bahn) (M2) und
• Vorwärtsspeisen der Netzwerkarchitektur mit dem gekennzeichneten Datenbeispiel (Samp) und Gradienten basiertes Erlernen der zweiten künstlichen neuronalen Netzwerke (Headl - Head4) (M3). aschinenlernverfahren nach Anspruch 7, wobei
• ein Datenbeispiel in ein erstes der dritten künstlichen neuronalen Netzwerken (KNN3_1 ) eingegeben wird, das trainiert ist, Objekte zu erkennen, und dreidimensionale Begrenzungsbereiche um die erkannten Objekte als Kennzeichen (K_Obj) für die Objekte erhalten werden,
• das Datenbeispiel in ein zweites der dritten künstlichen neuronalen Netzwerke (KNN3_2) eingegeben wird, das trainiert ist, Bereiche der Daten in semantisch zusammengehörende Einheiten zu zerlegen, und Segmentierungen als Kennzeichen (K_Seg) für die semantisch zusammengehörende Einheiten erhalten werden,
• das Datenbeispiel in ein drittes der dritten künstlichen neuronalen Netzwerke (KNN3_3) eingegeben wird, das trainiert ist, Verkehrszeichen zu erkennen, und zweidimensionale Begrenzungsbereiche um die erkannten Verkehrszeichen als Kennzeichen (K_Ver) für die Verkehrszeichen erhalten werden,
• das Datenbeispiel in ein viertes der dritten künstlichen neuronalen Netzwerke (KNN3_4) eingegeben wird, das trainiert ist, Fahrbahnmarkierungen zu erkennen, und Koordinaten der Fahrbahnmarkierungen als Kennzeichen (K_Bahn) für die Fahrbahnmarkierungen erhalten werden. teuergerät (ECU) für ein automatisiertes Fahrsystem (AD) umfassend
• wenigstens eine erste Schnittstelle (INT 1 ), über die das Steuergerät (ECU) Daten zumindest eines Sensors (S1 , S2, S3) zur Umfelderkennung des Fahrsystems (AD) erhält,
• eine Prozessiereinheit (P), die ausgeführt ist, eine Netzwerkarchitektur umfassend ein erstes künstliches neuronales Netzwerk (MEB, MFB) zum Bestimmen von ersten Merkmalen aus den Daten und zweite künstliche neuronale Netzwerke (Headl - HeadN) zur Klassifikation, Lokalisierung und/oder Prädiktion für verschiedene Erkennungsarten des automatisierten Fahrens basierend auf den ersten Merkmalen auszuführen und eine Umfelderkennung und Regel- und/oder Steuersignale nach einem der Verfahren der Ansprüche 1 bis 6 zu bestimmen, und
• zweite Schnittstellen (INT2), über die das Steuergerät (ECU) die Regel- und/oder Steuersignale Aktuatoren zur Längs- und/oder Querführung des Fahrsystems (AD) bereitstellt.
10. Computerprogramm für ein Steuergerät (ECU) nach Anspruch 9 umfassend Befehle, die bewirken, dass das Steuergerät (ECU) ein Verfahren nach einem der Ansprüche 1 bis 6 und/oder ein Verfahren nach einem der Ansprüche 7 oder 8 ausführt, wenn das Computerprogramm auf dem Steuergerät (ECU) läuft.
EP21773396.3A 2020-09-09 2021-09-08 Computerimplementiertes verfahren zur umfelderkennung für ein automatisiertes fahrsystem, maschinenlernverfahren, steuergerät für ein automatisiertes fahrsystem und computerprogramm für ein derartiges steuergerät Pending EP4211599A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102020211280.0A DE102020211280A1 (de) 2020-09-09 2020-09-09 Computerimplementiertes Verfahren zur Umfelderkennung für ein automatisiertes Fahrsystem, Maschinenlernverfahren, Steuergerät für ein automatisiertes Fahrsystem und Computerprogramm für ein derartiges Steuergerät
PCT/EP2021/074692 WO2022053505A1 (de) 2020-09-09 2021-09-08 Computerimplementiertes verfahren zur umfelderkennung für ein automatisiertes fahrsystem, maschinenlernverfahren, steuergerät für ein automatisiertes fahrsystem und computerprogramm für ein derartiges steuergerät

Publications (1)

Publication Number Publication Date
EP4211599A1 true EP4211599A1 (de) 2023-07-19

Family

ID=77838868

Family Applications (1)

Application Number Title Priority Date Filing Date
EP21773396.3A Pending EP4211599A1 (de) 2020-09-09 2021-09-08 Computerimplementiertes verfahren zur umfelderkennung für ein automatisiertes fahrsystem, maschinenlernverfahren, steuergerät für ein automatisiertes fahrsystem und computerprogramm für ein derartiges steuergerät

Country Status (3)

Country Link
EP (1) EP4211599A1 (de)
DE (1) DE102020211280A1 (de)
WO (1) WO2022053505A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024089456A1 (en) * 2022-10-25 2024-05-02 Bosch Car Multimedia Portugal, S.A Video-based automated driving conditions classification system and method

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10990820B2 (en) * 2018-03-06 2021-04-27 Dus Operating Inc. Heterogeneous convolutional neural network for multi-problem solving

Also Published As

Publication number Publication date
WO2022053505A1 (de) 2022-03-17
DE102020211280A1 (de) 2022-03-10

Similar Documents

Publication Publication Date Title
DE102017129075A1 (de) Parkplatznavigationssystem und -verfahren
EP3765927B1 (de) Verfahren zum erzeugen eines trainingsdatensatzes zum trainieren eines künstlichen-intelligenz-moduls für eine steuervorrichtung eines fahrzeugs
DE102018101125A1 (de) Rekurrentes tiefes neuronales Faltungsnetzwerk zur Detektion von Objekten
DE102018120635A1 (de) Geteilte verarbeitung mit tiefen neuronalen netzwerken
DE102018101220A1 (de) Zeichenerkennung für autonome fahrzeuge
DE112020001103T5 (de) Multitasking-Wahrnehmungsnetzwerk mit Anwendungen für ein Szenenverständnis und ein fortschrittliches Fahrerassistenzsystem
DE102019114622A1 (de) Erfassung und planare darstellung dreidimensionaler fahrspuren in einer strassenszene
WO2018215031A1 (de) Verfahren zur erkennung von objekten in einem bild einer kamera
DE102021109395A1 (de) Verfahren, systeme und vorrichtungen für benutzerverständliche erklärbare lernmodelle
WO2020048669A1 (de) Verfahren zum bestimmen einer spurwechselangabe eines fahrzeugs, ein computerlesbares speichermedium und ein fahrzeug
DE102017108255A1 (de) Parallele detektion von primitiven in einer szene unter verwendung eines rundum-kamerasystems
DE102018133457B4 (de) Verfahren und System zum Bereitstellen von Umgebungsdaten
DE102019214558A1 (de) Projektionsinformations-erkennungsvorrichtung auf basis eines künstlichen neuronalen netzwerks und verfahren derselben
EP4211599A1 (de) Computerimplementiertes verfahren zur umfelderkennung für ein automatisiertes fahrsystem, maschinenlernverfahren, steuergerät für ein automatisiertes fahrsystem und computerprogramm für ein derartiges steuergerät
EP4078238A1 (de) Verfahren und vorrichtung zum robustifizieren von sensordaten gegen adversariale störungen
EP3748454A1 (de) Verfahren und vorrichtung zum automatischen ausführen einer steuerfunktion eines fahrzeugs
DE102019204187A1 (de) Klassifizierung und temporale Erkennung taktischer Fahrmanöver von Verkehrsteilnehmern
DE102018132676A1 (de) Verfahren zum Lokalisieren eines Fahrzeugs in einer Umgebung
DE102020200876B4 (de) Verfahren zum Verarbeiten von Sensordaten einer Sensorik eines Fahrzeugs
EP4053593A1 (de) Verarbeitung von sensordaten in einem fortbewegungsmittel
DE102020200875A1 (de) Verfahren zum Bereitstellen von Sensordaten durch eine Sensorik eines Fahrzeugs
DE102018114628A1 (de) Auf tiefem Lernen basierende automatische oder halbautomatische Ausparkverfahren
DE102022110233A1 (de) Computer-implementiertes verfahren zur auswahl von trainingsdatensätzen aus einer vielzahl von datensätzen
DE102022110232A1 (de) Verfahren und vorrichtung zur ermittlung eines von einem kraftfahrzeug befahrbaren pfades oder einer semantischen segmentierungskarte mit blick aus einer vogelperspektive auf das kraftfahrzeug
DE102021118311A1 (de) Automatische Wahrnehmung und zumindest teilweise automatisches Führen eines Fahrzeugs

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20230313

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)