DE102022213064A1

DE102022213064A1 - Detection of unknown objects using neural networks for vehicles

Info

Publication number: DE102022213064A1
Application number: DE102022213064.2A
Authority: DE
Inventors: Ahmed Mostafa Hammam; Frank Bonarens; Christoph Thiem
Original assignee: Stellantis Auto SAS
Current assignee: Stellantis Auto Sas Fr
Priority date: 2022-12-05
Filing date: 2022-12-05
Publication date: 2024-06-06

Abstract

Die Erfindung betrifft ein System (1) für ein automatisches Fahrsteuerungssystem, das Bilddaten einer Fahrzeugsensoreinheit (3) empfängt und ein künstliches neuronales Netz mit semantischer Segmentierung und pixelweiser Unsicherheitsschätzung für eine Objekterkennung ausführt, das einen Vektor von Konzentrationsparametern einer Dirichlet-Verteilung ermittelt, und in einer zusätzlichen Schicht aus dem jeweiligen Vektor von Konzentrationsparametern Folgendes ermittelt: Für die semantische Segmentierung eine Zuordnung des jeweiligen Pixels zu einer Klasse von Objekten, einen pixelbezogenen Unsicherheitswert bzgl. der Zuordnung, und eine Einteilung der zugeordneten Klasse in Zugehörigkeit zu bekanntem oder unbekanntem Objekt; ferner wird eine Liste unbekannter Objekte abgespeichert und an das automatische Fahrsteuerungssystem des automatisierten Fahrzeugs übergeben.The invention relates to a system (1) for an automatic driving control system, which receives image data from a vehicle sensor unit (3) and executes an artificial neural network with semantic segmentation and pixel-by-pixel uncertainty estimation for object recognition, which determines a vector of concentration parameters of a Dirichlet distribution, and in an additional layer determines the following from the respective vector of concentration parameters: for the semantic segmentation, an assignment of the respective pixel to a class of objects, a pixel-related uncertainty value with regard to the assignment, and a classification of the assigned class into belonging to a known or unknown object; furthermore, a list of unknown objects is stored and transferred to the automatic driving control system of the automated vehicle.

Description

Die Erfindung betrifft ein System zur Unterstützung eines automatischen Fahrsteuerungssystems eines automatisierten Fahrzeugs durch maschinelle Objekterkennung von Objekten im Umfeld des Fahrzeugs, sowie ein Verfahren zum Erzeugen eines künstlichen neuronalen Netzes mit einer Zwischenschicht zur Unsicherheitsschätzung.The invention relates to a system for supporting an automatic driving control system of an automated vehicle by machine object recognition of objects in the environment of the vehicle, as well as a method for generating an artificial neural network with an intermediate layer for uncertainty estimation.

Die folgenden Informationen ergeben sich nicht notwendigerweise aus einem einzelnen bestimmten Dokument aus dem Stand der Technik, sondern ergeben sich durch allgemeine fachmännische Überlegungen und dem aktuellen aber allgemein bekannten Fachwissen selbst:

Insbesondere im Bereich des automatisierten Fahrens von Fahrzeugen wie Personenkraftwagen oder Lastkraftwagen ist es entscheidend, die Umgebung des Fahrzeugs maschinell korrekt zu analysieren und Objekte wie Fußgänger zu erkennen. Eine solche Objekterkennung wird typischerweise auf Basis von visuellen Daten, beispielsweise von einer Kamera, ausgeführt, kann alternativ oder ergänzend jedoch auch mit Hilfe anderer Sensorarten erfolgen. In allen Fällen wird zum Zweck der laufenden Objekterkennung typischerweise ein jeweiliger Datensatz mit Informationen über die Umgebung des Fahrzeugs mit einer gewissen Wiederhol-Frequenz aufgenommen. Zur Erkennung von Objekten aus den Informationen eines solchen jeweils aktuellen Datensatzes kann ein vorab-trainiertes künstliches neuronales Netz angewendet werden, welches als Eingangsdaten die Informationen aus dem oben erwähnten jeweiligen aktuellen Datensatz erhält, und im Sinne von Ausgangsdaten eine Objekterkennung mit Einordnung des Objekts in eine von mehreren vordefinierten Klassen von Objekten liefert. Die hohe Komplexität eines künstlichen neuronalen Netzes, verursacht durch eine enorm hohe Zahl von für den Menschen intuitiv praktisch nicht nachvollziehbarer interner Parameter, prägt den Black-Box Charakter des künstlichen neuronalen Netzes im Vergleich zu alternativen, intuitiv vom Menschen beobachtbaren Systemen. Die Parameter und die Struktur eines fertig trainierten künstlichen neuronalen Netzes, welches sich für die o.g. Anwendungen eignet, ist daher für einen Menschen nicht mehr interpretierbar. Dies gilt insbesondere für die tiefen künstlichen neuronalen Netze, die eine sehr große Anzahl von Ebenen (sog. „layer“), auch genannt „Schichten“ aufweisen.

The following information does not necessarily result from a single specific prior art document, but rather from general professional considerations and current but generally known specialist knowledge:

Particularly in the area of automated driving of vehicles such as passenger cars or trucks, it is crucial to correctly analyze the vehicle's surroundings and to recognize objects such as pedestrians using machines. Such object recognition is typically carried out on the basis of visual data, for example from a camera, but can alternatively or additionally also be carried out with the help of other types of sensors. In all cases, for the purpose of ongoing object recognition, a respective data set with information about the vehicle's surroundings is typically recorded with a certain repetition frequency. To recognize objects from the information in such a current data set, a pre-trained artificial neural network can be used, which receives the information from the above-mentioned current data set as input data and, in terms of output data, provides object recognition with classification of the object in one of several predefined classes of objects. The high complexity of an artificial neural network, caused by an enormous number of internal parameters that are practically incomprehensible to humans, characterizes the black box character of the artificial neural network in comparison to alternative systems that can be intuitively observed by humans. The parameters and structure of a fully trained artificial neural network, which is suitable for the above-mentioned applications, can therefore no longer be interpreted by a human. This is especially true for deep artificial neural networks, which have a very large number of levels (so-called "layers").

Das Auslegen der Parameter des künstlichen neuronalen Netzes findet noch vor seinem Einsatz im späteren regulären Betrieb in einem Trainingsvorgang statt. Typischerweise erfolgt das sogenannte „supervised learning“ zum Trainieren eines solchen künstlichen neuronalen Netzes typischerweise durch vorgegebene Eingangsgrößen und zugehörige vorgegebene Ausgangsgrößen. Reale Sensordaten oder synthetische, den Sensordaten nachgebildete Daten, mit Informationen über Objekte aus diesen Klassen werden insbesondere für die Eingangsdaten verwendet, während die Vorgabe der jeweiligen Klasse eines jeweiligen Objekts zu den vorgegebenen Ausgangsdaten führt. Am Beispiel des für ein automatisiertes Fahrzeug verwendeten künstlichen neuronalen Netzes wären dies beispielsweise die Klassen: Straße, Verkehrsschild, Baum, Ampel, Warnbake, Pylon, Hund, Straßenmarkierung, Fußgänger, Radfahrer, Personenkraftwagen, Baustellenfahrzeug, etc.;The parameters of the artificial neural network are designed in a training process before it is used in regular operation. Typically, the so-called “supervised learning” for training such an artificial neural network is carried out using predetermined input variables and associated predetermined output variables. Real sensor data or synthetic data modeled on the sensor data, with information about objects from these classes, are used in particular for the input data, while specifying the respective class of a respective object leads to the predetermined output data. Using the example of the artificial neural network used for an automated vehicle, these would be the classes: road, traffic sign, tree, traffic light, warning beacon, pylon, dog, road marking, pedestrian, cyclist, passenger car, construction site vehicle, etc.

Eine solche Klassifizierung in der späteren Anwendung des fertig trainierten künstlichen neuronalen Netzes ist jedoch nicht immer eindeutig oder fehlerfrei möglich. Gründe hierfür sind beispielsweise schlechte Lichtverhältnisse, Reflexionen, Verdeckungen durch andere Objekte, oder trügerische Erscheinungen wie z.B. Bilder von Personen auf Plakaten oder verkleidete Menschen. Im Stand der Technik sind wegen dieser Problematik künstliche neuronale Netze entwickelt worden, bei deren Anwendung ein Maß für die Unsicherheit bei der Objekterkennung insbesondere pixelweise ausgegeben werden kann. Dies sind künstliche neuronale Netze mit einer Unsicherheitsschätzung, das heißt, sie sind funktional dazu ausgebildet, insbesondere für jedes Pixel eines Bildes einen individuellen Unsicherheitswert mitzuliefern. Bereits bekannte Methoden für die Unsicherheitsschätzung sind unter anderem die „Monte Carlo Dropout“ oder die „Deep Ensembles“ Methode. Im Vergleich zu diesen ist jedoch der ebenfalls im Stand der Technik bekannte ILVI Ansatz (ILVI ist hierbei eine Abkürzung für „intermediate layer variational inference“) deutlich weniger rechenaufwendig und damit deutlich weniger zeitintensiv. Ein derartiges künstliches neuronales Netz mit einer Zwischenschicht zur variationsgestützten Inferenz ist in der Publikation „ Real-time Uncertainty Estimation Based On Intermediate Layer Variational Inference“ der Autoren Ahmed Hammam, Seyed Eghbal Ghobadi, Frank Bonarens und Christoph Stiller, CSCS '21, November 30, 2021, Ingolstadt, Germany, ACM ISBN 978-1-4503-9139-9/21/11 (verfügbar zum Zeitpunkt des Schreibens unter https://doi.org/10.1145/3488904.3493381 ) detailliert diskutiert. Der dort gezeigte Ansatz nutzt eine zusätzliche Schicht gegenüber einem gängigen neuronalen Netz, welche dazu dient, durch Auslesen der Daten der zusätzlichen Schicht direkt eine Wahrscheinlichkeitsschätzung für die Zuordnung zu erhalten. Vorteilhaft kann es aufgrund dieser zusätzlichen Schicht vermieden werden, Daten des ganzen neuronalen Netzes analysieren zu müssen, was deutlich zeitintensiver im Vergleich zum Erfassen der Daten lediglich der zusätzlichen Schicht wäre. Mit Hilfe dieser zusätzlichen Schicht wird als zusätzliche Ausgangsgröße des künstlichen neuronalen Netzes eine auf eine jeweilige Klasse bezogene Wahrscheinlichkeit je Pixel erhalten.However, such a classification in the later application of the fully trained artificial neural network is not always possible unambiguously or without errors. Reasons for this include poor lighting conditions, reflections, obscuration by other objects, or deceptive appearances such as images of people on posters or people in disguises. In the state of the art, artificial neural networks have been developed to deal with this problem, the application of which can output a measure of the uncertainty in object recognition, particularly pixel by pixel. These are artificial neural networks with an uncertainty estimate, i.e. they are functionally designed to provide an individual uncertainty value, particularly for each pixel of an image. Already known methods for uncertainty estimation include the "Monte Carlo Dropout" or the "Deep Ensembles" method. In comparison to these, however, the ILVI approach (ILVI is an abbreviation for "intermediate layer variational inference"), which is also known in the state of the art, is significantly less computationally intensive and therefore significantly less time-consuming. Such an artificial neural network with an intermediate layer for variation-based inference is described in the publication " Real-time Uncertainty Estimation Based On Intermediate Layer Variational Inference“ by the authors Ahmed Hammam, Seyed Eghbal Ghobadi, Frank Bonarens and Christoph Stiller, CSCS '21, November 30, 2021, Ingolstadt, Germany, ACM ISBN 978-1-4503-9139-9/21/11 (available at the time of writing at https://doi.org/10.1145/3488904.3493381 ) is discussed in detail. The approach shown there uses an additional layer compared to a conventional neural network, which serves to obtain a probability estimate for the assignment directly by reading the data from the additional layer. Advantageously, this additional layer can avoid having to analyze data from the entire neural network, which is significantly more time-consuming than collecting the data would be just the additional layer. With the help of this additional layer, a probability per pixel related to a particular class is obtained as an additional output value of the artificial neural network.

Der ILVI Ansatz sei im Folgenden kurz umrissen: Die zusätzliche Ebene des künstlichen neuronalen Netzes, deren Daten ausgelesen werden, dient zur Modellierung der Unsicherheit für die Klassifizierung der Pixel. Im Rahmen dieser Ebene werden zwei Konstrukte verwendet, nämlich die Tensoren Mittel („Mean“) und Varianz („Variance“), wobei nicht eine Mittelung oder Varianzberechnung im eigentlichen Sinne durchgeführt wird; diese werden vielmehr unter anderem über Faltungsebenen entsprechend einer der Struktur des künstlichen neuronalen Netzes ermittelt. Dies wird mit Hilfe der Zusatzebene erreicht, die nach einer 1x1-Convolutional-Transformation den Mittel-Tensor und parallel über eine zweite 1x1- Convolutional-Transformation den Varianz-Tensor generiert. In einem weiteren Schritt wird ein Auslesen der Daten der Zusatzebene durchgeführt, bei dem der Mean-Tensor zu dem über einen Zufallswert multiplizierten Varianz-Tensor addiert wird. Ziel des Trainings ist, mit Hilfe der Loss-Funktion alle Gewichte so zu trainieren, dass diese beiden Tensoren die Parameter einer Gaußschen Verteilung repräsentieren. Bei einer jeweiligen Inferenz wird dann für jedes Szenenbild die Umrechnung über die Ebenen des künstlichen neuronalen Netzes mehrmals durchgeführt, bevorzugt im Bereich von 8 bis 16 mal. Bevorzugt durch Anwendung einer Logistik-Funktion wie der Softmax-Funktion werden dann in Höhe der Zahl der Klassen Konfidenz-Werte erhalten. Nach Durchführung einer Zahl n Inferenzwiederholungen werden für jede Klasse die n Konfidenz-Werte gemittelt. Jedem Pixel der semantischen Segmentierung wird die Klasse mit dem höchsten Konfidenz-Wert zugeordnet. Bevorzugt wird für die Ermittlung des jeweiligen Wahrscheinlichkeitsmaßes für jedes Pixel über eine Standard-Entropie-Formel (dies entspricht der Gleichung (9) in der o.g. Publikation bzgl. des ILVI Ansatzes) die Unsicherheit für jedes Pixel und damit das jeweilige Wahrscheinlichkeitsmaß berechnet.The ILVI approach is briefly outlined below: The additional level of the artificial neural network, whose data is read out, is used to model the uncertainty for the classification of the pixels. Two constructs are used within this level, namely the tensors mean and variance, whereby no averaging or variance calculation is carried out in the true sense; rather, these are determined, among other things, via convolution layers according to one of the structures of the artificial neural network. This is achieved with the help of the additional level, which generates the mean tensor after a 1x1 convolutional transformation and the variance tensor in parallel via a second 1x1 convolutional transformation. In a further step, the data from the additional level is read out, in which the mean tensor is added to the variance tensor multiplied by a random value. The aim of the training is to use the loss function to train all weights so that these two tensors represent the parameters of a Gaussian distribution. For each inference, the conversion is then carried out several times across the levels of the artificial neural network for each scene image, preferably in the range of 8 to 16 times. Confidence values are then obtained for the number of classes, preferably by applying a logistic function such as the softmax function. After a number of n inference repetitions have been carried out, the n confidence values are averaged for each class. Each pixel of the semantic segmentation is assigned the class with the highest confidence value. To determine the respective probability measure for each pixel, the uncertainty for each pixel and thus the respective probability measure is preferably calculated using a standard entropy formula (this corresponds to equation (9) in the above-mentioned publication regarding the ILVI approach).

Erkannte Klassen von einem Objekt können somit mit Genauigkeitswerten bewertet werden, inwieweit sich das ausführende System sicher ist, dass das jeweilige Objekt auch wirklich der Klasse angehört. Ist die Unsicherheit zu hoch, wird unter Umständen vom automatisierten Fahrzeug keine optimale Entscheidung für die Trajektorienplanung getroffen. Mit zunehmendem Automatisierungsgrad eines Fahrzeugs bis hin zu einem vollautomatischen bzw. autonomen Fahrzeug, welches keinen manuellen Eingriff durch einen Fahrer mehr benötigt, steigt jedoch auch das erforderte Sicherheitsniveau, da eine gänzlich fehlende Erkennung eines Objekts oder ein Fehler in der Zuordnung des Objekts in eine bestimmte von vorgegebenen Klassen, kurz ausgedrückt als Scheitern der Objekterkennung, tendenziell auch gravierendere Auswirkungen auf die Sicherheit des eigenen Fahrzeugs oder andere Verkehrsteilnehmer hat, je größer die Autorität über die Steuerung des Fahrzeugs durch das automatische Fahrsteuersystem ist. Die einfachste und damit typischerweise durchgeführte Reaktion eines automatischen Fahrsteuerungssystems stellt das Einnehmen eines konservativen Fahrzeugzustands, insbesondere das Abbremsen des Fahrzeugs, dar. Dies kann bei hoher Unsicherheit und einer prekären Verkehrssituation bis hin zum Stillstand des Fahrzeugs führen. Die Identifizierung der pixelbezogenen Unsicherheit bei der semantischen Segmentierung stellt somit zwar einen wichtigen Verbesserungsschritt zur Realisierung automatisierter Fahrfunktionen dar, und die Berücksichtigung von Unsicherheitsinformationen bezüglich der Objekterkennung, wie anhand des ILVI-Ansatzes erläutert, kann die Sicherheit der Fahrfunktion verbessern, aber zu einer unakzeptabel hohen Anzahl an Geschwindigkeitsreduzierungen oder gar Notmanövern mit Abbremsen in den Stillstand führen, was zu Unzufriedenheit der Insassen oder anderer Verkehrsteilnehmer führt.Detected classes of an object can thus be evaluated with accuracy values to determine the extent to which the executing system is certain that the respective object really belongs to the class. If the uncertainty is too high, the automated vehicle may not make an optimal decision for trajectory planning. However, as the degree of automation of a vehicle increases, up to a fully automatic or autonomous vehicle that no longer requires manual intervention by a driver, the required level of safety also increases, since a complete lack of detection of an object or an error in assigning the object to a certain of the predefined classes, in short as failure of object detection, tends to have more serious effects on the safety of the vehicle or other road users, the greater the authority over the control of the vehicle by the automatic driving control system. The simplest and therefore typically carried out reaction of an automatic driving control system is to adopt a conservative vehicle state, in particular braking the vehicle. In the case of high uncertainty and a precarious traffic situation, this can even lead to the vehicle coming to a standstill. Thus, although the identification of pixel-related uncertainty in semantic segmentation represents an important improvement step towards the realization of automated driving functions, and the consideration of uncertainty information regarding object detection, as explained using the ILVI approach, can improve the safety of the driving function, it can lead to an unacceptably high number of speed reductions or even emergency maneuvers with braking to a standstill, which leads to dissatisfaction of the occupants or other road users.

Eine weitere Problematik kann sich unabhängig von dieser Unsicherheitsschätzung dadurch ergeben, dass beim Inferenzschritt eines künstlichen neuronalen Netzes aufgrund der Eigenschaften der Ausgangsschicht (z.B. mit Softmax-Funktionen) bei unbekannten realen Objekten, die zu keiner der beim Trainieren des künstlichen neuronalen Netzes vorgegebenen Klassen gehören, doch fälschlicherweise immer eine Klasse zugeordnet wird. Während Verfahren zur Unsicherheitsmodellierung wie oben erläutert in der Lage sind, parallel zur Schätzung einer Klasse eines Pixels auch gleichzeitig die Unsicherheit der Erkennung zu schätzen, liegt aber damit noch keine Information vor, ob es sich dabei um ein bekanntes oder unbekanntes Objekt handelt. Folglich ist typischerweise ein konventionelles, unmodifiziertes künstliches neuronales Netz auch mit Unsicherheitsschätzung (wie nach dem oben erläuterten ILVI Ansatz) nicht in der Lage, unbekannte Objekte (also Objekte, für die beim Training des künstlichen neuronalen Netzes keine spezifische Klasse vorgegeben wurde) als solche zu erkennen.Another problem can arise independently of this uncertainty estimation in that, during the inference step of an artificial neural network, unknown real objects that do not belong to any of the classes specified when training the artificial neural network are always incorrectly assigned a class due to the properties of the output layer (e.g. with softmax functions). While uncertainty modeling methods as explained above are able to estimate the uncertainty of detection in parallel to estimating a class of a pixel, this does not provide any information as to whether the object is known or unknown. Consequently, a conventional, unmodified artificial neural network is typically unable to recognize unknown objects (i.e. objects for which no specific class was specified when training the artificial neural network) as such, even with uncertainty estimation (as in the ILVI approach explained above).

Es ist daher Aufgabe der Erfindung, die Unterstützung eines automatischen Fahrsteuerungssystems durch maschinelle Objekterkennung zu verbessern, insbesondere um ein unnötiges Verlangsamen und andere hinderliche Verkehrsmanöver bei erkannter Unsicherheit in der Objekterkennung zu reduzieren.It is therefore an object of the invention to improve the support of an automatic driving control system by machine object recognition, in particular in order to reduce unnecessary slowing down and other obstructive traffic maneuvers when uncertainty in object recognition is detected.

Die Erfindung ergibt sich aus den Merkmalen der unabhängigen Ansprüche. Vorteilhafte Weiterbildungen und Ausgestaltungen sind Gegenstand der abhängigen Ansprüche.The invention results from the features of the independent claims. Advantageous further development lations and embodiments are the subject of the dependent claims.

Ein erster Aspekt der Erfindung betrifft ein System zur Unterstützung eines automatischen Fahrsteuerungssystems eines automatisierten Fahrzeugs durch maschinelle Objekterkennung von Objekten im Umfeld des Fahrzeugs, wobei das System dazu ausgeführt ist:

- laufend aktuelle Bilddaten über ein durch eine Fahrzeugsensoreinheit erfasstes Umfeld zu empfangen;
- ein vortrainiertes, künstliches neuronales Netz mit semantischer Segmentierung und mit pixelweiser Unsicherheitsschätzung unter Nutzung von Eingangsdaten basierend auf den jeweils aktuellen Bilddaten auszuführen, um in einem jeweiligen Inferenzschritt eine Objekterkennung in den Bilddaten auszuführen, wobei das künstliche neuronale Netz je Pixel einen Vektor von Konzentrationsparametern einer Dirichlet-Verteilung ermittelt, und in einer zusätzlichen Schicht aus dem jeweiligen Vektor von Konzentrationsparametern Folgendes ermittelt: Für die semantische Segmentierung eine Zuordnung des jeweiligen Pixels zu einer Klasse von Objekten, einen pixelbezogenen Unsicherheitswert bzgl. der Zuordnung, und eine Einteilung der zugeordneten Klasse in Zugehörigkeit zu bekanntem oder unbekanntem Objekt;
- in jedem Inferenzschritt einen Unsicherheitsdatensatz mit einer Liste unbekannter Objekte auf Basis der Sammlung von zu Klassen unbekannter Objekte zugeordneten Pixeln abzuspeichern; und
- das Ergebnis der semantischen Segmentierungen mit den jeweiligen Unsicherheitswerten und die Liste unbekannter Objekte an das automatische Fahrsteuerungssystem des automatisierten Fahrzeugs zu übergeben;

A first aspect of the invention relates to a system for supporting an automatic driving control system of an automated vehicle by machine object recognition of objects in the environment of the vehicle, the system being designed to:

- to continuously receive current image data about an environment detected by a vehicle sensor unit;
- to execute a pre-trained, artificial neural network with semantic segmentation and with pixel-by-pixel uncertainty estimation using input data based on the current image data in order to carry out object recognition in the image data in a respective inference step, whereby the artificial neural network determines a vector of concentration parameters of a Dirichlet distribution for each pixel and, in an additional layer, determines the following from the respective vector of concentration parameters: for the semantic segmentation, an assignment of the respective pixel to a class of objects, a pixel-related uncertainty value with regard to the assignment, and a classification of the assigned class into belonging to a known or unknown object;
- to store in each inference step an uncertainty data set with a list of unknown objects based on the collection of pixels assigned to classes of unknown objects; and
- to pass the result of the semantic segmentations with the respective uncertainty values and the list of unknown objects to the automatic driving control system of the automated vehicle;

Die Fahrzeugsensoreinheit umfasst insbesondere eine Kamera und liefert während ihres Betriebs laufend aktuelle Daten über das Umfeld des Fahrzeugs. Diese Daten werden an das erfindungsgemäße System weitergeleitet, welches insbesondere ein Rechenmodul zum Ausführen insbesondere des künstlichen neuronalen Netzes aufweist.The vehicle sensor unit comprises in particular a camera and, during its operation, continuously supplies current data on the surroundings of the vehicle. These data are forwarded to the system according to the invention, which in particular has a computing module for executing in particular the artificial neural network.

Die semantische Segmentierung ist eine Zuordnung eines jeweiligen Pixels zu einer jeweiligen Klasse. Dafür wird bereits beim Trainieren des künstlichen neuronalen Netz noch vor dem regulären Betrieb dessen eine Vielzahl von vorgegebenen spezifischen Klassen bekannter Objekte zur Vorgabe verwendet, beispielsweise die Klassen: Verkehrsschild, Baum, Ampel, Fußgänger, Radfahrer, Personenkraftwagen. Das Ergebnis der semantischen Segmentierung im regulären Betrieb des künstlichen neuronalen Netz ist somit die Ausgabe der Klassenzuordnung per Pixel. Außerdem wird ein jeweiliges Unsicherheitsmaß per Pixel ausgegeben. Dieses Unsicherheitsmaß wird aus den Konzentrationsparametern abgeleitet, während die Informationen dieser Unsicherheitsschätzung überhaupt erst mit Hilfe der Zwischenschicht erhalten werden können, welche zu diesem Zweck im künstlichen neuronalen Netz vorgesehen ist.Semantic segmentation is the assignment of a particular pixel to a particular class. To do this, a large number of specific classes of known objects are used as a specification when training the artificial neural network before it is put into regular operation, for example the classes: traffic sign, tree, traffic light, pedestrian, cyclist, passenger car. The result of semantic segmentation in regular operation of the artificial neural network is thus the output of the class assignment per pixel. In addition, a respective uncertainty measure is output per pixel. This uncertainty measure is derived from the concentration parameters, while the information of this uncertainty estimate can only be obtained with the help of the intermediate layer, which is provided for this purpose in the artificial neural network.

Die Inferenz ist eine Anwendung und Ausführung des fertig trainierten künstlichen neuronalen Netzes. Hierbei werden Eingangsdaten dem künstlichen neuronalen Netz zugewiesen, das künstliche neuronale Netz prozessiert diese Eingangsdaten und liefert daraufhin Ausgangsdaten als Ergebnis der Inferenz. Ein Inferenzschritt ist demnach die Durchführung einer Inferenz für gewisse Eingangsdaten unter Anwendung eines gewissen künstlichen neuronalen Netzes.Inference is an application and execution of the fully trained artificial neural network. Input data is assigned to the artificial neural network, the artificial neural network processes this input data and then delivers output data as the result of the inference. An inference step is therefore the execution of an inference for certain input data using a certain artificial neural network.

Erfindungsgemäß wird ein konventionelles künstliches neuronales Netz so erweitert, dass eine zusätzliche Ausgangsschicht eingeführt wird, um auf Basis dieser Vektoren mit Konzentrationsparametern als Komponenten der Vektoren die Zuordnung zu einer Klasse vorzunehmen, die Unsicherheitswerte zu berechnen und für jedes Pixel eine binäre Information über die Zugehörigkeit eines Pixels zur einer bekannten oder einer unbekannten Klasse zuzuordnen. Dazu wird eine jeweilige Dirichlet-Verteilung je Pixel modelliert. Erfindungsgemäß wird daher ein konventionelles künstliches neuronales Netz so erweitert, dass dieses mit Hilfe einer Loss Function so trainiert wird, dass Konzentrationsparameter einer Dirichlet-Verteilung erhalten werden, welche in der späteren Inferenz zur semantischen Segmentierung, Unsicherheitsschätzung und Unterscheidung von bekannten zu unbekannten Objekten verwendet werden können. Das künstliche neuronale Netz wird bevorzugt durch Verwendung der Dirichlet Maximum Likelihood Estimation Loss Function mit dem Ziel trainiert, dass der Dirichlet-Vektor den Konzentrationsparametern der Dirichlet-Verteilung entsprechen.According to the invention, a conventional artificial neural network is extended in such a way that an additional output layer is introduced in order to assign a pixel to a class based on these vectors with concentration parameters as components of the vectors, to calculate the uncertainty values and to assign binary information about whether a pixel belongs to a known or unknown class for each pixel. For this purpose, a respective Dirichlet distribution is modeled for each pixel. According to the invention, a conventional artificial neural network is therefore extended in such a way that it is trained with the aid of a loss function in such a way that concentration parameters of a Dirichlet distribution are obtained, which can be used in the subsequent inference for semantic segmentation, uncertainty estimation and differentiation of known from unknown objects. The artificial neural network is preferably trained using the Dirichlet Maximum Likelihood Estimation Loss Function with the aim of ensuring that the Dirichlet vector corresponds to the concentration parameters of the Dirichlet distribution.

Pro Pixel im Bilddatensatz wird ein Vektor von Konzentrationsparametern durch das künstliche neuronale Netz generiert. Dieser Vektor wiederum wird bestimmt die zugehörige Dirichlet-Verteilung: Dir(θ,α_k). Dabei sind α_k die Konzentrationsparameter pro Klasse k, θ sind die Ground-Truth-Wahrscheinlichkeitsverteilungen. Die Modellierung der Dirichlet-Verteilung wird erreicht durch Modellierung der Dirichlet-Verteilung durch die der Per-Pixel- Konzentrationsparameter. Folglich stellen die Konzentrationsparameter für jeden Pixel die Dirichlet-Konzentration pro Klasse dar.For each pixel in the image dataset, a vector of concentration parameters is generated by the artificial neural network. This vector in turn determines the corresponding Dirichlet distribution: Dir(θ,α _k ). Where α _k are the concentration parameters per class k, θ are the ground truth probability distributions. The modeling of the Dirichlet distribution is achieved by modeling the Dirichlet distribution by the per-pixel concentration parameters. Consequently, the concentration parameters for each pixel represent the Dirichlet concentration per class.

In anderen Worten wird der Bilddatensatz damit durch das erfindungsgemäße vortrainierte künstliche neuronale Netz in seinem Betrieb transformiert (in einem jeweiligen sogenannten Inferenzschritt) mit dem Ergebnis einer Pro-Pixel-Dirichlet-Verteilung für die Ausgangswerte des künstlichen neuronalen Netzes. In der semantischen Segmentierung ist die vorhergesagte Klasse bevorzugt diejenige, die den höchsten Konzentrationsparameter aufweist. Nach Normierung der Konzentrationsparameter kann die Entropie berechnet und als Schätzung für die Unsicherheit der Klassenprognose eines Pixels verwendet werden.In other words, the image data set is thus transformed in its operation by the pre-trained artificial neural network according to the invention (in a respective so-called inference step) with the result of a per-pixel Dirichlet distribution for the output values of the artificial neural network. In semantic segmentation, the predicted class is preferably the one that has the highest concentration parameter. After normalizing the concentration parameters, the entropy can be calculated and used as an estimate for the uncertainty of the class prediction of a pixel.

Mit Hilfe der Dirichlet-Verteilungen sind somit Unsicherheiten für die Zuordnung der Klassen zu i) bekannten und ii) unbekannten Objekten möglich. Dies vermeidet vorteilhaft, dass - wie häufig in konventionellen Ansätzen verfolgt - die Klassifizierung der Pixel mittels Zuordnung zu jeweils einer aus einer Vielzahl von Klassen von Objekten dadurch erfolgt, dass für jedes Pixel eine Wahrscheinlichkeit einer korrekten Zuordnung bezüglich jeder der vorgegebenen Klassen von bekannten Objekten ermittelt wird und diejenige Zuordnung mit der höchsten Wahrscheinlichkeit ausgewählt wird und somit immer eine Zuordnung eines Pixels zu einer Klasse eines bekannten Objekts zugeordnet wird, ohne dass eine Klasse für unbekannte Objekte eine mögliche Zuordnung darstellt.With the help of Dirichlet distributions, uncertainties for the assignment of classes to i) known and ii) unknown objects are possible. This advantageously avoids - as is often the case in conventional approaches - the classification of pixels by assigning them to one of a large number of classes of objects by determining for each pixel a probability of a correct assignment with regard to each of the given classes of known objects and selecting the assignment with the highest probability, thus always assigning a pixel to a class of a known object without a class for unknown objects representing a possible assignment.

Es werden demnach Unsicherheitsmaße sowohl für die in Klassen bekannter Objekte zugeordneten Pixel als auch für in eine Klasse unbekannter Objekte zugeordnete Pixel durch das künstliche neuronale Netz erzeugt. Der Unterschied zwischen unbekannten Objekten und bekannten Objekten ist, dass beim Trainieren des künstlichen neuronalen Netzes eine endliche Menge von Klassen bekannter Objekte vorgegeben wurde (Fußgänger, Radfahrer, Katze, etc.), aber auch berücksichtigt wurde, dass unbekannte Objekte auftreten können, die im Training nicht explizit berücksichtigt werden konnten oder sollten. Für unbekannte Objekte wird daher eine generelle eigene Klasse vorgegeben. Dieser eigenen Klasse können dann im regulären Betrieb des Fahrzeugs mit dem künstlichen neuronalen Netz Pixel zugeordnet werden, die weniger in eine der Klassen der bekannten Objekte passen. Im Unsicherheitsdatensatz wird dies berücksichtigt, der Unsicherheitsdatensatz stellt somit eine Objektliste für Objekte unbekannter Klasse dar.The artificial neural network therefore generates uncertainty measures both for the pixels assigned to classes of known objects and for pixels assigned to a class of unknown objects. The difference between unknown objects and known objects is that when training the artificial neural network, a finite set of classes of known objects was specified (pedestrians, cyclists, cats, etc.), but it was also taken into account that unknown objects could occur that could not or should not have been explicitly taken into account in the training. A general separate class is therefore specified for unknown objects. During regular operation of the vehicle, the artificial neural network can then be used to assign pixels to this separate class that are less likely to fit into one of the classes of known objects. This is taken into account in the uncertainty data set, and the uncertainty data set thus represents an object list for objects of unknown class.

Der Gebrauch von Dirichlet Wahrscheinlichkeitsverteilungen mit einem Ansatz zur pixelweisen Unsicherheitsschätzung dient dazu, die Unsicherheitsschätzung auf der einen Seite und die Detektion von Pixeln, die keiner bekannten Klasse zugeordnet werden können, auf der anderen Seite zu verbessern. Dirichlet Wahrscheinlichkeitsverteilungen stellen eine Familie von kontinuierlichen multivariaten Wahrscheinlichkeitsverteilungen dar, die von der Betafunktion durch Verallgemeinerung gebildet werden und anders als die Betafunktion anstatt von zwei jeweils positiven Parametern im Allgemeinen durch einen Vektor von positiven Parametern gekennzeichnet sind, die jedoch ebenfalls als Exponenten der Zufallsvariablen erscheinen. Diese Parameter der Dirichlet Wahrscheinlichkeitsverteilung stellen die Konzentrationsparameter dar und bestimmen die Form der Dirichlet Wahrscheinlichkeitsverteilung.The use of Dirichlet probability distributions with a pixel-wise uncertainty estimation approach serves to improve uncertainty estimation on the one hand and the detection of pixels that cannot be assigned to a known class on the other hand. Dirichlet probability distributions represent a family of continuous multivariate probability distributions that are formed by generalization from the beta function and, unlike the beta function, are generally characterized by a vector of positive parameters instead of two positive parameters, which also appear as exponents of the random variable. These parameters of the Dirichlet probability distribution represent the concentration parameters and determine the shape of the Dirichlet probability distribution.

Zur semantischen Segmentierung wird jedes der Pixel repräsentiert durch eine geschätzte Dirichlet-Verteilung, wobei bevorzugt der höchste Konzentrationsparameter-Wert die vorhergesagte Segmentierung Klasse repräsentiert, während die Entropie der Verteilung der normierten Konzentrationsparameter pro Pixel die Unsicherheit repräsentiert. Insbesondere die Summe aller Konzentrationsparameter einer Dirichlet Wahrscheinlichkeitsverteilung eines jeweiligen Pixels kann zur Unterscheidung zwischen bekannten Objekten und unbekannten Objekten herangezogen werden. Dafür wird brvorzugt ein geeignet zu wählender Schwellwert eingeführt. Wenn die Summe der Konzentrationsparameter unter dem Schwellwert liegt, kann dieser Pixel einem unbekannten Objekt zugeordnet werden. Diese Summe wird auch als „Dirichlet Strength“ bezeichnet und gibt an, wie spitz/schmal oder stumpf /breit die Wahrscheinlichkeitsverteilung ist.For semantic segmentation, each of the pixels is represented by an estimated Dirichlet distribution, whereby the highest concentration parameter value preferably represents the predicted segmentation class, while the entropy of the distribution of the normalized concentration parameters per pixel represents the uncertainty. In particular, the sum of all concentration parameters of a Dirichlet probability distribution of a respective pixel can be used to distinguish between known objects and unknown objects. For this purpose, a suitable threshold value is preferably introduced. If the sum of the concentration parameters is below the threshold value, this pixel can be assigned to an unknown object. This sum is also referred to as "Dirichlet strength" and indicates how sharp/narrow or blunt/wide the probability distribution is.

Bevorzugt werden vom System zwei zusätzliche, separate Ausgaben für die Unsicherheit einer unbekannten Klasse und der Unsicherheit nur für bekannte Klassen geliefert, jeweils pixelbasiert. Jedes Pixel kann nur entweder einen Wert für die Unsicherheit einer unbekannten Klasse oder eine bekannten Klasse aufweisen.Preferably, the system provides two additional, separate outputs for the uncertainty of an unknown class and the uncertainty for known classes only, each pixel-based. Each pixel can only have one value for either the uncertainty of an unknown class or a known class.

Bisher bekannte Ausführungen künstlicher neuronaler Netze sind nicht in der Lage, ohne spezifische Annotation unbekannte Objekte zu identifizieren. Die erfinderische Idee liefert eine Lösung mit der Bereitstellung von Unsicherheitsmaßen getrennt nach bekannten und unbekannten Objekten. Damit können für ein automatisches Fahrsteuerungssystem unbekannte Objekte als solche erkannt und berücksichtigt werden, insbesondere in der Manöverplanung und für eventuelle Bremsmanöver oder für die Einleitung anderer sicherer Zustände des Fahrzeugs, wie Ausweichbewegungen. Für ein automatisches Fahrsteuerungssystem ist es nämlich von hoher Relevanz, dass alle kritischen Objekte erkannt werden. Von besonderer Bedeutung ist dabei, dass unbekannte Objekte identifiziert werden. Im Gegensatz zur bekannten Schwäche von unmodifizierten künstlichen neuronalen Netzen, bei unbekannten Objekten trotzdem eine dann falsche Zuordnung zu einer Klasse eines bekannten Objekts vorzunehmen, führt das erfindungsgemäße System zu einer Kennzeichnung eines Bildausschnitts mit „unbekanntes Objekt“. Methoden zur Unsicherheitsmodellierung werden erfindungsgemäß mit Dirichlet-Wahrscheinlichkeitsverteilungen kombiniert, u.a. erreicht durch eine neue Struktur für die Kostenfunktion beim vorhergehenden Trainieren des künstlichen neuronalen Netzes. Damit wird für jeden Bilddatensatz nicht nur die jeweilige Zuordnungs-Unsicherheit, sondern auch die Wahrscheinlichkeit konkret für eine unbekannte Klasse geliefert.Previously known designs of artificial neural networks are not able to identify unknown objects without specific annotation. The inventive idea provides a solution by providing uncertainty measures separately for known and unknown objects. This allows unknown objects to be recognized and taken into account as such for an automatic driving control system, in particular in maneuver planning and for possible braking maneuvers or for initiating other safe states of the vehicle, such as evasive movements. For an automatic driving control system, it is of great importance that all critical objects are recognized. It is particularly important that unknown objects are identified. In contrast to the known weakness of unmodified artificial neural networks, which nevertheless make an incorrect assignment to a class of a known object for unknown objects, the system according to the invention results in an image section being labeled as an "unknown object". According to the invention, methods for uncertainty modeling are combined with Dirichlet probability distributions, achieved, among other things, by a new structure for the cost function during the previous training of the artificial neural network. This provides not only the respective assignment uncertainty for each image data set, but also the probability specifically for an unknown class.

Die derzeitige Entwicklung von automatischen Fahrsteuerungssystemen und sich entwickelnder Standards lassen erwarten, dass die Identifikation und Berücksichtigung von Unsicherheiten Teil des Entwicklungsprozesses und der Implementierungen sein werden. Bei Identifikation unsicherer Bereiche wird dann das automatische Fahrsteuerungssystem diese beobachten müssen, soweit diese im Fahrkorridor liegen, und dann ggf. mit einem Minimal-Risk-Manöver (MRM) darauf reagieren müssen. Das erfindungsgemäße System liefert somit einen Beitrag zur Realisierung einer automatisierten Fahrfunktion, bei der die Häufigkeit unnötiger Systemeingriffe mit Verlangsamung der Fahrgeschwindigkeit oder gar Ausweichen signifikant reduziert werden können und gleichzeitig die Sicherheit erhöht werden kann. Bei Identifikation unbekannter Objekte, deren Einfluss auf das automatische Fahrsteuerungssystem nicht auflösbar ist, kann dann mit hoher Priorität ein solches MRM ausgelöst werden. Hingegen können Unsicherheiten bekannter Klassen anders gehandhabt werden. Damit ergibt sich neben dem Sicherheitsvorteil mit einer Unterstützung der Sicherheitsargumentation sowie ein Kundenvorteil durch Erhöhung der Akzeptanz mit einer zu erwartenden geringeren Anzahl von solchen MRMs.The current development of automatic driving control systems and evolving standards lead us to expect that the identification and consideration of uncertainties will be part of the development process and implementations. When unsafe areas are identified, the automatic driving control system will then have to observe them, provided they are in the driving corridor, and then react to them with a minimal risk maneuver (MRM) if necessary. The system according to the invention thus makes a contribution to the realization of an automated driving function in which the frequency of unnecessary system interventions by slowing down the driving speed or even evasive maneuvers can be significantly reduced and at the same time safety can be increased. When unknown objects are identified whose influence on the automatic driving control system cannot be resolved, such an MRM can then be triggered with high priority. On the other hand, uncertainties of known classes can be handled differently. In addition to the safety advantage, this also results in support of the safety argument and a customer advantage by increasing acceptance with an expected lower number of such MRMs.

Gemäß einer vorteilhaften Ausführungsform weist das künstliche neuronale Netz eine Zwischenschicht zur variationsgestützten Inferenz zum Zwecke der Ermittlung der pixelweisen Unsicherheitswerte auf.According to an advantageous embodiment, the artificial neural network has an intermediate layer for variation-based inference for the purpose of determining the pixel-wise uncertainty values.

Ein derartiges künstliches neuronales Netz mit einer Zwischenschicht zur variationsgestützten Inferenz ist in der Publikation „ Real-time Uncertainty Estimation Based On Intermediate Layer Variational Inference“ der Autoren Ahmed Hammam, Seyed Eghbal Ghobadi, Frank Bonarens und Christoph Stiller, CSCS '21, November 30, 2021, Ingolstadt, Germany, ACM ISBN 978-1-4503-9139-9/21 /11 (verfügbar zum Zeitpunkt des Schreibens unter https://doi.org/10.1145/3488904.3493381 ) detailliert diskutiert. Diese Publikation wird hiermit durch Verweis einbezogen. Der dort gezeigte Ansatz nutzt eine zusätzliche Schicht gegenüber einem gängigen neuronalen Netz, welche dazu dient, durch Auslesen der Daten der zusätzlichen Schicht direkt eine Wahrscheinlichkeitsschätzung für die Zuordnung zu erhalten. Durch das Sampling in dieser Zwischenebene wird mehr als ein Segmentierungs-Output pro Pixel generiert und damit die Voraussetzung geschaffen, einen Unsicherheitswert zu berechnen. Weiterhin bewirkt die Zwischenschicht (auch genannte das „ILVI-Layer“) einen stochastischen Effekt zur Verbesserung der Robustheit des Segmentierung-Outputs. Die Schichten mit den Gewichten zur Repräsentation der Mittelwerte und Varianzen wurden bevorzugt derart trainiert, dass diese einer Gaußschen Normalverteilung entsprechen. Dies wird vorteilhaft sichergestellt durch Minimierung der Kullback-Leibler-Divergenz zwischen ILVI-Mittelwerten und ILVI-Varianzen sowie der Gauß'schen Normalverteilung: Loss_ILVI = KL([Mean, Variance]|N(0,I)), wobei „Loss“ die „Loss-Function“ im Sinne einer Kostenfunktion für das Training (insbesondere mittels Back-Propagation) angibt. Vorteilhaft kann es aufgrund dieser zusätzlichen Schicht vermieden werden, Daten des ganzen künstlichen neuronalen Netzes erfassen zu müssen, was deutlich zeitintensiver im Vergleich zum Erfassen der Daten lediglich der zusätzlichen Schicht wäre. So wird vorteilhaft als zusätzliche Ausgangsgröße des künstlichen neuronalen Netzes eine auf eine jeweilige Klasse bezogene Wahrscheinlichkeit je Pixel erhalten. Der Ansatz wird im Stand der Technik häufig auch „intermediate layer variational inference“, oder kurz ILVI genannt. Im Vergleich zu anderen im Stand der Technik bekannten Methoden zum Erhalten der gleichen bzw. ähnlichen Abschätzung, insbesondere der Methode „Monte Carlo Dropout“ oder der „Deep Ensembles“ Methode, ist der ILVI Ansatz deutlich weniger rechenaufwendig und damit deutlich weniger zeitintensiv. Andernfalls wäre eine Ausführung für Echtzeitsysteme erschwert und nur mit sehr hohen Rechenkapazitäten möglich sein. Vorteilhaft ergibt sich ferner das Wahrscheinlichkeitsmaß aus dem verwendeten künstlichen neuronalen Netz damit selbst, ohne zu diesem Zweck ein zusätzliches künstliches neuronales Netz implementieren zu müssen. Der ILVI Ansatz ist somit ein in der Praxis vorteilhafter Ansatz, es können prinzipiell jedoch auch andere Ansätze zur Unsicherheitsschätzung verwendet werden.Such an artificial neural network with an intermediate layer for variation-based inference is described in the publication “ Real-time Uncertainty Estimation Based On Intermediate Layer Variational Inference“ by the authors Ahmed Hammam, Seyed Eghbal Ghobadi, Frank Bonarens and Christoph Stiller, CSCS '21, November 30, 2021, Ingolstadt, Germany, ACM ISBN 978-1-4503-9139-9/21 /11 (available at the time of writing at https://doi.org/10.1145/3488904.3493381 ) is discussed in detail. This publication is hereby incorporated by reference. The approach shown there uses an additional layer compared to a conventional neural network, which serves to directly obtain a probability estimate for the assignment by reading the data of the additional layer. By sampling in this intermediate layer, more than one segmentation output per pixel is generated, thus creating the prerequisite for calculating an uncertainty value. Furthermore, the intermediate layer (also called the "ILVI layer") causes a stochastic effect to improve the robustness of the segmentation output. The layers with the weights to represent the means and variances were preferably trained in such a way that they correspond to a Gaussian normal distribution. This is advantageously ensured by minimizing the Kullback-Leibler divergence between ILVI means and ILVI variances as well as the Gaussian normal distribution: Loss _ILVI = KL([Mean, Variance]|N(0,I)), where "Loss" indicates the "loss function" in the sense of a cost function for training (in particular by means of back propagation). This additional layer advantageously avoids having to record data from the entire artificial neural network, which would be significantly more time-consuming than recording data from just the additional layer. This advantageously provides an additional output variable for the artificial neural network, a probability per pixel related to a respective class. In the state of the art, the approach is often also called "intermediate layer variational inference", or ILVI for short. Compared to other methods known in the state of the art for obtaining the same or similar estimates, in particular the "Monte Carlo Dropout" method or the "Deep Ensembles" method, the ILVI approach is significantly less computationally intensive and therefore significantly less time-consuming. Otherwise, implementation for real-time systems would be difficult and would only be possible with very high computing capacities. Another advantage is that the probability measure is derived from the artificial neural network used itself, without having to implement an additional artificial neural network for this purpose. The ILVI approach is therefore an advantageous approach in practice, but in principle other approaches to uncertainty estimation can also be used.

Gemäß einer weiteren vorteilhaften Ausführungsform entspricht jeder einzelne der Konzentrationsparameter eines jeweiligen Vektors einer jeweiligen Klasse, wobei das System dazu ausgeführt ist, in der zusätzlichen Schicht dem jeweiligen Pixel diejenige Klasse mit dem höchsten Konzentrationsparameter je Vektor der Konzentrationsparameter zuzuordnen.According to a further advantageous embodiment, each individual concentration parameter of a respective vector corresponds to a respective class, wherein the system is designed to assign to the respective pixel in the additional layer the class with the highest concentration parameter per vector of concentration parameters.

Gemäß einer weiteren vorteilhaften Ausführungsform ist das System dazu ausgeführt, in der zusätzlichen Schicht eine Summe der Konzentrationsparameter je Vektor mit einem vorgegebenen Schwellwert zu vergleichen, und bei Unterschreiten des Schwellwerts den jeweiligen Unsicherheitswert pixelbezogen als Unsicherheitswert für eine unbekannte Klasse zu ermitteln, und bei Überschreiten des Schwellwerts den jeweiligen Unsicherheitswert pixelbezogen als Unsicherheitswert für eine bekannte Klasse zu ermitteln.According to a further advantageous embodiment, the system is designed to compare a sum of the concentration parameters per vector in the additional layer with a predetermined threshold value and, if this is not achieved, of the threshold value, to determine the respective uncertainty value pixel-related as an uncertainty value for an unknown class, and if the threshold value is exceeded, to determine the respective uncertainty value pixel-related as an uncertainty value for a known class.

Gemäß einer weiteren vorteilhaften Ausführungsform ist das System dazu ausgeführt, in der zusätzlichen Schicht zur Bestimmung der pixelbezogenen Unsicherheit eine Entropie der durch normierte Konzentrationsparameter bestimmten Dirichlet-Verteilung aller Klassen für jedes Pixel zu ermitteln.According to a further advantageous embodiment, the system is designed to determine an entropy of the Dirichlet distribution of all classes determined by normalized concentration parameters for each pixel in the additional layer for determining the pixel-related uncertainty.

Gemäß einer weiteren vorteilhaften Ausführungsform ist das System dazu ausgeführt, vor der Übergabe der Liste unbekannter Objekte an das automatische Fahrsteuerungssystem eine Löschung aller unbekannten Objekte aus der Liste vorzunehmen, deren Pixelanzahl kleiner als ein erster vorgegebener Grenzwert ist und/oder deren mittlerer Unsicherheitswert kleiner als ein zweiter vorgegebener Grenzwert ist.According to a further advantageous embodiment, the system is designed to delete all unknown objects from the list whose number of pixels is less than a first predetermined limit value and/or whose average uncertainty value is less than a second predetermined limit value before the list of unknown objects is transferred to the automatic driving control system.

Gemäß einer weiteren vorteilhaften Ausführungsform ist das System dazu ausgeführt, alle mittleren Unsicherheitswerte kleiner als der zweite vorgegebene Grenzwert durch Null im Unsicherheitsdatensatz zu ersetzen.According to a further advantageous embodiment, the system is designed to replace all mean uncertainty values smaller than the second predetermined limit value by zero in the uncertainty data set.

Gemäß einer weiteren vorteilhaften Ausführungsform ist das System dazu ausgeführt, vor der Übergabe der Liste unbekannter Objekte an das automatische Fahrsteuerungssystem in die Liste unbekannter Objekte die unbekannten Objekte durch das Ermitteln von Agglomerationen in Pixelhaufen mit zur unbekannten Klasse zugeordneten Pixeln zu erzeugen.According to a further advantageous embodiment, the system is designed to generate the unknown objects in the list of unknown objects by determining agglomerations in pixel clusters with pixels assigned to the unknown class before the list of unknown objects is transferred to the automatic driving control system.

Über Parameter kann der Auswahl des Pixelhaufens so angepasst werden, dass auch Unsicherheitspixel ausgewählt werden, bei denen ein Pixel mit Unsicherheitswert Null dazwischen liegt.Using parameters, the selection of the pixel cluster can be adjusted so that uncertainty pixels are also selected, with a pixel with an uncertainty value of zero in between.

Gemäß einer weiteren vorteilhaften Ausführungsform ist das System dazu ausgeführt, die Objekte unbekannter Klasse aus den Agglomerationen in Pixelhaufen zu ermitteln durch wiederholtes Ermitteln eines ersten Unsicherheitspixels und Hinzufügen aller an das erste Unsicherheitspixel anliegenden Pixel.According to a further advantageous embodiment, the system is designed to determine the objects of unknown class from the agglomerations in pixel clusters by repeatedly determining a first uncertainty pixel and adding all pixels adjacent to the first uncertainty pixel.

Gemäß einer weiteren vorteilhaften Ausführungsform ist das System dazu ausgeführt, die ausgewählten Pixel im Unsicherheitsdatensatz durch Null zu ersetzen.According to a further advantageous embodiment, the system is designed to replace the selected pixels in the uncertainty data set with zero.

Ein weiterer Aspekt der Erfindung betrifft ein Verfahren zum Erzeugen eines künstlichen neuronalen Netzes mit einer Zwischenschicht zur Unsicherheitsschätzung, wobei eine Loss-Funktion verwendet wird, die einen jeweiligen Term für i) eine inkorrekte Zuordnung zu einer Klasse je Pixel, ii) eine korrekte Zuordnung zu einer Klasse je Pixel, iii) einen Loss-Term zum Entkoppeln des latenten Raums umfasst, wobei die Loss-Funktion ohne einen Term für eine Kreuz-Entropie ist, wobei für vorgegebene Ausgangsgrößen eine Vielzahl von Objekten aus bekannten Klassen verwendet wird und zumindest eine unspezifische, unbekannte Klasse ohne spezifische Zuordnung zu einem konkreten Objekt aus der Realität verwendet wird.A further aspect of the invention relates to a method for generating an artificial neural network with an intermediate layer for uncertainty estimation, wherein a loss function is used which comprises a respective term for i) an incorrect assignment to a class per pixel, ii) a correct assignment to a class per pixel, iii) a loss term for decoupling the latent space, wherein the loss function is without a term for a cross-entropy, wherein a plurality of objects from known classes are used for predetermined output variables and at least one unspecific, unknown class without a specific assignment to a concrete object from reality is used.

Zum Trainieren eines künstlichen neuronalen Netzes mit Unsicherheitsschätzung wie dem ILVI Ansatz wird bevorzugt ein Maximum-Likelihood-Verfahren angewandt, bei dem die Dirichlet-Strength α₀ aus der Summe von α_i mit i von 0 bis K (die Anzahl der Klassen) berechnet wird. Siehe hierzu auch „ Estimating a Dirichlet distribution“ von Thomas P. Minka vom 27. Februar 2003, https://www.robots.ox.ac.uk/∼vgg/share/words/papers/minka-dirichlet.pdf . Auch zum Trainieren des künstlichen neuronalen Netzes aus dem erfindungsgemäßen System werden insbesondere wie oben erläutert mit vorgegebenen Eingangsgrößen und mit zugehörigen vorgegebenen Ausgangsgrößen die Eigenschaften des künstlichen neuronalen Netzes so eingestellt, dass bei Ausführung des künstlichen neuronalen Netzes im späteren regulären Betrieb auf die Eingangsgrößen hin alleine die vorgegebenen Ausgangsgrößen aus dem künstlichen neuronalen Netz erhalten werden. Dies erfolgt insbesondere durch die sogenannte „Back-Propagation“, wobei als Kostenfunktion bevorzugt in spezieller Form eine sogenannte „Loss-Funktion“ verwendet wird. Eine mögliche Loss-Funktion ist beschrieben in Gleichung (3) der Veröffentlichung „Towards Improved Intermediate Layer Variational Inference for Uncertainty Estimation“ der Autoren Ahmed Hammam, Frank Bonarens, Seyed Eghbal Ghobadi, und Christoph Stiller. Diese Loss-Funktion umfasst drei Terme: Einen Loss-Term für korrekte Prädiktionen. Einen Loss-Term für inkorrekte Prädiktion. Einen Loss-Term zum Entkoppeln des latenten Raums.To train an artificial neural network with uncertainty estimation such as the ILVI approach, a maximum likelihood method is preferably used in which the Dirichlet strength α ₀ is calculated from the sum of α _i with i from 0 to K (the number of classes). See also " Estimating a Dirichlet distribution” by Thomas P. Minka, February 27, 2003, https://www.robots.ox.ac.uk/∼vgg/share/words/papers/minka-dirichlet.pdf . Also, to train the artificial neural network from the system according to the invention, in particular as explained above with predetermined input variables and with associated predetermined output variables, the properties of the artificial neural network are set in such a way that when the artificial neural network is executed in later regular operation in response to the input variables, only the predetermined output variables are obtained from the artificial neural network. This is done in particular by so-called “back propagation”, with a so-called “loss function” preferably being used in a special form as the cost function. One possible loss function is described in equation (3) of the publication “Towards Improved Intermediate Layer Variational Inference for Uncertainty Estimation” by the authors Ahmed Hammam, Frank Bonarens, Seyed Eghbal Ghobadi, and Christoph Stiller. This loss function comprises three terms: A loss term for correct predictions. A loss term for incorrect predictions. A loss term for decoupling the latent space.

Beim erfindungsgemäßen Verfahren zum Trainieren werden die zu unbekannten Objekten zugehörigen Pixel nicht annotiert und im Training weder bestraft noch belohnt. Dies wird bevorzugt mit Ignore-Bereichen realisiert, für die die Pixelinformationen ausgeblendet werden, sodass das künstliche neuronale Netz beim Training weder eine Bestrafung noch eine Belohnung für eine Klasse bekommt. Vorgeschlagen im Sinne der Kostenfunktion wird insbesondere eine Loss-Funktionen mit separaten Termen für korrekte Prädiktionen, inkorrekte Prädiktionen und zum Entkoppeln des Latenten Raumes, derart, dass dieser für die Unsicherheitsschätzung besonders geeignet ist.In the method for training according to the invention, the pixels belonging to unknown objects are not annotated and are neither penalized nor rewarded during training. This is preferably achieved with ignore areas for which the pixel information is hidden so that the artificial neural network receives neither a punishment nor a reward for a class during training. In terms of the cost function, a loss function with separate terms for correct predictions, incorrect predictions and for decoupling the latent space such that it is particularly suitable for uncertainty estimation.

Diese Loss-Funktion ist insbesondere derart, dass der Ausgangsvektor des neuronalen Netzes einer Dirichlet-Verteilung entspricht, und umfasst bevorzugt die folgenden drei Terme: Einen Loss-Term für korrekte Prädiktionen. Beispielhafte Implementierung: Dirichlet-Term log Dir(θ,α)_correct. Dieser Term trainiert das künstliche neuronale Netz mit der Wahrscheinlichkeitsverteilung der Ground-Truth-Daten, um eine Pro-Pixel-Output-Verteilung mit hoher Konzentration der Konzentrationsparameter für die korrekte Klasse zu erreichen. Ferner, einen Loss-Term für inkorrekte Prädiktion: Beispielhafte Implementierung: Dirichlet-Term log Dir(θ,α)_incorret. Dieser Term bestraft das künstliche neuronale Netz bezüglich inkorrekter Prädiktionen mit dem Ziel einer gleichmäßigen Verteilung der Konzentrationsparameter, so dass hohe Unsicherheitswerte für inkorrekt prädizierte Klassen erreicht werden. Sowie einen dritten Term: Loss-Term zum Entkoppeln des latenten Raums: Beispielhafte Implementierung: ILVI-Term, der das Training des künstlichen neuronalen Netzes so beeinflusst, dass die Merkmale im latenten Raum für bekannte und unbekannte Objekte entkoppelt werden und damit die Erkennung von Pixeln, die einer unbekannten Klasse zugehören, verbessern.This loss function is in particular such that the output vector of the neural network corresponds to a Dirichlet distribution, and preferably comprises the following three terms: A loss term for correct predictions. Example implementation: Dirichlet term log Dir(θ,α) _correct . This term trains the artificial neural network with the probability distribution of the ground truth data in order to achieve a per-pixel output distribution with a high concentration of the concentration parameters for the correct class. Furthermore, a loss term for incorrect prediction: Example implementation: Dirichlet term log Dir(θ,α) _incorrect . This term penalizes the artificial neural network with regard to incorrect predictions with the aim of a uniform distribution of the concentration parameters, so that high uncertainty values are achieved for incorrectly predicted classes. As well as a third term: Loss term for decoupling the latent space: Example implementation: ILVI term that influences the training of the artificial neural network in such a way that the features in the latent space for known and unknown objects are decoupled and thus improve the detection of pixels belonging to an unknown class.

Eine beispielhafte Auslegung der Loss-Funktion ist wie folgt gegeben: $l o g D i r {(θ, α)}_{c o r r e c t} + l o g D i r {(θ, α)}_{i n c o r r e c t} + L o s s_{I L V}$

Hierbei geben die Terme α_correct und α_incorrect die Konzentrationsparameter des künstlichen neuronalen Netzes an, die die korrekten Vorhersagen bzw. die inkorrekten Vorhersagen des künstlichen neuronalen Netzes repräsentieren. θ_correct gibt ferner die ground-truth Wahrscheinlichkeitsverteilung für die korrekten Klassen an, and θ_incorrect ist Teil des gleichen Wahrscheinlichkeitsvektors zur Ausgabe hoher Unsicherheiten.An example interpretation of the loss function is given as follows:

l O G D i r {(θ, α)}_{c O r r e c t} + l O G D i r {(θ, α)}_{i n c O r r e c t} + L O s s_{I L V}

Here, the terms α _correct and α _incorrect give the concentration parameters of the artificial neural network, which represent the correct predictions and the incorrect predictions of the artificial neural network, respectively. θ _correct also gives the ground-truth probability distribution for the correct classes, and θ _incorrect is part of the same probability vector for outputting high uncertainties.

Anders als in der Publikation „Towards Improved Intermediate Layer Variational Inference for Uncertainty Estimation“ der Autoren Ahmed Hammam, Frank Bonarens, Seyed Eghbal Ghobadi, und Christoph Stiller, insbesondere in der Gleichung (3), wird hierbei jedoch nicht den Term für die Kreuz-Entropie H(p,q) mit eingeschlossen. Der Term für die Kreuz-Entropie H(p,q) (Englisch cross-entropy) bildet den cross-entropy-loss des künstlichen neuronalen Netzes zwischen p (die Ausgangsgröße des künstlichen neuronalen Netzes) und q (ground-truth label) nach. Der Term für die Kreuz-Entropie wird demnach erfindungsgemäß bewusst weggelassen, um die Trennung der Verteilungen zwischen inkorrekter und korrekter Prädiktionen zu verbessern.However, unlike in the publication “Towards Improved Intermediate Layer Variational Inference for Uncertainty Estimation” by the authors Ahmed Hammam, Frank Bonarens, Seyed Eghbal Ghobadi, and Christoph Stiller, especially in equation (3), the term for the cross-entropy H(p,q) is not included here. The term for the cross-entropy H(p,q) simulates the cross-entropy loss of the artificial neural network between p (the output variable of the artificial neural network) and q (ground-truth label). The term for the cross-entropy is therefore deliberately omitted according to the invention in order to improve the separation of the distributions between incorrect and correct predictions.

In Abgrenzung zu den bereits bekannten Ansätzen, bei denen zum Training zu Objekten unbekannter Klassen zugehöriger Pixel spezifisch annotiert und damit dem Trainingsprozess als unbekannt zugeführt werden, werden bei dieser Idee die zu unbekannten Objekten zugehörigen Pixel nicht annotiert und im Training weder bestraft noch belohnt. Das erfindungsgemäß resultierende künstliche neuronale Netz lernt jetzt bevorzugt mit der Dirichlet-Verteilung und der ILVI- Komponente, unbekannte Klassen zu identifizieren.In contrast to the already known approaches, in which pixels belonging to objects of unknown classes are specifically annotated for training and thus fed into the training process as unknown, in this idea the pixels belonging to unknown objects are not annotated and are neither penalized nor rewarded during training. The resulting artificial neural network according to the invention now preferentially learns to identify unknown classes using the Dirichlet distribution and the ILVI component.

Ein dem regulären Betrieb vorhergehendes Training des künstlichen neuronalen Netzes und Einbezug des ILVI Ansatzes und von Dirichlet Wahrscheinlichkeitsverteilungen verbessert vorteilhaft die Repräsentation der Unsicherheiten und liefert zusätzliche Informationen zur Abgrenzung von Objekten von bekannten zu unbekannten Klassen, während die Leistungsfähigkeit der semantischen Segmentierung erhalten bleibt.Training the artificial neural network prior to regular operation and incorporating the ILVI approach and Dirichlet probability distributions advantageously improves the representation of uncertainties and provides additional information for distinguishing objects from known to unknown classes, while maintaining the performance of semantic segmentation.

Vorteile und bevorzugte Weiterbildungen des vorgeschlagenen Verfahrens ergeben sich durch eine analoge und sinngemäße Übertragung der im Zusammenhang mit dem vorgeschlagenen System vorstehend gemachten Ausführungen.Advantages and preferred developments of the proposed method result from an analogous and analogous transfer of the statements made above in connection with the proposed system.

Weitere Vorteile, Merkmale und Einzelheiten ergeben sich aus der nachfolgenden Beschreibung, in der - gegebenenfalls unter Bezug auf die Zeichnung - zumindest ein Ausführungsbeispiel im Einzelnen beschrieben ist. Gleiche, ähnliche und/oder funktionsgleiche Teile sind mit gleichen Bezugszeichen versehen.Further advantages, features and details emerge from the following description, in which - if necessary with reference to the drawing - at least one embodiment is described in detail. Identical, similar and/or functionally identical parts are provided with the same reference numerals.

Es zeigen:

1: Ein System zur Unterstützung eines automatischen Fahrsteuerungssystems eines automatisierten Fahrzeugs durch maschinelle Objekterkennung von Objekten im Umfeld des Fahrzeugs gemäß einem Ausführungsbeispiel der Erfindung.
2: Eine beispielhafte Dirichlet-Verteilung wie sie in Anwendung des Systems nach 1 auftreten kann.

Show it:

1 : A system for supporting an automatic driving control system of an automated vehicle by machine object recognition of objects in the environment of the vehicle according to an embodiment of the invention.
2 : An example Dirichlet distribution as it is used in the system according to 1 can occur.

Die Darstellungen in den Figuren sind schematisch und nicht maßstäblich.The representations in the figures are schematic and not to scale.

1 zeigt eine typische Situation zur Anwendung eines Systems 1 zur Unterstützung eines automatischen Fahrsteuerungssystem eines automatisierten Fahrzeugs durch maschinelle Objekterkennung von Objekten im Umfeld des Fahrzeugs. Das automatische Fahrsteuerungssystem ist hierbei dazu in der Lage, Eingriffe in die Fahrzeugführung vorzunehmen oder diese auf Wunsch komplett zu übernehmen. Im ersten Fall ergibt sich die Funktion eines Fahrerassistenzsystems, zweiten Fall eine automatisierte Fahrzeugführung mit Quer- und Längsregelung und Manöverplanungsmodul. Sowohl das Fahrerassistenzsystem als auch das Manöverplanungsmodul sind auf die sensorbasierte automatische Objekterkennung angewiesen. Eine Fahrzeugsensoreinheit 3 mit einer Kameraeinheit überwacht zu diesem Zweck laufend das Umfeld des Fahrzeugs und liefert Bilddaten der Kameraeinheit an ein Rechenmodul des Systems 1. Das Rechenmodul führt ein künstliches neuronales Netz aus, welches vor dem Betrieb des Fahrzeugs trainiert worden ist. Mithilfe des künstlichen neuronalen Netzes mit den Bilddaten der Kameraeinheit als Systemeingang des künstlichen neuronalen Netzes findet eine semantische Segmentierung und pixelweiser Unsicherheitsschätzung bezüglich der Segmentierung für Objekte bekannter Klassen statt. Prinzipiell kann somit in jedem Inferenzschritt (d. h. Ausführung Durchlauf des künstlichen neuronalen Netzes mit jeweils aktuellen Bilddaten der Kameraeinheit) eine Zuordnung von in der Realität und in den Bilddaten auftretenden Objekten in bekannte Klassen erfolgen, wobei die bekannten Klassen beim Trainieren des künstlichen neuronalen Netzes explizit vorgegeben wurden und somit im Betrieb des künstlichen neuronalen Netzes als Ergebnis der Ausführung eine jeweilige bekannte Klasse und somit bekannte Objekte erkannt werden können. Diese Zuordnung wird zusätzlich mit einer Unsicherheitsschätzung versehen, sodass erkannt werden kann, wenn die Zuordnung zu einer bekannten Klasse nur mit geringen Wahrscheinlichkeiten auch korrekt ist. Mithilfe einer Modellierung eines jeweiligen pixelbezogenen Ausgangswerts des künstlichen neuronalen Netzes als Dirichlet-Verteilung und der Verwendung der Konzentrationsparameter der Dirichlet-Verteilung als zusätzliches Merkmal des künstlichen neuronalen Netzes ist es jedoch leichter möglich, eine Zuordnung eines Pixels zu einem Objekt unbekannter Klasse auszuführen, sodass Objekte unbekannter Klasse in den jeweiligen Bilddaten als solche identifizierbar sind. Somit wird nicht jedes Pixel aus den Bilddaten eines jeweiligen aktuellen Satzes von Pixeln aus der Kameraeinheit einem Objekt bekannter Klasse zugeordnet, sondern es wird explizit hingenommen, dass nicht jedes Element aus der Umgebung um das Fahrzeug durch das künstliche neuronale Netz erkannt werden kann; hierfür wird vielmehr eine gesonderte Klasse, die sogenannte unbekannte Klasse, für unbekannte Objekte geschaffen. Es wird demnach ein Unsicherheitsdatensatz mit einer Liste unbekannter Objekte abgespeichert und zusammen mit den Unsicherheitswerten für die Zuordnung von Pixeln zu Objekten an das automatische Fahrsteuerungssystem des automatisierten Fahrzeugs mit seinem Manöverplanungsmodul übergeben. Der jeweilige Bilddatensatz der Kameraeinheit wird durch das künstliche neuronale Netz somit entsprechend transformiert mit dem Ergebnis von Konzentrationsparametern einer Pro-Pixel-Dirichlet-Verteilung. Ausgangswerte umfassen das Ergebnis einer semantischen Segmentierung: Die vorhergesagte Klasse ist diejenige, die den höchsten Konzentrationsparameter aufweist. Ferner, ein erster pixelweiser Unsicherheitswert, falls der Pixel einer unbekannten Klasse zugeordnet wurde, bzw. ein zweiter pixelweiser Unsicherheitswert, falls der Pixel einer bekannten Klasse zugeordnet wurde. 1 shows a typical situation for the application of a system 1 to support an automatic driving control system of an automated vehicle by machine object recognition of objects in the vehicle's surroundings. The automatic driving control system is able to intervene in the vehicle's control or, if desired, take it over completely. In the first case, the Function of a driver assistance system, second case an automated vehicle guidance with lateral and longitudinal control and maneuver planning module. Both the driver assistance system and the maneuver planning module rely on sensor-based automatic object recognition. For this purpose, a vehicle sensor unit 3 with a camera unit continuously monitors the surroundings of the vehicle and supplies image data from the camera unit to a computing module of the system 1. The computing module executes an artificial neural network that was trained before the vehicle was operated. With the help of the artificial neural network with the image data from the camera unit as the system input of the artificial neural network, a semantic segmentation and pixel-by-pixel uncertainty estimation regarding the segmentation for objects of known classes takes place. In principle, objects occurring in reality and in the image data can thus be assigned to known classes in each inference step (i.e. execution of the artificial neural network with the latest image data from the camera unit), whereby the known classes were explicitly specified when training the artificial neural network and thus a respective known class and thus known objects can be recognized as a result of the execution during operation of the artificial neural network. This assignment is also provided with an uncertainty estimate so that it can be recognized when the assignment to a known class is only correct with low probability. By modeling a respective pixel-related output value of the artificial neural network as a Dirichlet distribution and using the concentration parameters of the Dirichlet distribution as an additional feature of the artificial neural network, it is easier to assign a pixel to an object of an unknown class so that objects of an unknown class can be identified as such in the respective image data. Thus, not every pixel from the image data of a respective current set of pixels from the camera unit is assigned to an object of a known class, but it is explicitly accepted that not every element from the environment around the vehicle can be recognized by the artificial neural network; instead, a separate class, the so-called unknown class, is created for unknown objects. An uncertainty data set with a list of unknown objects is therefore stored and passed on to the automatic driving control system of the automated vehicle with its maneuver planning module together with the uncertainty values for the assignment of pixels to objects. The respective image data set of the camera unit is thus transformed accordingly by the artificial neural network with the result of concentration parameters of a per-pixel Dirichlet distribution. Output values include the result of a semantic segmentation: The predicted class is the one that has the highest concentration parameter. Furthermore, a first pixel-wise uncertainty value if the pixel was assigned to an unknown class, or a second pixel-wise uncertainty value if the pixel was assigned to a known class.

In der 1 ist zur Veranschaulichung der Innenraum eines Fahrzeugs mit dem das künstliche neuronale Netz ausführenden System 1 und der Fahrzeugsensoreinheit 3 dargestellt. Die Personen im Umfeld des Fahrzeugs werden als bekannte Objekte erkannt und können mit einer entsprechenden Bounding Box getrackt werden. Der Kirchturm jedoch wurde beim Training des künstlichen neuronalen Netzes wegen seiner Einzigartigkeit nicht berücksichtigt, die zugehörigen Pixel fallen daher unter die Kategorie eines Objekts unbekannter Klasse. Es werden mit Hilfe dieser Eigenschaften des künstlichen neuronalen Netzes somit folgende Schritte durchgeführt:

#1 Aufnahme und Aufzeichnung eines Bilddatensatzes. Löschen der bisherigen Liste unbekannter Objekte.
#2: Ausführen eines Inferenzschritts mit dem vortrainierten, künstlichen neuronale Netz.
#3: Abspeichern der pixelbezogenen Unsicherheitswerte ausschließlich für unbekannte Objekte als Unsicherheitsdatensatz.
#4: Ersetzen aller Unsicherheitswerte kleiner eines Grenzwerts Th_unc,min durch Null im Unsicherheitsdatensatz.
#5: Hinzufügen aller Pixelhaufen als separate unbekannte Objekte in die Liste unbekannter Objekte gemäß folgender Vorgehensweise:
- - Ausgehend von einem ersten Unsicherheitspixel Hinzufügung aller nebenliegenden Unsicherheitspixel zu diesem unbekannten Objekt.
- - Fortsetzung mit dem nächsten Unsicherheitspixel.
- - Dabei werden die ausgewählten Pixel im Unsicherheitsdatensatz durch Null ersetzt.
- - Über Parameter kann der Auswahl des Pixelhaufens so angepasst werden, dass auch Unsicherheitspixel ausgewählt werden, bei denen ein Pixel mit Unsicherheitswert Null dazwischen liegt.
#6: Löschung aller unbekannten Objekte, deren Pixelanzahl kleiner Th_pixel beträgt oder deren mittlerer Unsicherheitswert kleiner Th_unc ist.
#7: Weitergabe der Liste unbekannter Objekte an das automatische Fahrsteuerungssystem.
#8: Sprung zu #1.

In the 1 For illustration purposes, the interior of a vehicle is shown with the system 1 executing the artificial neural network and the vehicle sensor unit 3. The people in the vicinity of the vehicle are recognized as known objects and can be tracked using a corresponding bounding box. The church tower, however, was not taken into account when training the artificial neural network because of its uniqueness, and the associated pixels therefore fall into the category of an object of unknown class. The following steps are carried out using these properties of the artificial neural network:

#1 Capture and record an image dataset. Clear the previous list of unknown objects.
#2: Performing an inference step with the pre-trained artificial neural network.
#3: Save the pixel-related uncertainty values exclusively for unknown objects as an uncertainty dataset.
#4: Replace all uncertainty values smaller than a limit Th _unc,min by zero in the uncertainty data set.
#5: Add all pixel clusters as separate unknown objects to the list of unknown objects as follows:
- - Starting from a first uncertainty pixel, add all adjacent uncertainty pixels to this unknown object.
- - Continue with the next uncertainty pixel.
- - The selected pixels in the uncertainty dataset are replaced by zero.
- - Parameters can be used to adjust the selection of the pixel cluster so that uncertainty pixels are also selected where a pixel with an uncertainty value of zero lies between them.
#6: Delete all unknown objects whose pixel count is less than Th _pixel or whose mean uncertainty value is less than Th _unc .
#7: Passing the list of unknown objects to the automatic driving control system.
#8: Jump to #1.

2 zeigt das Ergebnis einer Dirichlet-Verteilung für zwei Teilbilder (A) und (B). In diesen Teilbildern wird zur Veranschaulichung ein Testbild in das künstliche neuronale Netz eingegeben. Während das erste Testbild ein unverfälschtes Tier zeigt, welches im Trainingsprozess ausreichend berücksichtigt wurde, ist im Teilbild (B) das Tier soweit unkenntlich, dass die Zuordnung im künstlichen neuronalen Netz entsprechend schwieriger wird. Es wird somit eine Zuordnung zu den drei Klassen A,B,C veranschaulicht. Während im Teilbild (A) die Konzentrationsparameter relativ hohe Werte im Vergleich zum Teilbild (B) aufweisen, wird in Teilbild (A) eine entsprechend hohe Dirichlet-Strength als Summe der Konzentrationsparameter erreicht, die Dirichlet Verteilung (gezeigt von oben auf die Verteilung) ist sehr eng mit einer leichten Tendenz zur Klasse C. Es liegt damit eine Objekterkennung eines bekannten Objekts vor. Im Teilbild (B) hingegen sind die drei Konzentrationsparameter für die drei Klassen A,B,C um eine Größenordnung kleiner als in Teilbild (A), die Summe dieser Konzentrationsparameter ist damit entsprechend ebenfalls kleiner und die Dirichlet Verteilung ist deutlich breiter. Es kann somit eine Zuordnung zu einem Objekt unbekannter Klasse vorgenommen werden. 2 shows the result of a Dirichlet distribution for two partial images (A) and (B). In these partial images, a test image is entered into the artificial neural network for illustration purposes. While the first test image shows an unadulterated animal that was sufficiently taken into account in the training process, in partial image (B) the animal is so unrecognizable that assignment in the artificial neural network becomes correspondingly more difficult. This illustrates an assignment to the three classes A, B, C. While in partial image (A) the concentration parameters have relatively high values compared to partial image (B), in partial image (A) a correspondingly high Dirichlet strength is achieved as the sum of the concentration parameters; the Dirichlet distribution (shown from above the distribution) is very narrow with a slight tendency towards class C. This means that an object is recognized as a known object. In sub-image (B), however, the three concentration parameters for the three classes A, B, and C are an order of magnitude smaller than in sub-image (A), the sum of these concentration parameters is therefore also smaller and the Dirichlet distribution is significantly broader. An assignment to an object of unknown class can therefore be made.

Obwohl die Erfindung im Detail durch bevorzugte Ausführungsbeispiele näher illustriert und erläutert wurde, so ist die Erfindung nicht durch die offenbarten Beispiele eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen. Es ist daher klar, dass eine Vielzahl von Variationsmöglichkeiten existiert. Es ist ebenfalls klar, dass beispielhaft genannte Ausführungsformen wirklich nur Beispiele darstellen, die nicht in irgendeiner Weise als Begrenzung etwa des Schutzbereichs, der Anwendungsmöglichkeiten oder der Konfiguration der Erfindung aufzufassen sind. Vielmehr versetzen die vorhergehende Beschreibung und die Figurenbeschreibung den Fachmann in die Lage, die beispielhaften Ausführungsformen konkret umzusetzen, wobei der Fachmann in Kenntnis des offenbarten Erfindungsgedankens vielfältige Änderungen, beispielsweise hinsichtlich der Funktion oder der Anordnung einzelner, in einer beispielhaften Ausführungsform genannter Elemente, vornehmen kann, ohne den Schutzbereich zu verlassen, der durch die Ansprüche und deren rechtliche Entsprechungen, wie etwa weitergehende Erläuterungen in der Beschreibung, definiert wird.Although the invention has been illustrated and explained in detail by preferred embodiments, the invention is not limited by the disclosed examples and other variations can be derived therefrom by the person skilled in the art without departing from the scope of the invention. It is therefore clear that a multitude of possible variations exist. It is also clear that embodiments mentioned as examples really only represent examples that are not to be understood in any way as a limitation of the scope of protection, the possible applications or the configuration of the invention. Rather, the preceding description and the description of the figures enable the person skilled in the art to implement the exemplary embodiments in concrete terms, whereby the person skilled in the art, with knowledge of the disclosed inventive concept, can make various changes, for example with regard to the function or the arrangement of individual elements mentioned in an exemplary embodiment, without departing from the scope of protection defined by the claims and their legal equivalents, such as further explanations in the description.

BezugszeichenlisteList of reference symbols

11: Systemsystem
33: FahrzeugsensoreinheitVehicle sensor unit
A,B,CABC: beispielhafte Klassen, für die Konzentrationsparameter der Dirichlet-Verteilung ermittelt werden.exemplary classes for which concentration parameters of the Dirichlet distribution are determined.

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents listed by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA accepts no liability for any errors or omissions.

Zitierte Nicht-PatentliteraturCited non-patent literature

Real-time Uncertainty Estimation Based On Intermediate Layer Variational Inference“ by the authors Ahmed Hammam, Seyed Eghbal Ghobadi, Frank Bonarens and Christoph Stiller, CSCS '21, November 30, 2021, Ingolstadt, Germany, ACM ISBN 978-1-4503-9139-9/21/11 [0004]
https://doi.org/10.1145/3488904.3493381 [0004, 0025]
Real-time Uncertainty Estimation Based On Intermediate Layer Variational Inference“ by the authors Ahmed Hammam, Seyed Eghbal Ghobadi, Frank Bonarens and Christoph Stiller, CSCS '21, November 30, 2021, Ingolstadt, Germany, ACM ISBN 978-1-4503-9139-9/21 [0025]
Estimating a Dirichlet distribution“ by Thomas P. Minka, 27 February 2003, https://www.robots.ox.ac.uk/∼vgg/share/words/papers/minka-dirichlet.pdf [0036]

Claims

System (1) for supporting an automatic driving control system of an automated vehicle by machine object recognition of objects in the environment of the vehicle, wherein the system (1) is designed to: - continuously receive current image data about an environment detected by a vehicle sensor unit (3); - execute a pre-trained, artificial neural network with semantic segmentation and with pixel-by-pixel uncertainty estimation using input data based on the respective current image data in order to carry out object recognition in the image data in a respective inference step, wherein the artificial neural network determines a vector of concentration parameters of a Dirichlet distribution for each pixel, and in an additional layer determines the following from the respective vector of concentration parameters: for the semantic segmentation, an assignment of the respective pixel to a class of objects, a pixel-related uncertainty value with regard to the assignment, and a classification of the assigned class into belonging to a known or unknown object; - to store an uncertainty data set with a list of unknown objects based on the collection of pixels assigned to classes of unknown objects in each inference step; and - to pass the result of the semantic segmentations with the respective uncertainty values and the list of unknown objects to the automatic driving control system of the automated vehicle;

System (1) according to Claim 1 , wherein the artificial neural network has an intermediate layer for variation-based inference for the purpose of determining the pixel-wise uncertainty values.

System (1) according to one of the preceding claims, wherein each individual concentration parameter of a respective vector corresponds to a respective class, wherein the system (1) is designed to assign to the respective pixel in the additional layer the class with the highest concentration parameter per vector of concentration parameters.

System (1) according to one of the preceding claims, wherein the system (1) is designed to compare a sum of the concentration parameters per vector in the additional layer with a predetermined threshold value, and if the threshold value is undershot, to determine the respective uncertainty value pixel-related as an uncertainty value for an unknown class, and if the threshold value is exceeded, to determine the respective uncertainty value pixel-related as an uncertainty value for a known class.

System (1) according to one of the preceding claims, wherein the system (1) is designed to determine an entropy of the Dirichlet distribution of all classes determined by normalized concentration parameters for each pixel in the additional layer for determining the pixel-related uncertainty.

System (1) according to one of the preceding claims, wherein the system (1) is designed to delete from the list all unknown objects whose number of pixels is less than a first predetermined limit value and/or whose average uncertainty value is less than a second predetermined limit value before the list of unknown objects is transferred to the automatic driving control system.

System (1) according to Claim 6 , wherein the system (1) is designed to replace all mean uncertainty values smaller than the second predetermined limit by zero in the uncertainty data set.

System (1) according to one of the preceding claims, wherein the system (1) is designed to generate the unknown objects in the list of unknown objects by determining agglomerations in pixel clusters with pixels assigned to the unknown class before the list of unknown objects is transferred to the automatic driving control system.

System (1) according to Claim 8 , wherein the system (1) is designed to determine the objects of unknown class from the agglomerations in pixel clusters by repeatedly determining a first uncertainty pixel and adding all pixels adjacent to the first uncertainty pixel.

Method for generating an artificial neural network with an intermediate layer for uncertainty estimation and a pixel-related Dirichlet distribution, wherein a loss function is used, a respective term for i) an incorrect assignment to a class per pixel, ii) a correct assignment to a class per pixel, iii) a loss term for decoupling the latent space, wherein the loss function is without a term for a cross-entropy, wherein a plurality of objects from known classes are used for predetermined output variables and at least one unspecific, unknown Class is used without specific assignment to a concrete object from reality.