DE102022213064A1 - Detection of unknown objects using neural networks for vehicles - Google Patents
Detection of unknown objects using neural networks for vehicles Download PDFInfo
- Publication number
- DE102022213064A1 DE102022213064A1 DE102022213064.2A DE102022213064A DE102022213064A1 DE 102022213064 A1 DE102022213064 A1 DE 102022213064A1 DE 102022213064 A DE102022213064 A DE 102022213064A DE 102022213064 A1 DE102022213064 A1 DE 102022213064A1
- Authority
- DE
- Germany
- Prior art keywords
- pixel
- uncertainty
- class
- unknown
- objects
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 91
- 238000001514 detection method Methods 0.000 title description 7
- 238000009826 distribution Methods 0.000 claims abstract description 46
- 230000011218 segmentation Effects 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims description 18
- 238000005054 agglomeration Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 26
- 238000012549 training Methods 0.000 description 21
- 238000013459 approach Methods 0.000 description 17
- 230000008901 benefit Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- BUHVIAUBTBOHAG-FOYDDCNASA-N (2r,3r,4s,5r)-2-[6-[[2-(3,5-dimethoxyphenyl)-2-(2-methylphenyl)ethyl]amino]purin-9-yl]-5-(hydroxymethyl)oxolane-3,4-diol Chemical compound COC1=CC(OC)=CC(C(CNC=2C=3N=CN(C=3N=CN=2)[C@H]2[C@@H]([C@H](O)[C@@H](CO)O2)O)C=2C(=CC=CC=2)C)=C1 BUHVIAUBTBOHAG-FOYDDCNASA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 235000000332 black box Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000002552 multiple reaction monitoring Methods 0.000 description 1
- 230000000414 obstructive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000008080 stochastic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
Die Erfindung betrifft ein System (1) für ein automatisches Fahrsteuerungssystem, das Bilddaten einer Fahrzeugsensoreinheit (3) empfängt und ein künstliches neuronales Netz mit semantischer Segmentierung und pixelweiser Unsicherheitsschätzung für eine Objekterkennung ausführt, das einen Vektor von Konzentrationsparametern einer Dirichlet-Verteilung ermittelt, und in einer zusätzlichen Schicht aus dem jeweiligen Vektor von Konzentrationsparametern Folgendes ermittelt: Für die semantische Segmentierung eine Zuordnung des jeweiligen Pixels zu einer Klasse von Objekten, einen pixelbezogenen Unsicherheitswert bzgl. der Zuordnung, und eine Einteilung der zugeordneten Klasse in Zugehörigkeit zu bekanntem oder unbekanntem Objekt; ferner wird eine Liste unbekannter Objekte abgespeichert und an das automatische Fahrsteuerungssystem des automatisierten Fahrzeugs übergeben.The invention relates to a system (1) for an automatic driving control system, which receives image data from a vehicle sensor unit (3) and executes an artificial neural network with semantic segmentation and pixel-by-pixel uncertainty estimation for object recognition, which determines a vector of concentration parameters of a Dirichlet distribution, and in an additional layer determines the following from the respective vector of concentration parameters: for the semantic segmentation, an assignment of the respective pixel to a class of objects, a pixel-related uncertainty value with regard to the assignment, and a classification of the assigned class into belonging to a known or unknown object; furthermore, a list of unknown objects is stored and transferred to the automatic driving control system of the automated vehicle.
Description
Die Erfindung betrifft ein System zur Unterstützung eines automatischen Fahrsteuerungssystems eines automatisierten Fahrzeugs durch maschinelle Objekterkennung von Objekten im Umfeld des Fahrzeugs, sowie ein Verfahren zum Erzeugen eines künstlichen neuronalen Netzes mit einer Zwischenschicht zur Unsicherheitsschätzung.The invention relates to a system for supporting an automatic driving control system of an automated vehicle by machine object recognition of objects in the environment of the vehicle, as well as a method for generating an artificial neural network with an intermediate layer for uncertainty estimation.
Die folgenden Informationen ergeben sich nicht notwendigerweise aus einem einzelnen bestimmten Dokument aus dem Stand der Technik, sondern ergeben sich durch allgemeine fachmännische Überlegungen und dem aktuellen aber allgemein bekannten Fachwissen selbst:
- Insbesondere im Bereich des automatisierten Fahrens von Fahrzeugen wie Personenkraftwagen oder Lastkraftwagen ist es entscheidend, die Umgebung des Fahrzeugs maschinell korrekt zu analysieren und Objekte wie Fußgänger zu erkennen. Eine solche Objekterkennung wird typischerweise auf Basis von visuellen Daten, beispielsweise von einer Kamera, ausgeführt, kann alternativ oder ergänzend jedoch auch mit Hilfe anderer Sensorarten erfolgen. In allen Fällen wird zum Zweck der laufenden Objekterkennung typischerweise ein jeweiliger Datensatz mit Informationen über die Umgebung des Fahrzeugs mit einer gewissen Wiederhol-Frequenz aufgenommen. Zur Erkennung von Objekten aus den Informationen eines solchen jeweils aktuellen Datensatzes kann ein vorab-trainiertes künstliches neuronales Netz angewendet werden, welches als Eingangsdaten die Informationen aus dem oben erwähnten jeweiligen aktuellen Datensatz erhält, und im Sinne von Ausgangsdaten eine Objekterkennung mit Einordnung des Objekts in eine von mehreren vordefinierten Klassen von Objekten liefert. Die hohe Komplexität eines künstlichen neuronalen Netzes, verursacht durch eine enorm hohe Zahl von für den Menschen intuitiv praktisch nicht nachvollziehbarer interner Parameter, prägt den Black-Box Charakter des künstlichen neuronalen Netzes im Vergleich zu alternativen, intuitiv vom Menschen beobachtbaren Systemen. Die Parameter und die Struktur eines fertig trainierten künstlichen neuronalen Netzes, welches sich für die o.g. Anwendungen eignet, ist daher für einen Menschen nicht mehr interpretierbar. Dies gilt insbesondere für die tiefen künstlichen neuronalen Netze, die eine sehr große Anzahl von Ebenen (sog. „layer“), auch genannt „Schichten“ aufweisen.
- Particularly in the area of automated driving of vehicles such as passenger cars or trucks, it is crucial to correctly analyze the vehicle's surroundings and to recognize objects such as pedestrians using machines. Such object recognition is typically carried out on the basis of visual data, for example from a camera, but can alternatively or additionally also be carried out with the help of other types of sensors. In all cases, for the purpose of ongoing object recognition, a respective data set with information about the vehicle's surroundings is typically recorded with a certain repetition frequency. To recognize objects from the information in such a current data set, a pre-trained artificial neural network can be used, which receives the information from the above-mentioned current data set as input data and, in terms of output data, provides object recognition with classification of the object in one of several predefined classes of objects. The high complexity of an artificial neural network, caused by an enormous number of internal parameters that are practically incomprehensible to humans, characterizes the black box character of the artificial neural network in comparison to alternative systems that can be intuitively observed by humans. The parameters and structure of a fully trained artificial neural network, which is suitable for the above-mentioned applications, can therefore no longer be interpreted by a human. This is especially true for deep artificial neural networks, which have a very large number of levels (so-called "layers").
Das Auslegen der Parameter des künstlichen neuronalen Netzes findet noch vor seinem Einsatz im späteren regulären Betrieb in einem Trainingsvorgang statt. Typischerweise erfolgt das sogenannte „supervised learning“ zum Trainieren eines solchen künstlichen neuronalen Netzes typischerweise durch vorgegebene Eingangsgrößen und zugehörige vorgegebene Ausgangsgrößen. Reale Sensordaten oder synthetische, den Sensordaten nachgebildete Daten, mit Informationen über Objekte aus diesen Klassen werden insbesondere für die Eingangsdaten verwendet, während die Vorgabe der jeweiligen Klasse eines jeweiligen Objekts zu den vorgegebenen Ausgangsdaten führt. Am Beispiel des für ein automatisiertes Fahrzeug verwendeten künstlichen neuronalen Netzes wären dies beispielsweise die Klassen: Straße, Verkehrsschild, Baum, Ampel, Warnbake, Pylon, Hund, Straßenmarkierung, Fußgänger, Radfahrer, Personenkraftwagen, Baustellenfahrzeug, etc.;The parameters of the artificial neural network are designed in a training process before it is used in regular operation. Typically, the so-called “supervised learning” for training such an artificial neural network is carried out using predetermined input variables and associated predetermined output variables. Real sensor data or synthetic data modeled on the sensor data, with information about objects from these classes, are used in particular for the input data, while specifying the respective class of a respective object leads to the predetermined output data. Using the example of the artificial neural network used for an automated vehicle, these would be the classes: road, traffic sign, tree, traffic light, warning beacon, pylon, dog, road marking, pedestrian, cyclist, passenger car, construction site vehicle, etc.
Eine solche Klassifizierung in der späteren Anwendung des fertig trainierten künstlichen neuronalen Netzes ist jedoch nicht immer eindeutig oder fehlerfrei möglich. Gründe hierfür sind beispielsweise schlechte Lichtverhältnisse, Reflexionen, Verdeckungen durch andere Objekte, oder trügerische Erscheinungen wie z.B. Bilder von Personen auf Plakaten oder verkleidete Menschen. Im Stand der Technik sind wegen dieser Problematik künstliche neuronale Netze entwickelt worden, bei deren Anwendung ein Maß für die Unsicherheit bei der Objekterkennung insbesondere pixelweise ausgegeben werden kann. Dies sind künstliche neuronale Netze mit einer Unsicherheitsschätzung, das heißt, sie sind funktional dazu ausgebildet, insbesondere für jedes Pixel eines Bildes einen individuellen Unsicherheitswert mitzuliefern. Bereits bekannte Methoden für die Unsicherheitsschätzung sind unter anderem die „Monte Carlo Dropout“ oder die „Deep Ensembles“ Methode. Im Vergleich zu diesen ist jedoch der ebenfalls im Stand der Technik bekannte ILVI Ansatz (ILVI ist hierbei eine Abkürzung für „intermediate layer variational inference“) deutlich weniger rechenaufwendig und damit deutlich weniger zeitintensiv. Ein derartiges künstliches neuronales Netz mit einer Zwischenschicht zur variationsgestützten Inferenz ist in der Publikation „
Der ILVI Ansatz sei im Folgenden kurz umrissen: Die zusätzliche Ebene des künstlichen neuronalen Netzes, deren Daten ausgelesen werden, dient zur Modellierung der Unsicherheit für die Klassifizierung der Pixel. Im Rahmen dieser Ebene werden zwei Konstrukte verwendet, nämlich die Tensoren Mittel („Mean“) und Varianz („Variance“), wobei nicht eine Mittelung oder Varianzberechnung im eigentlichen Sinne durchgeführt wird; diese werden vielmehr unter anderem über Faltungsebenen entsprechend einer der Struktur des künstlichen neuronalen Netzes ermittelt. Dies wird mit Hilfe der Zusatzebene erreicht, die nach einer 1x1-Convolutional-Transformation den Mittel-Tensor und parallel über eine zweite 1x1- Convolutional-Transformation den Varianz-Tensor generiert. In einem weiteren Schritt wird ein Auslesen der Daten der Zusatzebene durchgeführt, bei dem der Mean-Tensor zu dem über einen Zufallswert multiplizierten Varianz-Tensor addiert wird. Ziel des Trainings ist, mit Hilfe der Loss-Funktion alle Gewichte so zu trainieren, dass diese beiden Tensoren die Parameter einer Gaußschen Verteilung repräsentieren. Bei einer jeweiligen Inferenz wird dann für jedes Szenenbild die Umrechnung über die Ebenen des künstlichen neuronalen Netzes mehrmals durchgeführt, bevorzugt im Bereich von 8 bis 16 mal. Bevorzugt durch Anwendung einer Logistik-Funktion wie der Softmax-Funktion werden dann in Höhe der Zahl der Klassen Konfidenz-Werte erhalten. Nach Durchführung einer Zahl n Inferenzwiederholungen werden für jede Klasse die n Konfidenz-Werte gemittelt. Jedem Pixel der semantischen Segmentierung wird die Klasse mit dem höchsten Konfidenz-Wert zugeordnet. Bevorzugt wird für die Ermittlung des jeweiligen Wahrscheinlichkeitsmaßes für jedes Pixel über eine Standard-Entropie-Formel (dies entspricht der Gleichung (9) in der o.g. Publikation bzgl. des ILVI Ansatzes) die Unsicherheit für jedes Pixel und damit das jeweilige Wahrscheinlichkeitsmaß berechnet.The ILVI approach is briefly outlined below: The additional level of the artificial neural network, whose data is read out, is used to model the uncertainty for the classification of the pixels. Two constructs are used within this level, namely the tensors mean and variance, whereby no averaging or variance calculation is carried out in the true sense; rather, these are determined, among other things, via convolution layers according to one of the structures of the artificial neural network. This is achieved with the help of the additional level, which generates the mean tensor after a 1x1 convolutional transformation and the variance tensor in parallel via a second 1x1 convolutional transformation. In a further step, the data from the additional level is read out, in which the mean tensor is added to the variance tensor multiplied by a random value. The aim of the training is to use the loss function to train all weights so that these two tensors represent the parameters of a Gaussian distribution. For each inference, the conversion is then carried out several times across the levels of the artificial neural network for each scene image, preferably in the range of 8 to 16 times. Confidence values are then obtained for the number of classes, preferably by applying a logistic function such as the softmax function. After a number of n inference repetitions have been carried out, the n confidence values are averaged for each class. Each pixel of the semantic segmentation is assigned the class with the highest confidence value. To determine the respective probability measure for each pixel, the uncertainty for each pixel and thus the respective probability measure is preferably calculated using a standard entropy formula (this corresponds to equation (9) in the above-mentioned publication regarding the ILVI approach).
Erkannte Klassen von einem Objekt können somit mit Genauigkeitswerten bewertet werden, inwieweit sich das ausführende System sicher ist, dass das jeweilige Objekt auch wirklich der Klasse angehört. Ist die Unsicherheit zu hoch, wird unter Umständen vom automatisierten Fahrzeug keine optimale Entscheidung für die Trajektorienplanung getroffen. Mit zunehmendem Automatisierungsgrad eines Fahrzeugs bis hin zu einem vollautomatischen bzw. autonomen Fahrzeug, welches keinen manuellen Eingriff durch einen Fahrer mehr benötigt, steigt jedoch auch das erforderte Sicherheitsniveau, da eine gänzlich fehlende Erkennung eines Objekts oder ein Fehler in der Zuordnung des Objekts in eine bestimmte von vorgegebenen Klassen, kurz ausgedrückt als Scheitern der Objekterkennung, tendenziell auch gravierendere Auswirkungen auf die Sicherheit des eigenen Fahrzeugs oder andere Verkehrsteilnehmer hat, je größer die Autorität über die Steuerung des Fahrzeugs durch das automatische Fahrsteuersystem ist. Die einfachste und damit typischerweise durchgeführte Reaktion eines automatischen Fahrsteuerungssystems stellt das Einnehmen eines konservativen Fahrzeugzustands, insbesondere das Abbremsen des Fahrzeugs, dar. Dies kann bei hoher Unsicherheit und einer prekären Verkehrssituation bis hin zum Stillstand des Fahrzeugs führen. Die Identifizierung der pixelbezogenen Unsicherheit bei der semantischen Segmentierung stellt somit zwar einen wichtigen Verbesserungsschritt zur Realisierung automatisierter Fahrfunktionen dar, und die Berücksichtigung von Unsicherheitsinformationen bezüglich der Objekterkennung, wie anhand des ILVI-Ansatzes erläutert, kann die Sicherheit der Fahrfunktion verbessern, aber zu einer unakzeptabel hohen Anzahl an Geschwindigkeitsreduzierungen oder gar Notmanövern mit Abbremsen in den Stillstand führen, was zu Unzufriedenheit der Insassen oder anderer Verkehrsteilnehmer führt.Detected classes of an object can thus be evaluated with accuracy values to determine the extent to which the executing system is certain that the respective object really belongs to the class. If the uncertainty is too high, the automated vehicle may not make an optimal decision for trajectory planning. However, as the degree of automation of a vehicle increases, up to a fully automatic or autonomous vehicle that no longer requires manual intervention by a driver, the required level of safety also increases, since a complete lack of detection of an object or an error in assigning the object to a certain of the predefined classes, in short as failure of object detection, tends to have more serious effects on the safety of the vehicle or other road users, the greater the authority over the control of the vehicle by the automatic driving control system. The simplest and therefore typically carried out reaction of an automatic driving control system is to adopt a conservative vehicle state, in particular braking the vehicle. In the case of high uncertainty and a precarious traffic situation, this can even lead to the vehicle coming to a standstill. Thus, although the identification of pixel-related uncertainty in semantic segmentation represents an important improvement step towards the realization of automated driving functions, and the consideration of uncertainty information regarding object detection, as explained using the ILVI approach, can improve the safety of the driving function, it can lead to an unacceptably high number of speed reductions or even emergency maneuvers with braking to a standstill, which leads to dissatisfaction of the occupants or other road users.
Eine weitere Problematik kann sich unabhängig von dieser Unsicherheitsschätzung dadurch ergeben, dass beim Inferenzschritt eines künstlichen neuronalen Netzes aufgrund der Eigenschaften der Ausgangsschicht (z.B. mit Softmax-Funktionen) bei unbekannten realen Objekten, die zu keiner der beim Trainieren des künstlichen neuronalen Netzes vorgegebenen Klassen gehören, doch fälschlicherweise immer eine Klasse zugeordnet wird. Während Verfahren zur Unsicherheitsmodellierung wie oben erläutert in der Lage sind, parallel zur Schätzung einer Klasse eines Pixels auch gleichzeitig die Unsicherheit der Erkennung zu schätzen, liegt aber damit noch keine Information vor, ob es sich dabei um ein bekanntes oder unbekanntes Objekt handelt. Folglich ist typischerweise ein konventionelles, unmodifiziertes künstliches neuronales Netz auch mit Unsicherheitsschätzung (wie nach dem oben erläuterten ILVI Ansatz) nicht in der Lage, unbekannte Objekte (also Objekte, für die beim Training des künstlichen neuronalen Netzes keine spezifische Klasse vorgegeben wurde) als solche zu erkennen.Another problem can arise independently of this uncertainty estimation in that, during the inference step of an artificial neural network, unknown real objects that do not belong to any of the classes specified when training the artificial neural network are always incorrectly assigned a class due to the properties of the output layer (e.g. with softmax functions). While uncertainty modeling methods as explained above are able to estimate the uncertainty of detection in parallel to estimating a class of a pixel, this does not provide any information as to whether the object is known or unknown. Consequently, a conventional, unmodified artificial neural network is typically unable to recognize unknown objects (i.e. objects for which no specific class was specified when training the artificial neural network) as such, even with uncertainty estimation (as in the ILVI approach explained above).
Es ist daher Aufgabe der Erfindung, die Unterstützung eines automatischen Fahrsteuerungssystems durch maschinelle Objekterkennung zu verbessern, insbesondere um ein unnötiges Verlangsamen und andere hinderliche Verkehrsmanöver bei erkannter Unsicherheit in der Objekterkennung zu reduzieren.It is therefore an object of the invention to improve the support of an automatic driving control system by machine object recognition, in particular in order to reduce unnecessary slowing down and other obstructive traffic maneuvers when uncertainty in object recognition is detected.
Die Erfindung ergibt sich aus den Merkmalen der unabhängigen Ansprüche. Vorteilhafte Weiterbildungen und Ausgestaltungen sind Gegenstand der abhängigen Ansprüche.The invention results from the features of the independent claims. Advantageous further development lations and embodiments are the subject of the dependent claims.
Ein erster Aspekt der Erfindung betrifft ein System zur Unterstützung eines automatischen Fahrsteuerungssystems eines automatisierten Fahrzeugs durch maschinelle Objekterkennung von Objekten im Umfeld des Fahrzeugs, wobei das System dazu ausgeführt ist:
- - laufend aktuelle Bilddaten über ein durch eine Fahrzeugsensoreinheit erfasstes Umfeld zu empfangen;
- - ein vortrainiertes, künstliches neuronales Netz mit semantischer Segmentierung und mit pixelweiser Unsicherheitsschätzung unter Nutzung von Eingangsdaten basierend auf den jeweils aktuellen Bilddaten auszuführen, um in einem jeweiligen Inferenzschritt eine Objekterkennung in den Bilddaten auszuführen, wobei das künstliche neuronale Netz je Pixel einen Vektor von Konzentrationsparametern einer Dirichlet-Verteilung ermittelt, und in einer zusätzlichen Schicht aus dem jeweiligen Vektor von Konzentrationsparametern Folgendes ermittelt: Für die semantische Segmentierung eine Zuordnung des jeweiligen Pixels zu einer Klasse von Objekten, einen pixelbezogenen Unsicherheitswert bzgl. der Zuordnung, und eine Einteilung der zugeordneten Klasse in Zugehörigkeit zu bekanntem oder unbekanntem Objekt;
- - in jedem Inferenzschritt einen Unsicherheitsdatensatz mit einer Liste unbekannter Objekte auf Basis der Sammlung von zu Klassen unbekannter Objekte zugeordneten Pixeln abzuspeichern; und
- - das Ergebnis der semantischen Segmentierungen mit den jeweiligen Unsicherheitswerten und die Liste unbekannter Objekte an das automatische Fahrsteuerungssystem des automatisierten Fahrzeugs zu übergeben;
- - to continuously receive current image data about an environment detected by a vehicle sensor unit;
- - to execute a pre-trained, artificial neural network with semantic segmentation and with pixel-by-pixel uncertainty estimation using input data based on the current image data in order to carry out object recognition in the image data in a respective inference step, whereby the artificial neural network determines a vector of concentration parameters of a Dirichlet distribution for each pixel and, in an additional layer, determines the following from the respective vector of concentration parameters: for the semantic segmentation, an assignment of the respective pixel to a class of objects, a pixel-related uncertainty value with regard to the assignment, and a classification of the assigned class into belonging to a known or unknown object;
- - to store in each inference step an uncertainty data set with a list of unknown objects based on the collection of pixels assigned to classes of unknown objects; and
- - to pass the result of the semantic segmentations with the respective uncertainty values and the list of unknown objects to the automatic driving control system of the automated vehicle;
Die Fahrzeugsensoreinheit umfasst insbesondere eine Kamera und liefert während ihres Betriebs laufend aktuelle Daten über das Umfeld des Fahrzeugs. Diese Daten werden an das erfindungsgemäße System weitergeleitet, welches insbesondere ein Rechenmodul zum Ausführen insbesondere des künstlichen neuronalen Netzes aufweist.The vehicle sensor unit comprises in particular a camera and, during its operation, continuously supplies current data on the surroundings of the vehicle. These data are forwarded to the system according to the invention, which in particular has a computing module for executing in particular the artificial neural network.
Die semantische Segmentierung ist eine Zuordnung eines jeweiligen Pixels zu einer jeweiligen Klasse. Dafür wird bereits beim Trainieren des künstlichen neuronalen Netz noch vor dem regulären Betrieb dessen eine Vielzahl von vorgegebenen spezifischen Klassen bekannter Objekte zur Vorgabe verwendet, beispielsweise die Klassen: Verkehrsschild, Baum, Ampel, Fußgänger, Radfahrer, Personenkraftwagen. Das Ergebnis der semantischen Segmentierung im regulären Betrieb des künstlichen neuronalen Netz ist somit die Ausgabe der Klassenzuordnung per Pixel. Außerdem wird ein jeweiliges Unsicherheitsmaß per Pixel ausgegeben. Dieses Unsicherheitsmaß wird aus den Konzentrationsparametern abgeleitet, während die Informationen dieser Unsicherheitsschätzung überhaupt erst mit Hilfe der Zwischenschicht erhalten werden können, welche zu diesem Zweck im künstlichen neuronalen Netz vorgesehen ist.Semantic segmentation is the assignment of a particular pixel to a particular class. To do this, a large number of specific classes of known objects are used as a specification when training the artificial neural network before it is put into regular operation, for example the classes: traffic sign, tree, traffic light, pedestrian, cyclist, passenger car. The result of semantic segmentation in regular operation of the artificial neural network is thus the output of the class assignment per pixel. In addition, a respective uncertainty measure is output per pixel. This uncertainty measure is derived from the concentration parameters, while the information of this uncertainty estimate can only be obtained with the help of the intermediate layer, which is provided for this purpose in the artificial neural network.
Die Inferenz ist eine Anwendung und Ausführung des fertig trainierten künstlichen neuronalen Netzes. Hierbei werden Eingangsdaten dem künstlichen neuronalen Netz zugewiesen, das künstliche neuronale Netz prozessiert diese Eingangsdaten und liefert daraufhin Ausgangsdaten als Ergebnis der Inferenz. Ein Inferenzschritt ist demnach die Durchführung einer Inferenz für gewisse Eingangsdaten unter Anwendung eines gewissen künstlichen neuronalen Netzes.Inference is an application and execution of the fully trained artificial neural network. Input data is assigned to the artificial neural network, the artificial neural network processes this input data and then delivers output data as the result of the inference. An inference step is therefore the execution of an inference for certain input data using a certain artificial neural network.
Erfindungsgemäß wird ein konventionelles künstliches neuronales Netz so erweitert, dass eine zusätzliche Ausgangsschicht eingeführt wird, um auf Basis dieser Vektoren mit Konzentrationsparametern als Komponenten der Vektoren die Zuordnung zu einer Klasse vorzunehmen, die Unsicherheitswerte zu berechnen und für jedes Pixel eine binäre Information über die Zugehörigkeit eines Pixels zur einer bekannten oder einer unbekannten Klasse zuzuordnen. Dazu wird eine jeweilige Dirichlet-Verteilung je Pixel modelliert. Erfindungsgemäß wird daher ein konventionelles künstliches neuronales Netz so erweitert, dass dieses mit Hilfe einer Loss Function so trainiert wird, dass Konzentrationsparameter einer Dirichlet-Verteilung erhalten werden, welche in der späteren Inferenz zur semantischen Segmentierung, Unsicherheitsschätzung und Unterscheidung von bekannten zu unbekannten Objekten verwendet werden können. Das künstliche neuronale Netz wird bevorzugt durch Verwendung der Dirichlet Maximum Likelihood Estimation Loss Function mit dem Ziel trainiert, dass der Dirichlet-Vektor den Konzentrationsparametern der Dirichlet-Verteilung entsprechen.According to the invention, a conventional artificial neural network is extended in such a way that an additional output layer is introduced in order to assign a pixel to a class based on these vectors with concentration parameters as components of the vectors, to calculate the uncertainty values and to assign binary information about whether a pixel belongs to a known or unknown class for each pixel. For this purpose, a respective Dirichlet distribution is modeled for each pixel. According to the invention, a conventional artificial neural network is therefore extended in such a way that it is trained with the aid of a loss function in such a way that concentration parameters of a Dirichlet distribution are obtained, which can be used in the subsequent inference for semantic segmentation, uncertainty estimation and differentiation of known from unknown objects. The artificial neural network is preferably trained using the Dirichlet Maximum Likelihood Estimation Loss Function with the aim of ensuring that the Dirichlet vector corresponds to the concentration parameters of the Dirichlet distribution.
Pro Pixel im Bilddatensatz wird ein Vektor von Konzentrationsparametern durch das künstliche neuronale Netz generiert. Dieser Vektor wiederum wird bestimmt die zugehörige Dirichlet-Verteilung: Dir(θ,αk). Dabei sind αk die Konzentrationsparameter pro Klasse k, θ sind die Ground-Truth-Wahrscheinlichkeitsverteilungen. Die Modellierung der Dirichlet-Verteilung wird erreicht durch Modellierung der Dirichlet-Verteilung durch die der Per-Pixel- Konzentrationsparameter. Folglich stellen die Konzentrationsparameter für jeden Pixel die Dirichlet-Konzentration pro Klasse dar.For each pixel in the image dataset, a vector of concentration parameters is generated by the artificial neural network. This vector in turn determines the corresponding Dirichlet distribution: Dir(θ,α k ). Where α k are the concentration parameters per class k, θ are the ground truth probability distributions. The modeling of the Dirichlet distribution is achieved by modeling the Dirichlet distribution by the per-pixel concentration parameters. Consequently, the concentration parameters for each pixel represent the Dirichlet concentration per class.
In anderen Worten wird der Bilddatensatz damit durch das erfindungsgemäße vortrainierte künstliche neuronale Netz in seinem Betrieb transformiert (in einem jeweiligen sogenannten Inferenzschritt) mit dem Ergebnis einer Pro-Pixel-Dirichlet-Verteilung für die Ausgangswerte des künstlichen neuronalen Netzes. In der semantischen Segmentierung ist die vorhergesagte Klasse bevorzugt diejenige, die den höchsten Konzentrationsparameter aufweist. Nach Normierung der Konzentrationsparameter kann die Entropie berechnet und als Schätzung für die Unsicherheit der Klassenprognose eines Pixels verwendet werden.In other words, the image data set is thus transformed in its operation by the pre-trained artificial neural network according to the invention (in a respective so-called inference step) with the result of a per-pixel Dirichlet distribution for the output values of the artificial neural network. In semantic segmentation, the predicted class is preferably the one that has the highest concentration parameter. After normalizing the concentration parameters, the entropy can be calculated and used as an estimate for the uncertainty of the class prediction of a pixel.
Mit Hilfe der Dirichlet-Verteilungen sind somit Unsicherheiten für die Zuordnung der Klassen zu i) bekannten und ii) unbekannten Objekten möglich. Dies vermeidet vorteilhaft, dass - wie häufig in konventionellen Ansätzen verfolgt - die Klassifizierung der Pixel mittels Zuordnung zu jeweils einer aus einer Vielzahl von Klassen von Objekten dadurch erfolgt, dass für jedes Pixel eine Wahrscheinlichkeit einer korrekten Zuordnung bezüglich jeder der vorgegebenen Klassen von bekannten Objekten ermittelt wird und diejenige Zuordnung mit der höchsten Wahrscheinlichkeit ausgewählt wird und somit immer eine Zuordnung eines Pixels zu einer Klasse eines bekannten Objekts zugeordnet wird, ohne dass eine Klasse für unbekannte Objekte eine mögliche Zuordnung darstellt.With the help of Dirichlet distributions, uncertainties for the assignment of classes to i) known and ii) unknown objects are possible. This advantageously avoids - as is often the case in conventional approaches - the classification of pixels by assigning them to one of a large number of classes of objects by determining for each pixel a probability of a correct assignment with regard to each of the given classes of known objects and selecting the assignment with the highest probability, thus always assigning a pixel to a class of a known object without a class for unknown objects representing a possible assignment.
Es werden demnach Unsicherheitsmaße sowohl für die in Klassen bekannter Objekte zugeordneten Pixel als auch für in eine Klasse unbekannter Objekte zugeordnete Pixel durch das künstliche neuronale Netz erzeugt. Der Unterschied zwischen unbekannten Objekten und bekannten Objekten ist, dass beim Trainieren des künstlichen neuronalen Netzes eine endliche Menge von Klassen bekannter Objekte vorgegeben wurde (Fußgänger, Radfahrer, Katze, etc.), aber auch berücksichtigt wurde, dass unbekannte Objekte auftreten können, die im Training nicht explizit berücksichtigt werden konnten oder sollten. Für unbekannte Objekte wird daher eine generelle eigene Klasse vorgegeben. Dieser eigenen Klasse können dann im regulären Betrieb des Fahrzeugs mit dem künstlichen neuronalen Netz Pixel zugeordnet werden, die weniger in eine der Klassen der bekannten Objekte passen. Im Unsicherheitsdatensatz wird dies berücksichtigt, der Unsicherheitsdatensatz stellt somit eine Objektliste für Objekte unbekannter Klasse dar.The artificial neural network therefore generates uncertainty measures both for the pixels assigned to classes of known objects and for pixels assigned to a class of unknown objects. The difference between unknown objects and known objects is that when training the artificial neural network, a finite set of classes of known objects was specified (pedestrians, cyclists, cats, etc.), but it was also taken into account that unknown objects could occur that could not or should not have been explicitly taken into account in the training. A general separate class is therefore specified for unknown objects. During regular operation of the vehicle, the artificial neural network can then be used to assign pixels to this separate class that are less likely to fit into one of the classes of known objects. This is taken into account in the uncertainty data set, and the uncertainty data set thus represents an object list for objects of unknown class.
Der Gebrauch von Dirichlet Wahrscheinlichkeitsverteilungen mit einem Ansatz zur pixelweisen Unsicherheitsschätzung dient dazu, die Unsicherheitsschätzung auf der einen Seite und die Detektion von Pixeln, die keiner bekannten Klasse zugeordnet werden können, auf der anderen Seite zu verbessern. Dirichlet Wahrscheinlichkeitsverteilungen stellen eine Familie von kontinuierlichen multivariaten Wahrscheinlichkeitsverteilungen dar, die von der Betafunktion durch Verallgemeinerung gebildet werden und anders als die Betafunktion anstatt von zwei jeweils positiven Parametern im Allgemeinen durch einen Vektor von positiven Parametern gekennzeichnet sind, die jedoch ebenfalls als Exponenten der Zufallsvariablen erscheinen. Diese Parameter der Dirichlet Wahrscheinlichkeitsverteilung stellen die Konzentrationsparameter dar und bestimmen die Form der Dirichlet Wahrscheinlichkeitsverteilung.The use of Dirichlet probability distributions with a pixel-wise uncertainty estimation approach serves to improve uncertainty estimation on the one hand and the detection of pixels that cannot be assigned to a known class on the other hand. Dirichlet probability distributions represent a family of continuous multivariate probability distributions that are formed by generalization from the beta function and, unlike the beta function, are generally characterized by a vector of positive parameters instead of two positive parameters, which also appear as exponents of the random variable. These parameters of the Dirichlet probability distribution represent the concentration parameters and determine the shape of the Dirichlet probability distribution.
Zur semantischen Segmentierung wird jedes der Pixel repräsentiert durch eine geschätzte Dirichlet-Verteilung, wobei bevorzugt der höchste Konzentrationsparameter-Wert die vorhergesagte Segmentierung Klasse repräsentiert, während die Entropie der Verteilung der normierten Konzentrationsparameter pro Pixel die Unsicherheit repräsentiert. Insbesondere die Summe aller Konzentrationsparameter einer Dirichlet Wahrscheinlichkeitsverteilung eines jeweiligen Pixels kann zur Unterscheidung zwischen bekannten Objekten und unbekannten Objekten herangezogen werden. Dafür wird brvorzugt ein geeignet zu wählender Schwellwert eingeführt. Wenn die Summe der Konzentrationsparameter unter dem Schwellwert liegt, kann dieser Pixel einem unbekannten Objekt zugeordnet werden. Diese Summe wird auch als „Dirichlet Strength“ bezeichnet und gibt an, wie spitz/schmal oder stumpf /breit die Wahrscheinlichkeitsverteilung ist.For semantic segmentation, each of the pixels is represented by an estimated Dirichlet distribution, whereby the highest concentration parameter value preferably represents the predicted segmentation class, while the entropy of the distribution of the normalized concentration parameters per pixel represents the uncertainty. In particular, the sum of all concentration parameters of a Dirichlet probability distribution of a respective pixel can be used to distinguish between known objects and unknown objects. For this purpose, a suitable threshold value is preferably introduced. If the sum of the concentration parameters is below the threshold value, this pixel can be assigned to an unknown object. This sum is also referred to as "Dirichlet strength" and indicates how sharp/narrow or blunt/wide the probability distribution is.
Bevorzugt werden vom System zwei zusätzliche, separate Ausgaben für die Unsicherheit einer unbekannten Klasse und der Unsicherheit nur für bekannte Klassen geliefert, jeweils pixelbasiert. Jedes Pixel kann nur entweder einen Wert für die Unsicherheit einer unbekannten Klasse oder eine bekannten Klasse aufweisen.Preferably, the system provides two additional, separate outputs for the uncertainty of an unknown class and the uncertainty for known classes only, each pixel-based. Each pixel can only have one value for either the uncertainty of an unknown class or a known class.
Bisher bekannte Ausführungen künstlicher neuronaler Netze sind nicht in der Lage, ohne spezifische Annotation unbekannte Objekte zu identifizieren. Die erfinderische Idee liefert eine Lösung mit der Bereitstellung von Unsicherheitsmaßen getrennt nach bekannten und unbekannten Objekten. Damit können für ein automatisches Fahrsteuerungssystem unbekannte Objekte als solche erkannt und berücksichtigt werden, insbesondere in der Manöverplanung und für eventuelle Bremsmanöver oder für die Einleitung anderer sicherer Zustände des Fahrzeugs, wie Ausweichbewegungen. Für ein automatisches Fahrsteuerungssystem ist es nämlich von hoher Relevanz, dass alle kritischen Objekte erkannt werden. Von besonderer Bedeutung ist dabei, dass unbekannte Objekte identifiziert werden. Im Gegensatz zur bekannten Schwäche von unmodifizierten künstlichen neuronalen Netzen, bei unbekannten Objekten trotzdem eine dann falsche Zuordnung zu einer Klasse eines bekannten Objekts vorzunehmen, führt das erfindungsgemäße System zu einer Kennzeichnung eines Bildausschnitts mit „unbekanntes Objekt“. Methoden zur Unsicherheitsmodellierung werden erfindungsgemäß mit Dirichlet-Wahrscheinlichkeitsverteilungen kombiniert, u.a. erreicht durch eine neue Struktur für die Kostenfunktion beim vorhergehenden Trainieren des künstlichen neuronalen Netzes. Damit wird für jeden Bilddatensatz nicht nur die jeweilige Zuordnungs-Unsicherheit, sondern auch die Wahrscheinlichkeit konkret für eine unbekannte Klasse geliefert.Previously known designs of artificial neural networks are not able to identify unknown objects without specific annotation. The inventive idea provides a solution by providing uncertainty measures separately for known and unknown objects. This allows unknown objects to be recognized and taken into account as such for an automatic driving control system, in particular in maneuver planning and for possible braking maneuvers or for initiating other safe states of the vehicle, such as evasive movements. For an automatic driving control system, it is of great importance that all critical objects are recognized. It is particularly important that unknown objects are identified. In contrast to the known weakness of unmodified artificial neural networks, which nevertheless make an incorrect assignment to a class of a known object for unknown objects, the system according to the invention results in an image section being labeled as an "unknown object". According to the invention, methods for uncertainty modeling are combined with Dirichlet probability distributions, achieved, among other things, by a new structure for the cost function during the previous training of the artificial neural network. This provides not only the respective assignment uncertainty for each image data set, but also the probability specifically for an unknown class.
Die derzeitige Entwicklung von automatischen Fahrsteuerungssystemen und sich entwickelnder Standards lassen erwarten, dass die Identifikation und Berücksichtigung von Unsicherheiten Teil des Entwicklungsprozesses und der Implementierungen sein werden. Bei Identifikation unsicherer Bereiche wird dann das automatische Fahrsteuerungssystem diese beobachten müssen, soweit diese im Fahrkorridor liegen, und dann ggf. mit einem Minimal-Risk-Manöver (MRM) darauf reagieren müssen. Das erfindungsgemäße System liefert somit einen Beitrag zur Realisierung einer automatisierten Fahrfunktion, bei der die Häufigkeit unnötiger Systemeingriffe mit Verlangsamung der Fahrgeschwindigkeit oder gar Ausweichen signifikant reduziert werden können und gleichzeitig die Sicherheit erhöht werden kann. Bei Identifikation unbekannter Objekte, deren Einfluss auf das automatische Fahrsteuerungssystem nicht auflösbar ist, kann dann mit hoher Priorität ein solches MRM ausgelöst werden. Hingegen können Unsicherheiten bekannter Klassen anders gehandhabt werden. Damit ergibt sich neben dem Sicherheitsvorteil mit einer Unterstützung der Sicherheitsargumentation sowie ein Kundenvorteil durch Erhöhung der Akzeptanz mit einer zu erwartenden geringeren Anzahl von solchen MRMs.The current development of automatic driving control systems and evolving standards lead us to expect that the identification and consideration of uncertainties will be part of the development process and implementations. When unsafe areas are identified, the automatic driving control system will then have to observe them, provided they are in the driving corridor, and then react to them with a minimal risk maneuver (MRM) if necessary. The system according to the invention thus makes a contribution to the realization of an automated driving function in which the frequency of unnecessary system interventions by slowing down the driving speed or even evasive maneuvers can be significantly reduced and at the same time safety can be increased. When unknown objects are identified whose influence on the automatic driving control system cannot be resolved, such an MRM can then be triggered with high priority. On the other hand, uncertainties of known classes can be handled differently. In addition to the safety advantage, this also results in support of the safety argument and a customer advantage by increasing acceptance with an expected lower number of such MRMs.
Gemäß einer vorteilhaften Ausführungsform weist das künstliche neuronale Netz eine Zwischenschicht zur variationsgestützten Inferenz zum Zwecke der Ermittlung der pixelweisen Unsicherheitswerte auf.According to an advantageous embodiment, the artificial neural network has an intermediate layer for variation-based inference for the purpose of determining the pixel-wise uncertainty values.
Ein derartiges künstliches neuronales Netz mit einer Zwischenschicht zur variationsgestützten Inferenz ist in der Publikation „
Gemäß einer weiteren vorteilhaften Ausführungsform entspricht jeder einzelne der Konzentrationsparameter eines jeweiligen Vektors einer jeweiligen Klasse, wobei das System dazu ausgeführt ist, in der zusätzlichen Schicht dem jeweiligen Pixel diejenige Klasse mit dem höchsten Konzentrationsparameter je Vektor der Konzentrationsparameter zuzuordnen.According to a further advantageous embodiment, each individual concentration parameter of a respective vector corresponds to a respective class, wherein the system is designed to assign to the respective pixel in the additional layer the class with the highest concentration parameter per vector of concentration parameters.
Gemäß einer weiteren vorteilhaften Ausführungsform ist das System dazu ausgeführt, in der zusätzlichen Schicht eine Summe der Konzentrationsparameter je Vektor mit einem vorgegebenen Schwellwert zu vergleichen, und bei Unterschreiten des Schwellwerts den jeweiligen Unsicherheitswert pixelbezogen als Unsicherheitswert für eine unbekannte Klasse zu ermitteln, und bei Überschreiten des Schwellwerts den jeweiligen Unsicherheitswert pixelbezogen als Unsicherheitswert für eine bekannte Klasse zu ermitteln.According to a further advantageous embodiment, the system is designed to compare a sum of the concentration parameters per vector in the additional layer with a predetermined threshold value and, if this is not achieved, of the threshold value, to determine the respective uncertainty value pixel-related as an uncertainty value for an unknown class, and if the threshold value is exceeded, to determine the respective uncertainty value pixel-related as an uncertainty value for a known class.
Gemäß einer weiteren vorteilhaften Ausführungsform ist das System dazu ausgeführt, in der zusätzlichen Schicht zur Bestimmung der pixelbezogenen Unsicherheit eine Entropie der durch normierte Konzentrationsparameter bestimmten Dirichlet-Verteilung aller Klassen für jedes Pixel zu ermitteln.According to a further advantageous embodiment, the system is designed to determine an entropy of the Dirichlet distribution of all classes determined by normalized concentration parameters for each pixel in the additional layer for determining the pixel-related uncertainty.
Gemäß einer weiteren vorteilhaften Ausführungsform ist das System dazu ausgeführt, vor der Übergabe der Liste unbekannter Objekte an das automatische Fahrsteuerungssystem eine Löschung aller unbekannten Objekte aus der Liste vorzunehmen, deren Pixelanzahl kleiner als ein erster vorgegebener Grenzwert ist und/oder deren mittlerer Unsicherheitswert kleiner als ein zweiter vorgegebener Grenzwert ist.According to a further advantageous embodiment, the system is designed to delete all unknown objects from the list whose number of pixels is less than a first predetermined limit value and/or whose average uncertainty value is less than a second predetermined limit value before the list of unknown objects is transferred to the automatic driving control system.
Gemäß einer weiteren vorteilhaften Ausführungsform ist das System dazu ausgeführt, alle mittleren Unsicherheitswerte kleiner als der zweite vorgegebene Grenzwert durch Null im Unsicherheitsdatensatz zu ersetzen.According to a further advantageous embodiment, the system is designed to replace all mean uncertainty values smaller than the second predetermined limit value by zero in the uncertainty data set.
Gemäß einer weiteren vorteilhaften Ausführungsform ist das System dazu ausgeführt, vor der Übergabe der Liste unbekannter Objekte an das automatische Fahrsteuerungssystem in die Liste unbekannter Objekte die unbekannten Objekte durch das Ermitteln von Agglomerationen in Pixelhaufen mit zur unbekannten Klasse zugeordneten Pixeln zu erzeugen.According to a further advantageous embodiment, the system is designed to generate the unknown objects in the list of unknown objects by determining agglomerations in pixel clusters with pixels assigned to the unknown class before the list of unknown objects is transferred to the automatic driving control system.
Über Parameter kann der Auswahl des Pixelhaufens so angepasst werden, dass auch Unsicherheitspixel ausgewählt werden, bei denen ein Pixel mit Unsicherheitswert Null dazwischen liegt.Using parameters, the selection of the pixel cluster can be adjusted so that uncertainty pixels are also selected, with a pixel with an uncertainty value of zero in between.
Gemäß einer weiteren vorteilhaften Ausführungsform ist das System dazu ausgeführt, die Objekte unbekannter Klasse aus den Agglomerationen in Pixelhaufen zu ermitteln durch wiederholtes Ermitteln eines ersten Unsicherheitspixels und Hinzufügen aller an das erste Unsicherheitspixel anliegenden Pixel.According to a further advantageous embodiment, the system is designed to determine the objects of unknown class from the agglomerations in pixel clusters by repeatedly determining a first uncertainty pixel and adding all pixels adjacent to the first uncertainty pixel.
Gemäß einer weiteren vorteilhaften Ausführungsform ist das System dazu ausgeführt, die ausgewählten Pixel im Unsicherheitsdatensatz durch Null zu ersetzen.According to a further advantageous embodiment, the system is designed to replace the selected pixels in the uncertainty data set with zero.
Ein weiterer Aspekt der Erfindung betrifft ein Verfahren zum Erzeugen eines künstlichen neuronalen Netzes mit einer Zwischenschicht zur Unsicherheitsschätzung, wobei eine Loss-Funktion verwendet wird, die einen jeweiligen Term für i) eine inkorrekte Zuordnung zu einer Klasse je Pixel, ii) eine korrekte Zuordnung zu einer Klasse je Pixel, iii) einen Loss-Term zum Entkoppeln des latenten Raums umfasst, wobei die Loss-Funktion ohne einen Term für eine Kreuz-Entropie ist, wobei für vorgegebene Ausgangsgrößen eine Vielzahl von Objekten aus bekannten Klassen verwendet wird und zumindest eine unspezifische, unbekannte Klasse ohne spezifische Zuordnung zu einem konkreten Objekt aus der Realität verwendet wird.A further aspect of the invention relates to a method for generating an artificial neural network with an intermediate layer for uncertainty estimation, wherein a loss function is used which comprises a respective term for i) an incorrect assignment to a class per pixel, ii) a correct assignment to a class per pixel, iii) a loss term for decoupling the latent space, wherein the loss function is without a term for a cross-entropy, wherein a plurality of objects from known classes are used for predetermined output variables and at least one unspecific, unknown class without a specific assignment to a concrete object from reality is used.
Zum Trainieren eines künstlichen neuronalen Netzes mit Unsicherheitsschätzung wie dem ILVI Ansatz wird bevorzugt ein Maximum-Likelihood-Verfahren angewandt, bei dem die Dirichlet-Strength α0 aus der Summe von αi mit i von 0 bis K (die Anzahl der Klassen) berechnet wird. Siehe hierzu auch „
Beim erfindungsgemäßen Verfahren zum Trainieren werden die zu unbekannten Objekten zugehörigen Pixel nicht annotiert und im Training weder bestraft noch belohnt. Dies wird bevorzugt mit Ignore-Bereichen realisiert, für die die Pixelinformationen ausgeblendet werden, sodass das künstliche neuronale Netz beim Training weder eine Bestrafung noch eine Belohnung für eine Klasse bekommt. Vorgeschlagen im Sinne der Kostenfunktion wird insbesondere eine Loss-Funktionen mit separaten Termen für korrekte Prädiktionen, inkorrekte Prädiktionen und zum Entkoppeln des Latenten Raumes, derart, dass dieser für die Unsicherheitsschätzung besonders geeignet ist.In the method for training according to the invention, the pixels belonging to unknown objects are not annotated and are neither penalized nor rewarded during training. This is preferably achieved with ignore areas for which the pixel information is hidden so that the artificial neural network receives neither a punishment nor a reward for a class during training. In terms of the cost function, a loss function with separate terms for correct predictions, incorrect predictions and for decoupling the latent space such that it is particularly suitable for uncertainty estimation.
Diese Loss-Funktion ist insbesondere derart, dass der Ausgangsvektor des neuronalen Netzes einer Dirichlet-Verteilung entspricht, und umfasst bevorzugt die folgenden drei Terme: Einen Loss-Term für korrekte Prädiktionen. Beispielhafte Implementierung: Dirichlet-Term log Dir(θ,α)correct. Dieser Term trainiert das künstliche neuronale Netz mit der Wahrscheinlichkeitsverteilung der Ground-Truth-Daten, um eine Pro-Pixel-Output-Verteilung mit hoher Konzentration der Konzentrationsparameter für die korrekte Klasse zu erreichen. Ferner, einen Loss-Term für inkorrekte Prädiktion: Beispielhafte Implementierung: Dirichlet-Term log Dir(θ,α)incorret. Dieser Term bestraft das künstliche neuronale Netz bezüglich inkorrekter Prädiktionen mit dem Ziel einer gleichmäßigen Verteilung der Konzentrationsparameter, so dass hohe Unsicherheitswerte für inkorrekt prädizierte Klassen erreicht werden. Sowie einen dritten Term: Loss-Term zum Entkoppeln des latenten Raums: Beispielhafte Implementierung: ILVI-Term, der das Training des künstlichen neuronalen Netzes so beeinflusst, dass die Merkmale im latenten Raum für bekannte und unbekannte Objekte entkoppelt werden und damit die Erkennung von Pixeln, die einer unbekannten Klasse zugehören, verbessern.This loss function is in particular such that the output vector of the neural network corresponds to a Dirichlet distribution, and preferably comprises the following three terms: A loss term for correct predictions. Example implementation: Dirichlet term log Dir(θ,α) correct . This term trains the artificial neural network with the probability distribution of the ground truth data in order to achieve a per-pixel output distribution with a high concentration of the concentration parameters for the correct class. Furthermore, a loss term for incorrect prediction: Example implementation: Dirichlet term log Dir(θ,α) incorrect . This term penalizes the artificial neural network with regard to incorrect predictions with the aim of a uniform distribution of the concentration parameters, so that high uncertainty values are achieved for incorrectly predicted classes. As well as a third term: Loss term for decoupling the latent space: Example implementation: ILVI term that influences the training of the artificial neural network in such a way that the features in the latent space for known and unknown objects are decoupled and thus improve the detection of pixels belonging to an unknown class.
Eine beispielhafte Auslegung der Loss-Funktion ist wie folgt gegeben:
Anders als in der Publikation „Towards Improved Intermediate Layer Variational Inference for Uncertainty Estimation“ der Autoren Ahmed Hammam, Frank Bonarens, Seyed Eghbal Ghobadi, und Christoph Stiller, insbesondere in der Gleichung (3), wird hierbei jedoch nicht den Term für die Kreuz-Entropie H(p,q) mit eingeschlossen. Der Term für die Kreuz-Entropie H(p,q) (Englisch cross-entropy) bildet den cross-entropy-loss des künstlichen neuronalen Netzes zwischen p (die Ausgangsgröße des künstlichen neuronalen Netzes) und q (ground-truth label) nach. Der Term für die Kreuz-Entropie wird demnach erfindungsgemäß bewusst weggelassen, um die Trennung der Verteilungen zwischen inkorrekter und korrekter Prädiktionen zu verbessern.However, unlike in the publication “Towards Improved Intermediate Layer Variational Inference for Uncertainty Estimation” by the authors Ahmed Hammam, Frank Bonarens, Seyed Eghbal Ghobadi, and Christoph Stiller, especially in equation (3), the term for the cross-entropy H(p,q) is not included here. The term for the cross-entropy H(p,q) simulates the cross-entropy loss of the artificial neural network between p (the output variable of the artificial neural network) and q (ground-truth label). The term for the cross-entropy is therefore deliberately omitted according to the invention in order to improve the separation of the distributions between incorrect and correct predictions.
In Abgrenzung zu den bereits bekannten Ansätzen, bei denen zum Training zu Objekten unbekannter Klassen zugehöriger Pixel spezifisch annotiert und damit dem Trainingsprozess als unbekannt zugeführt werden, werden bei dieser Idee die zu unbekannten Objekten zugehörigen Pixel nicht annotiert und im Training weder bestraft noch belohnt. Das erfindungsgemäß resultierende künstliche neuronale Netz lernt jetzt bevorzugt mit der Dirichlet-Verteilung und der ILVI- Komponente, unbekannte Klassen zu identifizieren.In contrast to the already known approaches, in which pixels belonging to objects of unknown classes are specifically annotated for training and thus fed into the training process as unknown, in this idea the pixels belonging to unknown objects are not annotated and are neither penalized nor rewarded during training. The resulting artificial neural network according to the invention now preferentially learns to identify unknown classes using the Dirichlet distribution and the ILVI component.
Ein dem regulären Betrieb vorhergehendes Training des künstlichen neuronalen Netzes und Einbezug des ILVI Ansatzes und von Dirichlet Wahrscheinlichkeitsverteilungen verbessert vorteilhaft die Repräsentation der Unsicherheiten und liefert zusätzliche Informationen zur Abgrenzung von Objekten von bekannten zu unbekannten Klassen, während die Leistungsfähigkeit der semantischen Segmentierung erhalten bleibt.Training the artificial neural network prior to regular operation and incorporating the ILVI approach and Dirichlet probability distributions advantageously improves the representation of uncertainties and provides additional information for distinguishing objects from known to unknown classes, while maintaining the performance of semantic segmentation.
Vorteile und bevorzugte Weiterbildungen des vorgeschlagenen Verfahrens ergeben sich durch eine analoge und sinngemäße Übertragung der im Zusammenhang mit dem vorgeschlagenen System vorstehend gemachten Ausführungen.Advantages and preferred developments of the proposed method result from an analogous and analogous transfer of the statements made above in connection with the proposed system.
Weitere Vorteile, Merkmale und Einzelheiten ergeben sich aus der nachfolgenden Beschreibung, in der - gegebenenfalls unter Bezug auf die Zeichnung - zumindest ein Ausführungsbeispiel im Einzelnen beschrieben ist. Gleiche, ähnliche und/oder funktionsgleiche Teile sind mit gleichen Bezugszeichen versehen.Further advantages, features and details emerge from the following description, in which - if necessary with reference to the drawing - at least one embodiment is described in detail. Identical, similar and/or functionally identical parts are provided with the same reference numerals.
Es zeigen:
-
1 : Ein System zur Unterstützung eines automatischen Fahrsteuerungssystems eines automatisierten Fahrzeugs durch maschinelle Objekterkennung von Objekten im Umfeld des Fahrzeugs gemäß einem Ausführungsbeispiel der Erfindung. -
2 : Eine beispielhafte Dirichlet-Verteilung wie sie in Anwendung des Systems nach1 auftreten kann.
-
1 : A system for supporting an automatic driving control system of an automated vehicle by machine object recognition of objects in the environment of the vehicle according to an embodiment of the invention. -
2 : An example Dirichlet distribution as it is used in the system according to1 can occur.
Die Darstellungen in den Figuren sind schematisch und nicht maßstäblich.The representations in the figures are schematic and not to scale.
In der
- #1 Aufnahme und Aufzeichnung eines Bilddatensatzes. Löschen der bisherigen Liste unbekannter Objekte.
- #2: Ausführen eines Inferenzschritts mit dem vortrainierten, künstlichen neuronale Netz.
- #3: Abspeichern der pixelbezogenen Unsicherheitswerte ausschließlich für unbekannte Objekte als Unsicherheitsdatensatz.
- #4: Ersetzen aller Unsicherheitswerte kleiner eines Grenzwerts Thunc,min durch Null im Unsicherheitsdatensatz.
- #5: Hinzufügen aller Pixelhaufen als separate unbekannte Objekte in die Liste unbekannter Objekte gemäß folgender Vorgehensweise:
- - Ausgehend von einem ersten Unsicherheitspixel Hinzufügung aller nebenliegenden Unsicherheitspixel zu diesem unbekannten Objekt.
- - Fortsetzung mit dem nächsten Unsicherheitspixel.
- - Dabei werden die ausgewählten Pixel im Unsicherheitsdatensatz durch Null ersetzt.
- - Über Parameter kann der Auswahl des Pixelhaufens so angepasst werden, dass auch Unsicherheitspixel ausgewählt werden, bei denen ein Pixel mit Unsicherheitswert Null dazwischen liegt.
- #6: Löschung aller unbekannten Objekte, deren Pixelanzahl kleiner Thpixel beträgt oder deren mittlerer Unsicherheitswert kleiner Thunc ist.
- #7: Weitergabe der Liste unbekannter Objekte an das automatische Fahrsteuerungssystem.
- #8: Sprung zu #1.
- #1 Capture and record an image dataset. Clear the previous list of unknown objects.
- #2: Performing an inference step with the pre-trained artificial neural network.
- #3: Save the pixel-related uncertainty values exclusively for unknown objects as an uncertainty dataset.
- #4: Replace all uncertainty values smaller than a limit Th unc,min by zero in the uncertainty data set.
- #5: Add all pixel clusters as separate unknown objects to the list of unknown objects as follows:
- - Starting from a first uncertainty pixel, add all adjacent uncertainty pixels to this unknown object.
- - Continue with the next uncertainty pixel.
- - The selected pixels in the uncertainty dataset are replaced by zero.
- - Parameters can be used to adjust the selection of the pixel cluster so that uncertainty pixels are also selected where a pixel with an uncertainty value of zero lies between them.
- #6: Delete all unknown objects whose pixel count is less than Th pixel or whose mean uncertainty value is less than Th unc .
- #7: Passing the list of unknown objects to the automatic driving control system.
- #8: Jump to #1.
Obwohl die Erfindung im Detail durch bevorzugte Ausführungsbeispiele näher illustriert und erläutert wurde, so ist die Erfindung nicht durch die offenbarten Beispiele eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen. Es ist daher klar, dass eine Vielzahl von Variationsmöglichkeiten existiert. Es ist ebenfalls klar, dass beispielhaft genannte Ausführungsformen wirklich nur Beispiele darstellen, die nicht in irgendeiner Weise als Begrenzung etwa des Schutzbereichs, der Anwendungsmöglichkeiten oder der Konfiguration der Erfindung aufzufassen sind. Vielmehr versetzen die vorhergehende Beschreibung und die Figurenbeschreibung den Fachmann in die Lage, die beispielhaften Ausführungsformen konkret umzusetzen, wobei der Fachmann in Kenntnis des offenbarten Erfindungsgedankens vielfältige Änderungen, beispielsweise hinsichtlich der Funktion oder der Anordnung einzelner, in einer beispielhaften Ausführungsform genannter Elemente, vornehmen kann, ohne den Schutzbereich zu verlassen, der durch die Ansprüche und deren rechtliche Entsprechungen, wie etwa weitergehende Erläuterungen in der Beschreibung, definiert wird.Although the invention has been illustrated and explained in detail by preferred embodiments, the invention is not limited by the disclosed examples and other variations can be derived therefrom by the person skilled in the art without departing from the scope of the invention. It is therefore clear that a multitude of possible variations exist. It is also clear that embodiments mentioned as examples really only represent examples that are not to be understood in any way as a limitation of the scope of protection, the possible applications or the configuration of the invention. Rather, the preceding description and the description of the figures enable the person skilled in the art to implement the exemplary embodiments in concrete terms, whereby the person skilled in the art, with knowledge of the disclosed inventive concept, can make various changes, for example with regard to the function or the arrangement of individual elements mentioned in an exemplary embodiment, without departing from the scope of protection defined by the claims and their legal equivalents, such as further explanations in the description.
BezugszeichenlisteList of reference symbols
- 11
- Systemsystem
- 33
- FahrzeugsensoreinheitVehicle sensor unit
- A,B,CABC
- beispielhafte Klassen, für die Konzentrationsparameter der Dirichlet-Verteilung ermittelt werden.exemplary classes for which concentration parameters of the Dirichlet distribution are determined.
ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN THE DESCRIPTION
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents listed by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA accepts no liability for any errors or omissions.
Zitierte Nicht-PatentliteraturCited non-patent literature
- Real-time Uncertainty Estimation Based On Intermediate Layer Variational Inference“ der Autoren Ahmed Hammam, Seyed Eghbal Ghobadi, Frank Bonarens und Christoph Stiller, CSCS '21, November 30, 2021, Ingolstadt, Germany, ACM ISBN 978-1-4503-9139-9/21/11 [0004]Real-time Uncertainty Estimation Based On Intermediate Layer Variational Inference“ by the authors Ahmed Hammam, Seyed Eghbal Ghobadi, Frank Bonarens and Christoph Stiller, CSCS '21, November 30, 2021, Ingolstadt, Germany, ACM ISBN 978-1-4503-9139-9/21/11 [0004]
- https://doi.org/10.1145/3488904.3493381 [0004, 0025]https://doi.org/10.1145/3488904.3493381 [0004, 0025]
- Real-time Uncertainty Estimation Based On Intermediate Layer Variational Inference“ der Autoren Ahmed Hammam, Seyed Eghbal Ghobadi, Frank Bonarens und Christoph Stiller, CSCS '21, November 30, 2021, Ingolstadt, Germany, ACM ISBN 978-1-4503-9139-9/21 [0025]Real-time Uncertainty Estimation Based On Intermediate Layer Variational Inference“ by the authors Ahmed Hammam, Seyed Eghbal Ghobadi, Frank Bonarens and Christoph Stiller, CSCS '21, November 30, 2021, Ingolstadt, Germany, ACM ISBN 978-1-4503-9139-9/21 [0025]
- Estimating a Dirichlet distribution“ von Thomas P. Minka vom 27. Februar 2003, https://www.robots.ox.ac.uk/∼vgg/share/words/papers/minka-dirichlet.pdf [0036]Estimating a Dirichlet distribution“ by Thomas P. Minka, 27 February 2003, https://www.robots.ox.ac.uk/∼vgg/share/words/papers/minka-dirichlet.pdf [0036]
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102022213064.2A DE102022213064A1 (en) | 2022-12-05 | 2022-12-05 | Detection of unknown objects using neural networks for vehicles |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102022213064.2A DE102022213064A1 (en) | 2022-12-05 | 2022-12-05 | Detection of unknown objects using neural networks for vehicles |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102022213064A1 true DE102022213064A1 (en) | 2024-06-06 |
Family
ID=91078906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102022213064.2A Pending DE102022213064A1 (en) | 2022-12-05 | 2022-12-05 | Detection of unknown objects using neural networks for vehicles |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102022213064A1 (en) |
-
2022
- 2022-12-05 DE DE102022213064.2A patent/DE102022213064A1/en active Pending
Non-Patent Citations (4)
Title |
---|
Estimating a Dirichlet distribution" von Thomas P. Minka vom 27. Februar 2003, https://www.robots.ox.ac.uk/∼vgg/share/words/papers/minka-dirichlet.pdf |
https://doi.org/10.1145/3488904.3493381 |
Real-time Uncertainty Estimation Based On Intermediate Layer Variational Inference" der Autoren Ahmed Hammam, Seyed Eghbal Ghobadi, Frank Bonarens und Christoph Stiller, CSCS '21, November 30, 2021, Ingolstadt, Germany, ACM ISBN 978-1-4503-9139-9/21 |
Real-time Uncertainty Estimation Based On Intermediate Layer Variational Inference" der Autoren Ahmed Hammam, Seyed Eghbal Ghobadi, Frank Bonarens und Christoph Stiller, CSCS '21, November 30, 2021, Ingolstadt, Germany, ACM ISBN 978-1-4503-9139-9/21/11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102018128289B4 (en) | METHOD AND DEVICE FOR AUTONOMOUS SYSTEM PERFORMANCE AND CLASSIFICATION | |
DE102019209462A1 (en) | Method for determining a confidence value of a detected object | |
EP3393875B1 (en) | Method for the improved detection of objects by a driver assistance system | |
DE112017008149T5 (en) | DEVICE FOR COMMUNICATION FROM A VEHICLE, METHOD FOR COMMUNICATING A VEHICLE OUTSIDE, INFORMATION PROCESSING DEVICE AND PROGRAM FOR COMMUNICATION FROM A VEHICLE | |
EP4212980A1 (en) | Driving assistance device and method for carrying out an at least semiautomatic vehicle function depending on a route to be calculated | |
DE102019208735B4 (en) | Method for operating a driver assistance system for a vehicle and a driver assistance system for a vehicle | |
DE102021207613A1 (en) | Process for quality assurance of a system | |
WO2020051618A1 (en) | Analysis of dynamic spatial scenarios | |
DE102019208733A1 (en) | Method and generator for generating disturbed input data for a neural network | |
EP3748453B1 (en) | Method and device for automatically executing a control function of a vehicle | |
DE102016120066A1 (en) | A computer implemented method for controlling an object recognition system | |
EP3748454B1 (en) | Method and device for automatically executing a control function of a vehicle | |
DE102019209463A1 (en) | Method for determining the trust value of an object of a class | |
DE102022213064A1 (en) | Detection of unknown objects using neural networks for vehicles | |
DE102022201679A1 (en) | Method and device for training a neural network | |
DE102021133977A1 (en) | Method and system for classifying virtual test scenarios and training methods | |
WO2021180470A1 (en) | Quality assurance method for an example-based system | |
DE102020133626A1 (en) | Method for recognizing scenes, assistance devices and motor vehicles which are difficult to classify correctly for a neural network | |
DE102020119954A1 (en) | Method for generating an occupancy grid map for at least one static object, computer program product, computer-readable storage medium and assistance system | |
WO2020233961A1 (en) | Method for assessing a function-specific robustness of a neural network | |
DE102019128223A1 (en) | Methods, devices and computer programs | |
DE102019217300A1 (en) | Method for training an artificial neural network, computer program, storage medium, device, artificial neural network and application of the artificial neural network | |
DE102022213065A1 (en) | Silent testing of vehicle neural networks for identification of unknown objects | |
DE102022204623A1 (en) | Object recognition by neural network with uncertainty measure | |
DE102022204364A1 (en) | Quality determination of object recognition by a neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R084 | Declaration of willingness to licence | ||
R081 | Change of applicant/patentee |
Owner name: STELLANTIS AUTO SAS, FR Free format text: FORMER OWNER: PSA AUTOMOBILES SA, POISSY, FR |